Revista JCR

Procesamiento de Lenguaje Natural

IF: 6.3

Named Entity Recognition for de-identifying Spanish electronic health records

Francisco J. Moreno-Barea, Guillermo López-García, Héctor Mesa, Nuria Ribelles, Emilio Alba, José M. Jerez, Francisco J. Veredas

Computers in Biology and Medicine•2025•Vol. 185: 109576

Citas

1856

Visualizaciones

892

Descargas

Altmetric Score

1/2/2025

Publicado

Autores

Fco. Javier Moreno-Barea
CorrespondenciaCorresp

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

José Jerez Aragonés

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

Francisco Javier Veredas Navarro

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

Héctor Mesa Jiménez

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

Guillermo López-García

Department of Computational Biomedicine, Cedars-Sinai Medical Center, West Hollywood, CA, USA

Nuria Ribelles

Unidad de Gestión Clínica Intercentros de Oncología, Hospitales Universitarios Regional y Virgen de la Victoria, Málaga, Spain

Emilio Alba

Unidad de Gestión Clínica Intercentros de Oncología, Hospitales Universitarios Regional y Virgen de la Victoria, Málaga, Spain

Resumen

Background and objectives: There is an increasing and renewed interest in Electronic Health Records (EHRs) as a substantial information source for clinical decision making. Consequently, automatic de-identification of EHRs is an indispensable task, since their dissociation from personal data is a necessary prerequisite for their dissemination. Nevertheless, the bulk of prior research in this domain has been conducted using English EHRs, given the limited availability of annotated corpora in other languages, including Spanish. Methods: In this study, the automatic de-identification of medical documents in Spanish was explored. A private corpus comprising 599 genuine clinical cases was annotated with eight different categories of protected health information. The prediction problem was approached as a named entity recognition task and two deep learning-based methodologies were developed. The first strategy was based on recurrent neural networks (RNN) and the second, an end-to-end approach, was based on Transformers. In addition, we have implemented a procedure to expand the amount of texts employed for model training. Results: Our findings demonstrate that Transformers surpass RNNs in the de-identification of clinical data in Spanish. Particularly noteworthy is the excellent performance of the XLM-RoBERTa large Transformer, achieving a rigorous strict-match micro-average of 0.946 for precision, 0.954 for recall, and an F1 score of 0.95 when applied to the amplified version of the corpus. Furthermore, a web-based application has been created to assist specialized clinicians in de-identifying EHRs through the aid of the implemented models. Conclusion: The study's conclusions showcase the practical applicability of the state-of-the-art Transformers models for precise de-identification of clinical notes in real-world medical settings in Spanish, with the potential to improve performance if continual pre-training strategies are implemented.

Palabras Clave

Named entity recognition

Natural language processing

De-identification

Electronic health records

Spanish

Acceso a la Publicación

Ver en Revista

Información de Publicación

Volumen

185

Páginas

109576

Publicado

1/2/2025

Recibido

3/1/2024

Aceptado

11/12/2024

Métricas de Impacto

Citas2

Factor de Impacto6.3

Cuartil

Visualizaciones1856

Descargas892

Altmetric67

Named Entity Recognition for de-identifying Spanish electronic health records

Fco. Javier Moreno-BareaCorrespondenciaCorresp

José Jerez Aragonés

Francisco Javier Veredas Navarro

Héctor Mesa Jiménez

Guillermo López-García

Nuria Ribelles

Emilio Alba

Fco. Javier Moreno-Barea
CorrespondenciaCorresp