Clasificación de historias clínicas reales según CIE-10-ES para localización de neoplasias mediante modelos transformers

Alejandro Pascual-Mellado, Nuria Ribelles, José M. Jerez, Francisco J. Moreno-Barea

III Taller de Grupos de investigación españoles de IA en Biomedicina IABiomed (CAEPIA)•2024•Vol. : 680-685

Citas

Visualizaciones

N/A

Descargas

N/A

Altmetric Score

21/6/2024

Publicado

Autores

Fco. Javier Moreno-Barea
CorrespondenciaCorresp

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

José Jerez Aragonés

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

Fernando Gallego Donoso

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

Alejandro Pascual-Mellado

Departamento de Lenguajes y Ciencias de la Computación, Escuela Técnica Superior de Ingeniería Informática, Universidad de Málaga, Málaga, Spain

Nuria Ribelles

Hospital Universitario Virgen de la Victoria, Málaga, Spain

Resumen

Most of the clinical information stored in Spanish healthcare systems is found as unstructured text in electronic medical records. The automatic extraction of valuable information contained in these documents is a critical task. Valuable information for clinical analysis units in oncology includes the location of a patient's neoplasm. This location, included in the ICD-10-ES coding category, can be extracted from the texts using natural language processing. To this end, in this study we have developed methodologies based on the state of the art in natural language processing, the Transformer models. The results obtained show that the application of these models is of great help in this task. In particular, the RoBERTa-Base-Biomed model performed best, with a value of 0.946 in percentage of correct answers, 0.920 in precision, 0.898 in sensitivity and 0.908 in F1-score, showing great performance for most classes.

Palabras Clave

Natural Language Processing

Transformers

Electronic Health Records

CIE-10-ES

Spanish

Acceso a la Publicación

Ver en Revista

Información de Publicación

Páginas

680-685

Publicado

21/6/2024

Métricas de Impacto

Citas1

Factor de Impacto0

Cuartil

TBD

Visualizaciones21

Clasificación de historias clínicas reales según CIE-10-ES para localización de neoplasias mediante modelos transformers

Fco. Javier Moreno-BareaCorrespondenciaCorresp

José Jerez Aragonés

Fernando Gallego Donoso

Alejandro Pascual-Mellado

Nuria Ribelles

Fco. Javier Moreno-Barea
CorrespondenciaCorresp