¿Es adecuada la evaluación de las aplicaciones médicas de inteligencia artificial basadas en modelos extensos de lenguaje?
Los resultados de esta revisión sistemática sugieren que las evaluaciones actuales de los "Large Languages Models" (LLM, que se traduce al español como modelos "extensos", "amplios" o "grandes" de lenguaje) en el ámbito de la atención de la salud son fragmentadas e insuficientes. Las evaluaciones deben utilizar datos reales de pacientes, cuantificar los sesgos, cubrir una gama más amplia de tareas y especialidades y reportar métricas de desempeño estandarizadas para permitir una implementación más amplia. JAMA, 15 de octubre de 2024.
Resumen
Importancia: Los modelos de lenguaje amplios (LLM) pueden ayudar en diversas actividades de atención médica, pero los enfoques de evaluación actuales pueden no identificar adecuadamente las áreas de aplicación más útiles.
Objetivo: Resumir las evaluaciones existentes de los LLM en atención médica en términos de 5 componentes: (1) tipo de datos de evaluación, (2) tarea de atención médica, (3) tareas de procesamiento del lenguaje natural (PLN) y comprensión del lenguaje natural (NLU), (4) dimensión de la evaluación y (5) especialidad médica.
Fuentes de datos: Se realizó una búsqueda sistemática en PubMed y Web of Science de estudios publicados entre el 1 de enero de 2022 y el 19 de febrero de 2024.
Selección de estudios: Estudios que evalúan uno o más LLM en atención médica.
Extracción y síntesis de datos: Tres revisores independientes categorizaron los estudios a través de búsquedas de palabras clave en función de los datos utilizados, las tareas de atención médica, las tareas de PLN y NLU, las dimensiones de la evaluación y la especialidad médica.
Resultados: De 519 estudios revisados, publicados entre el 1 de enero de 2022 y el 19 de febrero de 2024, solo el 5% utilizó datos reales de atención al paciente para la evaluación de LLM. Las tareas de atención médica más comunes fueron la evaluación de los conocimientos médicos, como responder preguntas del examen de licencia médica (44,5%) y realizar diagnósticos (19,5%). Las tareas administrativas, como la asignación de códigos de facturación (0,2%) y la redacción de recetas (0,2%), fueron menos estudiadas. Para las tareas de NLP y NLU, la mayoría de los estudios se centraron en la respuesta a preguntas (84,2%), mientras que tareas como el resumen (8,9%) y el diálogo conversacional (3,3%) fueron poco frecuentes. Casi todos los estudios (95,4%) utilizaron la precisión como dimensión principal de la evaluación; la imparcialidad, el sesgo y la toxicidad (15,8%), las consideraciones de implementación (4,6%) y la calibración e incertidumbre (1,2%) se midieron con poca frecuencia. Por último, en términos de área de especialidad médica, la mayoría de los estudios se centraron en aplicaciones de atención médica genérica (25,6%), medicina interna (16,4%), cirugía (11,4%) y oftalmología (6,9%), siendo la medicina nuclear (0,6%), la medicina física (0,4%) y la genética médica (0,2%) las menos representadas.
Conclusiones y relevancia: Las evaluaciones existentes de los LLM se centran principalmente en la precisión de las respuestas a las preguntas de los exámenes médicos, sin tener en cuenta los datos reales de atención al paciente. Dimensiones como la imparcialidad, el sesgo y la toxicidad y las consideraciones de implementación recibieron una atención limitada. Las evaluaciones futuras deberían adoptar aplicaciones y métricas estandarizadas, utilizar datos clínicos y ampliar el enfoque para incluir una gama más amplia de tareas y especialidades.
El artículo original:
Bedi S, Liu Y, Orr-Ewing L, et al. Testing and Evaluation of Health Care Applications of Large Language Models: A Systematic Review. JAMA. Published online October 15, 2024. doi:10.1001/jama.2024.21700
Disponible en: https://n9.cl/q52wf