Extracción de datos asistida por inteligencia artificial con un modelo de lenguaje amplio

En este estudio se comparó el proceso de extracción de datos asistido por IA en seis revisiones sistemáticas en curso con el proceso tradicional realizado exclusivamente por humanos. Los resultados fueron similares, aunque la IA redujo el tiempo de extracción de datos. Se concluyó que la IA puede ofrecer una alternativa viable y más eficiente que los métodos exclusivamente humanos. Annals of Internal Medicine, noviembre de 2025.

Resumen

Antecedentes: La extracción de datos es una tarea crítica, pero propensa a errores y laboriosa, en la síntesis de evidencia. A diferencia de otras tecnologías de inteligencia artificial (IA), los modelos de lenguaje grandes (MLG) no requieren datos de entrenamiento etiquetados para la extracción de datos.

Objetivo: Comparar un proceso de extracción de datos asistido por IA con un proceso tradicional realizado exclusivamente por humanos.

Diseño: Estudio dentro de revisiones (SWAR) mediante una comparación prospectiva de grupos paralelos con evaluadores de datos enmascarados.

Ámbito: Validación del flujo de trabajo en 6 revisiones sistemáticas en curso de intervenciones en condiciones reales.

Intervención: Extracción inicial de datos mediante un MLG (Claude, versiones 2.1, 3.0 Opus y 3.5 Sonnet) verificada por un revisor humano.

Mediciones: Concordancia, tiempo de ejecución, precisión, sensibilidad, valor predictivo positivo y análisis de errores.

Resultados: Las 6 revisiones sistemáticas del SWAR generaron 9341 elementos de datos de 63 estudios. La concordancia entre los dos métodos fue del 77,2 % (IC del 95 %, 76,3 % a 78,0 %). En comparación con el estándar de referencia, el método asistido por IA presentó una precisión del 91,0 % (IC, 90,4 % a 91,6 %) y el método exclusivamente humano, una precisión del 89,0 % (IC, 88,3 % a 89,6 %). Las sensibilidades fueron del 89,4 % (IC, 88,6 % a 90,1 %) y del 86,5 % (IC, 85,7 % a 87,3 %), respectivamente, con valores predictivos positivos del 99,2 % (IC, 99,0 % a 99,4 %) y del 98,9 % (IC, 98,6 % a 99,1 %). Se extrajeron datos incorrectos en el 9,0 % (IC, 8,4 % a 9,6 %) de los casos con asistencia de IA y en el 11,0 % (IC, 10,4 % a 11,7 %) de los casos con intervención humana, con proporciones correspondientes de errores graves del 2,5 % (IC, 2,2 % a 2,8 %) frente al 2,7 % (IC, 2,4 % a 3,1 %). La omisión de datos fue el tipo de error más frecuente en ambos métodos. El método con asistencia de IA redujo el tiempo de extracción de datos en una mediana de 41 minutos por estudio.

Limitaciones: La evaluación de la concordancia y la clasificación de errores requirieron criterio subjetivo. El seguimiento constante del tiempo dedicado a la tarea resultó complejo.

Conclusión: La extracción de datos con asistencia de IA puede ofrecer una alternativa viable y más eficiente que los métodos exclusivamente humanos.

Fuente de financiación principal: Agencia para la Investigación y la Calidad de la Atención Médica y RTI International.

El artículo original:

Gerald Gartlehner, Shannon Kugley, Karen Crotty, et al. Artificial Intelligence–Assisted Data Extraction With a Large Language Model: A Study Within Reviews. Ann Intern Med. [Epub 4 November 2025]. doi:10.7326/ANNALS-25-00739

Disponible en: https://n9.cl/55t6u

Compartir