Inteligencia artificial: influencia de los grandes modelos lingüísticos en el razonamiento diagnóstico
En este ensayo, la disponibilidad de un modelo de lenguaje amplio (LLM) para los médicos como ayuda diagnóstica no mejoró significativamente el razonamiento clínico en comparación con los recursos convencionales. Lo más llamativo es que el LLM por sí solo demostró un rendimiento superior tanto al del médico usando recursos convencionales como al del médico que tuvo acceso al LLM. Esto indica la necesidad de nuevos desarrollos para aprovechar el potencial de la colaboración entre médicos e inteligencia artificial en la práctica clínica. JAMA Network Open, 28 de octubre de 2024.
Resumen
Importancia: Los modelos de lenguaje amplio (LLM) han demostrado un rendimiento prometedor en los exámenes de razonamiento médico tanto de opción múltiple como de respuesta abierta, pero aún se desconoce si el uso de dichas herramientas mejora el razonamiento diagnóstico de los médicos.
Objetivo: Evaluar el efecto de un LLM en el razonamiento diagnóstico de los médicos en comparación con los recursos convencionales.
Diseño, entorno y participantes: Se realizó un ensayo clínico aleatorizado simple ciego del 29 de noviembre al 29 de diciembre de 2023. Mediante videoconferencias remotas y participación en persona en múltiples instituciones médicas académicas, se reclutaron médicos con formación en medicina familiar, medicina interna o medicina de urgencias.
Intervención: Los participantes fueron asignados al azar para acceder al LLM además de los recursos de diagnóstico convencionales o solo a los recursos convencionales, estratificados por etapa de la carrera. Se asignaron 60 minutos a los participantes para revisar hasta 6 viñetas clínicas.
Principales resultados y medidas: El resultado primario fue el desempeño en una rúbrica estandarizada de desempeño diagnóstico basada en la precisión del diagnóstico diferencial, la idoneidad de los factores de apoyo y oposición, y los próximos pasos de evaluación diagnóstica, validados y calificados mediante consenso ciego de expertos. Los resultados secundarios incluyeron el tiempo empleado por caso (en segundos) y la precisión del diagnóstico final. Todos los análisis siguieron el principio de intención de tratar. Un análisis exploratorio secundario evaluó el desempeño independiente del LLM al comparar los resultados primarios entre el grupo de LLM solo y el grupo de recursos convencionales.
Resultados: Cincuenta médicos (26 médicos adjuntos, 24 residentes; mediana de años en la práctica, 3 [RIC, 2-8]) participaron virtualmente y en 1 sitio presencial. La mediana de la puntuación de razonamiento diagnóstico por caso fue del 76 % (RIC, 66 %-87 %) para el grupo de LLM y del 74 % (RIC, 63 %-84 %) para el grupo de recursos convencionales únicamente, con una diferencia ajustada de 2 puntos porcentuales (IC del 95 %, −4 a 8 puntos porcentuales; P = 0,60). La mediana de tiempo empleado por caso para el grupo de LLM fue de 519 (RIC, 371-668) segundos, en comparación con 565 (RIC, 456-788) segundos para el grupo de recursos convencionales, con una diferencia de tiempo de −82 (IC del 95 %, −195 a 31; P = 0,20) segundos. El LLM solo obtuvo una puntuación 16 puntos porcentuales (IC del 95 %, 2-30 puntos porcentuales; P = 0,03) más alta que el grupo de recursos convencionales.
Conclusiones y relevancia: En este ensayo, la disponibilidad de un LLM para los médicos como ayuda diagnóstica no mejoró significativamente el razonamiento clínico en comparación con los recursos convencionales. El LLM por sí solo demostró un rendimiento superior al de ambos grupos de médicos, lo que indica la necesidad de desarrollo de la tecnología y de la fuerza laboral para aprovechar el potencial de la colaboración entre médicos e inteligencia artificial en la práctica clínica.
Registro del ensayo en ClinicalTrials.gov: NCT06157944
El artículo original:
Goh E, Gallo R, Hom J, et al. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Netw Open. 2024;7(10):e2440969. doi:10.1001/jamanetworkopen.2024.40969
Disponible en: https://n9.cl/d0i26