Los resultados de esta revisión sistemática sugieren que las evaluaciones actuales de los "Large Languages Models" (LLM, que se traduce al español como modelos "extensos", "amplios" o "grandes" de lenguaje) en el ámbito de la atención de la salud son fragmentadas e insuficientes. Las evaluaciones deben utilizar datos reales de pacientes, cuantificar los sesgos, cubrir una gama más amplia de tareas y especialidades y reportar métricas de desempeño estandarizadas para permitir una implementación más amplia. JAMA, 15 de octubre de 2024.