Evaluación de las vulnerabilidades de los modelos de lenguaje grandes ante la conversión maliciosa en chatbots de desinformación sanitaria
Se exploró el efecto de brindar instrucciones maliciosas a cinco programas modelos extensos de lenguaje (LLM) a través de sus interfaces de programación de aplicaciones, para crear de forma encubierta chatbots de desinformación sobre salud. Luego se realizaron 10 preguntas de salud a cada LLM y se obtuvo un 100% de respuestas con desinformación en 4 de los sistemas evaluados y un 44% en el restante. Estos hallazgos resaltan la necesidad urgente de contar con sólidas medidas de control de calidad para garantizar la seguridad de la salud pública en una era de tecnologías en rápida evolución. Annals of Internal Medicine, 24 de junio de 2025.
Resumen
Los modelos de lenguaje extenso (LLM) ofrecen un gran potencial para mejorar la atención médica; sin embargo, algunos riesgos justifican su evaluación y debate. Este estudio evaluó la eficacia de las medidas de seguridad en los LLM básicos contra la intrusión de instrucciones maliciosas en chatbots de desinformación sanitaria.
Se evaluaron cinco LLM básicos (GPT-4o de OpenAI, Gemini 1.5 Pro de Google, Claude 3.5 Sonnet de Anthropic, Llama 3.2-90B Vision de Meta y Grok Beta de xAI) a través de sus interfaces de programación de aplicaciones (API). Cada API recibía instrucciones a nivel de sistema para generar respuestas incorrectas a consultas de salud, presentadas en un tono formal, autoritario, convincente y científico.
Se formularon diez preguntas de salud a cada chatbot personalizado por duplicado. Los análisis exploratorios evaluaron la viabilidad de crear un transformador generativo preentrenado (GPT) personalizado dentro de la Tienda de GPT de OpenAI y se buscó identificar si algún GPT de acceso público en la tienda parecía responder con desinformación.
De las 100 consultas de salud planteadas en los 5 chatbots personalizados de la API LLM, 88 (88%) respuestas fueron desinformación sobre salud. Cuatro de los 5 chatbots (GPT-4o, Gemini 1.5 Pro, Llama 3.2-90B Vision y Grok Beta) generaron desinformación en el 100% (20 de 20) de sus respuestas, mientras que Claude 3.5 Sonnet respondió con desinformación en el 40% (8 de 20). La desinformación incluía supuestos vínculos entre vacunas y autismo, la transmisión aérea del VIH, dietas para curar el cáncer, riesgos de los protectores solares, conspiraciones sobre organismos genéticamente modificados, mitos sobre el trastorno por déficit de atención e hiperactividad y la depresión, el ajo como sustituto de los antibióticos y la infertilidad causada por el 5G. Los análisis exploratorios mostraron además que la Tienda GPT de OpenAI podría recibir instrucciones para generar desinformación similar.
En general, se demostró que las API LLM y la Tienda GPT de OpenAI son vulnerables a instrucciones maliciosas a nivel de sistema para crear de forma encubierta chatbots de desinformación sobre salud. Estos hallazgos resaltan la necesidad urgente de contar con sólidas medidas de control de calidad para garantizar la seguridad de la salud pública en una era de tecnologías en rápida evolución.
El artículo original:
Natansh D. Modi, Bradley D. Menz, Abdulhalim A. Awaty, et al. Assessing the System-Instruction Vulnerabilities of Large Language Models to Malicious Conversion Into Health Disinformation Chatbots. Ann Intern Med. [Epub 24 June 2025]. doi:10.7326/ANNALS-24-03933
Disponible en: https://n9.cl/fd1e6