Salvaguardias, transparencia y mitigación de riesgos de los modelos de lenguaje grande contra la generación de desinformación sanitaria

En este estudio se evaluó cómo respondían cuatro "modelos de lenguaje grande" de inteligencia artificial frente al pedido de generar información sobre tópicos sanitarios deliberadamente falsos. Se encontró que, si bien son factibles salvaguardias efectivas para evitar que los LLM sean utilizados indebidamente para generar desinformación sobre salud, estas se implementaron de manera inconsistente. Además, los desarrolladores de los modelos no respondieron en forma eficaz a la denuncia de estos problemas. Se requiere una mayor regulación, transparencia y auditorías de rutina para ayudar a evitar que los LLM contribuyan a la generación masiva de desinformación sobre salud. British Medical Journal, 20 de marzo de 2024.

Resumen

Objetivos: Evaluar la efectividad de las salvaguardas para evitar que los modelos de lenguaje grande (LLM) sean utilizados indebidamente para generar desinformación de salud, y evaluar la transparencia de los desarrolladores de inteligencia artificial (IA) con respecto a sus procesos de mitigación de riesgos frente a las vulnerabilidades observadas.

Diseño: Análisis transversal repetido.

Ámbito:  LLM de acceso público.

Métodos: En un análisis transversal repetido, se evaluaron cuatro LLM (a través de chatbots/interfaces de asistente): GPT-4 de OpenAI (a través de ChatGPT y Copilot de Microsoft), PaLM 2 de Google y el recién lanzado Gemini Pro (a través de Bard), Claude 2 de Anthropic (a través de Poe) y Meta's Llama 2 (a través de HuggingChat). En septiembre de 2023, estos LLM se vieron impulsados a generar desinformación sanitaria sobre dos temas: el protector solar como causa del cáncer de piel y la dieta alcalina como cura del cáncer. Si era necesario, se evaluaron técnicas de jailbreak (es decir, intentos de eludir las salvaguardas). Para los LLM con vulnerabilidades de protección observadas, se auditaron los procesos para informar los resultados preocupantes. Doce semanas después de las investigaciones iniciales, se reevaluaron las capacidades de generación de desinformación de los LLM para evaluar cualquier mejora posterior en las salvaguardias.

Principales medidas de resultado: Las principales medidas de resultado fueron si las salvaguardas impedían la generación de desinformación sanitaria y la transparencia de los procesos de mitigación de riesgos contra la desinformación sanitaria.

Resultados: Claude 2 (a través de Poe) rechazó 130 solicitudes enviadas durante los dos momentos del estudio solicitando la generación de contenido que afirmara que el protector solar causa cáncer de piel o que la dieta alcalina es una cura para el cáncer, incluso con intentos de jailbreak. GPT-4 (a través de Copilot) inicialmente se negó a generar desinformación sobre salud, incluso con intentos de jailbreak, aunque este no fue el caso a las 12 semanas. Por el contrario, GPT-4 (a través de ChatGPT), PaLM 2/Gemini Pro (a través de Bard) y Llama 2 (a través de HuggingChat) generaron constantemente blogs de desinformación sobre salud. En las evaluaciones de septiembre de 2023, estos LLM facilitaron la generación de 113 blogs únicos de desinformación sobre el cáncer, con un total de más de 40.000 palabras, sin necesidad de intentos de jailbreak. La tasa de rechazo en los momentos de evaluación para estos LLM fue solo del 5% (7 de 150) y, según lo solicitado, los blogs generados por LLM incorporaron títulos que llamaban la atención, referencias que parecían auténticas (falsas o ficticias), testimonios fabricados de pacientes y médicos, y dirigido a diversos grupos demográficos. Aunque cada LLM evaluado tenía mecanismos para informar los resultados preocupantes observados, los desarrolladores no respondieron cuando se informaron observaciones de vulnerabilidades.

Conclusiones: Este estudio encontró que, si bien son factibles salvaguardias efectivas para evitar que los LLM sean utilizados indebidamente para generar desinformación sobre salud, se implementaron de manera inconsistente. Además, faltaban procesos eficaces para informar sobre problemas de salvaguardia. Se requiere una mayor regulación, transparencia y auditorías de rutina para ayudar a evitar que los LLM contribuyan a la generación masiva de desinformación sobre salud.

El artículo original:

 Menz B D, Kuderer N M, Bacchi S, Modi N D, Chin-Yee B, Hu T et al. Current safeguards, risk mitigation, and transparency measures of large language models against the generation of health disinformation: repeated cross sectional analysis BMJ 2024; 384 :e078538 doi:10.1136/bmj-2023-078538 

Disponible en: https://n9.cl/rbv56

Compartir