Detección de posibles "fábricas de trabajos" en las investigaciones publicadas sobre cáncer

Las publicaciones de "fábricas de trabajos" son un problema importante y creciente en la literatura sobre cáncer y no se limitan a las revistas de bajo impacto. La concienciación y la acción colectivas serán cruciales para abordar este problema. BMJ, enero de 2026.

Resumen

Objetivos: Entrenar y validar un modelo de aprendizaje automático para distinguir las publicaciones de las "fábricas de trabajos" (paper mills en inglés) de los artículos genuinos de investigación sobre el cáncer, y analizar la literatura sobre investigación oncológica para evaluar la prevalencia de artículos con similitudes textuales con los artículos de las editoriales.

Diseño: Estudio metodológico y transversal que aplica un modelo de clasificación de texto basado en BERT (representaciones de codificador bidireccional a partir de transformadores) a los títulos y resúmenes de los artículos.

Entorno: Se utilizaron las publicaciones de las editoriales retractadas, incluidas en la base de datos Retraction Watch, para el entrenamiento del modelo. El modelo cribó el corpus de investigación sobre el cáncer utilizando la base de datos PubMed, restringida a artículos originales de investigación sobre el cáncer publicados entre 1999 y 2024.

Población: El modelo se entrenó con 2202 artículos de las editoriales retractadas y se validó con datos independientes recopilados por expertos en integridad de imagen. Se analizaron 2,6 millones de artículos de investigación sobre el cáncer.

Principales medidas de resultado: Rendimiento de la clasificación del modelo. Prevalencia de artículos marcados como similares a publicaciones de editoriales retractadas, con intervalos de confianza del 95%, y su distribución a lo largo del tiempo, por país, editorial, tipo de cáncer, área de investigación y dentro de revistas de alto impacto (10% superior).

Resultados: El modelo alcanzó una precisión de 0,91. Al aplicarlo a la literatura sobre investigación oncológica, marcó 261 245 de 2 647 471 artículos (9,87%; intervalo de confianza del 95%: 9,83-9,90) y reveló un gran aumento en los artículos marcados entre 1999 y 2024, tanto en todo el corpus como en el 10% superior de revistas por factor de impacto. Se marcaron más de 170 000 artículos afiliados a instituciones chinas, lo que representa el 36% de los artículos de investigación oncológica chinos. La mayoría de las editoriales habían publicado un número considerable de artículos marcados. Los artículos marcados estuvieron sobrerrepresentados en la investigación fundamental y en cáncer gástrico, óseo y hepático.

Conclusiones: Las publicaciones de "fábricas de trabajos" son un problema importante y creciente en la literatura sobre cáncer y no se limitan a las revistas de bajo impacto. La concienciación y la acción colectivas serán cruciales para abordar el problema de las publicaciones de fábricas de papel.

El artículo original:

Scancar B, Byrne J A, Causeur D, Barnett A G. Machine learning based screening of potential paper mill publications in cancer research: methodological and cross sectional study BMJ 2026; 392 :e087581 doi:10.1136/bmj-2025-087581 

Disponible en: https://n9.cl/hvbpt6 

Compartir