Rendimiento y usabilidad del aprendizaje automático para el cribado en revisiones sistemáticas: una evaluación comparativa de tres herramientas

AHRQ , 15 de noviembre de 2019 La carga de trabajo y el ahorro de tiempo que ofrece la simulación automatizada conlleva un mayor riesgo de excluir erróneamente los registros relevantes. Complementar las decisiones de un solo revisor con predicciones de relevancia (simulación semiautomatizada) mejoró la proporción perdida en algunos casos, pero el rendimiento varió según la herramienta y el RS. El diseño de herramientas basadas en las preferencias autoidentificadas de los revisores puede mejorar su compatibilidad con los flujos de trabajo actuales.

Propósito del proyecto

Para la selección de títulos y resúmenes, exploramos la confiabilidad de tres herramientas de aprendizaje automático cuando se usan para eliminar automáticamente registros irrelevantes o complementar el trabajo de un solo revisor. Evaluamos la usabilidad de cada herramienta.

Mensajes clave

La fiabilidad de las herramientas para eliminar automáticamente los registros irrelevantes fue muy variable; se perdió una mediana (rango) del 70% (0-100%) de los registros relevantes en comparación con la detección independiente doble.

Abstrackr y RobotAnalyst mejoraron en la evaluación de un solo revisor al identificar los estudios que el único revisor se perdió, pero el rendimiento no fue confiable. DistillerSR no proporcionó ninguna ventaja sobre la evaluación de un solo revisor.

La usabilidad de las herramientas se basaba en múltiples propiedades: facilidad de uso; cualidades de la interfaz de usuario; caracteristicas y funciones; integridad; facilidad y rapidez para obtener las predicciones; y practicidad de los archivos de exportación.

Los estándares para realizar y reportar evaluaciones de herramientas de aprendizaje automático para la detección facilitarán su replicación.

Resumen estructurado

Antecedentes . Las herramientas de aprendizaje automático pueden acelerar la finalización de la revisión sistemática (RS) al reducir las cargas de trabajo de detección manual, aunque su adopción ha sido lenta. La evidencia de su confiabilidad y usabilidad puede mejorar su aceptación dentro de la comunidad RS. Exploramos el rendimiento de tres herramientas cuando se utilizan para: (a) eliminar registros irrelevantes (simulación automatizada) y (b) complementar el trabajo de un único revisor (simulación semiautomatizada). Evaluamos la usabilidad de cada herramienta.

Métodos Sometimos tres RS a dos simulaciones de cribado retrospectivo. En cada herramienta (Abstrackr, DistillerSR y RobotAnalyst), seleccionamos un conjunto de entrenamiento de 200 registros y descargamos la relevancia prevista de los registros restantes. Calculamos la proporción perdida y la carga de trabajo y el ahorro de tiempo en comparación con la detección independiente doble. Para evaluar la usabilidad, ocho investigadores realizaron un ejercicio de detección en cada herramienta y completaron una encuesta, incluida la Escala de usabilidad del sistema (SUS).

Resultados Usando Abstrackr, DistillerRS y RobotAnalyst respectivamente, la proporción media (rango) perdida fue 5 (0 a 28) por ciento, 97 (96 a 100) por ciento y 70 (23 a 100) por ciento en la simulación automatizada y 1 (0 a 2) por ciento, 2 (0 a 7) por ciento y 2 (0 a 4) por ciento en la simulación semiautomática. El ahorro medio de carga de trabajo (rango) fue del 90 (82 a 93) por ciento, 99 (98 a 99) por ciento, y 85 (85 a 88) por ciento para la simulación automatizada y 40 (32 a 43) por ciento, 49 (48 a 49) por ciento) y 35 (34 a 38 por ciento) para la simulación semiautomática. El ahorro de tiempo medio (rango) fue 154 (91 a 183), 185 (95 a 201) y 157 (86 a 172) horas para la simulación automatizada y 61 (42 a 82), 92 (46 a 100), y 64 (37 a 71) horas para la simulación semiautomática. Abstrackr identificó 33-90% de registros excluidos erróneamente por un solo revisor, mientras que RobotAnalyst se desempeñó menos bien y DistillerRS no proporcionó ninguna ventaja relativa. Según los puntajes reportados del SUS, Abstrackr cayó en el rango utilizable, DistillerSR el marginal y RobotAnalyst en el rango de usabilidad inaceptable. La usabilidad dependía de seis propiedades interdependientes: facilidad de uso, cualidades de la interfaz de usuario, características y funciones, confiabilidad, facilidad y rapidez para obtener predicciones y practicidad de los archivos de exportación.

Conclusiones La carga de trabajo y el ahorro de tiempo que ofrece la simulación automatizada conlleva un mayor riesgo de excluir erróneamente los registros relevantes. Complementar las decisiones de un solo revisor con predicciones de relevancia (simulación semiautomatizada) mejoró la proporción perdida en algunos casos, pero el rendimiento varió según la herramienta y el RS. El diseño de herramientas basadas en las preferencias autoidentificadas de los revisores puede mejorar su compatibilidad con los flujos de trabajo actuales.

el trabajo

Gates A, Guitard S, Pillay J, Elliott SA, Dyson MP, Newton AS, Hartling L. Performance and Usability of Machine Learning for Screening in Systematic Reviews: A Comparative Evaluation of Three Tools. (Prepared by the University of Alberta Evidence-based Practice Center under Contract No. 290-2015-00001-I) AHRQ Publication No. 19(20)-EHC027-EF Rockville, MD: Agency for Healthcare Research and Quality; November 2019. 

en http://bit.ly/37KRRYu

Compartir