Sobre la propuesta de bajar los umbrales de P a 0.005

Una profunda reflexión sobre las ventajas, los riesgos y las alternativas disponibles para mejorar el uso de las pruebas de significación estadística. JAMA, 22 de marzo de 2018

Una profunda reflexión sobre las ventajas, los riesgos y las alternativas disponibles para mejorar el uso de las pruebas de significación estadística.

JAMA, 22 de marzo de 2018

 

Los valores P y los demás métodos usados en las pruebas de significación estadística están creando desafíos a la ciencia biomédica y a otras disciplinas. La gran mayoría (96%) de los artículos que informan valores de P en el resumen, texto completo o ambos incluyen algunos valores de .05 o menos. Sin embargo, muchas de las afirmaciones que destacan estos informes son probablemente falsas. Reconociendo la gran importancia del enigma de la significación estadística, la American Statistical Association (ASA) publicó en 2016 una declaración sobre los valores de P. Hay un amplio reconocimiento de que el statu quo es problemático, pero hay mucha polémica sobre cómo solucionar el problema. Los contribuyentes a la declaración de la ASA también escribieron 20 comentarios independientes y complementarios que se centraron en diferentes aspectos y priorizaron diferentes soluciones. Otra gran coalición de 72 metodólogos propuso recientemente un movimiento específico y simple: reducir el umbral rutinario del valor P para proclamar significación estadística para nuevos descubrimientos de .05 a .005. La propuesta encontró un fuerte respaldo en algunos círculos y preocupaciones en otros.

Los valores de P son malinterpretados, sobrevalorados y mal utilizados. El lenguaje de la declaración de la ASA permite la disección de estos 3 problemas. Existen múltiples interpretaciones erróneas de los valores de P, pero la más común es que representan la "probabilidad de que la hipótesis estudiada sea verdadera". Un valor de P de .02 (2%) se considera incorrectamente que significa que la hipótesis nula (p. ej., el medicamento es tan efectivo como el placebo) tiene un 2% de probabilidades de ser cierta y la alternativa (por ejemplo, el medicamento es más efectivo que el placebo) tiene una probabilidad de 98% de ser correcta. La sobrevaloración se produce cuando se olvida que "la inferencia adecuada requiere informes completos y transparencia"; unos valores P de mejor apariencia (más pequeños) por sí solos no garantizan la transparencia y la presentación de informes completos; en realidad, valores de P más pequeños pueden sugerir falta de transparencia y selección de lo informado. El uso indebido más común del valor P es hacer "conclusiones científicas y decisiones empresariales o políticas" basadas en "si el valor P pasa un umbral específico", aunque "el valor P, o significación estadística, no mide el tamaño de un efecto ni la importancia de un resultado", y "por sí mismo, un valor P no proporciona una buena medida de evidencia".

Estos 3 problemas principales significan que pasar un umbral de significación estadística (tradicionalmente P = .05) se equipara erróneamente con un hallazgo o un resultado (por ejemplo, una asociación o un efecto de tratamiento) que es verdadero, válido y que vale la pena seguir. Estos conceptos erróneos afectan a los investigadores, revistas, lectores y usuarios de artículos de investigación, e incluso a los medios y al público que consumen información científica. La mayoría de las afirmaciones respaldadas con valores de P ligeramente inferiores a .05 probablemente sean falsas (es decir, las asociaciones y los efectos de tratamiento no existen). Incluso entre los reclamos que son ciertos, pocos valen la pena como para introducir cambios en medicina y en la atención médica.

Bajar el umbral para reclamar significancia estadística es una vieja idea. Varios campos científicos han considerado cuidadosamente cuán bajo debe ser un valor P para que un hallazgo de investigación tenga una probabilidad suficientemente alta de ser cierto. Por ejemplo, la adopción de umbrales de significancia de todo el genoma (P <5 × 10-8) en la genómica poblacional ha hecho que las asociaciones descubiertas sean altamente replicables y estas asociaciones también aparecen consistentemente cuando se prueban en poblaciones nuevas. El genoma humano es muy complejo, pero se conoce el alcance de la multiplicidad de pruebas de significación, se aplican análisis son sistemáticos y transparentes, y se puede llegar a un requisito de P <5 × 10-8.

Sin embargo, para la mayoría de los otros tipos de investigación biomédica, la multiplicidad involucrada no está clara y los análisis no son sistemáticos ni transparentes. Para la mayoría de las investigaciones exploratorias observacionales que carecen de protocolos y planes de análisis preregistrados, no está claro cuántos análisis se realizaron y qué diversas vías analíticas se exploraron. La multiplicidad oculta, la exploración no sistemática y la notificación selectiva pueden afectar incluso la investigación experimental y los ensayos aleatorizados. Aunque ahora es más común tener previamente definido el protocolo y el plan de análisis estadístico, e inscribir el estudio en una base de datos pública, todavía hay grados sustanciales de libertad con respecto a cómo analizar los datos y los resultados, y qué presentar exactamente. Además, muchos estudios en investigación clínica contemporánea se enfocan en beneficios o riesgos más pequeños; por lo tanto, aumenta el riesgo de varios sesgos que afectan los resultados.

Mover el umbral del valor P de .05 a .005 desplazará aproximadamente un tercio de los resultados estadísticamente significativos de la literatura biomédica previa a la categoría de simplemente "sugerente". Este cambio es esencial para quienes creen (de forma un poco tosca) en las categorías de blanco y negro, significativo o no significativo. Para la gran mayoría de la investigación observacional del pasado, esta recategorización sería bienvenida. Por ejemplo, los estudios de aleatorización mendelianos muestran que solo unas pocas afirmaciones anteriores de estudios observacionales con P <.05 representan relaciones causales. por lo tanto la reducci propuesta para el umbral de significaci estad puede descartar sobre todo ruido con relativamente poca p informaci valiosa. los ensayos aleatorizados proporci efectos verdaderos que surgen valores en ventana .005 a .05 ser mayor tal vez varios campos. sin embargo parte hallazgos no del tratamiento suficientemente grandes resultados graves como sean dignos una acci posterior. valor gran medida hacer m bien mal pesar dejar eventualmente un efecto real y fuera codiciada zona todos modos exagerarse necesidad centrarse magnitud su incertidumbre intervalos confianza>

Bajar el umbral de significación estadística es una solución temporaria. Funcionaría como una represa que ayuda a ganar tiempo y evitar el ahogamiento por una avalancha de significación estadística, al tiempo que promueve soluciones mejores y más duraderas. Estas soluciones pueden implicar abandonar por completo los umbrales de significación estadística o los valores P. Si vamos a continuar usando umbrales, es probablemente preferible un umbral incluso más bajos para la mayoría de las investigaciones observacionales. Las revisiones exhaustivas, que han evaluado múltiples revisiones sistemáticas de estudios observacionales, proponen un umbral de P <10-6. Además, los métodos de falsación de desenlaces (es decir, el uso de umbrales de valor P tales que casi todas las asociaciones nulas bien establecidas no sean capaz de pasarlos) también apuntan a valores de P muy bajos. Con la llegada de los macrodatos, la significación estadística significará cada vez menos porque se obtienen rutinariamente valores de P extremadamente bajos para señales que son demasiado pequeñas para ser útiles incluso si fueran ciertas.

Adoptar umbrales de valor P más bajos puede ayudar a promover una agenda de investigación reformada con menos estudios, de mayor tamaño y concebidos más cuidadosamente, con suficiente poder para superar estos umbrales más exigentes. Sin embargo, también pueden surgir daños colaterales. El sesgo puede escalar en lugar de disminuir si los investigadores y otras partes interesadas (por ejemplo, patrocinadores con fines de lucro) tratan de encontrar formas de hacer que los resultados tengan valores de P más bajos. Los desenlaces seleccionados para el estudio pueden ser incluso menos relevantes desde el punto de vista clínico porque es más fácil alcanzar valores de P más bajos con desenlaces subrogados blandos que con resultados clínicos duros. Además, los resultados que pasan un umbral de valor de P más bajo pueden estar limitados por una mayor regresión a la media y los nuevos descubrimientos pueden tener tamaños de efecto aún más exagerados que antes.

Debido a que el umbral propuesto de P <.005 es imperfecto tambi se deben contemplar otras soluciones alternativas m dif pero duraderas. estas var seg la rapidez y facilidad con que pueden adoptar. apuntar al uso e interpretaci de literatura biom pasada acumulada hasta fecha o dise despliegue nueva acumular en el futuro. situaci grave para porque no hay un remedio perfecto style="mso-bidi-font-style: normal;">a posteriori. A largo plazo, los científicos deberán estar mejor capacitados para utilizar las herramientas de inferencia estadística más adecuadas para fines específicos, y los sesgos deberán abordarse de forma preventiva en lugar de retrospectiva. Sin embargo, estos pueden seguir siendo objetivos inalcanzables.

Los datos se vuelven más complejos. Si el tiempo para una formación rigurosa en métodos y estadísticas para los investigadores y los usuarios de la investigación sigue estando acotado, las estadísticas médicas insatisfactorias y las interpretaciones erróneas subsiguientes continuarán. Sin embargo, cabe esperar que varios campos de investigación adopten mejores estándares para los valores P, disminuyan su dependencia de los valores P y mejoren la adopción de otras herramientas inferenciales útiles (p. ej., estadísticas bayesianas) cuando corresponda. La rapidez y el alcance de estos cambios son impredecibles. La baja adopción en el pasado puede causar pesimismo, pero siempre es posible un nuevo comienzo y una rápida aceleración de la adopción de mejores prácticas. Pueden ser necesarios cambios en los incentivos de las principales revistas y de los financiadores, así como en los planes de capacitación para lograr cambios más amplios y efectivos.

 

El artículo completo:

Ioannidis JPA. The Proposal to Lower P Value Thresholds to .005. JAMA. Published online March 22, 2018. doi:10.1001/jama.2018.1536

Disponible en: http://bit.ly/2Gf5CDF

Compartir