¿Y si revisamos qué es estadísticamente significativo?

480px-Interferometre_Michelson.svg

En los últimos años el número de artículos de investigación publicados que no pueden ser reproducidos ha aumentado. Una de las causas podría encontrarse en que los criterios de significación estadística no son lo suficientemente estrictos. Esto, al menos, es lo que argumenta Valen Johnson, de la Universidad Texas A&M (EE.UU.), en un artículo publicado en PNAS.

La inmensa mayoría de los investigadores usan un número llamado valor p como baremo de la significación estadística. Este número p es una probabilidad, por lo que puede tomar valores entre 0 y 1, siendo 0 probabilidad nula y 1 absoluta certeza. La probabilidad que mide el valor p es la de que yo obtuviese los resultados experimentales que he obtenido si no existiese relación alguna (hipótesis nula) entre las variables que estoy considerando como relacionadas en mi hipótesis experimental. Así, por ejemplo, si yo digo como hipótesis experimental que la humedad ambiente afecta a la producción de aceitunas, la hipótesis nula es que yo obtengo la misma producción de aceitunas cerca de la costa y en el interior; si mis mediciones indican una variabilidad que es compatible con la hipótesis nula, entonces mis resultados no son estadísticamente significativos.

Este valor p se supone que le da al investigador una idea de si sus esfuerzos han dado resultado positivo. Por convención está establecido que un valor de p menor o igual a 0,05, es decir que la probabilidad de que yo obtenga estos resultados y la hipótesis nula sea cierta es inferior al 5%, es lo suficientemente significativo estadísticamente como para afirmar que existe una correlación con la hipótesis objeto de experimentación. Pero, según Johnson, aquí está el quid de la cuestión: p representaría realmente la probabilidad de que se dé un valor extremo en un experimento y, por tanto, el valor p no estaría reflejando realmente el grado de variación con la norma que los investigadores piensan que refleja.

En estadística existen alternativas para calcular la diferencia entre la norma y los resultados obtenidos cuando se causa un cambio en un sistema. Cada vez más usadas son las técnicas bayesianas que, según Johnson, sí ofrecen una comparación genuina. De hecho, Johnson ha desarrollado un algoritmo para convertir el factor de Bayes en valores p. Al hacerlo muestra lo poco fiables que pueden ser los valores p.

Con todo el problema no está en que los investigadores usen los valores p, sino que se fían de valores que no son los suficientemente estrictos. Johnson sugiere que la comunidad investigadora debería cambiar el estándar y comenzar a admitir como significativos, en vez del 0,05, el 0,005 o, incluso, el 0,001. De hacerse, esto reduciría mucho el número de artículos publicados con resultados no reproducibles, con lo que ello implica de ahorro en ensayos de reproducción inútiles y aquilatamiento de reputaciones de autores supuestamente muy productivos.

Referencia:

Johnson V.E. Revised standards for statistical evidence, Proceedings of the National Academy of Sciences, DOI:

Esta anotación es una participación de Experientia docet en la edición 4.12310562 del Carnaval de Matemáticas, que alberga ::ZTFNews


2 Comentarios

Participa Suscríbete

JesúsRJesúsR

Dependerá de la rama de la ciencia. En geociencias, debido a la escasa posibilidad de experimentación, es muy difícil alcanzar un p<0,05. La estadística bayesiana, con sus prior probability, sí que creo que sería más aplicable, así que si quieren un p, mejor aplicar su algoritmo, creo yo.

1 Trackback

Deja un comentario

Tu email nunca será mostrado o compartido. No olvides rellenar los campos obligatorios.

Obligatorio
Obligatorio
Obligatorio

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>