Una comprensión errónea de las estadísticas conduce a una ciencia equivocada. El valor p está muerto. ¡Viva el valor electrónico!

Rianne de Heide es estadística en la Vrije Universiteit Amsterdam. Mientras explica su investigación, tiene que reprimir repetidamente la necesidad de dibujar en la pizarra, algo que falta en la sala de la VU de Ámsterdam. Quiere mostrar definiciones matemáticas y gráficas. Porque esto es necesario para comprender realmente el valor p. El valor p es el estándar que se aplica en ciencia para demostrar una conexión. «El problema es que a los investigadores les resulta difícil entender qué es realmente un valor p».

Los valores p se utilizan ampliamente. Especialmente en medicina, psicología y economía. Un valor p indica la posibilidad de que los resultados obtenidos por los científicos en un estudio den una imagen incorrecta de la realidad. Que los datos encontrados son muy coincidentes, una excepción. Si la probabilidad es menor que 0,05, se supone que los resultados son correctos. Por ejemplo, para demostrar que un medicamento funciona, se ha establecido un valor p inferior a 0,05 como estándar oficial utilizado por la Administración Estadounidense de Medicamentos y Alimentos (FDA) y la Agencia Europea de Medicamentos (EMA).

Resulta difícil para los médicos, psicólogos y cualquier otra persona que quiera utilizar el valor p comprender cómo funciona exactamente el valor p. A veces se cometen errores. Por lo tanto, De Heide ha trabajado con otros matemáticos en un reemplazo del valor p: el «valor e».

En Enero ella presentó la investigación en el que trabaja –con Peter Grünwald y Wouter Koolen– desde 2016 en la Royal Statistical Society de Londres, una importante organización de estadística. “Durante años ha quedado claro que ese valor p en realidad no funciona bien. Es un gran honor poder presentar mi trabajo aquí”.

Ahora sucede a menudo que cuando se vuelve a investigar, surgen resultados diferentes.

¿Por qué es tan importante reemplazar el valor p?

“Tanto en las ciencias médicas como en las sociales, los investigadores hablan de la crisis de replicación. Ahora sucede a menudo que cuando se vuelve a investigar, surgen resultados diferentes. Por ejemplo, un estudio puede encontrar un efecto positivo de un medicamento mientras que otro puede no encontrarlo en absoluto.

“Resulta que muchas investigaciones están simplemente equivocadas. Un artículo famoso sobre este problema en la ciencia médica también se llama: ‘Por qué la mayoría de los resultados de las investigaciones publicadas son falsos’. Y lo mismo se dice de las ciencias sociales. El uso del valor p es una de las causas de este problema”.

¿Qué sale mal con el valor p?

“Existen todo tipo de peligros al utilizar un valor p como forma de probar una hipótesis. Por tanto, la investigación debe desarrollarse según normas estrictas. Los científicos no siempre cumplen con esto porque no entienden exactamente cómo funciona el valor p.

“Se han enviado cuestionarios a médicos y psicólogos, entre otros, que demuestran que en realidad no se mucho lo que se calcula con el valor p. Y hay que recordar: los médicos leen artículos sobre su campo todas las semanas. Están llenos de afirmaciones sobre los valores p. Sin embargo, menos de la mitad de los médicos dieron la respuesta correcta a la pregunta de qué significa el valor p. Incluso los profesores de matemáticas a menudo no saben la respuesta correcta”.

Algo que los investigadores suelen hacer, pero que en realidad no está permitido, es añadir datos adicionales después.

Entonces, ¿qué están haciendo mal los científicos en materia de estadística?

“Algo que los investigadores hacen a menudo, pero que en realidad no está permitido, es añadir datos adicionales después. Supongamos que unos investigadores investigan si un fármaco puede reducir la presión arterial y lo hacen en un grupo de treinta sujetos de prueba. Puede ser que la presión arterial baje en muchos sujetos de prueba, pero no es suficiente para obtener un valor p inferior a 0,05. Los investigadores suelen pensar: agreguemos más sujetos de prueba para que el resultado sea estadísticamente significativo”.

“Esto se llama ‘parada opcional’. En principio, es una intuición lógica que se quiera aumentar la cantidad de datos. Pero con el valor p esto no está permitido de esta manera. Se puede demostrar matemáticamente que la probabilidad de un falso positivo es muy alta. Entonces, después de agregar sujetos de prueba, encuentra un valor p inferior a 0,05 y concluye que hay un efecto, pero en realidad este efecto no existe en absoluto. En algunos casos, la probabilidad es incluso del 100 por ciento”.

Eso suena loco. Si agrega sujetos de prueba, ¿está seguro de que obtendrá resultados incorrectos?

“Sí, en algunos casos. Si se hace todo según las reglas, la probabilidad de un falso positivo es sólo del 5 por ciento, porque el valor p es 0,05. Pero si realiza una parada opcional y agrega algunas personas más después de ver un grupo, esta posibilidad aumenta. A menudo los investigadores no mencionan que lo han hecho o ni siquiera son conscientes de que no está permitido.

“A veces los científicos quieren conscientemente realizar paradas opcionales. Por ejemplo, usted realiza una investigación por tema y la detiene si no ve ningún efecto. Esto es menos costoso y, a menudo, más ético. Por ejemplo, si quieres investigar si una vacuna funciona. Si usaras el valor p, la probabilidad de un falso positivo sería realmente del 100 por ciento”.

Una característica útil es que también puedes combinar valores electrónicos

¿Este problema no existe con el nuevo valor e que usted propone?

“No, con el valor electrónico puedes simplemente hacer una parada opcional. También se ha utilizado ya para investigar la eficacia de una vacuna. También creemos que el valor e es generalmente más fácil de entender que el valor p y, por lo tanto, generará menos problemas”.

¿Cómo funciona este valor electrónico?

“El valor e indica qué tan grande es la expectativa de que una hipótesis sea correcta. La ‘e’ significa ‘expectativa’, pero también ‘evidencia’, porque también es una medida de cuánta evidencia proporciona su investigación para una hipótesis.

“Por ejemplo, si está realizando una investigación sobre el medicamento destinado a reducir la presión arterial, el valor e indica la probabilidad de que el medicamento realmente reduzca la presión arterial. Al igual que con el valor p, existe un límite inferior. Si el valor e es superior a 20, se puede hablar de significación estadística y, por lo tanto, en este ejemplo se puede suponer que el medicamento reduce la presión arterial. Por lo tanto, un valor e no es una probabilidad, como el valor p, sino un número positivo.

“Una característica útil es que también puedes combinar valores electrónicos. Esto le permite indicar cómo dos estudios fortalecen la evidencia de una hipótesis. Simplemente multiplicando los valores e. Si un grupo de investigación encuentra un valor e de 5 y el otro encuentra un valor de 10, entonces juntos pueden decir que tienen un valor de 50. Esto no es posible con el valor p”.






ttn-es-33