Rianne de Heide est statisticienne à la Vrije Universiteit Amsterdam. Pendant qu’elle explique ses recherches, elle doit à plusieurs reprises réprimer l’envie de dessiner sur le tableau, qui fait défaut dans la salle du VU d’Amsterdam. Elle veut montrer des définitions mathématiques et des graphiques. Parce que cela est nécessaire pour vraiment comprendre la valeur p. La valeur p est la norme qui s’applique en science pour démontrer un lien. « Le problème est qu’il semble difficile pour les chercheurs de comprendre ce qu’est réellement une valeur p. »
Les valeurs P sont largement utilisées. Surtout en médecine, en psychologie et en économie. Une valeur p indique la probabilité que les résultats obtenus par les scientifiques dans une étude donnent une image incorrecte de la réalité. Les données trouvées sont une pure coïncidence, une exception. Si la probabilité est inférieure à 0,05, les résultats sont considérés comme corrects. Par exemple, pour démontrer l’efficacité d’un médicament, une valeur p inférieure à 0,05 a été établie comme norme officielle utilisée par la Food and Drug Administration (FDA) américaine et l’Agence européenne des médicaments (EMA).
Il s’avère difficile pour les médecins, les psychologues et toute autre personne souhaitant utiliser la valeur p de comprendre comment fonctionne exactement la valeur p. Des erreurs sont parfois commises. De Heide a donc travaillé avec d’autres mathématiciens sur un remplacement de la valeur p : la « valeur e ».
En janvier elle a présenté la recherche sur lequel elle travaille – avec Peter Grünwald et Wouter Koolen – depuis 2016 à la Royal Statistical Society de Londres, une organisation importante dans le domaine des statistiques. « Il est clair depuis des années que cette valeur p ne fonctionne pas bien. C’est un grand honneur de pouvoir présenter mon travail ici.
Pourquoi est-il si important de remplacer la valeur p ?
« Tant en sciences médicales qu’en sciences sociales, les chercheurs parlent de crise de réplication. Il arrive souvent aujourd’hui que lorsqu’une recherche est refaite, des résultats différents apparaissent. Par exemple, une étude peut découvrir un effet positif d’un médicament tandis qu’une autre peut ne pas le découvrir du tout.
« Il s’avère que de nombreuses recherches sont tout simplement fausses. Un article célèbre sur ce problème en science médicale s’appelle également : « Pourquoi la plupart des résultats de recherche publiés sont faux ». Et on dit la même chose des sciences sociales. L’utilisation de la valeur p est l’une des causes de ce problème.
Qu’est-ce qui ne va pas avec la valeur p ?
« L’utilisation d’une valeur p pour tester une hypothèse comporte toutes sortes d’embûches. L’enquête doit donc se dérouler selon des règles strictes. Les scientifiques n’y adhèrent pas toujours, car ils ne comprennent pas exactement comment fonctionne la valeur p.
« Des questionnaires ont été envoyés, entre autres, à des médecins et à des psychologues, qui montrent que en fait, je ne sais pas grand chose ce que vous calculez avec la valeur p. Et n’oubliez pas : les médecins lisent chaque semaine des articles sur leur domaine. Ils regorgent de déclarations sur les valeurs p. Pourtant, moins de la moitié des médecins ont donné la bonne réponse à la question de savoir ce que signifie la valeur p. Même les professeurs de mathématiques ne connaissent souvent pas la bonne réponse.»
Alors, que font les scientifiques de mal en matière de statistiques ?
« Ce que font souvent les chercheurs, mais qui n’est en réalité pas autorisé, c’est d’ajouter des données supplémentaires par la suite. Supposons que des chercheurs étudient si un médicament peut abaisser la tension artérielle et qu’ils étudient cette question auprès d’un groupe de trente sujets testés. Il se peut que la tension artérielle baisse chez de nombreux sujets testés, mais cela ne suffit pas pour obtenir une valeur p inférieure à 0,05. Les chercheurs pensent souvent : ajoutons quelques sujets de test supplémentaires pour que le résultat soit statistiquement significatif. »
« C’est ce qu’on appelle un « arrêt facultatif ». En principe, il est logique de vouloir augmenter la quantité de données. Mais avec la valeur p, cela n’est pas autorisé de cette façon. On peut prouver mathématiquement que le risque d’un faux positif devient très élevé. Ainsi, après avoir ajouté des sujets de test, vous trouvez une valeur p inférieure à 0,05 et concluez qu’il y a un effet, mais en fait cet effet n’est pas du tout là. Dans certains cas, les chances sont même de 100 pour cent.»
Cela semble fou. Si vous ajoutez des sujets de test, êtes-vous sûr d’obtenir des résultats incorrects ?
« Oui, dans certains cas. Si vous faites tout selon les règles, le risque d’un faux positif n’est que de 5 %, car la valeur p est de 0,05. Mais si vous effectuez un arrêt facultatif et que vous ajoutez quelques personnes supplémentaires après avoir consulté un groupe, cette chance augmente. Souvent, les chercheurs ne mentionnent pas qu’ils ont fait cela ou ne savent même pas que cela n’est pas autorisé.
« Parfois, les scientifiques veulent consciemment procéder à des arrêts facultatifs. Par exemple, vous effectuez une recherche par sujet et vous arrêtez si vous ne voyez aucun effet. C’est moins cher et souvent plus éthique. Par exemple, si vous souhaitez vérifier si un vaccin fonctionne. Si vous deviez utiliser la valeur p, le risque d’un faux positif serait en réalité de 100 %. »
Ce problème n’existe-t-il pas avec la nouvelle e-value que vous proposez ?
« Non, avec l’e-value, vous pouvez simplement faire un arrêt facultatif. Il a également déjà été utilisé pour des recherches sur l’efficacité d’un vaccin. Nous pensons également que la valeur e est généralement plus facile à comprendre que la valeur p et entraînera donc moins de problèmes.
Comment fonctionne cette e-valeur ?
« La valeur e indique à quel point on s’attend à ce qu’une hypothèse soit correcte. Le « e » signifie « attente », mais aussi « preuve », car il mesure également la quantité de preuves que votre recherche fournit pour une hypothèse.
« Par exemple, si vous effectuez des recherches sur un médicament destiné à abaisser la tension artérielle, la valeur e indique la probabilité que le médicament abaisse réellement la tension artérielle. Comme pour la valeur p, il existe une limite inférieure. Si la valeur e est supérieure à 20, on peut parler de signification statistique et, dans cet exemple, on peut donc supposer que le médicament abaisse la tension artérielle. Une valeur e n’est donc pas une probabilité, comme la valeur p, mais un nombre positif.
« Une fonctionnalité utile est que vous pouvez également combiner les valeurs électroniques. Cela vous permet d’indiquer comment deux études renforcent les preuves d’une hypothèse. Simplement en multipliant les valeurs e. Si un groupe de recherche trouve une valeur e de 5 et l’autre une valeur de 10, alors ensemble, ils peuvent dire qu’ils ont une valeur de 50. Ce n’est pas possible avec la valeur p.