Les statistiques sont convaincantes.
Si bien que des personnes,
organisations et pays,
prennent d'importantes décisions
en se fondant sur ces données.
Mais il y a un problème.
Toute statistique peut cacher
quelque chose,
qui peut complètement
transformer les résultats.
Par exemple, imaginez que vous deviez
choisir entre deux hôpitaux
pour une opération
sur une personne âgée.
Sur les 1000 derniers patients,
de chaque hôpital,
900 ont survécu dans l'hôpital A,
contre seulement 800 dans l'hôpital B.
Il semble donc que l'hôpital A
est le meilleur choix.
Mais avant de décider,
rappelez-vous que tous les patients
n'arrivent pas à l'hôpital
dans le même état de santé.
Et si l'on sépare
les 1000 derniers patients
entre ceux arrivés en bonne santé
et ceux arrivés en mauvaise santé,
la situation diffère significativement.
L'hôpital A ne comptait que 100 patients
arrivés en mauvaise santé,
dont 30 ont survécu.
Mais l'hôpital B en comptait 400,
et 210 purent être sauvés.
Donc l'hôpital B est le meilleur choix
pour les patients qui arrivent à l'hôpital
en mauvaise santé,
avec un taux de survie de 52,5 %.
Et si la santé de votre parente est bonne
quand elle arrive à l'hôpital ?
Curieusement, l'hôpital B
est toujours meilleur,
avec un taux de survie de 98%.
Comment l'hôpital A peut-il avoir
un meilleur taux de survie global
si l'hôpital B
a de meilleurs taux de survie
pour les patients en bonne
et mauvaise santé ?
C'est le paradoxe de Simpson !
Un même ensemble de données peut
montrer des tendances opposées,
selon la façon dont elles sont regroupées.
Lorsque des données agrégées
masquent une variable conditionnelle,
parfois appelée variable cachée,
ce facteur caché influence
significativement les résultats.
Ici, le facteur caché est
la proportion relative des patients
qui arrivent en bonne ou mauvaise santé.
Le paradoxe de Simpson n'est pas
qu'un scénario hypothétique.
Il apparaît dans le monde réel,
parfois dans des contextes importants.
Une étude au Royaume-Uni semblait montrer
que les fumeurs avaient un taux de survie
plus élevé que les non-fumeurs
sur une période de vingt ans.
Mais répartir les participants
par groupe d'âge
a montré que les non-fumeurs
étaient en moyenne plus âgés,
et donc, plus susceptibles de décéder
durant l'étude,
justement parce qu'ils vivaient
plus longtemps en général.
Ici, les groupes d'âge
sont la variable cachée,
et sont essentiels
pour interpréter les données.
Dans un autre exemple,
une étude sur la peine de mort en Floride
semblait ne révéler
aucune disparité raciale,
entre accusés noirs et blancs,
reconnus coupables d'assassinat.
Mais, en répartissant selon la couleur
des victimes, l'histoire était tout autre.
Dans les deux cas,
les accusés noirs étaient
plus susceptibles d'être condamnés.
Le taux de condamnation légèrement
supérieur pour les accusés blancs
était dû au fait que les cas
avec des victimes blanches
étaient plus susceptibles
d'entraîner la peine de mort
que les cas où la victime était noire.
Et la plupart des meurtres avaient eu lieu
entre des gens de même couleur.
Alors, comment éviter
de tomber dans ce paradoxe ?
Malheureusement,
il n'y a pas de réponse unique.
Les données peuvent être regroupées
et divisées de plein de façons,
et les chiffres globaux peuvent parfois
donner une image plus précise
que des données divisées en catégories
trompeuses ou arbitraires.
Il faut étudier attentivement
les situations décrites
par les statistiques
et se demander s'il peut y avoir
des variables cachées.
Faute de quoi, nous serions vulnérables
aux tentatives de manipulation
de personnes désirant utiliser ces données
à des fins personnelles.