0:00:06.636,0:00:09.077 Les statistiques sont convaincantes. 0:00:09.077,0:00:12.541 Si bien que des personnes,[br]organisations et pays, 0:00:12.541,0:00:17.747 prennent d'importantes décisions[br]en se fondant sur ces données. 0:00:17.747,0:00:19.484 Mais il y a un problème. 0:00:19.484,0:00:23.301 Toute statistique peut cacher[br]quelque chose, 0:00:23.301,0:00:27.251 qui peut complètement[br]transformer les résultats. 0:00:27.251,0:00:30.920 Par exemple, imaginez que vous deviez[br]choisir entre deux hôpitaux 0:00:30.920,0:00:33.737 pour une opération[br]sur une personne âgée. 0:00:33.737,0:00:36.434 Sur les 1000 derniers patients,[br]de chaque hôpital, 0:00:36.434,0:00:39.612 900 ont survécu dans l'hôpital A, 0:00:39.612,0:00:43.021 contre seulement 800 dans l'hôpital B. 0:00:43.021,0:00:46.170 Il semble donc que l'hôpital A[br]est le meilleur choix. 0:00:46.170,0:00:47.843 Mais avant de décider, 0:00:47.843,0:00:51.411 rappelez-vous que tous les patients[br]n'arrivent pas à l'hôpital 0:00:51.411,0:00:53.811 dans le même état de santé. 0:00:53.811,0:00:56.703 Et si l'on sépare[br]les 1000 derniers patients 0:00:56.703,0:01:01.132 entre ceux arrivés en bonne santé[br]et ceux arrivés en mauvaise santé, 0:01:01.132,0:01:03.772 la situation diffère significativement. 0:01:03.772,0:01:07.849 L'hôpital A ne comptait que 100 patients[br]arrivés en mauvaise santé, 0:01:07.849,0:01:10.325 dont 30 ont survécu. 0:01:10.325,0:01:14.852 Mais l'hôpital B en comptait 400,[br]et 210 purent être sauvés. 0:01:14.852,0:01:17.169 Donc l'hôpital B est le meilleur choix 0:01:17.169,0:01:20.741 pour les patients qui arrivent à l'hôpital[br]en mauvaise santé, 0:01:20.741,0:01:24.526 avec un taux de survie de 52,5 %. 0:01:24.526,0:01:28.445 Et si la santé de votre parente est bonne[br]quand elle arrive à l'hôpital ? 0:01:28.445,0:01:32.271 Curieusement, l'hôpital B[br]est toujours meilleur, 0:01:32.271,0:01:35.676 avec un taux de survie de 98%. 0:01:35.676,0:01:38.873 Comment l'hôpital A peut-il avoir[br]un meilleur taux de survie global 0:01:38.873,0:01:41.690 si l'hôpital B[br]a de meilleurs taux de survie 0:01:41.700,0:01:44.830 pour les patients en bonne[br]et mauvaise santé ? 0:01:44.830,0:01:48.589 C'est le paradoxe de Simpson ! 0:01:48.589,0:01:51.899 Un même ensemble de données peut[br]montrer des tendances opposées, 0:01:51.899,0:01:54.664 selon la façon dont elles sont regroupées. 0:01:54.664,0:01:58.744 Lorsque des données agrégées[br]masquent une variable conditionnelle, 0:01:58.744,0:02:01.377 parfois appelée variable cachée, 0:02:01.377,0:02:06.584 ce facteur caché influence[br]significativement les résultats. 0:02:06.584,0:02:10.023 Ici, le facteur caché est[br]la proportion relative des patients 0:02:10.023,0:02:13.264 qui arrivent en bonne ou mauvaise santé. 0:02:13.264,0:02:16.544 Le paradoxe de Simpson n'est pas[br]qu'un scénario hypothétique. 0:02:16.544,0:02:18.924 Il apparaît dans le monde réel, 0:02:18.924,0:02:22.132 parfois dans des contextes importants.[br] 0:02:22.132,0:02:24.130 Une étude au Royaume-Uni semblait montrer 0:02:24.130,0:02:27.600 que les fumeurs avaient un taux de survie[br]plus élevé que les non-fumeurs 0:02:27.600,0:02:29.846 sur une période de vingt ans. 0:02:29.846,0:02:33.307 Mais répartir les participants[br]par groupe d'âge 0:02:33.307,0:02:37.823 a montré que les non-fumeurs[br]étaient en moyenne plus âgés, 0:02:37.823,0:02:40.930 et donc, plus susceptibles de décéder[br]durant l'étude, 0:02:40.930,0:02:44.438 justement parce qu'ils vivaient[br]plus longtemps en général. 0:02:44.438,0:02:47.286 Ici, les groupes d'âge[br]sont la variable cachée, 0:02:47.286,0:02:50.176 et sont essentiels[br]pour interpréter les données. 0:02:50.176,0:02:51.559 Dans un autre exemple,[br] 0:02:51.559,0:02:54.281 une étude sur la peine de mort en Floride 0:02:54.281,0:02:58.265 semblait ne révéler[br]aucune disparité raciale, 0:02:58.265,0:03:01.581 entre accusés noirs et blancs,[br]reconnus coupables d'assassinat. 0:03:01.581,0:03:06.396 Mais, en répartissant selon la couleur[br]des victimes, l'histoire était tout autre. 0:03:06.396,0:03:07.969 Dans les deux cas,[br] 0:03:07.969,0:03:11.091 les accusés noirs étaient[br]plus susceptibles d'être condamnés. 0:03:11.091,0:03:15.066 Le taux de condamnation légèrement[br]supérieur pour les accusés blancs 0:03:15.066,0:03:18.692 était dû au fait que les cas[br]avec des victimes blanches 0:03:18.692,0:03:21.359 étaient plus susceptibles[br]d'entraîner la peine de mort 0:03:21.359,0:03:24.091 que les cas où la victime était noire. 0:03:24.091,0:03:28.483 Et la plupart des meurtres avaient eu lieu[br]entre des gens de même couleur. 0:03:28.483,0:03:31.319 Alors, comment éviter[br]de tomber dans ce paradoxe ? 0:03:31.319,0:03:34.686 Malheureusement,[br]il n'y a pas de réponse unique. 0:03:34.686,0:03:38.504 Les données peuvent être regroupées[br]et divisées de plein de façons, 0:03:38.504,0:03:42.106 et les chiffres globaux peuvent parfois[br]donner une image plus précise 0:03:42.106,0:03:46.638 que des données divisées en catégories[br]trompeuses ou arbitraires. 0:03:46.638,0:03:48.459 Il faut étudier attentivement 0:03:48.459,0:03:52.089 les situations décrites[br]par les statistiques 0:03:52.089,0:03:55.977 et se demander s'il peut y avoir[br]des variables cachées. 0:03:55.977,0:03:59.378 Faute de quoi, nous serions vulnérables[br]aux tentatives de manipulation 0:03:59.378,0:04:03.378 de personnes désirant utiliser ces données[br]à des fins personnelles.