1 00:00:06,636 --> 00:00:09,077 Les statistiques sont convaincantes. 2 00:00:09,077 --> 00:00:12,541 Si bien que des personnes, organisations et pays, 3 00:00:12,541 --> 00:00:17,747 prennent d'importantes décisions en se fondant sur ces données. 4 00:00:17,747 --> 00:00:19,484 Mais il y a un problème. 5 00:00:19,484 --> 00:00:23,301 Toute statistique peut cacher quelque chose, 6 00:00:23,301 --> 00:00:27,251 qui peut complètement transformer les résultats. 7 00:00:27,251 --> 00:00:30,920 Par exemple, imaginez que vous deviez choisir entre deux hôpitaux 8 00:00:30,920 --> 00:00:33,737 pour une opération sur une personne âgée. 9 00:00:33,737 --> 00:00:36,434 Sur les 1000 derniers patients, de chaque hôpital, 10 00:00:36,434 --> 00:00:39,612 900 ont survécu dans l'hôpital A, 11 00:00:39,612 --> 00:00:43,021 contre seulement 800 dans l'hôpital B. 12 00:00:43,021 --> 00:00:46,170 Il semble donc que l'hôpital A est le meilleur choix. 13 00:00:46,170 --> 00:00:47,843 Mais avant de décider, 14 00:00:47,843 --> 00:00:51,411 rappelez-vous que tous les patients n'arrivent pas à l'hôpital 15 00:00:51,411 --> 00:00:53,811 dans le même état de santé. 16 00:00:53,811 --> 00:00:56,703 Et si l'on sépare les 1000 derniers patients 17 00:00:56,703 --> 00:01:01,132 entre ceux arrivés en bonne santé et ceux arrivés en mauvaise santé, 18 00:01:01,132 --> 00:01:03,772 la situation diffère significativement. 19 00:01:03,772 --> 00:01:07,849 L'hôpital A ne comptait que 100 patients arrivés en mauvaise santé, 20 00:01:07,849 --> 00:01:10,325 dont 30 ont survécu. 21 00:01:10,325 --> 00:01:14,852 Mais l'hôpital B en comptait 400, et 210 purent être sauvés. 22 00:01:14,852 --> 00:01:17,169 Donc l'hôpital B est le meilleur choix 23 00:01:17,169 --> 00:01:20,741 pour les patients qui arrivent à l'hôpital en mauvaise santé, 24 00:01:20,741 --> 00:01:24,526 avec un taux de survie de 52,5 %. 25 00:01:24,526 --> 00:01:28,445 Et si la santé de votre parente est bonne quand elle arrive à l'hôpital ? 26 00:01:28,445 --> 00:01:32,271 Curieusement, l'hôpital B est toujours meilleur, 27 00:01:32,271 --> 00:01:35,676 avec un taux de survie de 98%. 28 00:01:35,676 --> 00:01:38,873 Comment l'hôpital A peut-il avoir un meilleur taux de survie global 29 00:01:38,873 --> 00:01:41,690 si l'hôpital B a de meilleurs taux de survie 30 00:01:41,700 --> 00:01:44,830 pour les patients en bonne et mauvaise santé ? 31 00:01:44,830 --> 00:01:48,589 C'est le paradoxe de Simpson ! 32 00:01:48,589 --> 00:01:51,899 Un même ensemble de données peut montrer des tendances opposées, 33 00:01:51,899 --> 00:01:54,664 selon la façon dont elles sont regroupées. 34 00:01:54,664 --> 00:01:58,744 Lorsque des données agrégées masquent une variable conditionnelle, 35 00:01:58,744 --> 00:02:01,377 parfois appelée variable cachée, 36 00:02:01,377 --> 00:02:06,584 ce facteur caché influence significativement les résultats. 37 00:02:06,584 --> 00:02:10,023 Ici, le facteur caché est la proportion relative des patients 38 00:02:10,023 --> 00:02:13,264 qui arrivent en bonne ou mauvaise santé. 39 00:02:13,264 --> 00:02:16,544 Le paradoxe de Simpson n'est pas qu'un scénario hypothétique. 40 00:02:16,544 --> 00:02:18,924 Il apparaît dans le monde réel, 41 00:02:18,924 --> 00:02:22,132 parfois dans des contextes importants. 42 00:02:22,132 --> 00:02:24,130 Une étude au Royaume-Uni semblait montrer 43 00:02:24,130 --> 00:02:27,600 que les fumeurs avaient un taux de survie plus élevé que les non-fumeurs 44 00:02:27,600 --> 00:02:29,846 sur une période de vingt ans. 45 00:02:29,846 --> 00:02:33,307 Mais répartir les participants par groupe d'âge 46 00:02:33,307 --> 00:02:37,823 a montré que les non-fumeurs étaient en moyenne plus âgés, 47 00:02:37,823 --> 00:02:40,930 et donc, plus susceptibles de décéder durant l'étude, 48 00:02:40,930 --> 00:02:44,438 justement parce qu'ils vivaient plus longtemps en général. 49 00:02:44,438 --> 00:02:47,286 Ici, les groupes d'âge sont la variable cachée, 50 00:02:47,286 --> 00:02:50,176 et sont essentiels pour interpréter les données. 51 00:02:50,176 --> 00:02:51,559 Dans un autre exemple, 52 00:02:51,559 --> 00:02:54,281 une étude sur la peine de mort en Floride 53 00:02:54,281 --> 00:02:58,265 semblait ne révéler aucune disparité raciale, 54 00:02:58,265 --> 00:03:01,581 entre accusés noirs et blancs, reconnus coupables d'assassinat. 55 00:03:01,581 --> 00:03:06,396 Mais, en répartissant selon la couleur des victimes, l'histoire était tout autre. 56 00:03:06,396 --> 00:03:07,969 Dans les deux cas, 57 00:03:07,969 --> 00:03:11,091 les accusés noirs étaient plus susceptibles d'être condamnés. 58 00:03:11,091 --> 00:03:15,066 Le taux de condamnation légèrement supérieur pour les accusés blancs 59 00:03:15,066 --> 00:03:18,692 était dû au fait que les cas avec des victimes blanches 60 00:03:18,692 --> 00:03:21,359 étaient plus susceptibles d'entraîner la peine de mort 61 00:03:21,359 --> 00:03:24,091 que les cas où la victime était noire. 62 00:03:24,091 --> 00:03:28,483 Et la plupart des meurtres avaient eu lieu entre des gens de même couleur. 63 00:03:28,483 --> 00:03:31,319 Alors, comment éviter de tomber dans ce paradoxe ? 64 00:03:31,319 --> 00:03:34,686 Malheureusement, il n'y a pas de réponse unique. 65 00:03:34,686 --> 00:03:38,504 Les données peuvent être regroupées et divisées de plein de façons, 66 00:03:38,504 --> 00:03:42,106 et les chiffres globaux peuvent parfois donner une image plus précise 67 00:03:42,106 --> 00:03:46,638 que des données divisées en catégories trompeuses ou arbitraires. 68 00:03:46,638 --> 00:03:48,459 Il faut étudier attentivement 69 00:03:48,459 --> 00:03:52,089 les situations décrites par les statistiques 70 00:03:52,089 --> 00:03:55,977 et se demander s'il peut y avoir des variables cachées. 71 00:03:55,977 --> 00:03:59,378 Faute de quoi, nous serions vulnérables aux tentatives de manipulation 72 00:03:59,378 --> 00:04:03,378 de personnes désirant utiliser ces données à des fins personnelles.