1 00:00:06,576 --> 00:00:09,077 Statistiken überzeugen. 2 00:00:09,077 --> 00:00:12,541 So sehr, dass Menschen, Organisationen und ganze Länder 3 00:00:12,541 --> 00:00:17,747 ihre wichtigsten Entscheidungen auf strukturierte Daten gründen. 4 00:00:17,747 --> 00:00:19,484 Aber darin liegt das Problem. 5 00:00:19,484 --> 00:00:23,301 In allen statistischen Daten hält sich vielleicht etwas versteckt, 6 00:00:23,301 --> 00:00:27,251 dass die Befunde auf den Kopf stellt. 7 00:00:27,251 --> 00:00:30,920 Zum Beispiel: Angenommen, man muss zwischen zwei Krankenhäusern wählen, 8 00:00:30,920 --> 00:00:33,737 weil ein älterer Angehöriger operiert werden muss. 9 00:00:33,737 --> 00:00:36,434 Von den letzten 1000 Patienten der beiden Krankenhäuser 10 00:00:36,434 --> 00:00:39,612 überlebten 900 in Klinik A, 11 00:00:39,612 --> 00:00:43,021 wohingegen nur 800 in Klinik B überlebten. 12 00:00:43,021 --> 00:00:46,120 Also scheint Klinik A die bessere Wahl zu sein. 13 00:00:46,120 --> 00:00:48,693 Aber bevor man sich entscheidet, sollte man bedenken, 14 00:00:48,693 --> 00:00:51,411 dass Patienten nicht mit dem gleichen Gesundheitszustand 15 00:00:51,411 --> 00:00:53,811 ins Krankenhaus aufgenommen werden. 16 00:00:53,811 --> 00:00:56,703 Wenn man die letzten 1000 Patienten von beiden Krankenhäusern 17 00:00:56,703 --> 00:01:01,132 in jene bei guter Gesundheit und solche bei schlechter Gesundheit einteilt, 18 00:01:01,132 --> 00:01:03,772 sieht die Sache ganz anders aus. 19 00:01:03,772 --> 00:01:07,849 Klinik A hatte nur 100 Patienten bei schlechter Gesundheit aufgenommen, 20 00:01:07,849 --> 00:01:10,325 von denen 30 überlebten. 21 00:01:10,325 --> 00:01:14,852 Aber Klinik B hatte 400 und sie konnten 210 retten. 22 00:01:14,852 --> 00:01:19,309 Also ist Klinik B für Patienten bei schlechter Gesundheit 23 00:01:19,309 --> 00:01:24,461 mit einer Überlebensrate von 52,5 % die bessere Wahl. 24 00:01:24,461 --> 00:01:27,255 Was, wenn man den Angehörigen bei guter Gesundheit 25 00:01:27,255 --> 00:01:28,585 ins Krankenhaus aufnimmt? 26 00:01:28,585 --> 00:01:32,271 Merkwürdigerweise ist Klinik B mit einer Überlebensrate von über 98 % 27 00:01:32,271 --> 00:01:35,676 immer noch die bessere Wahl. 28 00:01:35,676 --> 00:01:38,933 Wie kann Klinik A eine bessere Gesamtüberlebensrate haben, 29 00:01:38,933 --> 00:01:40,720 wenn Klinik B 30 00:01:40,720 --> 00:01:44,830 die besseren Überlebensraten bei beiden Patientengruppen hat? 31 00:01:44,830 --> 00:01:48,589 Worauf wir zufällig stießen, ist ein Fall des Simpson-Paradoxon, 32 00:01:48,589 --> 00:01:51,899 bei dem dieselbe Reihe von Daten, je nachdem wie sie gruppiert sind, 33 00:01:51,899 --> 00:01:54,664 gegenläufige Tendenzen zu zeigen scheinen. 34 00:01:54,664 --> 00:01:57,524 Das geschieht häufig, wenn aggregierte Daten 35 00:01:57,524 --> 00:02:01,377 eine Bedingungsvariable verbergen, auch als Störvariable bekannt, 36 00:02:01,377 --> 00:02:03,584 die ein verborgener, zusätzlicher Faktor ist, 37 00:02:03,584 --> 00:02:06,584 der Ergebnisse signifikant beeinflusst. 38 00:02:06,584 --> 00:02:10,023 Hier ist der versteckte Faktor der relative Anteil von Patienten 39 00:02:10,023 --> 00:02:13,264 bei guter oder schlechter Gesundheit. 40 00:02:13,264 --> 00:02:16,544 Das Simpson-Paradoxon ist nicht nur ein hypothetisches Szenario. 41 00:02:16,544 --> 00:02:19,134 Es tritt von Zeit zu Zeit in der wirklichen Welt auf, 42 00:02:19,134 --> 00:02:22,132 manchmal in wichtigen Zusammenhängen. 43 00:02:22,132 --> 00:02:25,120 Einer Studie im Vereinigten Königreich zufolge, 44 00:02:25,120 --> 00:02:28,740 schien die Überlebensrate von Rauchern über einen Zeitraum von zwanzig Jahren 45 00:02:28,740 --> 00:02:30,516 höher wäre als die von Nichtrauchern. 46 00:02:30,516 --> 00:02:34,787 Zumindest bis die Unterteilung der Teilnehmer in Altersgruppen zeigte, 47 00:02:34,787 --> 00:02:37,723 dass die Nichtraucher im Durchschnitt signifikant älter waren 48 00:02:37,723 --> 00:02:41,450 und daher mit höherer Wahscheinlichkeit während des Versuchszeitraums starben, 49 00:02:41,450 --> 00:02:44,498 die Raucher im Allgemeinen länger lebten. 50 00:02:44,498 --> 00:02:47,286 Hier sind die Altersgruppen die Störvariablen 51 00:02:47,286 --> 00:02:50,176 und äußerst wichtig, um die Daten korrekt zu deuten. 52 00:02:50,176 --> 00:02:51,559 In einem weiteren Beispiel 53 00:02:51,559 --> 00:02:54,281 schien die Analyse der Fälle mit Todesstrafen aus Florida 54 00:02:54,281 --> 00:02:56,381 keine ethnische Ungleichverteilung 55 00:02:56,381 --> 00:02:58,905 zwischen schwarzen und weißen Mordangeklagten 56 00:02:58,905 --> 00:03:01,581 bei der Verurteilung aufzudecken. 57 00:03:01,581 --> 00:03:04,946 Die anhand der "Rasse" der Opfer eingeteilten Fälle 58 00:03:04,946 --> 00:03:06,396 sagten aber etwas anderes. 59 00:03:06,396 --> 00:03:08,609 Bei beiden Sachlagen wurden schwarze Angeklagte 60 00:03:08,609 --> 00:03:11,091 mit höherer Wahrscheinlichkeit zum Tode verurteilt. 61 00:03:11,091 --> 00:03:15,066 Die etwas höhere Verurteilungsrate für weiße Angeklagte insgesamt 62 00:03:15,066 --> 00:03:18,692 ergab sich infolge der Tatsache, dass Fälle mit weißen Opfern 63 00:03:18,692 --> 00:03:21,729 mit höherer Wahrscheinlichkeit ein Todesurteil hervorriefen 64 00:03:21,729 --> 00:03:24,091 als Fälle mit schwarzen Opfern; 65 00:03:24,091 --> 00:03:28,483 und die meisten Morde geschahen zwischen Menschen derselben "Rasse". 66 00:03:28,483 --> 00:03:31,319 Wie vermeiden wir also auf das Paradoxon hereinzufallen? 67 00:03:31,319 --> 00:03:34,686 Leider gibt es keine allgemeingültige Antwort. 68 00:03:34,686 --> 00:03:38,504 Daten können auf unzählige Arten gruppiert und unterteilt werden 69 00:03:38,504 --> 00:03:42,106 und Gesamtzahlen können manchmal ein genaueres Bild zeichnen 70 00:03:42,106 --> 00:03:46,638 als Daten, die man in irreführende oder willkürliche Kategorien einteilt. 71 00:03:46,638 --> 00:03:50,969 Alles was wir tun können, ist, die tatsächlichen Sachverhalte, 72 00:03:50,969 --> 00:03:53,089 die Statistiken beschreiben, zu untersuchen 73 00:03:53,089 --> 00:03:55,977 und zu überlegen, ob Störvariablen vorhanden sein könnten. 74 00:03:55,977 --> 00:03:59,378 Andernfalls machen wir uns anfällig gegenüber denen, die Daten benutzen, 75 00:03:59,378 --> 00:04:02,839 um uns zu manipulieren und ihre eigenen Interessen zu befördern.