WEBVTT 00:00:06.576 --> 00:00:09.077 Statistiken überzeugen. 00:00:09.077 --> 00:00:12.541 So sehr, dass Menschen, Organisationen und ganze Länder 00:00:12.541 --> 00:00:17.747 ihre wichtigsten Entscheidungen auf strukturierte Daten gründen. 00:00:17.747 --> 00:00:19.484 Aber darin liegt das Problem. 00:00:19.484 --> 00:00:23.301 In allen statistischen Daten hält sich vielleicht etwas versteckt, 00:00:23.301 --> 00:00:27.251 dass die Befunde auf den Kopf stellt. 00:00:27.251 --> 00:00:30.920 Zum Beispiel: Angenommen, man muss zwischen zwei Krankenhäusern wählen, 00:00:30.920 --> 00:00:33.737 weil ein älterer Angehöriger operiert werden muss. 00:00:33.737 --> 00:00:36.434 Von den letzten 1000 Patienten der beiden Krankenhäuser 00:00:36.434 --> 00:00:39.612 überlebten 900 in Klinik A, 00:00:39.612 --> 00:00:43.021 wohingegen nur 800 in Klinik B überlebten. 00:00:43.021 --> 00:00:46.120 Also scheint Klinik A die bessere Wahl zu sein. 00:00:46.120 --> 00:00:48.693 Aber bevor man sich entscheidet, sollte man bedenken, 00:00:48.693 --> 00:00:51.411 dass Patienten nicht mit dem gleichen Gesundheitszustand 00:00:51.411 --> 00:00:53.811 ins Krankenhaus aufgenommen werden. 00:00:53.811 --> 00:00:56.703 Wenn man die letzten 1000 Patienten von beiden Krankenhäusern 00:00:56.703 --> 00:01:01.132 in jene bei guter Gesundheit und solche bei schlechter Gesundheit einteilt, 00:01:01.132 --> 00:01:03.772 sieht die Sache ganz anders aus. 00:01:03.772 --> 00:01:07.849 Klinik A hatte nur 100 Patienten bei schlechter Gesundheit aufgenommen, 00:01:07.849 --> 00:01:10.325 von denen 30 überlebten. 00:01:10.325 --> 00:01:14.852 Aber Klinik B hatte 400 und sie konnten 210 retten. 00:01:14.852 --> 00:01:19.309 Also ist Klinik B für Patienten bei schlechter Gesundheit 00:01:19.309 --> 00:01:24.461 mit einer Überlebensrate von 52,5 % die bessere Wahl. 00:01:24.461 --> 00:01:27.255 Was, wenn man den Angehörigen bei guter Gesundheit 00:01:27.255 --> 00:01:28.585 ins Krankenhaus aufnimmt? 00:01:28.585 --> 00:01:32.271 Merkwürdigerweise ist Klinik B mit einer Überlebensrate von über 98 % 00:01:32.271 --> 00:01:35.676 immer noch die bessere Wahl. 00:01:35.676 --> 00:01:38.933 Wie kann Klinik A eine bessere Gesamtüberlebensrate haben, 00:01:38.933 --> 00:01:40.720 wenn Klinik B 00:01:40.720 --> 00:01:44.830 die besseren Überlebensraten bei beiden Patientengruppen hat? 00:01:44.830 --> 00:01:48.589 Worauf wir zufällig stießen, ist ein Fall des Simpson-Paradoxon, 00:01:48.589 --> 00:01:51.899 bei dem dieselbe Reihe von Daten, je nachdem wie sie gruppiert sind, 00:01:51.899 --> 00:01:54.664 gegenläufige Tendenzen zu zeigen scheinen. 00:01:54.664 --> 00:01:57.524 Das geschieht häufig, wenn aggregierte Daten 00:01:57.524 --> 00:02:01.377 eine Bedingungsvariable verbergen, auch als Störvariable bekannt, 00:02:01.377 --> 00:02:03.584 die ein verborgener, zusätzlicher Faktor ist, 00:02:03.584 --> 00:02:06.584 der Ergebnisse signifikant beeinflusst. 00:02:06.584 --> 00:02:10.023 Hier ist der versteckte Faktor der relative Anteil von Patienten 00:02:10.023 --> 00:02:13.264 bei guter oder schlechter Gesundheit. 00:02:13.264 --> 00:02:16.544 Das Simpson-Paradoxon ist nicht nur ein hypothetisches Szenario. 00:02:16.544 --> 00:02:19.134 Es tritt von Zeit zu Zeit in der wirklichen Welt auf, 00:02:19.134 --> 00:02:22.132 manchmal in wichtigen Zusammenhängen. 00:02:22.132 --> 00:02:25.120 Einer Studie im Vereinigten Königreich zufolge, 00:02:25.120 --> 00:02:28.740 schien die Überlebensrate von Rauchern über einen Zeitraum von zwanzig Jahren 00:02:28.740 --> 00:02:30.516 höher wäre als die von Nichtrauchern. 00:02:30.516 --> 00:02:34.787 Zumindest bis die Unterteilung der Teilnehmer in Altersgruppen zeigte, 00:02:34.787 --> 00:02:37.723 dass die Nichtraucher im Durchschnitt signifikant älter waren 00:02:37.723 --> 00:02:41.450 und daher mit höherer Wahscheinlichkeit während des Versuchszeitraums starben, 00:02:41.450 --> 00:02:44.498 die Raucher im Allgemeinen länger lebten. 00:02:44.498 --> 00:02:47.286 Hier sind die Altersgruppen die Störvariablen 00:02:47.286 --> 00:02:50.176 und äußerst wichtig, um die Daten korrekt zu deuten. 00:02:50.176 --> 00:02:51.559 In einem weiteren Beispiel 00:02:51.559 --> 00:02:54.281 schien die Analyse der Fälle mit Todesstrafen aus Florida 00:02:54.281 --> 00:02:56.381 keine ethnische Ungleichverteilung 00:02:56.381 --> 00:02:58.905 zwischen schwarzen und weißen Mordangeklagten 00:02:58.905 --> 00:03:01.581 bei der Verurteilung aufzudecken. 00:03:01.581 --> 00:03:04.946 Die anhand der "Rasse" der Opfer eingeteilten Fälle 00:03:04.946 --> 00:03:06.396 sagten aber etwas anderes. 00:03:06.396 --> 00:03:08.609 Bei beiden Sachlagen wurden schwarze Angeklagte 00:03:08.609 --> 00:03:11.091 mit höherer Wahrscheinlichkeit zum Tode verurteilt. 00:03:11.091 --> 00:03:15.066 Die etwas höhere Verurteilungsrate für weiße Angeklagte insgesamt 00:03:15.066 --> 00:03:18.692 ergab sich infolge der Tatsache, dass Fälle mit weißen Opfern 00:03:18.692 --> 00:03:21.729 mit höherer Wahrscheinlichkeit ein Todesurteil hervorriefen 00:03:21.729 --> 00:03:24.091 als Fälle mit schwarzen Opfern; 00:03:24.091 --> 00:03:28.483 und die meisten Morde geschahen zwischen Menschen derselben "Rasse". 00:03:28.483 --> 00:03:31.319 Wie vermeiden wir also auf das Paradoxon hereinzufallen? 00:03:31.319 --> 00:03:34.686 Leider gibt es keine allgemeingültige Antwort. 00:03:34.686 --> 00:03:38.504 Daten können auf unzählige Arten gruppiert und unterteilt werden 00:03:38.504 --> 00:03:42.106 und Gesamtzahlen können manchmal ein genaueres Bild zeichnen 00:03:42.106 --> 00:03:46.638 als Daten, die man in irreführende oder willkürliche Kategorien einteilt. 00:03:46.638 --> 00:03:50.969 Alles was wir tun können, ist, die tatsächlichen Sachverhalte, 00:03:50.969 --> 00:03:53.089 die Statistiken beschreiben, zu untersuchen 00:03:53.089 --> 00:03:55.977 und zu überlegen, ob Störvariablen vorhanden sein könnten. 00:03:55.977 --> 00:03:59.378 Andernfalls machen wir uns anfällig gegenüber denen, die Daten benutzen, 00:03:59.378 --> 00:04:02.839 um uns zu manipulieren und ihre eigenen Interessen zu befördern.