0:00:06.576,0:00:09.077 Statistiken überzeugen. 0:00:09.077,0:00:12.541 So sehr, dass Menschen,[br]Organisationen und ganze Länder 0:00:12.541,0:00:17.747 ihre wichtigsten Entscheidungen[br]auf strukturierte Daten gründen. 0:00:17.747,0:00:19.484 Aber darin liegt das Problem. 0:00:19.484,0:00:23.301 In allen statistischen Daten[br]hält sich vielleicht etwas versteckt, 0:00:23.301,0:00:27.251 dass die Befunde auf den Kopf stellt. 0:00:27.251,0:00:30.920 Zum Beispiel: Angenommen, man muss[br]zwischen zwei Krankenhäusern wählen, 0:00:30.920,0:00:33.737 weil ein älterer Angehöriger[br]operiert werden muss. 0:00:33.737,0:00:36.434 Von den letzten 1000 Patienten[br]der beiden Krankenhäuser 0:00:36.434,0:00:39.612 überlebten 900 in Klinik A, 0:00:39.612,0:00:43.021 wohingegen nur 800 in Klinik B überlebten. 0:00:43.021,0:00:46.120 Also scheint Klinik A[br]die bessere Wahl zu sein. 0:00:46.120,0:00:48.693 Aber bevor man sich entscheidet,[br]sollte man bedenken, 0:00:48.693,0:00:51.411 dass Patienten nicht mit dem[br]gleichen Gesundheitszustand[br] 0:00:51.411,0:00:53.811 ins Krankenhaus aufgenommen werden. 0:00:53.811,0:00:56.703 Wenn man die letzten 1000 Patienten[br]von beiden Krankenhäusern 0:00:56.703,0:01:01.132 in jene bei guter Gesundheit und solche[br]bei schlechter Gesundheit einteilt, 0:01:01.132,0:01:03.772 sieht die Sache ganz anders aus. 0:01:03.772,0:01:07.849 Klinik A hatte nur 100 Patienten[br]bei schlechter Gesundheit aufgenommen, 0:01:07.849,0:01:10.325 von denen 30 überlebten. 0:01:10.325,0:01:14.852 Aber Klinik B hatte 400[br]und sie konnten 210 retten. 0:01:14.852,0:01:19.309 Also ist Klinik B für Patienten[br]bei schlechter Gesundheit 0:01:19.309,0:01:24.461 mit einer Überlebensrate[br]von 52,5 % die bessere Wahl. 0:01:24.461,0:01:27.255 Was, wenn man den Angehörigen[br]bei guter Gesundheit 0:01:27.255,0:01:28.585 ins Krankenhaus aufnimmt? 0:01:28.585,0:01:32.271 Merkwürdigerweise ist Klinik B[br]mit einer Überlebensrate von über 98 % 0:01:32.271,0:01:35.676 immer noch die bessere Wahl. 0:01:35.676,0:01:38.933 Wie kann Klinik A eine bessere[br]Gesamtüberlebensrate haben, 0:01:38.933,0:01:40.720 wenn Klinik B 0:01:40.720,0:01:44.830 die besseren Überlebensraten[br]bei beiden Patientengruppen hat? 0:01:44.830,0:01:48.589 Worauf wir zufällig stießen,[br]ist ein Fall des Simpson-Paradoxon, 0:01:48.589,0:01:51.899 bei dem dieselbe Reihe von Daten,[br]je nachdem wie sie gruppiert sind, 0:01:51.899,0:01:54.664 gegenläufige Tendenzen zu zeigen scheinen. 0:01:54.664,0:01:57.524 Das geschieht häufig,[br]wenn aggregierte Daten 0:01:57.524,0:02:01.377 eine Bedingungsvariable verbergen,[br]auch als Störvariable bekannt, 0:02:01.377,0:02:03.584 die ein verborgener,[br]zusätzlicher Faktor ist, 0:02:03.584,0:02:06.584 der Ergebnisse signifikant beeinflusst. 0:02:06.584,0:02:10.023 Hier ist der versteckte Faktor[br]der relative Anteil von Patienten 0:02:10.023,0:02:13.264 bei guter oder schlechter Gesundheit. 0:02:13.264,0:02:16.544 Das Simpson-Paradoxon ist nicht nur[br]ein hypothetisches Szenario. 0:02:16.544,0:02:19.134 Es tritt von Zeit zu Zeit[br]in der wirklichen Welt auf, 0:02:19.134,0:02:22.132 manchmal in wichtigen Zusammenhängen. 0:02:22.132,0:02:25.120 Einer Studie im Vereinigten[br]Königreich zufolge, 0:02:25.120,0:02:28.740 schien die Überlebensrate von Rauchern[br]über einen Zeitraum von zwanzig Jahren 0:02:28.740,0:02:30.516 höher wäre als die von Nichtrauchern. 0:02:30.516,0:02:34.787 Zumindest bis die Unterteilung[br]der Teilnehmer in Altersgruppen zeigte, 0:02:34.787,0:02:37.723 dass die Nichtraucher im Durchschnitt[br]signifikant älter waren 0:02:37.723,0:02:41.450 und daher mit höherer Wahscheinlichkeit[br]während des Versuchszeitraums starben, 0:02:41.450,0:02:44.498 die Raucher im Allgemeinen länger lebten. 0:02:44.498,0:02:47.286 Hier sind die Altersgruppen[br]die Störvariablen 0:02:47.286,0:02:50.176 und äußerst wichtig,[br]um die Daten korrekt zu deuten. 0:02:50.176,0:02:51.559 In einem weiteren Beispiel 0:02:51.559,0:02:54.281 schien die Analyse der Fälle[br]mit Todesstrafen aus Florida 0:02:54.281,0:02:56.381 keine ethnische Ungleichverteilung[br] 0:02:56.381,0:02:58.905 zwischen schwarzen[br]und weißen Mordangeklagten 0:02:58.905,0:03:01.581 bei der Verurteilung aufzudecken. 0:03:01.581,0:03:04.946 Die anhand der "Rasse"[br]der Opfer eingeteilten Fälle 0:03:04.946,0:03:06.396 sagten aber etwas anderes. 0:03:06.396,0:03:08.609 Bei beiden Sachlagen[br]wurden schwarze Angeklagte 0:03:08.609,0:03:11.091 mit höherer Wahrscheinlichkeit[br]zum Tode verurteilt. 0:03:11.091,0:03:15.066 Die etwas höhere Verurteilungsrate[br]für weiße Angeklagte insgesamt 0:03:15.066,0:03:18.692 ergab sich infolge der Tatsache,[br]dass Fälle mit weißen Opfern 0:03:18.692,0:03:21.729 mit höherer Wahrscheinlichkeit[br]ein Todesurteil hervorriefen 0:03:21.729,0:03:24.091 als Fälle mit schwarzen Opfern; 0:03:24.091,0:03:28.483 und die meisten Morde geschahen[br]zwischen Menschen derselben "Rasse". 0:03:28.483,0:03:31.319 Wie vermeiden wir also[br]auf das Paradoxon hereinzufallen? 0:03:31.319,0:03:34.686 Leider gibt es keine[br]allgemeingültige Antwort. 0:03:34.686,0:03:38.504 Daten können auf unzählige Arten[br]gruppiert und unterteilt werden 0:03:38.504,0:03:42.106 und Gesamtzahlen können manchmal[br]ein genaueres Bild zeichnen 0:03:42.106,0:03:46.638 als Daten, die man in irreführende[br]oder willkürliche Kategorien einteilt. 0:03:46.638,0:03:50.969 Alles was wir tun können, ist,[br]die tatsächlichen Sachverhalte, 0:03:50.969,0:03:53.089 die Statistiken beschreiben,[br]zu untersuchen 0:03:53.089,0:03:55.977 und zu überlegen, ob Störvariablen[br]vorhanden sein könnten. 0:03:55.977,0:03:59.378 Andernfalls machen wir uns anfällig[br]gegenüber denen, die Daten benutzen, 0:03:59.378,0:04:02.839 um uns zu manipulieren[br]und ihre eigenen Interessen zu befördern.