WEBVTT

00:00:06.576 --> 00:00:09.077
Statistiken überzeugen.

00:00:09.077 --> 00:00:12.541
So sehr, dass Menschen,
Organisationen und ganze Länder

00:00:12.541 --> 00:00:17.747
ihre wichtigsten Entscheidungen
auf strukturierte Daten gründen.

00:00:17.747 --> 00:00:19.484
Aber darin liegt das Problem.

00:00:19.484 --> 00:00:23.301
In allen statistischen Daten
hält sich vielleicht etwas versteckt,

00:00:23.301 --> 00:00:27.251
dass die Befunde auf den Kopf stellt.

00:00:27.251 --> 00:00:30.920
Zum Beispiel: Angenommen, man muss
zwischen zwei Krankenhäusern wählen,

00:00:30.920 --> 00:00:33.737
weil ein älterer Angehöriger
operiert werden muss.

00:00:33.737 --> 00:00:36.434
Von den letzten 1000 Patienten
der beiden Krankenhäuser

00:00:36.434 --> 00:00:39.612
überlebten 900 in Klinik A,

00:00:39.612 --> 00:00:43.021
wohingegen nur 800 in Klinik B überlebten.

00:00:43.021 --> 00:00:46.120
Also scheint Klinik A
die bessere Wahl zu sein.

00:00:46.120 --> 00:00:48.693
Aber bevor man sich entscheidet,
sollte man bedenken,

00:00:48.693 --> 00:00:51.411
dass Patienten nicht mit dem
gleichen Gesundheitszustand


00:00:51.411 --> 00:00:53.811
ins Krankenhaus aufgenommen werden.

00:00:53.811 --> 00:00:56.703
Wenn man die letzten 1000 Patienten
von beiden Krankenhäusern

00:00:56.703 --> 00:01:01.132
in jene bei guter Gesundheit und solche
bei schlechter Gesundheit einteilt,

00:01:01.132 --> 00:01:03.772
sieht die Sache ganz anders aus.

00:01:03.772 --> 00:01:07.849
Klinik A hatte nur 100 Patienten
bei schlechter Gesundheit aufgenommen,

00:01:07.849 --> 00:01:10.325
von denen 30 überlebten.

00:01:10.325 --> 00:01:14.852
Aber Klinik B hatte 400
und sie konnten 210 retten.

00:01:14.852 --> 00:01:19.309
Also ist Klinik B für Patienten
bei schlechter Gesundheit

00:01:19.309 --> 00:01:24.461
mit einer Überlebensrate
von 52,5 % die bessere Wahl.

00:01:24.461 --> 00:01:27.255
Was, wenn man den Angehörigen
bei guter Gesundheit

00:01:27.255 --> 00:01:28.585
ins Krankenhaus aufnimmt?

00:01:28.585 --> 00:01:32.271
Merkwürdigerweise ist Klinik B
mit einer Überlebensrate von über 98 %

00:01:32.271 --> 00:01:35.676
immer noch die bessere Wahl.

00:01:35.676 --> 00:01:38.933
Wie kann Klinik A eine bessere
Gesamtüberlebensrate haben,

00:01:38.933 --> 00:01:40.720
wenn Klinik B

00:01:40.720 --> 00:01:44.830
die besseren Überlebensraten
bei beiden Patientengruppen hat?

00:01:44.830 --> 00:01:48.589
Worauf wir zufällig stießen,
ist ein Fall des Simpson-Paradoxon,

00:01:48.589 --> 00:01:51.899
bei dem dieselbe Reihe von Daten,
je nachdem wie sie gruppiert sind,

00:01:51.899 --> 00:01:54.664
gegenläufige Tendenzen zu zeigen scheinen.

00:01:54.664 --> 00:01:57.524
Das geschieht häufig,
wenn aggregierte Daten

00:01:57.524 --> 00:02:01.377
eine Bedingungsvariable verbergen,
auch als Störvariable bekannt,

00:02:01.377 --> 00:02:03.584
die ein verborgener,
zusätzlicher Faktor ist,

00:02:03.584 --> 00:02:06.584
der Ergebnisse signifikant beeinflusst.

00:02:06.584 --> 00:02:10.023
Hier ist der versteckte Faktor
der relative Anteil von Patienten

00:02:10.023 --> 00:02:13.264
bei guter oder schlechter Gesundheit.

00:02:13.264 --> 00:02:16.544
Das Simpson-Paradoxon ist nicht nur
ein hypothetisches Szenario.

00:02:16.544 --> 00:02:19.134
Es tritt von Zeit zu Zeit
in der wirklichen Welt auf,

00:02:19.134 --> 00:02:22.132
manchmal in wichtigen Zusammenhängen.

00:02:22.132 --> 00:02:25.120
Einer Studie im Vereinigten
Königreich zufolge,

00:02:25.120 --> 00:02:28.740
schien die Überlebensrate von Rauchern
über einen Zeitraum von zwanzig Jahren

00:02:28.740 --> 00:02:30.516
höher wäre als die von Nichtrauchern.

00:02:30.516 --> 00:02:34.787
Zumindest bis die Unterteilung
der Teilnehmer in Altersgruppen zeigte,

00:02:34.787 --> 00:02:37.723
dass die Nichtraucher im Durchschnitt
signifikant älter waren

00:02:37.723 --> 00:02:41.450
und daher mit höherer Wahscheinlichkeit
während des Versuchszeitraums starben,

00:02:41.450 --> 00:02:44.498
die Raucher im Allgemeinen länger lebten.

00:02:44.498 --> 00:02:47.286
Hier sind die Altersgruppen
die Störvariablen

00:02:47.286 --> 00:02:50.176
und äußerst wichtig,
um die Daten korrekt zu deuten.

00:02:50.176 --> 00:02:51.559
In einem weiteren Beispiel

00:02:51.559 --> 00:02:54.281
schien die Analyse der Fälle
mit Todesstrafen aus Florida

00:02:54.281 --> 00:02:56.381
keine ethnische Ungleichverteilung


00:02:56.381 --> 00:02:58.905
zwischen schwarzen
und weißen Mordangeklagten

00:02:58.905 --> 00:03:01.581
bei der Verurteilung aufzudecken.

00:03:01.581 --> 00:03:04.946
Die anhand der "Rasse"
der Opfer eingeteilten Fälle

00:03:04.946 --> 00:03:06.396
sagten aber etwas anderes.

00:03:06.396 --> 00:03:08.609
Bei beiden Sachlagen
wurden schwarze Angeklagte

00:03:08.609 --> 00:03:11.091
mit höherer Wahrscheinlichkeit
zum Tode verurteilt.

00:03:11.091 --> 00:03:15.066
Die etwas höhere Verurteilungsrate
für weiße Angeklagte insgesamt

00:03:15.066 --> 00:03:18.692
ergab sich infolge der Tatsache,
dass Fälle mit weißen Opfern

00:03:18.692 --> 00:03:21.729
mit höherer Wahrscheinlichkeit
ein Todesurteil hervorriefen

00:03:21.729 --> 00:03:24.091
als Fälle mit schwarzen Opfern;

00:03:24.091 --> 00:03:28.483
und die meisten Morde geschahen
zwischen Menschen derselben "Rasse".

00:03:28.483 --> 00:03:31.319
Wie vermeiden wir also
auf das Paradoxon hereinzufallen?

00:03:31.319 --> 00:03:34.686
Leider gibt es keine
allgemeingültige Antwort.

00:03:34.686 --> 00:03:38.504
Daten können auf unzählige Arten
gruppiert und unterteilt werden

00:03:38.504 --> 00:03:42.106
und Gesamtzahlen können manchmal
ein genaueres Bild zeichnen

00:03:42.106 --> 00:03:46.638
als Daten, die man in irreführende
oder willkürliche Kategorien einteilt.

00:03:46.638 --> 00:03:50.969
Alles was wir tun können, ist,
die tatsächlichen Sachverhalte,

00:03:50.969 --> 00:03:53.089
die Statistiken beschreiben,
zu untersuchen

00:03:53.089 --> 00:03:55.977
und zu überlegen, ob Störvariablen
vorhanden sein könnten.

00:03:55.977 --> 00:03:59.378
Andernfalls machen wir uns anfällig
gegenüber denen, die Daten benutzen,

00:03:59.378 --> 00:04:02.839
um uns zu manipulieren
und ihre eigenen Interessen zu befördern.