Statistiken überzeugen.
So sehr, dass Menschen,
Organisationen und ganze Länder
ihre wichtigsten Entscheidungen
auf strukturierte Daten gründen.
Aber darin liegt das Problem.
In allen statistischen Daten
hält sich vielleicht etwas versteckt,
dass die Befunde auf den Kopf stellt.
Zum Beispiel: Angenommen, man muss
zwischen zwei Krankenhäusern wählen,
weil ein älterer Angehöriger
operiert werden muss.
Von den letzten 1000 Patienten
der beiden Krankenhäuser
überlebten 900 in Klinik A,
wohingegen nur 800 in Klinik B überlebten.
Also scheint Klinik A
die bessere Wahl zu sein.
Aber bevor man sich entscheidet,
sollte man bedenken,
dass Patienten nicht mit dem
gleichen Gesundheitszustand
ins Krankenhaus aufgenommen werden.
Wenn man die letzten 1000 Patienten
von beiden Krankenhäusern
in jene bei guter Gesundheit und solche
bei schlechter Gesundheit einteilt,
sieht die Sache ganz anders aus.
Klinik A hatte nur 100 Patienten
bei schlechter Gesundheit aufgenommen,
von denen 30 überlebten.
Aber Klinik B hatte 400
und sie konnten 210 retten.
Also ist Klinik B für Patienten
bei schlechter Gesundheit
mit einer Überlebensrate
von 52,5 % die bessere Wahl.
Was, wenn man den Angehörigen
bei guter Gesundheit
ins Krankenhaus aufnimmt?
Merkwürdigerweise ist Klinik B
mit einer Überlebensrate von über 98 %
immer noch die bessere Wahl.
Wie kann Klinik A eine bessere
Gesamtüberlebensrate haben,
wenn Klinik B
die besseren Überlebensraten
bei beiden Patientengruppen hat?
Worauf wir zufällig stießen,
ist ein Fall des Simpson-Paradoxon,
bei dem dieselbe Reihe von Daten,
je nachdem wie sie gruppiert sind,
gegenläufige Tendenzen zu zeigen scheinen.
Das geschieht häufig,
wenn aggregierte Daten
eine Bedingungsvariable verbergen,
auch als Störvariable bekannt,
die ein verborgener,
zusätzlicher Faktor ist,
der Ergebnisse signifikant beeinflusst.
Hier ist der versteckte Faktor
der relative Anteil von Patienten
bei guter oder schlechter Gesundheit.
Das Simpson-Paradoxon ist nicht nur
ein hypothetisches Szenario.
Es tritt von Zeit zu Zeit
in der wirklichen Welt auf,
manchmal in wichtigen Zusammenhängen.
Einer Studie im Vereinigten
Königreich zufolge,
schien die Überlebensrate von Rauchern
über einen Zeitraum von zwanzig Jahren
höher wäre als die von Nichtrauchern.
Zumindest bis die Unterteilung
der Teilnehmer in Altersgruppen zeigte,
dass die Nichtraucher im Durchschnitt
signifikant älter waren
und daher mit höherer Wahscheinlichkeit
während des Versuchszeitraums starben,
die Raucher im Allgemeinen länger lebten.
Hier sind die Altersgruppen
die Störvariablen
und äußerst wichtig,
um die Daten korrekt zu deuten.
In einem weiteren Beispiel
schien die Analyse der Fälle
mit Todesstrafen aus Florida
keine ethnische Ungleichverteilung
zwischen schwarzen
und weißen Mordangeklagten
bei der Verurteilung aufzudecken.
Die anhand der "Rasse"
der Opfer eingeteilten Fälle
sagten aber etwas anderes.
Bei beiden Sachlagen
wurden schwarze Angeklagte
mit höherer Wahrscheinlichkeit
zum Tode verurteilt.
Die etwas höhere Verurteilungsrate
für weiße Angeklagte insgesamt
ergab sich infolge der Tatsache,
dass Fälle mit weißen Opfern
mit höherer Wahrscheinlichkeit
ein Todesurteil hervorriefen
als Fälle mit schwarzen Opfern;
und die meisten Morde geschahen
zwischen Menschen derselben "Rasse".
Wie vermeiden wir also
auf das Paradoxon hereinzufallen?
Leider gibt es keine
allgemeingültige Antwort.
Daten können auf unzählige Arten
gruppiert und unterteilt werden
und Gesamtzahlen können manchmal
ein genaueres Bild zeichnen
als Daten, die man in irreführende
oder willkürliche Kategorien einteilt.
Alles was wir tun können, ist,
die tatsächlichen Sachverhalte,
die Statistiken beschreiben,
zu untersuchen
und zu überlegen, ob Störvariablen
vorhanden sein könnten.
Andernfalls machen wir uns anfällig
gegenüber denen, die Daten benutzen,
um uns zu manipulieren
und ihre eigenen Interessen zu befördern.