A statisztika meggyőző.
Olyannyira, hogy magánszemélyek,
szervezetek, sőt egész országok
legfontosabb döntéseik némelyikét meg-
felelően kiválasztott adatokra alapozzák.
De van itt egy bökkenő.
A statisztikában megbújhat
valami, ami teljesen
a feje tetejére állítja az eredményeket.
Képzeljük el pl., hogy választanunk
kell két kórház között,
hogy melyikben műtsék idős rokonunkat.
A legutolsó 1000 eset közül
a túlélések száma
az A kórházban 900,
míg a B kórházban 800 volt.
Úgy látszik, hogy jobb
az A kórházat választani.
De mielőtt döntenénk, ne feledjük,
hogy nem minden fölvett beteg
egészségi állapota azonos.
Ha mindkét kórház utolsó 1000
betegét két csoportra osztjuk,
aszerint, hogy ki érkezett jó,
és ki rossz állapotban,
a kép teljesen megváltozik.
Az A kórház 100 rossz állapotú
betegei közül
30 túlélő volt,
míg a B kórházba bekerült
400 közül 210-et meg tudtak menteni.
Így hát a B kórház a jobb választás
a rossz állapotban bekerülők számára,
52,5%-os túlélési aránnyal.
De mi a helyzet, ha a néni
jó állapotban kerül kórházba?
Elég meglepő, hogy még mindig
a B kórház a jobb megoldás,
mert ott a túlélési arány 98%.
Hogyan lehet az általános túlélési
arány jobb az A kórházban,
ha a B kórházban a túlélési arány
mindkét csoport esetében jobb?
Belebotlottunk az ún. Simpson-paradoxonba,
ahol ugyanazokból az adatokból
a csoportosításuktól függően
ellentétes eredményre juthatunk.
Ilyen gyakran előadódhat, ha az aggregált
adatok feltételes változót rejtenek.
Ezt néha lappangó változónak nevezzük,
ami az eredményt szignifikánsan
befolyásoló rejtett kiegészítő tényező.
Itt a rejtett tényező
a jó és a rossz állapotban érkező
betegek relatív aránya.
A Simpson-paradoxon
nem mondvacsinált jelenség,
időről-időre előfordul a gyakorlatban,
néha fontos összefüggésben.
Egy kutatás az Egyesült Királyságban
kimutatta, hogy egy 20 éves időszakban
a dohányzók túlélési aránya nagyobb volt,
mint a nemdohányzóké.
Ez a helyzet, amíg a vizsgáltak
korcsoportokra bontása meg nem mutatta,
hogy a nemdohányzók átlagos kora
szignifikánsan magasabb volt,
és így valószínűbb, hogy a vizsgált
időszakban meghalnak,
pont azért, mert általában
már idősebbek voltak.
Itt a korcsoport a lappangó változó.
Rendkívül fontos, hogy helyesen
értelmezzük az adatokat.
Egy másik példában
a floridai halálbüntetéseket elemezve
úgy látszott, hogy az ítéletekben nem
mutatható ki rasszista megkülönböztetés
a gyilkossággal vádolt feketék
és fehérek között.
Ám az áldozatok bőrszíne szerint felosztva
az ügyeket, egészen más kép tárul elénk.
Bármely esetben
a feketéket nagyobb
valószínűséggel ítélték halálra.
A fehér vádlottak kissé nagyobb
elítélési arányát az magyarázza,
hogy fehér áldozat esetén
esélyesebb volt a halálos ítélet,
mint fekete áldozat esetében,
és a legtöbb gyilkosság azonos
bőrszínűek között történt.
Miként kerülhetjük el,
hogy bedőljünk a paradoxonnak?
Sajnos, nincs általános recept.
Az adatokat sokféleképpen
csoportosíthatjuk vagy oszthatjuk föl,
és néha, ha mindent számba veszünk.
pontosabb képet kapunk,
mint a félrevezető vagy önkényes
kategorizálás alapján.
Csak az segít, ha gondosan megvizsgáljuk
a statisztika által leírt helyzetet,
és figyelünk, hogy vannak-e
lappangó változók.
Különben azok hálójába kerülünk,
akik másokat adatokkal manipulálnak
önző céljaik érdekében.