A statisztika meggyőző.

Olyannyira, hogy magánszemélyek, 
szervezetek, sőt egész országok

legfontosabb döntéseik némelyikét meg-
felelően kiválasztott adatokra alapozzák.

De van itt egy bökkenő.

A statisztikában megbújhat 
valami, ami teljesen

a feje tetejére állítja az eredményeket.

Képzeljük el pl., hogy választanunk 
kell két kórház között,

hogy melyikben műtsék idős rokonunkat.

A legutolsó 1000 eset közül
a túlélések száma

az A kórházban 900,

míg a B kórházban 800 volt.

Úgy látszik, hogy jobb 
az A kórházat választani.

De mielőtt döntenénk, ne feledjük,

hogy nem minden fölvett beteg

egészségi állapota azonos.

Ha mindkét kórház utolsó 1000 
betegét két csoportra osztjuk,

aszerint, hogy ki érkezett jó, 
és ki rossz állapotban,

a kép teljesen megváltozik.

Az A kórház 100 rossz állapotú
betegei közül

30 túlélő volt,

míg a B kórházba bekerült
400 közül 210-et meg tudtak menteni.

Így hát a B kórház a jobb választás

a rossz állapotban bekerülők számára,

52,5%-os túlélési aránnyal.

De mi a helyzet, ha a néni 
jó állapotban kerül kórházba?

Elég meglepő, hogy még mindig
a B kórház a jobb megoldás,

mert ott a túlélési arány 98%.

Hogyan lehet az általános túlélési
arány jobb az A kórházban,

ha a B kórházban a túlélési arány 
mindkét csoport esetében jobb?

Belebotlottunk az ún. Simpson-paradoxonba,

ahol ugyanazokból az adatokból 
a csoportosításuktól függően

ellentétes eredményre juthatunk.

Ilyen gyakran előadódhat, ha az aggregált
adatok feltételes változót rejtenek.

Ezt néha lappangó változónak nevezzük,

ami az eredményt szignifikánsan 
befolyásoló rejtett kiegészítő tényező.

Itt a rejtett tényező
a jó és a rossz állapotban érkező

betegek relatív aránya.

A Simpson-paradoxon 
nem mondvacsinált jelenség,

időről-időre előfordul a gyakorlatban,

néha fontos összefüggésben.

Egy kutatás az Egyesült Királyságban

kimutatta, hogy egy 20 éves időszakban
a dohányzók túlélési aránya nagyobb volt,

mint a nemdohányzóké.

Ez a helyzet, amíg a vizsgáltak 
korcsoportokra bontása meg nem mutatta,

hogy a nemdohányzók átlagos kora 
szignifikánsan magasabb volt,

és így valószínűbb, hogy a vizsgált 
időszakban meghalnak,

pont azért, mert általában 
már idősebbek voltak.

Itt a korcsoport a lappangó változó.

Rendkívül fontos, hogy helyesen 
értelmezzük az adatokat.

Egy másik példában

a floridai halálbüntetéseket elemezve

úgy látszott, hogy az ítéletekben nem 
mutatható ki rasszista megkülönböztetés

a gyilkossággal vádolt feketék 
és fehérek között.

Ám az áldozatok bőrszíne szerint felosztva
az ügyeket, egészen más kép tárul elénk.

Bármely esetben

a feketéket nagyobb 
valószínűséggel ítélték halálra.

A fehér vádlottak kissé nagyobb 
elítélési arányát az magyarázza,

hogy fehér áldozat esetén

esélyesebb volt a halálos ítélet,

mint fekete áldozat esetében,

és a legtöbb gyilkosság azonos 
bőrszínűek között történt.

Miként kerülhetjük el, 
hogy bedőljünk a paradoxonnak?

Sajnos, nincs általános recept.

Az adatokat sokféleképpen 
csoportosíthatjuk vagy oszthatjuk föl,

és néha, ha mindent számba veszünk. 
pontosabb képet kapunk,

mint a félrevezető vagy önkényes 
kategorizálás alapján.

Csak az segít, ha gondosan megvizsgáljuk
a statisztika által leírt helyzetet,

és figyelünk, hogy vannak-e
lappangó változók.

Különben azok hálójába kerülünk,

akik másokat adatokkal manipulálnak 
önző céljaik érdekében.