A statisztika meggyőző. Olyannyira, hogy magánszemélyek, szervezetek, sőt egész országok legfontosabb döntéseik némelyikét meg- felelően kiválasztott adatokra alapozzák. De van itt egy bökkenő. A statisztikában megbújhat valami, ami teljesen a feje tetejére állítja az eredményeket. Képzeljük el pl., hogy választanunk kell két kórház között, hogy melyikben műtsék idős rokonunkat. A legutolsó 1000 eset közül a túlélések száma az A kórházban 900, míg a B kórházban 800 volt. Úgy látszik, hogy jobb az A kórházat választani. De mielőtt döntenénk, ne feledjük, hogy nem minden fölvett beteg egészségi állapota azonos. Ha mindkét kórház utolsó 1000 betegét két csoportra osztjuk, aszerint, hogy ki érkezett jó, és ki rossz állapotban, a kép teljesen megváltozik. Az A kórház 100 rossz állapotú betegei közül 30 túlélő volt, míg a B kórházba bekerült 400 közül 210-et meg tudtak menteni. Így hát a B kórház a jobb választás a rossz állapotban bekerülők számára, 52,5%-os túlélési aránnyal. De mi a helyzet, ha a néni jó állapotban kerül kórházba? Elég meglepő, hogy még mindig a B kórház a jobb megoldás, mert ott a túlélési arány 98%. Hogyan lehet az általános túlélési arány jobb az A kórházban, ha a B kórházban a túlélési arány mindkét csoport esetében jobb? Belebotlottunk az ún. Simpson-paradoxonba, ahol ugyanazokból az adatokból a csoportosításuktól függően ellentétes eredményre juthatunk. Ilyen gyakran előadódhat, ha az aggregált adatok feltételes változót rejtenek. Ezt néha lappangó változónak nevezzük, ami az eredményt szignifikánsan befolyásoló rejtett kiegészítő tényező. Itt a rejtett tényező a jó és a rossz állapotban érkező betegek relatív aránya. A Simpson-paradoxon nem mondvacsinált jelenség, időről-időre előfordul a gyakorlatban, néha fontos összefüggésben. Egy kutatás az Egyesült Királyságban kimutatta, hogy egy 20 éves időszakban a dohányzók túlélési aránya nagyobb volt, mint a nemdohányzóké. Ez a helyzet, amíg a vizsgáltak korcsoportokra bontása meg nem mutatta, hogy a nemdohányzók átlagos kora szignifikánsan magasabb volt, és így valószínűbb, hogy a vizsgált időszakban meghalnak, pont azért, mert általában már idősebbek voltak. Itt a korcsoport a lappangó változó. Rendkívül fontos, hogy helyesen értelmezzük az adatokat. Egy másik példában a floridai halálbüntetéseket elemezve úgy látszott, hogy az ítéletekben nem mutatható ki rasszista megkülönböztetés a gyilkossággal vádolt feketék és fehérek között. Ám az áldozatok bőrszíne szerint felosztva az ügyeket, egészen más kép tárul elénk. Bármely esetben a feketéket nagyobb valószínűséggel ítélték halálra. A fehér vádlottak kissé nagyobb elítélési arányát az magyarázza, hogy fehér áldozat esetén esélyesebb volt a halálos ítélet, mint fekete áldozat esetében, és a legtöbb gyilkosság azonos bőrszínűek között történt. Miként kerülhetjük el, hogy bedőljünk a paradoxonnak? Sajnos, nincs általános recept. Az adatokat sokféleképpen csoportosíthatjuk vagy oszthatjuk föl, és néha, ha mindent számba veszünk. pontosabb képet kapunk, mint a félrevezető vagy önkényes kategorizálás alapján. Csak az segít, ha gondosan megvizsgáljuk a statisztika által leírt helyzetet, és figyelünk, hogy vannak-e lappangó változók. Különben azok hálójába kerülünk, akik másokat adatokkal manipulálnak önző céljaik érdekében.