WEBVTT 00:00:06.636 --> 00:00:09.077 A statisztika meggyőző. 00:00:09.077 --> 00:00:12.541 Olyannyira, hogy magánszemélyek, szervezetek, sőt egész országok 00:00:12.541 --> 00:00:17.747 legfontosabb döntéseik némelyikét meg- felelően kiválasztott adatokra alapozzák. 00:00:17.747 --> 00:00:19.484 De van itt egy bökkenő. 00:00:19.484 --> 00:00:23.301 A statisztikában megbújhat valami, ami teljesen 00:00:23.301 --> 00:00:27.251 a feje tetejére állítja az eredményeket. 00:00:27.251 --> 00:00:30.920 Képzeljük el pl., hogy választanunk kell két kórház között, 00:00:30.920 --> 00:00:33.737 hogy melyikben műtsék idős rokonunkat. 00:00:33.737 --> 00:00:36.434 A legutolsó 1000 eset közül a túlélések száma 00:00:36.434 --> 00:00:39.612 az A kórházban 900, 00:00:39.612 --> 00:00:43.021 míg a B kórházban 800 volt. 00:00:43.021 --> 00:00:46.170 Úgy látszik, hogy jobb az A kórházat választani. 00:00:46.170 --> 00:00:47.843 De mielőtt döntenénk, ne feledjük, 00:00:47.843 --> 00:00:51.411 hogy nem minden fölvett beteg 00:00:51.411 --> 00:00:53.811 egészségi állapota azonos. 00:00:53.811 --> 00:00:56.703 Ha mindkét kórház utolsó 1000 betegét két csoportra osztjuk, 00:00:56.703 --> 00:01:01.132 aszerint, hogy ki érkezett jó, és ki rossz állapotban, 00:01:01.132 --> 00:01:03.772 a kép teljesen megváltozik. 00:01:03.772 --> 00:01:07.849 Az A kórház 100 rossz állapotú betegei közül 00:01:07.849 --> 00:01:10.325 30 túlélő volt, 00:01:10.325 --> 00:01:14.852 míg a B kórházba bekerült 400 közül 210-et meg tudtak menteni. 00:01:14.852 --> 00:01:17.169 Így hát a B kórház a jobb választás 00:01:17.169 --> 00:01:20.741 a rossz állapotban bekerülők számára, 00:01:20.741 --> 00:01:24.526 52,5%-os túlélési aránnyal. 00:01:24.526 --> 00:01:28.445 De mi a helyzet, ha a néni jó állapotban kerül kórházba? 00:01:28.445 --> 00:01:32.271 Elég meglepő, hogy még mindig a B kórház a jobb megoldás, 00:01:32.271 --> 00:01:35.676 mert ott a túlélési arány 98%. 00:01:35.676 --> 00:01:38.733 Hogyan lehet az általános túlélési arány jobb az A kórházban, 00:01:38.733 --> 00:01:44.830 ha a B kórházban a túlélési arány mindkét csoport esetében jobb? 00:01:44.830 --> 00:01:48.589 Belebotlottunk az ún. Simpson-paradoxonba, 00:01:48.589 --> 00:01:51.899 ahol ugyanazokból az adatokból a csoportosításuktól függően 00:01:51.899 --> 00:01:54.664 ellentétes eredményre juthatunk. 00:01:54.664 --> 00:01:58.744 Ilyen gyakran előadódhat, ha az aggregált adatok feltételes változót rejtenek. 00:01:58.744 --> 00:02:01.377 Ezt néha lappangó változónak nevezzük, 00:02:01.377 --> 00:02:06.584 ami az eredményt szignifikánsan befolyásoló rejtett kiegészítő tényező. 00:02:06.584 --> 00:02:10.023 Itt a rejtett tényező a jó és a rossz állapotban érkező 00:02:10.023 --> 00:02:13.264 betegek relatív aránya. 00:02:13.264 --> 00:02:16.544 A Simpson-paradoxon nem mondvacsinált jelenség, 00:02:16.544 --> 00:02:18.924 időről-időre előfordul a gyakorlatban, 00:02:18.924 --> 00:02:22.132 néha fontos összefüggésben. 00:02:22.132 --> 00:02:23.860 Egy kutatás az Egyesült Királyságban 00:02:23.860 --> 00:02:27.750 kimutatta, hogy egy 20 éves időszakban a dohányzók túlélési aránya nagyobb volt, 00:02:27.750 --> 00:02:29.846 mint a nemdohányzóké. 00:02:29.846 --> 00:02:33.307 Ez a helyzet, amíg a vizsgáltak korcsoportokra bontása meg nem mutatta, 00:02:33.307 --> 00:02:37.823 hogy a nemdohányzók átlagos kora szignifikánsan magasabb volt, 00:02:37.823 --> 00:02:40.930 és így valószínűbb, hogy a vizsgált időszakban meghalnak, 00:02:40.930 --> 00:02:44.438 pont azért, mert általában már idősebbek voltak. 00:02:44.438 --> 00:02:47.286 Itt a korcsoport a lappangó változó. 00:02:47.286 --> 00:02:50.176 Rendkívül fontos, hogy helyesen értelmezzük az adatokat. 00:02:50.176 --> 00:02:51.559 Egy másik példában 00:02:51.559 --> 00:02:54.281 a floridai halálbüntetéseket elemezve 00:02:54.281 --> 00:02:58.265 úgy látszott, hogy az ítéletekben nem mutatható ki rasszista megkülönböztetés 00:02:58.265 --> 00:03:01.581 a gyilkossággal vádolt feketék és fehérek között. 00:03:01.581 --> 00:03:06.396 Ám az áldozatok bőrszíne szerint felosztva az ügyeket, egészen más kép tárul elénk. 00:03:06.396 --> 00:03:07.969 Bármely esetben 00:03:07.969 --> 00:03:11.091 a feketéket nagyobb valószínűséggel ítélték halálra. 00:03:11.091 --> 00:03:15.066 A fehér vádlottak kissé nagyobb elítélési arányát az magyarázza, 00:03:15.066 --> 00:03:18.692 hogy fehér áldozat esetén 00:03:18.692 --> 00:03:21.359 esélyesebb volt a halálos ítélet, 00:03:21.359 --> 00:03:24.091 mint fekete áldozat esetében, 00:03:24.091 --> 00:03:28.483 és a legtöbb gyilkosság azonos bőrszínűek között történt. 00:03:28.483 --> 00:03:31.319 Miként kerülhetjük el, hogy bedőljünk a paradoxonnak? 00:03:31.319 --> 00:03:34.686 Sajnos, nincs általános recept. 00:03:34.686 --> 00:03:38.504 Az adatokat sokféleképpen csoportosíthatjuk vagy oszthatjuk föl, 00:03:38.504 --> 00:03:42.106 és néha, ha mindent számba veszünk. pontosabb képet kapunk, 00:03:42.106 --> 00:03:46.638 mint a félrevezető vagy önkényes kategorizálás alapján. 00:03:46.638 --> 00:03:52.089 Csak az segít, ha gondosan megvizsgáljuk a statisztika által leírt helyzetet, 00:03:52.089 --> 00:03:55.977 és figyelünk, hogy vannak-e lappangó változók. 00:03:55.977 --> 00:03:59.378 Különben azok hálójába kerülünk, 00:03:59.378 --> 00:04:02.649 akik másokat adatokkal manipulálnak önző céljaik érdekében.