1 00:00:06,636 --> 00:00:09,077 A statisztika meggyőző. 2 00:00:09,077 --> 00:00:12,541 Olyannyira, hogy magánszemélyek, szervezetek, sőt egész országok 3 00:00:12,541 --> 00:00:17,747 legfontosabb döntéseik némelyikét meg- felelően kiválasztott adatokra alapozzák. 4 00:00:17,747 --> 00:00:19,484 De van itt egy bökkenő. 5 00:00:19,484 --> 00:00:23,301 A statisztikában megbújhat valami, ami teljesen 6 00:00:23,301 --> 00:00:27,251 a feje tetejére állítja az eredményeket. 7 00:00:27,251 --> 00:00:30,920 Képzeljük el pl., hogy választanunk kell két kórház között, 8 00:00:30,920 --> 00:00:33,737 hogy melyikben műtsék idős rokonunkat. 9 00:00:33,737 --> 00:00:36,434 A legutolsó 1000 eset közül a túlélések száma 10 00:00:36,434 --> 00:00:39,612 az A kórházban 900, 11 00:00:39,612 --> 00:00:43,021 míg a B kórházban 800 volt. 12 00:00:43,021 --> 00:00:46,170 Úgy látszik, hogy jobb az A kórházat választani. 13 00:00:46,170 --> 00:00:47,843 De mielőtt döntenénk, ne feledjük, 14 00:00:47,843 --> 00:00:51,411 hogy nem minden fölvett beteg 15 00:00:51,411 --> 00:00:53,811 egészségi állapota azonos. 16 00:00:53,811 --> 00:00:56,703 Ha mindkét kórház utolsó 1000 betegét két csoportra osztjuk, 17 00:00:56,703 --> 00:01:01,132 aszerint, hogy ki érkezett jó, és ki rossz állapotban, 18 00:01:01,132 --> 00:01:03,772 a kép teljesen megváltozik. 19 00:01:03,772 --> 00:01:07,849 Az A kórház 100 rossz állapotú betegei közül 20 00:01:07,849 --> 00:01:10,325 30 túlélő volt, 21 00:01:10,325 --> 00:01:14,852 míg a B kórházba bekerült 400 közül 210-et meg tudtak menteni. 22 00:01:14,852 --> 00:01:17,169 Így hát a B kórház a jobb választás 23 00:01:17,169 --> 00:01:20,741 a rossz állapotban bekerülők számára, 24 00:01:20,741 --> 00:01:24,526 52,5%-os túlélési aránnyal. 25 00:01:24,526 --> 00:01:28,445 De mi a helyzet, ha a néni jó állapotban kerül kórházba? 26 00:01:28,445 --> 00:01:32,271 Elég meglepő, hogy még mindig a B kórház a jobb megoldás, 27 00:01:32,271 --> 00:01:35,676 mert ott a túlélési arány 98%. 28 00:01:35,676 --> 00:01:38,733 Hogyan lehet az általános túlélési arány jobb az A kórházban, 29 00:01:38,733 --> 00:01:44,830 ha a B kórházban a túlélési arány mindkét csoport esetében jobb? 30 00:01:44,830 --> 00:01:48,589 Belebotlottunk az ún. Simpson-paradoxonba, 31 00:01:48,589 --> 00:01:51,899 ahol ugyanazokból az adatokból a csoportosításuktól függően 32 00:01:51,899 --> 00:01:54,664 ellentétes eredményre juthatunk. 33 00:01:54,664 --> 00:01:58,744 Ilyen gyakran előadódhat, ha az aggregált adatok feltételes változót rejtenek. 34 00:01:58,744 --> 00:02:01,377 Ezt néha lappangó változónak nevezzük, 35 00:02:01,377 --> 00:02:06,584 ami az eredményt szignifikánsan befolyásoló rejtett kiegészítő tényező. 36 00:02:06,584 --> 00:02:10,023 Itt a rejtett tényező a jó és a rossz állapotban érkező 37 00:02:10,023 --> 00:02:13,264 betegek relatív aránya. 38 00:02:13,264 --> 00:02:16,544 A Simpson-paradoxon nem mondvacsinált jelenség, 39 00:02:16,544 --> 00:02:18,924 időről-időre előfordul a gyakorlatban, 40 00:02:18,924 --> 00:02:22,132 néha fontos összefüggésben. 41 00:02:22,132 --> 00:02:23,860 Egy kutatás az Egyesült Királyságban 42 00:02:23,860 --> 00:02:27,750 kimutatta, hogy egy 20 éves időszakban a dohányzók túlélési aránya nagyobb volt, 43 00:02:27,750 --> 00:02:29,846 mint a nemdohányzóké. 44 00:02:29,846 --> 00:02:33,307 Ez a helyzet, amíg a vizsgáltak korcsoportokra bontása meg nem mutatta, 45 00:02:33,307 --> 00:02:37,823 hogy a nemdohányzók átlagos kora szignifikánsan magasabb volt, 46 00:02:37,823 --> 00:02:40,930 és így valószínűbb, hogy a vizsgált időszakban meghalnak, 47 00:02:40,930 --> 00:02:44,438 pont azért, mert általában már idősebbek voltak. 48 00:02:44,438 --> 00:02:47,286 Itt a korcsoport a lappangó változó. 49 00:02:47,286 --> 00:02:50,176 Rendkívül fontos, hogy helyesen értelmezzük az adatokat. 50 00:02:50,176 --> 00:02:51,559 Egy másik példában 51 00:02:51,559 --> 00:02:54,281 a floridai halálbüntetéseket elemezve 52 00:02:54,281 --> 00:02:58,265 úgy látszott, hogy az ítéletekben nem mutatható ki rasszista megkülönböztetés 53 00:02:58,265 --> 00:03:01,581 a gyilkossággal vádolt feketék és fehérek között. 54 00:03:01,581 --> 00:03:06,396 Ám az áldozatok bőrszíne szerint felosztva az ügyeket, egészen más kép tárul elénk. 55 00:03:06,396 --> 00:03:07,969 Bármely esetben 56 00:03:07,969 --> 00:03:11,091 a feketéket nagyobb valószínűséggel ítélték halálra. 57 00:03:11,091 --> 00:03:15,066 A fehér vádlottak kissé nagyobb elítélési arányát az magyarázza, 58 00:03:15,066 --> 00:03:18,692 hogy fehér áldozat esetén 59 00:03:18,692 --> 00:03:21,359 esélyesebb volt a halálos ítélet, 60 00:03:21,359 --> 00:03:24,091 mint fekete áldozat esetében, 61 00:03:24,091 --> 00:03:28,483 és a legtöbb gyilkosság azonos bőrszínűek között történt. 62 00:03:28,483 --> 00:03:31,319 Miként kerülhetjük el, hogy bedőljünk a paradoxonnak? 63 00:03:31,319 --> 00:03:34,686 Sajnos, nincs általános recept. 64 00:03:34,686 --> 00:03:38,504 Az adatokat sokféleképpen csoportosíthatjuk vagy oszthatjuk föl, 65 00:03:38,504 --> 00:03:42,106 és néha, ha mindent számba veszünk. pontosabb képet kapunk, 66 00:03:42,106 --> 00:03:46,638 mint a félrevezető vagy önkényes kategorizálás alapján. 67 00:03:46,638 --> 00:03:52,089 Csak az segít, ha gondosan megvizsgáljuk a statisztika által leírt helyzetet, 68 00:03:52,089 --> 00:03:55,977 és figyelünk, hogy vannak-e lappangó változók. 69 00:03:55,977 --> 00:03:59,378 Különben azok hálójába kerülünk, 70 00:03:59,378 --> 00:04:02,649 akik másokat adatokkal manipulálnak önző céljaik érdekében.