1 00:00:06,636 --> 00:00:09,077 Statistika je uverljiva, 2 00:00:09,077 --> 00:00:12,541 toliko da ljudi, organizacije i čitave države zasnivaju 3 00:00:12,541 --> 00:00:17,747 neke od svojih najvažnijih odluka na organzovanim podacima. 4 00:00:17,747 --> 00:00:19,484 Međutim, tu imamo problem. 5 00:00:19,484 --> 00:00:23,301 Svaki statistički skup može da ima nešto skriveno u sebi, 6 00:00:23,301 --> 00:00:27,251 nešto što može u potpunosti da preokrene rezultate. 7 00:00:27,251 --> 00:00:30,920 Na primer, zamislite da morate da izaberete između dve bolnice 8 00:00:30,920 --> 00:00:33,737 zbog operacije starijeg rođaka. 9 00:00:33,737 --> 00:00:36,434 Od poslednjih 1000 pacijenata iz svake bolnice, 10 00:00:36,434 --> 00:00:39,612 u bolnici A je preživelo 900, 11 00:00:39,612 --> 00:00:43,021 dok je u bolnici B preživelo svega 800. 12 00:00:43,021 --> 00:00:46,170 Pa se čini da je bolnica A bolji izbor. 13 00:00:46,170 --> 00:00:47,843 No, pre nego što se odlučite, 14 00:00:47,843 --> 00:00:51,411 zapamtite da svi pacijenti ne stižu u bolnicu 15 00:00:51,411 --> 00:00:53,811 istog zdravstvenog stanja. 16 00:00:53,811 --> 00:00:56,703 A ako podelimo poslednjih 1000 pacijenata iz svake bolnice 17 00:00:56,703 --> 00:01:01,132 na one koji su stigli dobrog zdravlja i one koji su stigli lošeg zdravlja, 18 00:01:01,132 --> 00:01:03,772 slika počinje da izgleda veoma drugačije. 19 00:01:03,772 --> 00:01:07,849 Bolnica A je imala samo 100 pacijenata koji su stigli lošeg zdravlja, 20 00:01:07,849 --> 00:01:10,325 od kojih je 30 preživelo. 21 00:01:10,325 --> 00:01:14,852 Međutim, bolnica B je imala 400 takvih i uspeli su da spase 210. 22 00:01:14,852 --> 00:01:17,169 Pa je bolnica B bolji izbor 23 00:01:17,169 --> 00:01:20,741 za pacijente koji stižu u bolnicu lošeg zdravlja, 24 00:01:20,741 --> 00:01:24,526 sa stopom preživelih od 52,5%. 25 00:01:24,526 --> 00:01:28,445 A šta ako je zdravlje vašeg rođaka dobro kad stigne u bolnicu? 26 00:01:28,445 --> 00:01:32,271 Zvuči čudno, ali bolnica B je i dalje bolji izbor, 27 00:01:32,271 --> 00:01:35,676 sa stopom preživelih preko 98%. 28 00:01:35,676 --> 00:01:38,733 Pa, kako može bolnica A da ima bolju ukupnu stopu preživelih, 29 00:01:38,733 --> 00:01:44,830 ako bolnica B ima bolje stope preživelih u obe grupe pacijenata? 30 00:01:44,830 --> 00:01:48,589 Ono na šta smo nabasali je slučaj Simpsonovog paradoksa, 31 00:01:48,589 --> 00:01:51,899 gde ista grupa podataka može da pokaže suprotne trendove, 32 00:01:51,899 --> 00:01:54,664 u zavisnosti od toga kako su grupisani. 33 00:01:54,664 --> 00:01:58,744 Ovo se često dešava kad skup podataka skriva uslovnu varijablu, 34 00:01:58,744 --> 00:02:01,377 koju ponekad zovu skrivenom varijablom, 35 00:02:01,377 --> 00:02:06,584 a to je skriveni dodatni faktor koji značajno utiče na rezultate. 36 00:02:06,584 --> 00:02:10,023 Ovde je skriveni faktor, relativna srazmera pacijenata 37 00:02:10,023 --> 00:02:13,264 koji stižu dobrog ili lošeg zdravlja. 38 00:02:13,264 --> 00:02:16,544 Simpsonov paradoks nije prosto hipotetičan scenario. 39 00:02:16,544 --> 00:02:18,924 S vremena na vreme se pojavljuje u stvarnom svetu, 40 00:02:18,924 --> 00:02:22,132 ponekad u bitnim kontekstima. 41 00:02:22,132 --> 00:02:24,130 Jedno istraživanje u Britaniji je pokazalo 42 00:02:24,130 --> 00:02:27,600 da pušači imaju veću stopu preživelih od nepušača 43 00:02:27,600 --> 00:02:29,846 tokom perioda od 20 godina. 44 00:02:29,846 --> 00:02:33,307 Sve dok učesnici u istraživanju nisu podeljeni po starosnim grupama, 45 00:02:33,307 --> 00:02:37,823 tada se pokazalo da su nepušači u proseku značajno stariji 46 00:02:37,823 --> 00:02:40,930 i stoga je bila veća verovatnoća da će da umru tokom istraživanja, 47 00:02:40,930 --> 00:02:44,438 baš zbog toga što su inače živeli duže. 48 00:02:44,438 --> 00:02:47,286 Ovde su starosne grupe skrivena varijabla 49 00:02:47,286 --> 00:02:50,176 i od suštinskog su značaja za pravilno tumačenje podataka. 50 00:02:50,176 --> 00:02:51,559 U drugom primeru, 51 00:02:51,559 --> 00:02:54,281 analiza slučajeva smrtne kazne u Floridi 52 00:02:54,281 --> 00:02:58,265 nije se činilo da otkriva rasnu nejednakost kod presuda 53 00:02:58,265 --> 00:03:01,581 između crnih i belih prestupnika osuđenih na smrt. 54 00:03:01,581 --> 00:03:06,396 Međutim, podela slučajeva prema rasi žrtve, govorila je nešto drugo. 55 00:03:06,396 --> 00:03:07,969 U oba slučaja, 56 00:03:07,969 --> 00:03:11,091 crni prestupnici su češće osuđivani na smrt. 57 00:03:11,091 --> 00:03:15,066 Sveukupno nešto veća stopa osuđenih belih prestupnika 58 00:03:15,066 --> 00:03:18,692 je bila posledica činjenice da slučajevi sa belim žrtvama 59 00:03:18,692 --> 00:03:21,359 češće uzrokuju smrtnu kaznu 60 00:03:21,359 --> 00:03:24,091 od slučajeva gde je žrtva crnac, 61 00:03:24,091 --> 00:03:28,483 a većina ubistava se dešavala među ljudima iste rase. 62 00:03:28,483 --> 00:03:31,319 Pa, kako da izbegnemo podleganje ovom paradoksu? 63 00:03:31,319 --> 00:03:34,686 Nažalost, ne postoji univerzalno rešenje. 64 00:03:34,686 --> 00:03:38,504 Podaci se mogu grupisati i podeliti na bezbroj načina, 65 00:03:38,504 --> 00:03:42,106 a sveukupne cifre mogu ponekad da daju tačniju sliku 66 00:03:42,106 --> 00:03:46,638 od podataka podeljenih u varljive ili proizvoljne kategorije. 67 00:03:46,638 --> 00:03:52,089 Sve što možemo da učinimo je da izučavamo stvarne situacije koje statistika opisuje 68 00:03:52,089 --> 00:03:55,977 i da pazimo na prisustvo skrivenih varijabli. 69 00:03:55,977 --> 00:03:59,378 U suprotnom, podložni smo uticaju onih koji će da iskoriste podatke 70 00:03:59,378 --> 00:04:02,649 kako bi manipulisali drugima i promovisali sopstvene ciljeve.