Statistika je uverljiva,

toliko da ljudi, organizacije
i čitave države zasnivaju

neke od svojih najvažnijih odluka
na organzovanim podacima.

Međutim, tu imamo problem.

Svaki statistički skup može da ima
nešto skriveno u sebi,

nešto što može u potpunosti
da preokrene rezultate.

Na primer, zamislite da morate
da izaberete između dve bolnice

zbog operacije starijeg rođaka.

Od poslednjih 1000 pacijenata
iz svake bolnice,

u bolnici A je preživelo 900,

dok je u bolnici B preživelo svega 800.

Pa se čini da je bolnica A bolji izbor.

No, pre nego što se odlučite,

zapamtite da svi pacijenti
ne stižu u bolnicu

istog zdravstvenog stanja.

A ako podelimo poslednjih 1000 pacijenata
iz svake bolnice

na one koji su stigli dobrog zdravlja
i one koji su stigli lošeg zdravlja,

slika počinje da izgleda veoma drugačije.

Bolnica A je imala samo 100 pacijenata
koji su stigli lošeg zdravlja,

od kojih je 30 preživelo.

Međutim, bolnica B je imala 400 takvih
i uspeli su da spase 210.

Pa je bolnica B bolji izbor

za pacijente koji stižu u bolnicu
lošeg zdravlja,

sa stopom preživelih od 52,5%.

A šta ako je zdravlje vašeg rođaka dobro
kad stigne u bolnicu?

Zvuči čudno, ali bolnica B
je i dalje bolji izbor,

sa stopom preživelih preko 98%.

Pa, kako može bolnica A da ima
bolju ukupnu stopu preživelih,

ako bolnica B ima bolje stope preživelih
u obe grupe pacijenata?

Ono na šta smo nabasali
je slučaj Simpsonovog paradoksa,

gde ista grupa podataka
može da pokaže suprotne trendove,

u zavisnosti od toga kako su grupisani.

Ovo se često dešava kad skup podataka
skriva uslovnu varijablu,

koju ponekad zovu skrivenom varijablom,

a to je skriveni dodatni faktor
koji značajno utiče na rezultate.

Ovde je skriveni faktor,
relativna srazmera pacijenata

koji stižu dobrog ili lošeg zdravlja.

Simpsonov paradoks
nije prosto hipotetičan scenario.

S vremena na vreme se pojavljuje
u stvarnom svetu,

ponekad u bitnim kontekstima.

Jedno istraživanje u Britaniji je pokazalo

da pušači imaju veću stopu preživelih
od nepušača

tokom perioda od 20 godina.

Sve dok učesnici u istraživanju
nisu podeljeni po starosnim grupama,

tada se pokazalo da su nepušači
u proseku značajno stariji

i stoga je bila veća verovatnoća
da će da umru tokom istraživanja,

baš zbog toga što su inače živeli duže.

Ovde su starosne grupe skrivena varijabla

i od suštinskog su značaja
za pravilno tumačenje podataka.

U drugom primeru,

analiza slučajeva smrtne kazne u Floridi

nije se činilo da otkriva
rasnu nejednakost kod presuda

između crnih i belih prestupnika
osuđenih na smrt.

Međutim, podela slučajeva
prema rasi žrtve, govorila je nešto drugo.

U oba slučaja,

crni prestupnici su češće
osuđivani na smrt.

Sveukupno nešto veća stopa
osuđenih belih prestupnika

je bila posledica činjenice
da slučajevi sa belim žrtvama

češće uzrokuju smrtnu kaznu

od slučajeva gde je žrtva crnac,

a većina ubistava se dešavala
među ljudima iste rase.

Pa, kako da izbegnemo
podleganje ovom paradoksu?

Nažalost, ne postoji univerzalno rešenje.

Podaci se mogu grupisati
i podeliti na bezbroj načina,

a sveukupne cifre mogu ponekad
da daju tačniju sliku

od podataka podeljenih
u varljive ili proizvoljne kategorije.

Sve što možemo da učinimo je da izučavamo
stvarne situacije koje statistika opisuje

i da pazimo na prisustvo
skrivenih varijabli.

U suprotnom, podložni smo uticaju
onih koji će da iskoriste podatke

kako bi manipulisali drugima
i promovisali sopstvene ciljeve.