Statistika je uverljiva,
toliko da ljudi, organizacije
i čitave države zasnivaju
neke od svojih najvažnijih odluka
na organzovanim podacima.
Međutim, tu imamo problem.
Svaki statistički skup može da ima
nešto skriveno u sebi,
nešto što može u potpunosti
da preokrene rezultate.
Na primer, zamislite da morate
da izaberete između dve bolnice
zbog operacije starijeg rođaka.
Od poslednjih 1000 pacijenata
iz svake bolnice,
u bolnici A je preživelo 900,
dok je u bolnici B preživelo svega 800.
Pa se čini da je bolnica A bolji izbor.
No, pre nego što se odlučite,
zapamtite da svi pacijenti
ne stižu u bolnicu
istog zdravstvenog stanja.
A ako podelimo poslednjih 1000 pacijenata
iz svake bolnice
na one koji su stigli dobrog zdravlja
i one koji su stigli lošeg zdravlja,
slika počinje da izgleda veoma drugačije.
Bolnica A je imala samo 100 pacijenata
koji su stigli lošeg zdravlja,
od kojih je 30 preživelo.
Međutim, bolnica B je imala 400 takvih
i uspeli su da spase 210.
Pa je bolnica B bolji izbor
za pacijente koji stižu u bolnicu
lošeg zdravlja,
sa stopom preživelih od 52,5%.
A šta ako je zdravlje vašeg rođaka dobro
kad stigne u bolnicu?
Zvuči čudno, ali bolnica B
je i dalje bolji izbor,
sa stopom preživelih preko 98%.
Pa, kako može bolnica A da ima
bolju ukupnu stopu preživelih,
ako bolnica B ima bolje stope preživelih
u obe grupe pacijenata?
Ono na šta smo nabasali
je slučaj Simpsonovog paradoksa,
gde ista grupa podataka
može da pokaže suprotne trendove,
u zavisnosti od toga kako su grupisani.
Ovo se često dešava kad skup podataka
skriva uslovnu varijablu,
koju ponekad zovu skrivenom varijablom,
a to je skriveni dodatni faktor
koji značajno utiče na rezultate.
Ovde je skriveni faktor,
relativna srazmera pacijenata
koji stižu dobrog ili lošeg zdravlja.
Simpsonov paradoks
nije prosto hipotetičan scenario.
S vremena na vreme se pojavljuje
u stvarnom svetu,
ponekad u bitnim kontekstima.
Jedno istraživanje u Britaniji je pokazalo
da pušači imaju veću stopu preživelih
od nepušača
tokom perioda od 20 godina.
Sve dok učesnici u istraživanju
nisu podeljeni po starosnim grupama,
tada se pokazalo da su nepušači
u proseku značajno stariji
i stoga je bila veća verovatnoća
da će da umru tokom istraživanja,
baš zbog toga što su inače živeli duže.
Ovde su starosne grupe skrivena varijabla
i od suštinskog su značaja
za pravilno tumačenje podataka.
U drugom primeru,
analiza slučajeva smrtne kazne u Floridi
nije se činilo da otkriva
rasnu nejednakost kod presuda
između crnih i belih prestupnika
osuđenih na smrt.
Međutim, podela slučajeva
prema rasi žrtve, govorila je nešto drugo.
U oba slučaja,
crni prestupnici su češće
osuđivani na smrt.
Sveukupno nešto veća stopa
osuđenih belih prestupnika
je bila posledica činjenice
da slučajevi sa belim žrtvama
češće uzrokuju smrtnu kaznu
od slučajeva gde je žrtva crnac,
a većina ubistava se dešavala
među ljudima iste rase.
Pa, kako da izbegnemo
podleganje ovom paradoksu?
Nažalost, ne postoji univerzalno rešenje.
Podaci se mogu grupisati
i podeliti na bezbroj načina,
a sveukupne cifre mogu ponekad
da daju tačniju sliku
od podataka podeljenih
u varljive ili proizvoljne kategorije.
Sve što možemo da učinimo je da izučavamo
stvarne situacije koje statistika opisuje
i da pazimo na prisustvo
skrivenih varijabli.
U suprotnom, podložni smo uticaju
onih koji će da iskoriste podatke
kako bi manipulisali drugima
i promovisali sopstvene ciljeve.