Statistika je uverljiva, toliko da ljudi, organizacije i čitave države zasnivaju neke od svojih najvažnijih odluka na organzovanim podacima. Međutim, tu imamo problem. Svaki statistički skup može da ima nešto skriveno u sebi, nešto što može u potpunosti da preokrene rezultate. Na primer, zamislite da morate da izaberete između dve bolnice zbog operacije starijeg rođaka. Od poslednjih 1000 pacijenata iz svake bolnice, u bolnici A je preživelo 900, dok je u bolnici B preživelo svega 800. Pa se čini da je bolnica A bolji izbor. No, pre nego što se odlučite, zapamtite da svi pacijenti ne stižu u bolnicu istog zdravstvenog stanja. A ako podelimo poslednjih 1000 pacijenata iz svake bolnice na one koji su stigli dobrog zdravlja i one koji su stigli lošeg zdravlja, slika počinje da izgleda veoma drugačije. Bolnica A je imala samo 100 pacijenata koji su stigli lošeg zdravlja, od kojih je 30 preživelo. Međutim, bolnica B je imala 400 takvih i uspeli su da spase 210. Pa je bolnica B bolji izbor za pacijente koji stižu u bolnicu lošeg zdravlja, sa stopom preživelih od 52,5%. A šta ako je zdravlje vašeg rođaka dobro kad stigne u bolnicu? Zvuči čudno, ali bolnica B je i dalje bolji izbor, sa stopom preživelih preko 98%. Pa, kako može bolnica A da ima bolju ukupnu stopu preživelih, ako bolnica B ima bolje stope preživelih u obe grupe pacijenata? Ono na šta smo nabasali je slučaj Simpsonovog paradoksa, gde ista grupa podataka može da pokaže suprotne trendove, u zavisnosti od toga kako su grupisani. Ovo se često dešava kad skup podataka skriva uslovnu varijablu, koju ponekad zovu skrivenom varijablom, a to je skriveni dodatni faktor koji značajno utiče na rezultate. Ovde je skriveni faktor, relativna srazmera pacijenata koji stižu dobrog ili lošeg zdravlja. Simpsonov paradoks nije prosto hipotetičan scenario. S vremena na vreme se pojavljuje u stvarnom svetu, ponekad u bitnim kontekstima. Jedno istraživanje u Britaniji je pokazalo da pušači imaju veću stopu preživelih od nepušača tokom perioda od 20 godina. Sve dok učesnici u istraživanju nisu podeljeni po starosnim grupama, tada se pokazalo da su nepušači u proseku značajno stariji i stoga je bila veća verovatnoća da će da umru tokom istraživanja, baš zbog toga što su inače živeli duže. Ovde su starosne grupe skrivena varijabla i od suštinskog su značaja za pravilno tumačenje podataka. U drugom primeru, analiza slučajeva smrtne kazne u Floridi nije se činilo da otkriva rasnu nejednakost kod presuda između crnih i belih prestupnika osuđenih na smrt. Međutim, podela slučajeva prema rasi žrtve, govorila je nešto drugo. U oba slučaja, crni prestupnici su češće osuđivani na smrt. Sveukupno nešto veća stopa osuđenih belih prestupnika je bila posledica činjenice da slučajevi sa belim žrtvama češće uzrokuju smrtnu kaznu od slučajeva gde je žrtva crnac, a većina ubistava se dešavala među ljudima iste rase. Pa, kako da izbegnemo podleganje ovom paradoksu? Nažalost, ne postoji univerzalno rešenje. Podaci se mogu grupisati i podeliti na bezbroj načina, a sveukupne cifre mogu ponekad da daju tačniju sliku od podataka podeljenih u varljive ili proizvoljne kategorije. Sve što možemo da učinimo je da izučavamo stvarne situacije koje statistika opisuje i da pazimo na prisustvo skrivenih varijabli. U suprotnom, podložni smo uticaju onih koji će da iskoriste podatke kako bi manipulisali drugima i promovisali sopstvene ciljeve.