Statisticile sunt convingătoare. Atât de mult încât oamenii, organizațiile și multe țări își bazează cele mai importante decizii pe acestea. Dar e o problemă. Orice statistică poate avea ceva înșelător în ea, ceea ce poate întoarce rezultatele complet pe dos. De exemplu, imaginează-ți că trebuie să alegi între două spitale pentru operația unei rude mai în vârstă. Din ultimii 1000 de pacienți din fiecare spital, 900 au supraviețuit în Spitalul A, pe când doar 800 au supraviețuit în Spitalul B. Pare deci că Spitalul A e alegerea mai bună. Dar înainte să te hotărăști, amintește-ți că nu toți pacienții ajung la spital în aceeași stare de sănătate. Și dacă împărțim ultimii 1000 de pacienți ai fiecărui spital între cei care au ajuns într-o stare bună și cei care au ajuns într-o stare proastă, rezultatul începe să arate foarte diferit. Spitalul A a avut doar 100 de pacienți ce au ajuns într-o stare proastă, dintre care 30 au supraviețuit. Dar Spitalul B a avut 400, iar ei au reușit să salveze 210. Deci, Spitalul B e o alegere mai bună pentru pacienții ce ajung într-o stare proastă, cu o rată de supraviețuire de 52,5%. Dar dacă starea de sănătate a rudei tale e bună când ajunge la spital? Poate pare ciudat, dar tot Spitalul B e cea mai bună alegere, cu o rată de supraviețuire de peste 98%. Deci, cum poate Spitalul A să aibă o rată totală de supraviețuire mai bună dacă Spitalul B are rate de supraviețuire mai bune în ambele categorii de pacienți? Acest fenomen se numește paradoxul lui Simpson, în care aceleași date pot părea că au concluzii diferite în funcție de cum sunt grupate datele. Asta se întâmplă când datele agregate ascund o variabilă condiționată, alteori cunoscută ca variabilă ascunsă, ce e un factor adițional ce influențează semnificativ rezultatele. Aici factorul ascuns e proporția relativă de pacienți ce ajung într-o stare bună sau proastă de sănătate. Paradoxul lui Simpson nu e doar un scenariu ipotetic. Apare din când în când și în lumea reală, uneori în contexte importante. Un studiu din Regatul Unit părea că arată că fumătorii au o rată de supraviețuire mai mare decât nefumătorii pe o perioadă de 20 de ani. Asta până când au împărțit participanții pe grupuri de vârstă și au observat că nefumătorii erau mult mai în vârstă în medie, și deci, mult mai susceptibili să moară în perioada studiului, fix din cauza faptului că erau mai longevivi în general. Aici, grupele de vârstă sunt variabila ascunsă, și sunt importante pentru a interpreta corect datele. În alt exemplu, o analiză a cazurilor de condamnare la moarte din Florida părea să arate nicio diferență rasială în cazul sentințelor între acuzații albi și negri condamnați pentru omor. Dar împărțirea cazurilor pe baza rasei victimei spunea altceva. În fiecare dintre cazuri, acuzații de culoare erau mai susceptibili să fie condamnați la moarte. Rata puțin mai mare a condamnărilor pentru acuzații albi era cauzată de faptul că cazurile cu victime albe aveau o probabilitate mai mare de a conduce la o condamnare la moarte decât cazurile în care victima era de culoare, iar cele mai multe crime au avut loc între oameni de aceeași rasă. Deci, cum putem evita acest paradox? Din păcate nu există o soluție universală. Datele pot fi grupate și divizate în multe moduri, iar numerele totale pot uneori oferi o concluzie mult mai precisă decât datele divizate în categorii înșelătoare sau arbitrare. Tot ce putem face e să studiem cu atenție situația exactă pe care studiul o descrie și să ne gândim dacă ar putea exista variabile ascunse. Altfel, vom fi vulnerabili la cei care folosesc datele pentru a-i manipula pe ceilalți pentru a-și promova propria agendă.