1 00:00:06,636 --> 00:00:09,077 Statisticile sunt convingătoare. 2 00:00:09,077 --> 00:00:12,541 Atât de mult încât oamenii, organizațiile și multe țări 3 00:00:12,541 --> 00:00:17,747 își bazează cele mai importante decizii pe acestea. 4 00:00:17,747 --> 00:00:19,484 Dar e o problemă. 5 00:00:19,484 --> 00:00:23,301 Orice statistică poate avea ceva înșelător în ea, 6 00:00:23,301 --> 00:00:27,251 ceea ce poate întoarce rezultatele complet pe dos. 7 00:00:27,251 --> 00:00:30,920 De exemplu, imaginează-ți că trebuie să alegi între două spitale 8 00:00:30,920 --> 00:00:33,737 pentru operația unei rude mai în vârstă. 9 00:00:33,737 --> 00:00:36,434 Din ultimii 1000 de pacienți din fiecare spital, 10 00:00:36,434 --> 00:00:39,612 900 au supraviețuit în Spitalul A, 11 00:00:39,612 --> 00:00:43,021 pe când doar 800 au supraviețuit în Spitalul B. 12 00:00:43,021 --> 00:00:46,170 Pare deci că Spitalul A e alegerea mai bună. 13 00:00:46,170 --> 00:00:47,843 Dar înainte să te hotărăști, 14 00:00:47,843 --> 00:00:51,411 amintește-ți că nu toți pacienții ajung la spital 15 00:00:51,411 --> 00:00:53,811 în aceeași stare de sănătate. 16 00:00:53,811 --> 00:00:56,703 Și dacă împărțim ultimii 1000 de pacienți ai fiecărui spital 17 00:00:56,703 --> 00:01:01,132 între cei care au ajuns într-o stare bună și cei care au ajuns într-o stare proastă, 18 00:01:01,132 --> 00:01:03,772 rezultatul începe să arate foarte diferit. 19 00:01:03,772 --> 00:01:07,849 Spitalul A a avut doar 100 de pacienți ce au ajuns într-o stare proastă, 20 00:01:07,849 --> 00:01:10,325 dintre care 30 au supraviețuit. 21 00:01:10,325 --> 00:01:14,852 Dar Spitalul B a avut 400, iar ei au reușit să salveze 210. 22 00:01:14,852 --> 00:01:17,169 Deci, Spitalul B e o alegere mai bună 23 00:01:17,169 --> 00:01:20,741 pentru pacienții ce ajung într-o stare proastă, 24 00:01:20,741 --> 00:01:24,526 cu o rată de supraviețuire de 52,5%. 25 00:01:24,526 --> 00:01:28,445 Dar dacă starea de sănătate a rudei tale e bună când ajunge la spital? 26 00:01:28,445 --> 00:01:32,271 Poate pare ciudat, dar tot Spitalul B e cea mai bună alegere, 27 00:01:32,271 --> 00:01:35,676 cu o rată de supraviețuire de peste 98%. 28 00:01:35,676 --> 00:01:39,203 Deci, cum poate Spitalul A să aibă o rată totală de supraviețuire mai bună 29 00:01:39,203 --> 00:01:44,830 dacă Spitalul B are rate de supraviețuire mai bune în ambele categorii de pacienți? 30 00:01:44,830 --> 00:01:48,589 Acest fenomen se numește paradoxul lui Simpson, 31 00:01:48,589 --> 00:01:51,899 în care aceleași date pot părea că au concluzii diferite 32 00:01:51,899 --> 00:01:54,664 în funcție de cum sunt grupate datele. 33 00:01:54,664 --> 00:01:58,744 Asta se întâmplă când datele agregate ascund o variabilă condiționată, 34 00:01:58,744 --> 00:02:01,377 alteori cunoscută ca variabilă ascunsă, 35 00:02:01,377 --> 00:02:06,584 ce e un factor adițional ce influențează semnificativ rezultatele. 36 00:02:06,584 --> 00:02:10,023 Aici factorul ascuns e proporția relativă de pacienți 37 00:02:10,023 --> 00:02:13,264 ce ajung într-o stare bună sau proastă de sănătate. 38 00:02:13,264 --> 00:02:16,544 Paradoxul lui Simpson nu e doar un scenariu ipotetic. 39 00:02:16,544 --> 00:02:18,924 Apare din când în când și în lumea reală, 40 00:02:18,924 --> 00:02:22,132 uneori în contexte importante. 41 00:02:22,132 --> 00:02:24,130 Un studiu din Regatul Unit părea că arată 42 00:02:24,130 --> 00:02:27,600 că fumătorii au o rată de supraviețuire mai mare decât nefumătorii 43 00:02:27,600 --> 00:02:29,846 pe o perioadă de 20 de ani. 44 00:02:29,846 --> 00:02:33,307 Asta până când au împărțit participanții pe grupuri de vârstă 45 00:02:33,307 --> 00:02:37,823 și au observat că nefumătorii erau mult mai în vârstă în medie, 46 00:02:37,823 --> 00:02:40,930 și deci, mult mai susceptibili să moară în perioada studiului, 47 00:02:40,930 --> 00:02:44,438 fix din cauza faptului că erau mai longevivi în general. 48 00:02:44,438 --> 00:02:47,286 Aici, grupele de vârstă sunt variabila ascunsă, 49 00:02:47,286 --> 00:02:50,176 și sunt importante pentru a interpreta corect datele. 50 00:02:50,176 --> 00:02:51,559 În alt exemplu, 51 00:02:51,559 --> 00:02:54,281 o analiză a cazurilor de condamnare la moarte din Florida 52 00:02:54,281 --> 00:02:58,265 părea să arate nicio diferență rasială în cazul sentințelor 53 00:02:58,265 --> 00:03:01,581 între acuzații albi și negri condamnați pentru omor. 54 00:03:01,581 --> 00:03:06,396 Dar împărțirea cazurilor pe baza rasei victimei spunea altceva. 55 00:03:06,396 --> 00:03:07,969 În fiecare dintre cazuri, 56 00:03:07,969 --> 00:03:11,347 acuzații de culoare erau mai susceptibili să fie condamnați la moarte. 57 00:03:11,347 --> 00:03:15,066 Rata puțin mai mare a condamnărilor pentru acuzații albi 58 00:03:15,066 --> 00:03:18,482 era cauzată de faptul că cazurile cu victime albe 59 00:03:18,482 --> 00:03:21,809 aveau o probabilitate mai mare de a conduce la o condamnare la moarte 60 00:03:21,809 --> 00:03:24,091 decât cazurile în care victima era de culoare, 61 00:03:24,091 --> 00:03:28,483 iar cele mai multe crime au avut loc între oameni de aceeași rasă. 62 00:03:28,483 --> 00:03:31,319 Deci, cum putem evita acest paradox? 63 00:03:31,319 --> 00:03:34,686 Din păcate nu există o soluție universală. 64 00:03:34,686 --> 00:03:38,504 Datele pot fi grupate și divizate în multe moduri, 65 00:03:38,504 --> 00:03:42,106 iar numerele totale pot uneori oferi o concluzie mult mai precisă 66 00:03:42,106 --> 00:03:46,638 decât datele divizate în categorii înșelătoare sau arbitrare. 67 00:03:46,638 --> 00:03:52,089 Tot ce putem face e să studiem cu atenție situația exactă pe care studiul o descrie 68 00:03:52,089 --> 00:03:55,977 și să ne gândim dacă ar putea exista variabile ascunse. 69 00:03:55,977 --> 00:03:59,378 Altfel, vom fi vulnerabili la cei care folosesc datele 70 00:03:59,378 --> 00:04:02,649 pentru a-i manipula pe ceilalți pentru a-și promova propria agendă.