1 00:00:06,636 --> 00:00:09,077 סטטיסטיקות הן משכנעות. 2 00:00:09,077 --> 00:00:12,541 כל כך שאנשים, ארגונים, ומדינות שלמות 3 00:00:12,541 --> 00:00:17,747 מבססות את ההחלטות הכי חשובות שלהן על מידע מאורגן. 4 00:00:17,747 --> 00:00:19,484 אבל יש בעיה עם זה. 5 00:00:19,484 --> 00:00:23,301 בכל סט של סטטיסטיקות יכול להיות משהו שאורב בתוכו, 6 00:00:23,301 --> 00:00:27,251 משהו שיכול להפוך את התוצאות לגמרי. 7 00:00:27,251 --> 00:00:30,920 לדוגמה, דמיינו שאתם צריכים לבחור בין שני בתי חולים 8 00:00:30,920 --> 00:00:33,737 לניתוח של קרובה מבוגרת. 9 00:00:33,737 --> 00:00:36,434 מתוך 1000 החולים האחרונים של כל בית חולים, 10 00:00:36,434 --> 00:00:39,612 900 שרדו בבית חולים א', 11 00:00:39,612 --> 00:00:43,021 בעוד רק 800 שרדו בבית חולים ב'. 12 00:00:43,021 --> 00:00:46,170 אז נראה כאילו בית חולים א' הוא הבחירה הטובה יותר. 13 00:00:46,170 --> 00:00:47,843 אבל לפני שתעשו החלטה, 14 00:00:47,843 --> 00:00:51,411 זכרו שלא כל החולים מגיעים לבית החולים 15 00:00:51,411 --> 00:00:53,811 עם אותה רמה של בריאות. 16 00:00:53,811 --> 00:00:56,703 ואם נחלק את כל 1000 החולים האחרונים של בתי החולים 17 00:00:56,703 --> 00:01:01,132 לאלה שהגיעו בבריאות טובה ואלה שהגיעו בבריאות גרועה, 18 00:01:01,132 --> 00:01:03,772 התמונה מתחילה להראות מאוד שונה. 19 00:01:03,772 --> 00:01:07,849 לבית חולים א' היו רק 100 חולים שהגיעו בבריאות ירודה, 20 00:01:07,849 --> 00:01:10,325 מתוכם 30 שרדו. 21 00:01:10,325 --> 00:01:14,852 אבל לבית חולים ב' הגיעו 400, והם הצליחו להציל 210. 22 00:01:14,852 --> 00:01:17,169 אז בית חולים ב' הוא הבחירה הטובה יותר 23 00:01:17,169 --> 00:01:20,741 לחולים שמגיעים עם בריאות ירודה, 24 00:01:20,741 --> 00:01:24,526 עם יחס השרדות של 52.5%. 25 00:01:24,526 --> 00:01:28,445 ומה אם בריאות הקרובה שלכם היא טובה כשהיא מגיעה לבית החולים? 26 00:01:28,445 --> 00:01:32,271 למרבה הפלא, בית חולים ב' הוא עדיין הבחירה הטובה, 27 00:01:32,271 --> 00:01:35,676 עם יחס השרדות של יותר מ 98%. 28 00:01:35,676 --> 00:01:38,733 אז איך בית חולים א' יכול להיות טוב יותר בסך הכל באחוז ההשרדות 29 00:01:38,733 --> 00:01:44,830 אם לבית חולים ב' יש אחוז השרדות גבוה יותר לחולים משתי הקבוצות? 30 00:01:44,830 --> 00:01:48,589 מה שנתקלנו בו הוא מקרה של פרדוקס סימפסון, 31 00:01:48,589 --> 00:01:51,899 בו אותו סט של מידע יכול להראות מגמות הפוכות 32 00:01:51,899 --> 00:01:54,664 תלוי באיך מקבצים אותו. 33 00:01:54,664 --> 00:01:58,744 זה הרבה פעמים קורה כשמידע מקובץ מחביא משתנה תלוי, 34 00:01:58,744 --> 00:02:01,377 ולפעמים ידוע כמשתנה אורב, 35 00:02:01,377 --> 00:02:06,584 שהוא גורם חבוי נוסף שמשפיע באופן משמעותי על התוצאות. 36 00:02:06,584 --> 00:02:10,023 פה, הגורם החבוי הוא היחס של החולים 37 00:02:10,023 --> 00:02:13,264 שמגיעים בבריאות טובה או ירודה. 38 00:02:13,264 --> 00:02:16,544 פרדוקס סימפסון הוא לא רק מצב היפוטטי. 39 00:02:16,544 --> 00:02:18,924 הוא מופיע מדי פעם בעולם האמיתי, 40 00:02:18,924 --> 00:02:22,132 לפעמים בהקשרים חשובים. 41 00:02:22,132 --> 00:02:24,130 מחקר אחד באנגליה הראה 42 00:02:24,130 --> 00:02:27,600 שלמעשנים יש שיעור השרדות גבוה יותר מלא מעשנים 43 00:02:27,600 --> 00:02:29,846 במשך תקופת זמן של עשרים שנה. 44 00:02:29,846 --> 00:02:33,307 זה אומר, עד שמחלקים את המשתתפים לפי קבוצת גיל 45 00:02:33,307 --> 00:02:37,823 שמראה שלא מעשנים היו מבוגרים משמעותית בממוצע, 46 00:02:37,823 --> 00:02:40,930 ולכן, יש סיכוי גבוה יותר שימותו במהלך הניסוי, 47 00:02:40,930 --> 00:02:44,438 בדיוק בגלל שהם חיים יותר באופן כללי. 48 00:02:44,438 --> 00:02:47,286 פה, קבוצת הגיל הוא משתנה חבוי, 49 00:02:47,286 --> 00:02:50,176 והוא חיוני לפרש במדויק את המידע. 50 00:02:50,176 --> 00:02:51,559 בדוגמה אחרת, 51 00:02:51,559 --> 00:02:54,281 אנליזה של מקרי עונש המוות של פלורידה 52 00:02:54,281 --> 00:02:58,265 נראו שהם מגלים שאין אפליה גזענית בשפיטה 53 00:02:58,265 --> 00:03:01,581 בין נאשמים שחורים ללבנים שהורשעו ברצח. 54 00:03:01,581 --> 00:03:06,396 אבל חלוקת המקרים לפי גזע הקורבן מספרת סיפור שונה. 55 00:03:06,396 --> 00:03:07,969 בכל מצב, 56 00:03:07,969 --> 00:03:11,091 נאשמים שחורים היו בסבירות גבוהה יותר להשפט למוות. 57 00:03:11,091 --> 00:03:15,066 רמות השפיטה הגבוהות מעט לנאשמים לבנים 58 00:03:15,066 --> 00:03:18,692 היו בשל העובדה שמקרים עם קורבנות לבנים 59 00:03:18,692 --> 00:03:21,359 היו בסיכוי גבוה יותר להסתיים בעונש מוות 60 00:03:21,359 --> 00:03:24,091 מאשר מקרים בהם הקורבן היה שחור, 61 00:03:24,091 --> 00:03:28,483 ורוב מקרי הרצח התרחשו בין אנשים מאותו גזע. 62 00:03:28,483 --> 00:03:31,319 אז איך אנחנו נמנעים מליפול לפרדוקס? 63 00:03:31,319 --> 00:03:34,686 למרבה הצער, אין תשובה אחת שמתאימה לכל דבר. 64 00:03:34,686 --> 00:03:38,504 מידע יכול להיות מקובץ ומחולק בכל מספר דרכים, 65 00:03:38,504 --> 00:03:42,106 ומספרים כלליים יכולים לפעמים לתת תמונה יותר מדוייקת 66 00:03:42,106 --> 00:03:46,638 ממידע שמחולק לקטגוריות מטעות או שרירותיות. 67 00:03:46,638 --> 00:03:52,089 כל מה שאנחנו יכולים לעשות זה לחקור בזהירות את המצבים שהסטטיסטיקות מתארות 68 00:03:52,089 --> 00:03:55,977 ולשקול אם משתנים חבויים אולי נמצאים. 69 00:03:55,977 --> 00:03:59,378 אחרת, אנחנו משאירים את עצמנו פגיעים לאלה שהיו משתמשים במידע 70 00:03:59,378 --> 00:04:02,649 כדי לתמרן אחרים ולקדם את האג'נדות שלהם.