0:00:06.636,0:00:09.077 סטטיסטיקות הן משכנעות. 0:00:09.077,0:00:12.541 כל כך שאנשים, ארגונים, ומדינות שלמות 0:00:12.541,0:00:17.747 מבססות את ההחלטות הכי חשובות שלהן[br]על מידע מאורגן. 0:00:17.747,0:00:19.484 אבל יש בעיה עם זה. 0:00:19.484,0:00:23.301 בכל סט של סטטיסטיקות[br]יכול להיות משהו שאורב בתוכו, 0:00:23.301,0:00:27.251 משהו שיכול להפוך את התוצאות לגמרי. 0:00:27.251,0:00:30.920 לדוגמה, דמיינו שאתם צריכים לבחור[br]בין שני בתי חולים 0:00:30.920,0:00:33.737 לניתוח של קרובה מבוגרת. 0:00:33.737,0:00:36.434 מתוך 1000 החולים האחרונים של כל בית חולים, 0:00:36.434,0:00:39.612 900 שרדו בבית חולים א', 0:00:39.612,0:00:43.021 בעוד רק 800 שרדו בבית חולים ב'. 0:00:43.021,0:00:46.170 אז נראה כאילו בית חולים א'[br]הוא הבחירה הטובה יותר. 0:00:46.170,0:00:47.843 אבל לפני שתעשו החלטה, 0:00:47.843,0:00:51.411 זכרו שלא כל החולים מגיעים לבית החולים 0:00:51.411,0:00:53.811 עם אותה רמה של בריאות. 0:00:53.811,0:00:56.703 ואם נחלק את כל 1000 החולים האחרונים[br]של בתי החולים 0:00:56.703,0:01:01.132 לאלה שהגיעו בבריאות טובה[br]ואלה שהגיעו בבריאות גרועה, 0:01:01.132,0:01:03.772 התמונה מתחילה להראות מאוד שונה. 0:01:03.772,0:01:07.849 לבית חולים א' היו רק 100 חולים[br]שהגיעו בבריאות ירודה, 0:01:07.849,0:01:10.325 מתוכם 30 שרדו. 0:01:10.325,0:01:14.852 אבל לבית חולים ב' הגיעו 400,[br]והם הצליחו להציל 210. 0:01:14.852,0:01:17.169 אז בית חולים ב' הוא הבחירה הטובה יותר 0:01:17.169,0:01:20.741 לחולים שמגיעים עם בריאות ירודה, 0:01:20.741,0:01:24.526 עם יחס השרדות של 52.5%. 0:01:24.526,0:01:28.445 ומה אם בריאות הקרובה שלכם[br]היא טובה כשהיא מגיעה לבית החולים? 0:01:28.445,0:01:32.271 למרבה הפלא, בית חולים ב'[br]הוא עדיין הבחירה הטובה, 0:01:32.271,0:01:35.676 עם יחס השרדות של יותר מ 98%. 0:01:35.676,0:01:38.733 אז איך בית חולים א' יכול להיות טוב יותר[br]בסך הכל באחוז ההשרדות 0:01:38.733,0:01:44.830 אם לבית חולים ב' יש אחוז השרדות[br]גבוה יותר לחולים משתי הקבוצות? 0:01:44.830,0:01:48.589 מה שנתקלנו בו הוא מקרה של פרדוקס סימפסון, 0:01:48.589,0:01:51.899 בו אותו סט של מידע יכול[br]להראות מגמות הפוכות 0:01:51.899,0:01:54.664 תלוי באיך מקבצים אותו. 0:01:54.664,0:01:58.744 זה הרבה פעמים קורה כשמידע מקובץ[br]מחביא משתנה תלוי, 0:01:58.744,0:02:01.377 ולפעמים ידוע כמשתנה אורב, 0:02:01.377,0:02:06.584 שהוא גורם חבוי נוסף שמשפיע[br]באופן משמעותי על התוצאות. 0:02:06.584,0:02:10.023 פה, הגורם החבוי הוא היחס של החולים 0:02:10.023,0:02:13.264 שמגיעים בבריאות טובה או ירודה. 0:02:13.264,0:02:16.544 פרדוקס סימפסון הוא לא רק מצב היפוטטי. 0:02:16.544,0:02:18.924 הוא מופיע מדי פעם בעולם האמיתי, 0:02:18.924,0:02:22.132 לפעמים בהקשרים חשובים. 0:02:22.132,0:02:24.130 מחקר אחד באנגליה הראה 0:02:24.130,0:02:27.600 שלמעשנים יש שיעור השרדות[br]גבוה יותר מלא מעשנים 0:02:27.600,0:02:29.846 במשך תקופת זמן של עשרים שנה. 0:02:29.846,0:02:33.307 זה אומר, עד שמחלקים[br]את המשתתפים לפי קבוצת גיל 0:02:33.307,0:02:37.823 שמראה שלא מעשנים[br]היו מבוגרים משמעותית בממוצע, 0:02:37.823,0:02:40.930 ולכן, יש סיכוי גבוה יותר[br]שימותו במהלך הניסוי, 0:02:40.930,0:02:44.438 בדיוק בגלל שהם חיים יותר באופן כללי. 0:02:44.438,0:02:47.286 פה, קבוצת הגיל הוא משתנה חבוי, 0:02:47.286,0:02:50.176 והוא חיוני לפרש במדויק את המידע. 0:02:50.176,0:02:51.559 בדוגמה אחרת, 0:02:51.559,0:02:54.281 אנליזה של מקרי עונש המוות של פלורידה 0:02:54.281,0:02:58.265 נראו שהם מגלים שאין אפליה גזענית בשפיטה 0:02:58.265,0:03:01.581 בין נאשמים שחורים ללבנים שהורשעו ברצח. 0:03:01.581,0:03:06.396 אבל חלוקת המקרים[br]לפי גזע הקורבן מספרת סיפור שונה. 0:03:06.396,0:03:07.969 בכל מצב, 0:03:07.969,0:03:11.091 נאשמים שחורים היו בסבירות גבוהה יותר[br]להשפט למוות. 0:03:11.091,0:03:15.066 רמות השפיטה הגבוהות מעט לנאשמים לבנים 0:03:15.066,0:03:18.692 היו בשל העובדה שמקרים עם קורבנות לבנים 0:03:18.692,0:03:21.359 היו בסיכוי גבוה יותר להסתיים בעונש מוות 0:03:21.359,0:03:24.091 מאשר מקרים בהם הקורבן היה שחור, 0:03:24.091,0:03:28.483 ורוב מקרי הרצח התרחשו בין אנשים מאותו גזע. 0:03:28.483,0:03:31.319 אז איך אנחנו נמנעים מליפול לפרדוקס? 0:03:31.319,0:03:34.686 למרבה הצער, אין תשובה אחת שמתאימה לכל דבר. 0:03:34.686,0:03:38.504 מידע יכול להיות מקובץ[br]ומחולק בכל מספר דרכים, 0:03:38.504,0:03:42.106 ומספרים כלליים יכולים לפעמים[br]לתת תמונה יותר מדוייקת 0:03:42.106,0:03:46.638 ממידע שמחולק לקטגוריות מטעות[br]או שרירותיות. 0:03:46.638,0:03:52.089 כל מה שאנחנו יכולים לעשות זה לחקור[br]בזהירות את המצבים שהסטטיסטיקות מתארות 0:03:52.089,0:03:55.977 ולשקול אם משתנים חבויים אולי נמצאים. 0:03:55.977,0:03:59.378 אחרת, אנחנו משאירים את עצמנו[br]פגיעים לאלה שהיו משתמשים במידע 0:03:59.378,0:04:02.649 כדי לתמרן אחרים ולקדם את האג'נדות שלהם.