WEBVTT 00:00:06.636 --> 00:00:09.077 סטטיסטיקות הן משכנעות. 00:00:09.077 --> 00:00:12.541 כל כך שאנשים, ארגונים, ומדינות שלמות 00:00:12.541 --> 00:00:17.747 מבססות את ההחלטות הכי חשובות שלהן על מידע מאורגן. 00:00:17.747 --> 00:00:19.484 אבל יש בעיה עם זה. 00:00:19.484 --> 00:00:23.301 בכל סט של סטטיסטיקות יכול להיות משהו שאורב בתוכו, 00:00:23.301 --> 00:00:27.251 משהו שיכול להפוך את התוצאות לגמרי. 00:00:27.251 --> 00:00:30.920 לדוגמה, דמיינו שאתם צריכים לבחור בין שני בתי חולים 00:00:30.920 --> 00:00:33.737 לניתוח של קרובה מבוגרת. 00:00:33.737 --> 00:00:36.434 מתוך 1000 החולים האחרונים של כל בית חולים, 00:00:36.434 --> 00:00:39.612 900 שרדו בבית חולים א', 00:00:39.612 --> 00:00:43.021 בעוד רק 800 שרדו בבית חולים ב'. 00:00:43.021 --> 00:00:46.170 אז נראה כאילו בית חולים א' הוא הבחירה הטובה יותר. 00:00:46.170 --> 00:00:47.843 אבל לפני שתעשו החלטה, 00:00:47.843 --> 00:00:51.411 זכרו שלא כל החולים מגיעים לבית החולים 00:00:51.411 --> 00:00:53.811 עם אותה רמה של בריאות. 00:00:53.811 --> 00:00:56.703 ואם נחלק את כל 1000 החולים האחרונים של בתי החולים 00:00:56.703 --> 00:01:01.132 לאלה שהגיעו בבריאות טובה ואלה שהגיעו בבריאות גרועה, 00:01:01.132 --> 00:01:03.772 התמונה מתחילה להראות מאוד שונה. 00:01:03.772 --> 00:01:07.849 לבית חולים א' היו רק 100 חולים שהגיעו בבריאות ירודה, 00:01:07.849 --> 00:01:10.325 מתוכם 30 שרדו. 00:01:10.325 --> 00:01:14.852 אבל לבית חולים ב' הגיעו 400, והם הצליחו להציל 210. 00:01:14.852 --> 00:01:17.169 אז בית חולים ב' הוא הבחירה הטובה יותר 00:01:17.169 --> 00:01:20.741 לחולים שמגיעים עם בריאות ירודה, 00:01:20.741 --> 00:01:24.526 עם יחס השרדות של 52.5%. 00:01:24.526 --> 00:01:28.445 ומה אם בריאות הקרובה שלכם היא טובה כשהיא מגיעה לבית החולים? 00:01:28.445 --> 00:01:32.271 למרבה הפלא, בית חולים ב' הוא עדיין הבחירה הטובה, 00:01:32.271 --> 00:01:35.676 עם יחס השרדות של יותר מ 98%. 00:01:35.676 --> 00:01:38.733 אז איך בית חולים א' יכול להיות טוב יותר בסך הכל באחוז ההשרדות 00:01:38.733 --> 00:01:44.830 אם לבית חולים ב' יש אחוז השרדות גבוה יותר לחולים משתי הקבוצות? 00:01:44.830 --> 00:01:48.589 מה שנתקלנו בו הוא מקרה של פרדוקס סימפסון, 00:01:48.589 --> 00:01:51.899 בו אותו סט של מידע יכול להראות מגמות הפוכות 00:01:51.899 --> 00:01:54.664 תלוי באיך מקבצים אותו. 00:01:54.664 --> 00:01:58.744 זה הרבה פעמים קורה כשמידע מקובץ מחביא משתנה תלוי, 00:01:58.744 --> 00:02:01.377 ולפעמים ידוע כמשתנה אורב, 00:02:01.377 --> 00:02:06.584 שהוא גורם חבוי נוסף שמשפיע באופן משמעותי על התוצאות. 00:02:06.584 --> 00:02:10.023 פה, הגורם החבוי הוא היחס של החולים 00:02:10.023 --> 00:02:13.264 שמגיעים בבריאות טובה או ירודה. 00:02:13.264 --> 00:02:16.544 פרדוקס סימפסון הוא לא רק מצב היפוטטי. 00:02:16.544 --> 00:02:18.924 הוא מופיע מדי פעם בעולם האמיתי, 00:02:18.924 --> 00:02:22.132 לפעמים בהקשרים חשובים. 00:02:22.132 --> 00:02:24.130 מחקר אחד באנגליה הראה 00:02:24.130 --> 00:02:27.600 שלמעשנים יש שיעור השרדות גבוה יותר מלא מעשנים 00:02:27.600 --> 00:02:29.846 במשך תקופת זמן של עשרים שנה. 00:02:29.846 --> 00:02:33.307 זה אומר, עד שמחלקים את המשתתפים לפי קבוצת גיל 00:02:33.307 --> 00:02:37.823 שמראה שלא מעשנים היו מבוגרים משמעותית בממוצע, 00:02:37.823 --> 00:02:40.930 ולכן, יש סיכוי גבוה יותר שימותו במהלך הניסוי, 00:02:40.930 --> 00:02:44.438 בדיוק בגלל שהם חיים יותר באופן כללי. 00:02:44.438 --> 00:02:47.286 פה, קבוצת הגיל הוא משתנה חבוי, 00:02:47.286 --> 00:02:50.176 והוא חיוני לפרש במדויק את המידע. 00:02:50.176 --> 00:02:51.559 בדוגמה אחרת, 00:02:51.559 --> 00:02:54.281 אנליזה של מקרי עונש המוות של פלורידה 00:02:54.281 --> 00:02:58.265 נראו שהם מגלים שאין אפליה גזענית בשפיטה 00:02:58.265 --> 00:03:01.581 בין נאשמים שחורים ללבנים שהורשעו ברצח. 00:03:01.581 --> 00:03:06.396 אבל חלוקת המקרים לפי גזע הקורבן מספרת סיפור שונה. 00:03:06.396 --> 00:03:07.969 בכל מצב, 00:03:07.969 --> 00:03:11.091 נאשמים שחורים היו בסבירות גבוהה יותר להשפט למוות. 00:03:11.091 --> 00:03:15.066 רמות השפיטה הגבוהות מעט לנאשמים לבנים 00:03:15.066 --> 00:03:18.692 היו בשל העובדה שמקרים עם קורבנות לבנים 00:03:18.692 --> 00:03:21.359 היו בסיכוי גבוה יותר להסתיים בעונש מוות 00:03:21.359 --> 00:03:24.091 מאשר מקרים בהם הקורבן היה שחור, 00:03:24.091 --> 00:03:28.483 ורוב מקרי הרצח התרחשו בין אנשים מאותו גזע. 00:03:28.483 --> 00:03:31.319 אז איך אנחנו נמנעים מליפול לפרדוקס? 00:03:31.319 --> 00:03:34.686 למרבה הצער, אין תשובה אחת שמתאימה לכל דבר. 00:03:34.686 --> 00:03:38.504 מידע יכול להיות מקובץ ומחולק בכל מספר דרכים, 00:03:38.504 --> 00:03:42.106 ומספרים כלליים יכולים לפעמים לתת תמונה יותר מדוייקת 00:03:42.106 --> 00:03:46.638 ממידע שמחולק לקטגוריות מטעות או שרירותיות. 00:03:46.638 --> 00:03:52.089 כל מה שאנחנו יכולים לעשות זה לחקור בזהירות את המצבים שהסטטיסטיקות מתארות 00:03:52.089 --> 00:03:55.977 ולשקול אם משתנים חבויים אולי נמצאים. 00:03:55.977 --> 00:03:59.378 אחרת, אנחנו משאירים את עצמנו פגיעים לאלה שהיו משתמשים במידע 00:03:59.378 --> 00:04:02.649 כדי לתמרן אחרים ולקדם את האג'נדות שלהם.