WEBVTT 00:00:06.636 --> 00:00:09.077 Статистика переконлива. 00:00:09.077 --> 00:00:12.541 Настільки, що люди, організації та цілі країни 00:00:12.541 --> 00:00:17.747 засновують одні з найважливіших рішень на упорядкованих даних. 00:00:17.747 --> 00:00:19.484 Однак у цьому існує проблема. 00:00:19.484 --> 00:00:23.301 Будь-яка статистика може мати в собі приховану сторону, 00:00:23.301 --> 00:00:27.251 щось, що може перевернути результати догори дриґом. 00:00:27.251 --> 00:00:30.920 Наприклад, уявіть, що Вам необхідно вибрати між двома лікарнями, 00:00:30.920 --> 00:00:33.737 щоб прооперувати когось із родичів похилого віку. 00:00:33.737 --> 00:00:36.434 У кожній лікарні з 1000 пацієнтів 00:00:36.434 --> 00:00:39.612 900 виживає у Лікарні А, 00:00:39.612 --> 00:00:43.021 тоді як у Лікарні В - лише 800. 00:00:43.021 --> 00:00:45.860 Виглядає, ніби лікарня А - кращий варіант. 00:00:45.860 --> 00:00:47.843 Але перед тим, як Ви приймете рішення, 00:00:47.843 --> 00:00:51.411 зверніть увагу, що не всі пацієнти прибувають у лікарню 00:00:51.411 --> 00:00:53.811 з однаковим станом здоров'я. 00:00:53.811 --> 00:00:56.703 Якщо розділити 1000 пацієнтів з кожної лікарні 00:00:56.703 --> 00:01:01.132 на тих, хто прибуває в хорошому здоров'ї, і тих, хто в поганому, 00:01:01.132 --> 00:01:03.772 ситуація стає зовсім іншою. 00:01:03.772 --> 00:01:07.849 У Лікарню А лише 100 пацієнтів, які поступили, мали погане здоров'я, 00:01:07.849 --> 00:01:10.325 з яких 30 вижило. 00:01:10.325 --> 00:01:14.852 Але Лікарня В мала 400 таких пацієнтів, де врятували 210 з них. 00:01:14.852 --> 00:01:17.169 Отже, Лікарня 2 - кращий вибір 00:01:17.169 --> 00:01:20.741 для пацієнтів, які поступають в лікарню з поганим здоров'ям, 00:01:20.741 --> 00:01:24.526 із 52,5% тих, що вижили. 00:01:24.526 --> 00:01:28.445 А що, коли ваш родич добре почувався, поступаючи в лікарню? 00:01:28.445 --> 00:01:32.271 Як на диво, Лікарня В все ще залишається кращим вибором, 00:01:32.271 --> 00:01:35.676 із 98% тих, що вижили. 00:01:35.676 --> 00:01:38.733 Як же вийшло, що Лікарня А має вищий загальний рівень виживання, 00:01:38.733 --> 00:01:44.830 якщо Лікарня В має вищий рівень виживання у обох групах? 00:01:44.830 --> 00:01:48.589 У цьому випадку ми маємо справу з парадоксом Сімпсона, 00:01:48.589 --> 00:01:51.899 де однакові дані можуть демонструвати протилежні тенденції 00:01:51.899 --> 00:01:54.664 залежно від того, як їх згрупувати. 00:01:54.664 --> 00:01:58.744 Це часто трапляється, коли зведені дані приховують умовну змінну, 00:01:58.744 --> 00:02:01.377 іноді відому як прихована змінна, 00:02:01.377 --> 00:02:06.584 що є додатковим прихованим фактором, який суттєво впливає на результати. 00:02:06.584 --> 00:02:10.023 У цьому випадку прихований фактор - це відносна частка пацієнтів, 00:02:10.023 --> 00:02:13.264 які приїжджають з хорошим чи поганим станом здоров'я. 00:02:13.264 --> 00:02:16.544 Парадокс Сімпсона - не лише гіпотетичний сценарій. 00:02:16.544 --> 00:02:18.924 Він час від часу проявляється в реальному світі, 00:02:18.924 --> 00:02:22.132 іноді у важливому контексті. 00:02:22.132 --> 00:02:24.130 Дослідження у Великобританії показало, 00:02:24.130 --> 00:02:27.600 що курці мають вищий рівень виживання ніж некурці 00:02:27.600 --> 00:02:29.846 за 20-річний період. 00:02:29.846 --> 00:02:33.307 Це було правдою, поки не розділили пацієнтів за віковими групами, 00:02:33.307 --> 00:02:37.823 що продемонструвало, що некурці були в середньому значно старші, 00:02:37.823 --> 00:02:40.930 а тому з більшою імовірністю могли померти у випробувальний період, 00:02:40.930 --> 00:02:44.438 точнісінько через те, що загалом вони жили довше. 00:02:44.438 --> 00:02:47.286 У цьому випадку вікові групи - це прихована змінна, 00:02:47.286 --> 00:02:50.176 яка важлива для правильної інтерпретації даних. 00:02:50.176 --> 00:02:51.559 В іншому прикладі 00:02:51.559 --> 00:02:54.281 аналіз справ із смертними вироками у Флориді 00:02:54.281 --> 00:02:58.265 показав, що, на перший погляд, при винесенні вироку не було расових відмінностей 00:02:58.265 --> 00:03:01.581 між афроамериканцями і білими, звинуваченими у вбивстві. 00:03:01.581 --> 00:03:06.396 Однак якщо розділити справи за расовою приналежністю - інша історія. 00:03:06.396 --> 00:03:07.969 В обох випадках 00:03:07.969 --> 00:03:11.091 афроамериканців частіше засуджували до смертної кари. 00:03:11.091 --> 00:03:15.066 Дещо вищий загальний рівень засудження білошкірих обвинувачених 00:03:15.066 --> 00:03:18.692 спричинений тим, що справи, жертвами в яких були білошкірі, 00:03:18.692 --> 00:03:21.359 частіше призводили до смертної кари, 00:03:21.359 --> 00:03:24.091 ніж справи, де жертвами були афроамериканці, 00:03:24.091 --> 00:03:28.483 а більшість вбивств ставалися між представниками однієї раси. 00:03:28.483 --> 00:03:31.319 Отже, як нам не вестися на цей парадокс? 00:03:31.319 --> 00:03:34.686 На жаль, не існує універсальної відповіді. 00:03:34.686 --> 00:03:38.504 Дані можна згрупувати та розділити будь-якими способами, 00:03:38.504 --> 00:03:42.106 а загальні числа іноді можуть дати точніше уявлення, 00:03:42.106 --> 00:03:46.638 ніж дані, поділені на оманливі чи випадкові категорії. 00:03:46.638 --> 00:03:52.089 Все, що ми можемо зробити - ретельно дослідити ситуації, описані статистично 00:03:52.089 --> 00:03:55.977 і обміркувати, чи присутні там приховані змінні. 00:03:55.977 --> 00:03:59.378 Інакше ми будемо вразливими перед тими, хто використовує дані, 00:03:59.378 --> 00:04:03.378 щоб маніпулювати іншими та популяризувати власні погляди.