1 00:00:06,636 --> 00:00:09,077 Статистика переконлива. 2 00:00:09,077 --> 00:00:12,541 Настільки, що люди, організації та цілі країни 3 00:00:12,541 --> 00:00:17,747 засновують одні з найважливіших рішень на упорядкованих даних. 4 00:00:17,747 --> 00:00:19,484 Однак у цьому існує проблема. 5 00:00:19,484 --> 00:00:23,301 Будь-яка статистика може мати в собі приховану сторону, 6 00:00:23,301 --> 00:00:27,251 щось, що може перевернути результати догори дриґом. 7 00:00:27,251 --> 00:00:30,920 Наприклад, уявіть, що Вам необхідно вибрати між двома лікарнями, 8 00:00:30,920 --> 00:00:33,737 щоб прооперувати когось із родичів похилого віку. 9 00:00:33,737 --> 00:00:36,434 У кожній лікарні з 1000 пацієнтів 10 00:00:36,434 --> 00:00:39,612 900 виживає у Лікарні А, 11 00:00:39,612 --> 00:00:43,021 тоді як у Лікарні В - лише 800. 12 00:00:43,021 --> 00:00:45,860 Виглядає, ніби лікарня А - кращий варіант. 13 00:00:45,860 --> 00:00:47,843 Але перед тим, як Ви приймете рішення, 14 00:00:47,843 --> 00:00:51,411 зверніть увагу, що не всі пацієнти прибувають у лікарню 15 00:00:51,411 --> 00:00:53,811 з однаковим станом здоров'я. 16 00:00:53,811 --> 00:00:56,703 Якщо розділити 1000 пацієнтів з кожної лікарні 17 00:00:56,703 --> 00:01:01,132 на тих, хто прибуває в хорошому здоров'ї, і тих, хто в поганому, 18 00:01:01,132 --> 00:01:03,772 ситуація стає зовсім іншою. 19 00:01:03,772 --> 00:01:07,849 У Лікарню А лише 100 пацієнтів, які поступили, мали погане здоров'я, 20 00:01:07,849 --> 00:01:10,325 з яких 30 вижило. 21 00:01:10,325 --> 00:01:14,852 Але Лікарня В мала 400 таких пацієнтів, де врятували 210 з них. 22 00:01:14,852 --> 00:01:17,169 Отже, Лікарня 2 - кращий вибір 23 00:01:17,169 --> 00:01:20,741 для пацієнтів, які поступають в лікарню з поганим здоров'ям, 24 00:01:20,741 --> 00:01:24,526 із 52,5% тих, що вижили. 25 00:01:24,526 --> 00:01:28,445 А що, коли ваш родич добре почувався, поступаючи в лікарню? 26 00:01:28,445 --> 00:01:32,271 Як на диво, Лікарня В все ще залишається кращим вибором, 27 00:01:32,271 --> 00:01:35,676 із 98% тих, що вижили. 28 00:01:35,676 --> 00:01:38,733 Як же вийшло, що Лікарня А має вищий загальний рівень виживання, 29 00:01:38,733 --> 00:01:44,830 якщо Лікарня В має вищий рівень виживання у обох групах? 30 00:01:44,830 --> 00:01:48,589 У цьому випадку ми маємо справу з парадоксом Сімпсона, 31 00:01:48,589 --> 00:01:51,899 де однакові дані можуть демонструвати протилежні тенденції 32 00:01:51,899 --> 00:01:54,664 залежно від того, як їх згрупувати. 33 00:01:54,664 --> 00:01:58,744 Це часто трапляється, коли зведені дані приховують умовну змінну, 34 00:01:58,744 --> 00:02:01,377 іноді відому як прихована змінна, 35 00:02:01,377 --> 00:02:06,584 що є додатковим прихованим фактором, який суттєво впливає на результати. 36 00:02:06,584 --> 00:02:10,023 У цьому випадку прихований фактор - це відносна частка пацієнтів, 37 00:02:10,023 --> 00:02:13,264 які приїжджають з хорошим чи поганим станом здоров'я. 38 00:02:13,264 --> 00:02:16,544 Парадокс Сімпсона - не лише гіпотетичний сценарій. 39 00:02:16,544 --> 00:02:18,924 Він час від часу проявляється в реальному світі, 40 00:02:18,924 --> 00:02:22,132 іноді у важливому контексті. 41 00:02:22,132 --> 00:02:24,130 Дослідження у Великобританії показало, 42 00:02:24,130 --> 00:02:27,600 що курці мають вищий рівень виживання ніж некурці 43 00:02:27,600 --> 00:02:29,846 за 20-річний період. 44 00:02:29,846 --> 00:02:33,307 Це було правдою, поки не розділили пацієнтів за віковими групами, 45 00:02:33,307 --> 00:02:37,823 що продемонструвало, що некурці були в середньому значно старші, 46 00:02:37,823 --> 00:02:40,930 а тому з більшою імовірністю могли померти у випробувальний період, 47 00:02:40,930 --> 00:02:44,438 точнісінько через те, що загалом вони жили довше. 48 00:02:44,438 --> 00:02:47,286 У цьому випадку вікові групи - це прихована змінна, 49 00:02:47,286 --> 00:02:50,176 яка важлива для правильної інтерпретації даних. 50 00:02:50,176 --> 00:02:51,559 В іншому прикладі 51 00:02:51,559 --> 00:02:54,281 аналіз справ із смертними вироками у Флориді 52 00:02:54,281 --> 00:02:58,265 показав, що, на перший погляд, при винесенні вироку не було расових відмінностей 53 00:02:58,265 --> 00:03:01,581 між афроамериканцями і білими, звинуваченими у вбивстві. 54 00:03:01,581 --> 00:03:06,396 Однак якщо розділити справи за расовою приналежністю - інша історія. 55 00:03:06,396 --> 00:03:07,969 В обох випадках 56 00:03:07,969 --> 00:03:11,091 афроамериканців частіше засуджували до смертної кари. 57 00:03:11,091 --> 00:03:15,066 Дещо вищий загальний рівень засудження білошкірих обвинувачених 58 00:03:15,066 --> 00:03:18,692 спричинений тим, що справи, жертвами в яких були білошкірі, 59 00:03:18,692 --> 00:03:21,359 частіше призводили до смертної кари, 60 00:03:21,359 --> 00:03:24,091 ніж справи, де жертвами були афроамериканці, 61 00:03:24,091 --> 00:03:28,483 а більшість вбивств ставалися між представниками однієї раси. 62 00:03:28,483 --> 00:03:31,319 Отже, як нам не вестися на цей парадокс? 63 00:03:31,319 --> 00:03:34,686 На жаль, не існує універсальної відповіді. 64 00:03:34,686 --> 00:03:38,504 Дані можна згрупувати та розділити будь-якими способами, 65 00:03:38,504 --> 00:03:42,106 а загальні числа іноді можуть дати точніше уявлення, 66 00:03:42,106 --> 00:03:46,638 ніж дані, поділені на оманливі чи випадкові категорії. 67 00:03:46,638 --> 00:03:52,089 Все, що ми можемо зробити - ретельно дослідити ситуації, описані статистично 68 00:03:52,089 --> 00:03:55,977 і обміркувати, чи присутні там приховані змінні. 69 00:03:55,977 --> 00:03:59,378 Інакше ми будемо вразливими перед тими, хто використовує дані, 70 00:03:59,378 --> 00:04:03,378 щоб маніпулювати іншими та популяризувати власні погляди.