WEBVTT 00:00:06.636 --> 00:00:09.077 Статистика убедительна. 00:00:09.077 --> 00:00:12.543 Настолько, что люди, организации и целые страны 00:00:12.543 --> 00:00:17.747 принимают важнейшие решения, опираясь на систематизированные данные. 00:00:17.747 --> 00:00:19.484 Но существует проблема. 00:00:19.484 --> 00:00:23.301 В любом наборе статистических данных может таиться то, 00:00:23.301 --> 00:00:27.251 что способно полностью перевернуть результаты с ног на голову. 00:00:27.251 --> 00:00:30.920 Представьте, что вам нужно выбрать одну из двух больниц 00:00:30.920 --> 00:00:33.737 для операции пожилого родственника. 00:00:33.737 --> 00:00:36.434 Из последней тысячи пациентов этих больниц 00:00:36.434 --> 00:00:39.612 в больнице А выжило 900 человек, 00:00:39.612 --> 00:00:43.021 а в больнице Б — 800. 00:00:43.021 --> 00:00:46.170 Похоже, что больница А — лучший выбор. 00:00:46.170 --> 00:00:47.843 Но принимая решение, имейте в виду, 00:00:47.843 --> 00:00:51.411 что состояние здоровья пациентов, прибывших в больницу, 00:00:51.411 --> 00:00:53.811 было неодинаковым. 00:00:53.811 --> 00:00:56.703 Если разделить последнюю тысячу пациентов обеих больниц 00:00:56.703 --> 00:01:01.132 на тех, кто прибыл в хорошем и в плохом состоянии здоровья, 00:01:01.132 --> 00:01:03.772 получится совсем другая картина. 00:01:03.772 --> 00:01:07.849 В больницу А прибыло лишь 100 пациентов в плохом состоянии здоровья, 00:01:07.849 --> 00:01:10.325 из которых 30 выжили. 00:01:10.325 --> 00:01:14.852 В больницу Б поступило 400 тяжелобольных, из которых удалось спасти 210. 00:01:14.852 --> 00:01:17.169 Таким образом больница Б — лучший выбор 00:01:17.169 --> 00:01:20.741 для пациентов, прибывающих в плохом состоянии здоровья, 00:01:20.741 --> 00:01:24.526 с коэффициентом выживаемости — 52,5 %. 00:01:24.526 --> 00:01:28.445 А если на момент поступления в больницу здоровье вашего родственника в норме? 00:01:28.445 --> 00:01:32.271 Удивительно, но и тут больница Б — лучший выбор 00:01:32.271 --> 00:01:35.676 с коэффициентом выживаемости — 98%. 00:01:35.676 --> 00:01:38.733 Но почему у больницы А суммарный показатель выживаемости выше, 00:01:38.733 --> 00:01:44.830 если у больницы Б выше показатель выживаемости пациентов обеих групп? 00:01:44.830 --> 00:01:48.589 То, с чем мы столкнулись, называется парадоксом Симпсона, 00:01:48.589 --> 00:01:51.899 при котором набор данных может показывать обратную тенденцию 00:01:51.899 --> 00:01:54.664 в зависимости от того, как он сгруппирован. 00:01:54.664 --> 00:01:58.744 Такое случается, когда сводные данные содержат условную переменную, 00:01:58.744 --> 00:02:01.377 также известную, как скрытая переменная. 00:02:01.377 --> 00:02:06.584 Это скрытый дополнительный фактор, существенно влияющий на результаты. 00:02:06.584 --> 00:02:10.023 В данном случае скрытый фактор — это доля пациентов, 00:02:10.023 --> 00:02:13.264 прибывших в хорошем или плохом состоянии здоровья. 00:02:13.264 --> 00:02:16.544 Парадокс Симпсона — это не просто гипотетический сценарий. 00:02:16.544 --> 00:02:18.924 Время от времени он возникает в реальном мире, 00:02:18.924 --> 00:02:22.132 иногда при важных обстоятельствах. 00:02:22.132 --> 00:02:24.130 Исследование, проведённое в Великобритании, 00:02:24.130 --> 00:02:27.600 показало более высокую долю выживаемости курящих людей, нежели некурящих, 00:02:27.600 --> 00:02:29.846 более чем за 20-летний период времени. 00:02:29.846 --> 00:02:33.307 Но разделение участников на возрастные группы 00:02:33.307 --> 00:02:37.823 показало, что некурящие, в среднем, были существенно старше, 00:02:37.823 --> 00:02:40.930 а значит имели больше шансов умереть во время испытательного срока 00:02:40.930 --> 00:02:44.438 именно потому, что они в целом прожили больше. 00:02:44.438 --> 00:02:47.286 Здесь скрытой переменной являются возрастные группы, 00:02:47.286 --> 00:02:50.176 крайне важные для корректной интерпретации данных. 00:02:50.176 --> 00:02:51.559 Другой пример: 00:02:51.559 --> 00:02:54.281 анализ случаев смертной казни во Флориде 00:02:54.281 --> 00:02:58.265 не выявил расового неравенства при вынесении приговоров 00:02:58.265 --> 00:03:01.581 чернокожим и белым людям, обвиняемым в убийстве. 00:03:01.581 --> 00:03:06.396 Но разделение дел по расам жертв рассказало другую историю. 00:03:06.396 --> 00:03:07.969 При прочих равных обстоятельствах 00:03:07.969 --> 00:03:11.091 чернокожим обвиняемым чаще выносили смертный приговор. 00:03:11.091 --> 00:03:15.066 Немного большее количество приговоров для белых ответчиков было связано с тем, 00:03:15.066 --> 00:03:18.692 что делá об убийстве белых людей 00:03:18.692 --> 00:03:21.359 чаще приводили преступника к смертному приговору, 00:03:21.359 --> 00:03:24.091 чем делá, где жертвы были чернокожими, 00:03:24.091 --> 00:03:28.483 а большинство убийств совершалось между представителями одной расы. 00:03:28.483 --> 00:03:31.319 Так как же избежать выводов, содержащих парадокс? 00:03:31.319 --> 00:03:34.686 К несчастью, универсального ответа не существует. 00:03:34.686 --> 00:03:38.504 Данные могут быть сгруппированы и разделены любым количеством способов, 00:03:38.504 --> 00:03:42.106 и иногда суммарный показатель даёт более точную картину, 00:03:42.106 --> 00:03:46.638 чем данные, разделённые на случайные категории. 00:03:46.638 --> 00:03:52.089 Всё, что можно сделать — тщательно изучить ситуации, описываемые статистикой, 00:03:52.089 --> 00:03:55.977 и решить, возможно ли здесь присутствие скрытой переменной. 00:03:55.977 --> 00:03:59.378 В противном случае мы беззащитны перед теми, кто использует данные 00:03:59.378 --> 00:04:02.649 для манипуляции другими людьми в собственных интересах.