0:00:06.636,0:00:09.077 Статистика убедительна. 0:00:09.077,0:00:12.543 Настолько, что люди,[br]организации и целые страны 0:00:12.543,0:00:17.747 принимают важнейшие решения,[br]опираясь на систематизированные данные. 0:00:17.747,0:00:19.484 Но существует проблема. 0:00:19.484,0:00:23.301 В любом наборе статистических данных[br]может таиться то, 0:00:23.301,0:00:27.251 что способно полностью перевернуть[br]результаты с ног на голову. 0:00:27.251,0:00:30.920 Представьте, что вам нужно выбрать[br]одну из двух больниц 0:00:30.920,0:00:33.737 для операции пожилого родственника. 0:00:33.737,0:00:36.434 Из последней тысячи пациентов этих больниц 0:00:36.434,0:00:39.612 в больнице А выжило 900 человек, 0:00:39.612,0:00:43.021 а в больнице Б — 800. 0:00:43.021,0:00:46.170 Похоже, что больница А — лучший выбор. 0:00:46.170,0:00:47.843 Но принимая решение, имейте в виду, 0:00:47.843,0:00:51.411 что состояние здоровья пациентов,[br]прибывших в больницу, 0:00:51.411,0:00:53.811 было неодинаковым. 0:00:53.811,0:00:56.703 Если разделить последнюю тысячу[br]пациентов обеих больниц 0:00:56.703,0:01:01.132 на тех, кто прибыл в хорошем[br]и в плохом состоянии здоровья, 0:01:01.132,0:01:03.772 получится совсем другая картина. 0:01:03.772,0:01:07.849 В больницу А прибыло лишь 100 пациентов[br]в плохом состоянии здоровья, 0:01:07.849,0:01:10.325 из которых 30 выжили. 0:01:10.325,0:01:14.852 В больницу Б поступило 400 тяжелобольных,[br]из которых удалось спасти 210. 0:01:14.852,0:01:17.169 Таким образом больница Б —[br]лучший выбор 0:01:17.169,0:01:20.741 для пациентов, прибывающих[br]в плохом состоянии здоровья, 0:01:20.741,0:01:24.526 с коэффициентом выживаемости — 52,5 %. 0:01:24.526,0:01:28.445 А если на момент поступления в больницу[br]здоровье вашего родственника в норме? 0:01:28.445,0:01:32.271 Удивительно, но и тут больница Б —[br]лучший выбор 0:01:32.271,0:01:35.676 с коэффициентом выживаемости — 98%. 0:01:35.676,0:01:38.733 Но почему у больницы А[br]суммарный показатель выживаемости выше, 0:01:38.733,0:01:44.830 если у больницы Б выше показатель[br]выживаемости пациентов обеих групп? 0:01:44.830,0:01:48.589 То, с чем мы столкнулись,[br]называется парадоксом Симпсона, 0:01:48.589,0:01:51.899 при котором набор данных[br]может показывать обратную тенденцию 0:01:51.899,0:01:54.664 в зависимости от того,[br]как он сгруппирован. 0:01:54.664,0:01:58.744 Такое случается, когда сводные данные[br]содержат условную переменную, 0:01:58.744,0:02:01.377 также известную, как скрытая переменная. 0:02:01.377,0:02:06.584 Это скрытый дополнительный фактор,[br]существенно влияющий на результаты. 0:02:06.584,0:02:10.023 В данном случае скрытый фактор —[br]это доля пациентов, 0:02:10.023,0:02:13.264 прибывших в хорошем[br]или плохом состоянии здоровья. 0:02:13.264,0:02:16.544 Парадокс Симпсона —[br]это не просто гипотетический сценарий. 0:02:16.544,0:02:18.924 Время от времени[br]он возникает в реальном мире, 0:02:18.924,0:02:22.132 иногда при важных обстоятельствах. 0:02:22.132,0:02:24.130 Исследование,[br]проведённое в Великобритании, 0:02:24.130,0:02:27.600 показало более высокую долю выживаемости[br]курящих людей, нежели некурящих, 0:02:27.600,0:02:29.846 более чем за 20-летний период времени. 0:02:29.846,0:02:33.307 Но разделение участников[br]на возрастные группы 0:02:33.307,0:02:37.823 показало, что некурящие, в среднем,[br]были существенно старше, 0:02:37.823,0:02:40.930 а значит имели больше шансов[br]умереть во время испытательного срока 0:02:40.930,0:02:44.438 именно потому,[br]что они в целом прожили больше. 0:02:44.438,0:02:47.286 Здесь скрытой переменной[br]являются возрастные группы, 0:02:47.286,0:02:50.176 крайне важные для корректной[br]интерпретации данных. 0:02:50.176,0:02:51.559 Другой пример: 0:02:51.559,0:02:54.281 анализ случаев смертной казни во Флориде 0:02:54.281,0:02:58.265 не выявил расового неравенства[br]при вынесении приговоров 0:02:58.265,0:03:01.581 чернокожим и белым людям,[br]обвиняемым в убийстве. 0:03:01.581,0:03:06.396 Но разделение дел по расам жертв[br]рассказало другую историю. 0:03:06.396,0:03:07.969 При прочих равных обстоятельствах 0:03:07.969,0:03:11.091 чернокожим обвиняемым[br]чаще выносили смертный приговор. 0:03:11.091,0:03:15.066 Немного большее количество приговоров[br]для белых ответчиков было связано с тем, 0:03:15.066,0:03:18.692 что делá об убийстве белых людей 0:03:18.692,0:03:21.359 чаще приводили преступника[br]к смертному приговору, 0:03:21.359,0:03:24.091 чем делá, где жертвы были чернокожими, 0:03:24.091,0:03:28.483 а большинство убийств совершалось[br]между представителями одной расы. 0:03:28.483,0:03:31.319 Так как же избежать выводов,[br]содержащих парадокс? 0:03:31.319,0:03:34.686 К несчастью,[br]универсального ответа не существует. 0:03:34.686,0:03:38.504 Данные могут быть сгруппированы[br]и разделены любым количеством способов, 0:03:38.504,0:03:42.106 и иногда суммарный показатель[br]даёт более точную картину, 0:03:42.106,0:03:46.638 чем данные, разделённые[br]на случайные категории. 0:03:46.638,0:03:52.089 Всё, что можно сделать — тщательно изучить[br]ситуации, описываемые статистикой, 0:03:52.089,0:03:55.977 и решить, возможно ли здесь[br]присутствие скрытой переменной. 0:03:55.977,0:03:59.378 В противном случае мы беззащитны[br]перед теми, кто использует данные 0:03:59.378,0:04:02.649 для манипуляции другими людьми[br]в собственных интересах.