1 00:00:06,636 --> 00:00:09,077 Статистика убедительна. 2 00:00:09,077 --> 00:00:12,543 Настолько, что люди, организации и целые страны 3 00:00:12,543 --> 00:00:17,747 принимают важнейшие решения, опираясь на систематизированные данные. 4 00:00:17,747 --> 00:00:19,484 Но существует проблема. 5 00:00:19,484 --> 00:00:23,301 В любом наборе статистических данных может таиться то, 6 00:00:23,301 --> 00:00:27,251 что способно полностью перевернуть результаты с ног на голову. 7 00:00:27,251 --> 00:00:30,920 Представьте, что вам нужно выбрать одну из двух больниц 8 00:00:30,920 --> 00:00:33,737 для операции пожилого родственника. 9 00:00:33,737 --> 00:00:36,434 Из последней тысячи пациентов этих больниц 10 00:00:36,434 --> 00:00:39,612 в больнице А выжило 900 человек, 11 00:00:39,612 --> 00:00:43,021 а в больнице Б — 800. 12 00:00:43,021 --> 00:00:46,170 Похоже, что больница А — лучший выбор. 13 00:00:46,170 --> 00:00:47,843 Но принимая решение, имейте в виду, 14 00:00:47,843 --> 00:00:51,411 что состояние здоровья пациентов, прибывших в больницу, 15 00:00:51,411 --> 00:00:53,811 было неодинаковым. 16 00:00:53,811 --> 00:00:56,703 Если разделить последнюю тысячу пациентов обеих больниц 17 00:00:56,703 --> 00:01:01,132 на тех, кто прибыл в хорошем и в плохом состоянии здоровья, 18 00:01:01,132 --> 00:01:03,772 получится совсем другая картина. 19 00:01:03,772 --> 00:01:07,849 В больницу А прибыло лишь 100 пациентов в плохом состоянии здоровья, 20 00:01:07,849 --> 00:01:10,325 из которых 30 выжили. 21 00:01:10,325 --> 00:01:14,852 В больницу Б поступило 400 тяжелобольных, из которых удалось спасти 210. 22 00:01:14,852 --> 00:01:17,169 Таким образом больница Б — лучший выбор 23 00:01:17,169 --> 00:01:20,741 для пациентов, прибывающих в плохом состоянии здоровья, 24 00:01:20,741 --> 00:01:24,526 с коэффициентом выживаемости — 52,5 %. 25 00:01:24,526 --> 00:01:28,445 А если на момент поступления в больницу здоровье вашего родственника в норме? 26 00:01:28,445 --> 00:01:32,271 Удивительно, но и тут больница Б — лучший выбор 27 00:01:32,271 --> 00:01:35,676 с коэффициентом выживаемости — 98%. 28 00:01:35,676 --> 00:01:38,733 Но почему у больницы А суммарный показатель выживаемости выше, 29 00:01:38,733 --> 00:01:44,830 если у больницы Б выше показатель выживаемости пациентов обеих групп? 30 00:01:44,830 --> 00:01:48,589 То, с чем мы столкнулись, называется парадоксом Симпсона, 31 00:01:48,589 --> 00:01:51,899 при котором набор данных может показывать обратную тенденцию 32 00:01:51,899 --> 00:01:54,664 в зависимости от того, как он сгруппирован. 33 00:01:54,664 --> 00:01:58,744 Такое случается, когда сводные данные содержат условную переменную, 34 00:01:58,744 --> 00:02:01,377 также известную, как скрытая переменная. 35 00:02:01,377 --> 00:02:06,584 Это скрытый дополнительный фактор, существенно влияющий на результаты. 36 00:02:06,584 --> 00:02:10,023 В данном случае скрытый фактор — это доля пациентов, 37 00:02:10,023 --> 00:02:13,264 прибывших в хорошем или плохом состоянии здоровья. 38 00:02:13,264 --> 00:02:16,544 Парадокс Симпсона — это не просто гипотетический сценарий. 39 00:02:16,544 --> 00:02:18,924 Время от времени он возникает в реальном мире, 40 00:02:18,924 --> 00:02:22,132 иногда при важных обстоятельствах. 41 00:02:22,132 --> 00:02:24,130 Исследование, проведённое в Великобритании, 42 00:02:24,130 --> 00:02:27,600 показало более высокую долю выживаемости курящих людей, нежели некурящих, 43 00:02:27,600 --> 00:02:29,846 более чем за 20-летний период времени. 44 00:02:29,846 --> 00:02:33,307 Но разделение участников на возрастные группы 45 00:02:33,307 --> 00:02:37,823 показало, что некурящие, в среднем, были существенно старше, 46 00:02:37,823 --> 00:02:40,930 а значит имели больше шансов умереть во время испытательного срока 47 00:02:40,930 --> 00:02:44,438 именно потому, что они в целом прожили больше. 48 00:02:44,438 --> 00:02:47,286 Здесь скрытой переменной являются возрастные группы, 49 00:02:47,286 --> 00:02:50,176 крайне важные для корректной интерпретации данных. 50 00:02:50,176 --> 00:02:51,559 Другой пример: 51 00:02:51,559 --> 00:02:54,281 анализ случаев смертной казни во Флориде 52 00:02:54,281 --> 00:02:58,265 не выявил расового неравенства при вынесении приговоров 53 00:02:58,265 --> 00:03:01,581 чернокожим и белым людям, обвиняемым в убийстве. 54 00:03:01,581 --> 00:03:06,396 Но разделение дел по расам жертв рассказало другую историю. 55 00:03:06,396 --> 00:03:07,969 При прочих равных обстоятельствах 56 00:03:07,969 --> 00:03:11,091 чернокожим обвиняемым чаще выносили смертный приговор. 57 00:03:11,091 --> 00:03:15,066 Немного большее количество приговоров для белых ответчиков было связано с тем, 58 00:03:15,066 --> 00:03:18,692 что делá об убийстве белых людей 59 00:03:18,692 --> 00:03:21,359 чаще приводили преступника к смертному приговору, 60 00:03:21,359 --> 00:03:24,091 чем делá, где жертвы были чернокожими, 61 00:03:24,091 --> 00:03:28,483 а большинство убийств совершалось между представителями одной расы. 62 00:03:28,483 --> 00:03:31,319 Так как же избежать выводов, содержащих парадокс? 63 00:03:31,319 --> 00:03:34,686 К несчастью, универсального ответа не существует. 64 00:03:34,686 --> 00:03:38,504 Данные могут быть сгруппированы и разделены любым количеством способов, 65 00:03:38,504 --> 00:03:42,106 и иногда суммарный показатель даёт более точную картину, 66 00:03:42,106 --> 00:03:46,638 чем данные, разделённые на случайные категории. 67 00:03:46,638 --> 00:03:52,089 Всё, что можно сделать — тщательно изучить ситуации, описываемые статистикой, 68 00:03:52,089 --> 00:03:55,977 и решить, возможно ли здесь присутствие скрытой переменной. 69 00:03:55,977 --> 00:03:59,378 В противном случае мы беззащитны перед теми, кто использует данные 70 00:03:59,378 --> 00:04:02,649 для манипуляции другими людьми в собственных интересах.