Статистика убедительна. Настолько, что люди, организации и целые страны принимают важнейшие решения, опираясь на систематизированные данные. Но существует проблема. В любом наборе статистических данных может таиться то, что способно полностью перевернуть результаты с ног на голову. Представьте, что вам нужно выбрать одну из двух больниц для операции пожилого родственника. Из последней тысячи пациентов этих больниц в больнице А выжило 900 человек, а в больнице Б — 800. Похоже, что больница А — лучший выбор. Но принимая решение, имейте в виду, что состояние здоровья пациентов, прибывших в больницу, было неодинаковым. Если разделить последнюю тысячу пациентов обеих больниц на тех, кто прибыл в хорошем и в плохом состоянии здоровья, получится совсем другая картина. В больницу А прибыло лишь 100 пациентов в плохом состоянии здоровья, из которых 30 выжили. В больницу Б поступило 400 тяжелобольных, из которых удалось спасти 210. Таким образом больница Б — лучший выбор для пациентов, прибывающих в плохом состоянии здоровья, с коэффициентом выживаемости — 52,5 %. А если на момент поступления в больницу здоровье вашего родственника в норме? Удивительно, но и тут больница Б — лучший выбор с коэффициентом выживаемости — 98%. Но почему у больницы А суммарный показатель выживаемости выше, если у больницы Б выше показатель выживаемости пациентов обеих групп? То, с чем мы столкнулись, называется парадоксом Симпсона, при котором набор данных может показывать обратную тенденцию в зависимости от того, как он сгруппирован. Такое случается, когда сводные данные содержат условную переменную, также известную, как скрытая переменная. Это скрытый дополнительный фактор, существенно влияющий на результаты. В данном случае скрытый фактор — это доля пациентов, прибывших в хорошем или плохом состоянии здоровья. Парадокс Симпсона — это не просто гипотетический сценарий. Время от времени он возникает в реальном мире, иногда при важных обстоятельствах. Исследование, проведённое в Великобритании, показало более высокую долю выживаемости курящих людей, нежели некурящих, более чем за 20-летний период времени. Но разделение участников на возрастные группы показало, что некурящие, в среднем, были существенно старше, а значит имели больше шансов умереть во время испытательного срока именно потому, что они в целом прожили больше. Здесь скрытой переменной являются возрастные группы, крайне важные для корректной интерпретации данных. Другой пример: анализ случаев смертной казни во Флориде не выявил расового неравенства при вынесении приговоров чернокожим и белым людям, обвиняемым в убийстве. Но разделение дел по расам жертв рассказало другую историю. При прочих равных обстоятельствах чернокожим обвиняемым чаще выносили смертный приговор. Немного большее количество приговоров для белых ответчиков было связано с тем, что делá об убийстве белых людей чаще приводили преступника к смертному приговору, чем делá, где жертвы были чернокожими, а большинство убийств совершалось между представителями одной расы. Так как же избежать выводов, содержащих парадокс? К несчастью, универсального ответа не существует. Данные могут быть сгруппированы и разделены любым количеством способов, и иногда суммарный показатель даёт более точную картину, чем данные, разделённые на случайные категории. Всё, что можно сделать — тщательно изучить ситуации, описываемые статистикой, и решить, возможно ли здесь присутствие скрытой переменной. В противном случае мы беззащитны перед теми, кто использует данные для манипуляции другими людьми в собственных интересах.