Статистика убедительна.
Настолько, что люди,
организации и целые страны
принимают важнейшие решения,
опираясь на систематизированные данные.
Но существует проблема.
В любом наборе статистических данных
может таиться то,
что способно полностью перевернуть
результаты с ног на голову.
Представьте, что вам нужно выбрать
одну из двух больниц
для операции пожилого родственника.
Из последней тысячи пациентов этих больниц
в больнице А выжило 900 человек,
а в больнице Б — 800.
Похоже, что больница А — лучший выбор.
Но принимая решение, имейте в виду,
что состояние здоровья пациентов,
прибывших в больницу,
было неодинаковым.
Если разделить последнюю тысячу
пациентов обеих больниц
на тех, кто прибыл в хорошем
и в плохом состоянии здоровья,
получится совсем другая картина.
В больницу А прибыло лишь 100 пациентов
в плохом состоянии здоровья,
из которых 30 выжили.
В больницу Б поступило 400 тяжелобольных,
из которых удалось спасти 210.
Таким образом больница Б —
лучший выбор
для пациентов, прибывающих
в плохом состоянии здоровья,
с коэффициентом выживаемости — 52,5 %.
А если на момент поступления в больницу
здоровье вашего родственника в норме?
Удивительно, но и тут больница Б —
лучший выбор
с коэффициентом выживаемости — 98%.
Но почему у больницы А
суммарный показатель выживаемости выше,
если у больницы Б выше показатель
выживаемости пациентов обеих групп?
То, с чем мы столкнулись,
называется парадоксом Симпсона,
при котором набор данных
может показывать обратную тенденцию
в зависимости от того,
как он сгруппирован.
Такое случается, когда сводные данные
содержат условную переменную,
также известную, как скрытая переменная.
Это скрытый дополнительный фактор,
существенно влияющий на результаты.
В данном случае скрытый фактор —
это доля пациентов,
прибывших в хорошем
или плохом состоянии здоровья.
Парадокс Симпсона —
это не просто гипотетический сценарий.
Время от времени
он возникает в реальном мире,
иногда при важных обстоятельствах.
Исследование,
проведённое в Великобритании,
показало более высокую долю выживаемости
курящих людей, нежели некурящих,
более чем за 20-летний период времени.
Но разделение участников
на возрастные группы
показало, что некурящие, в среднем,
были существенно старше,
а значит имели больше шансов
умереть во время испытательного срока
именно потому,
что они в целом прожили больше.
Здесь скрытой переменной
являются возрастные группы,
крайне важные для корректной
интерпретации данных.
Другой пример:
анализ случаев смертной казни во Флориде
не выявил расового неравенства
при вынесении приговоров
чернокожим и белым людям,
обвиняемым в убийстве.
Но разделение дел по расам жертв
рассказало другую историю.
При прочих равных обстоятельствах
чернокожим обвиняемым
чаще выносили смертный приговор.
Немного большее количество приговоров
для белых ответчиков было связано с тем,
что делá об убийстве белых людей
чаще приводили преступника
к смертному приговору,
чем делá, где жертвы были чернокожими,
а большинство убийств совершалось
между представителями одной расы.
Так как же избежать выводов,
содержащих парадокс?
К несчастью,
универсального ответа не существует.
Данные могут быть сгруппированы
и разделены любым количеством способов,
и иногда суммарный показатель
даёт более точную картину,
чем данные, разделённые
на случайные категории.
Всё, что можно сделать — тщательно изучить
ситуации, описываемые статистикой,
и решить, возможно ли здесь
присутствие скрытой переменной.
В противном случае мы беззащитны
перед теми, кто использует данные
для манипуляции другими людьми
в собственных интересах.