Статистика убедительна.

Настолько, что люди,
организации и целые страны

принимают важнейшие решения,
опираясь на систематизированные данные.

Но существует проблема.

В любом наборе статистических данных
может таиться то,

что способно полностью перевернуть
результаты с ног на голову.

Представьте, что вам нужно выбрать
одну из двух больниц

для операции пожилого родственника.

Из последней тысячи пациентов этих больниц

в больнице А выжило 900 человек,

а в больнице Б — 800.

Похоже, что больница А — лучший выбор.

Но принимая решение, имейте в виду,

что состояние здоровья пациентов,
прибывших в больницу,

было неодинаковым.

Если разделить последнюю тысячу
пациентов обеих больниц

на тех, кто прибыл в хорошем
и в плохом состоянии здоровья,

получится совсем другая картина.

В больницу А прибыло лишь 100 пациентов
в плохом состоянии здоровья,

из которых 30 выжили.

В больницу Б поступило 400 тяжелобольных,
из которых удалось спасти 210.

Таким образом больница Б —
лучший выбор

для пациентов, прибывающих
в плохом состоянии здоровья,

с коэффициентом выживаемости — 52,5 %.

А если на момент поступления в больницу
здоровье вашего родственника в норме?

Удивительно, но и тут больница Б —
лучший выбор

с коэффициентом выживаемости — 98%.

Но почему у больницы А
суммарный показатель выживаемости выше,

если у больницы Б выше показатель
выживаемости пациентов обеих групп?

То, с чем мы столкнулись,
называется парадоксом Симпсона,

при котором набор данных
может показывать обратную тенденцию

в зависимости от того,
как он сгруппирован.

Такое случается, когда сводные данные
содержат условную переменную,

также известную, как скрытая переменная.

Это скрытый дополнительный фактор,
существенно влияющий на результаты.

В данном случае скрытый фактор —
это доля пациентов,

прибывших в хорошем
или плохом состоянии здоровья.

Парадокс Симпсона —
это не просто гипотетический сценарий.

Время от времени
он возникает в реальном мире,

иногда при важных обстоятельствах.

Исследование,
проведённое в Великобритании,

показало более высокую долю выживаемости
курящих людей, нежели некурящих,

более чем за 20-летний период времени.

Но разделение участников
на возрастные группы

показало, что некурящие, в среднем,
были существенно старше,

а значит имели больше шансов
умереть во время испытательного срока

именно потому,
что они в целом прожили больше.

Здесь скрытой переменной
являются возрастные группы,

крайне важные для корректной
интерпретации данных.

Другой пример:

анализ случаев смертной казни во Флориде

не выявил расового неравенства
при вынесении приговоров

чернокожим и белым людям,
обвиняемым в убийстве.

Но разделение дел по расам жертв
рассказало другую историю.

При прочих равных обстоятельствах

чернокожим обвиняемым
чаще выносили смертный приговор.

Немного большее количество приговоров
для белых ответчиков было связано с тем,

что делá об убийстве белых людей

чаще приводили преступника
к смертному приговору,

чем делá, где жертвы были чернокожими,

а большинство убийств совершалось
между представителями одной расы.

Так как же избежать выводов,
содержащих парадокс?

К несчастью,
универсального ответа не существует.

Данные могут быть сгруппированы
и разделены любым количеством способов,

и иногда суммарный показатель
даёт более точную картину,

чем данные, разделённые
на случайные категории.

Всё, что можно сделать — тщательно изучить
ситуации, описываемые статистикой,

и решить, возможно ли здесь
присутствие скрытой переменной.

В противном случае мы беззащитны
перед теми, кто использует данные

для манипуляции другими людьми
в собственных интересах.