Статистика переконлива.
Настільки, що люди, організації
та цілі країни
засновують одні з найважливіших рішень
на упорядкованих даних.
Однак у цьому існує проблема.
Будь-яка статистика може мати
в собі приховану сторону,
щось, що може перевернути результати
догори дриґом.
Наприклад, уявіть, що Вам необхідно
вибрати між двома лікарнями,
щоб прооперувати когось із
родичів похилого віку.
У кожній лікарні з 1000 пацієнтів
900 виживає у Лікарні А,
тоді як у Лікарні В - лише 800.
Виглядає, ніби лікарня А -
кращий варіант.
Але перед тим, як Ви приймете
рішення,
зверніть увагу, що не всі пацієнти
прибувають у лікарню
з однаковим станом здоров'я.
Якщо розділити 1000 пацієнтів
з кожної лікарні
на тих, хто прибуває в хорошому
здоров'ї, і тих, хто в поганому,
ситуація стає зовсім іншою.
У Лікарню А лише 100 пацієнтів,
які поступили, мали погане здоров'я,
з яких 30 вижило.
Але Лікарня В мала 400 таких
пацієнтів, де врятували 210 з них.
Отже, Лікарня 2 - кращий вибір
для пацієнтів, які поступають
в лікарню з поганим здоров'ям,
із 52,5% тих, що вижили.
А що, коли ваш родич добре
почувався, поступаючи в лікарню?
Як на диво, Лікарня В все ще
залишається кращим вибором,
із 98% тих, що вижили.
Як же вийшло, що Лікарня А має вищий
загальний рівень виживання,
якщо Лікарня В має вищий рівень
виживання у обох групах?
У цьому випадку ми маємо справу з
парадоксом Сімпсона,
де однакові дані можуть
демонструвати протилежні тенденції
залежно від того, як їх згрупувати.
Це часто трапляється, коли зведені
дані приховують умовну змінну,
іноді відому як прихована змінна,
що є додатковим прихованим фактором,
який суттєво впливає на результати.
У цьому випадку прихований фактор -
це відносна частка пацієнтів,
які приїжджають з
хорошим чи поганим станом здоров'я.
Парадокс Сімпсона - не лише
гіпотетичний сценарій.
Він час від часу проявляється
в реальному світі,
іноді у важливому контексті.
Дослідження
у Великобританії показало,
що курці мають вищий рівень
виживання ніж некурці
за 20-річний період.
Це було правдою, поки не розділили
пацієнтів за віковими групами,
що продемонструвало, що некурці були
в середньому значно старші,
а тому з більшою імовірністю могли
померти у випробувальний період,
точнісінько через те, що загалом
вони жили довше.
У цьому випадку вікові групи -
це прихована змінна,
яка важлива для правильної
інтерпретації даних.
В іншому прикладі
аналіз справ із смертними
вироками у Флориді
показав, що, на перший погляд,
при винесенні вироку не було расових відмінностей
між афроамериканцями і білими,
звинуваченими у вбивстві.
Однак якщо розділити справи за
расовою приналежністю - інша історія.
В обох випадках
афроамериканців частіше
засуджували до смертної кари.
Дещо вищий загальний рівень
засудження білошкірих обвинувачених
спричинений тим, що справи, жертвами
в яких були білошкірі,
частіше призводили до
смертної кари,
ніж справи, де жертвами
були афроамериканці,
а більшість вбивств ставалися
між представниками однієї раси.
Отже, як нам не
вестися на цей парадокс?
На жаль, не існує
універсальної відповіді.
Дані можна згрупувати та розділити
будь-якими способами,
а загальні числа іноді можуть
дати точніше уявлення,
ніж дані, поділені на оманливі
чи випадкові категорії.
Все, що ми можемо зробити - ретельно
дослідити ситуації, описані статистично
і обміркувати, чи присутні
там приховані змінні.
Інакше ми будемо вразливими перед
тими, хто використовує дані,
щоб маніпулювати іншими та
популяризувати власні погляди.