Статистика переконлива. Настільки, що люди, організації та цілі країни засновують одні з найважливіших рішень на упорядкованих даних. Однак у цьому існує проблема. Будь-яка статистика може мати в собі приховану сторону, щось, що може перевернути результати догори дриґом. Наприклад, уявіть, що Вам необхідно вибрати між двома лікарнями, щоб прооперувати когось із родичів похилого віку. У кожній лікарні з 1000 пацієнтів 900 виживає у Лікарні А, тоді як у Лікарні В - лише 800. Виглядає, ніби лікарня А - кращий варіант. Але перед тим, як Ви приймете рішення, зверніть увагу, що не всі пацієнти прибувають у лікарню з однаковим станом здоров'я. Якщо розділити 1000 пацієнтів з кожної лікарні на тих, хто прибуває в хорошому здоров'ї, і тих, хто в поганому, ситуація стає зовсім іншою. У Лікарню А лише 100 пацієнтів, які поступили, мали погане здоров'я, з яких 30 вижило. Але Лікарня В мала 400 таких пацієнтів, де врятували 210 з них. Отже, Лікарня 2 - кращий вибір для пацієнтів, які поступають в лікарню з поганим здоров'ям, із 52,5% тих, що вижили. А що, коли ваш родич добре почувався, поступаючи в лікарню? Як на диво, Лікарня В все ще залишається кращим вибором, із 98% тих, що вижили. Як же вийшло, що Лікарня А має вищий загальний рівень виживання, якщо Лікарня В має вищий рівень виживання у обох групах? У цьому випадку ми маємо справу з парадоксом Сімпсона, де однакові дані можуть демонструвати протилежні тенденції залежно від того, як їх згрупувати. Це часто трапляється, коли зведені дані приховують умовну змінну, іноді відому як прихована змінна, що є додатковим прихованим фактором, який суттєво впливає на результати. У цьому випадку прихований фактор - це відносна частка пацієнтів, які приїжджають з хорошим чи поганим станом здоров'я. Парадокс Сімпсона - не лише гіпотетичний сценарій. Він час від часу проявляється в реальному світі, іноді у важливому контексті. Дослідження у Великобританії показало, що курці мають вищий рівень виживання ніж некурці за 20-річний період. Це було правдою, поки не розділили пацієнтів за віковими групами, що продемонструвало, що некурці були в середньому значно старші, а тому з більшою імовірністю могли померти у випробувальний період, точнісінько через те, що загалом вони жили довше. У цьому випадку вікові групи - це прихована змінна, яка важлива для правильної інтерпретації даних. В іншому прикладі аналіз справ із смертними вироками у Флориді показав, що, на перший погляд, при винесенні вироку не було расових відмінностей між афроамериканцями і білими, звинуваченими у вбивстві. Однак якщо розділити справи за расовою приналежністю - інша історія. В обох випадках афроамериканців частіше засуджували до смертної кари. Дещо вищий загальний рівень засудження білошкірих обвинувачених спричинений тим, що справи, жертвами в яких були білошкірі, частіше призводили до смертної кари, ніж справи, де жертвами були афроамериканці, а більшість вбивств ставалися між представниками однієї раси. Отже, як нам не вестися на цей парадокс? На жаль, не існує універсальної відповіді. Дані можна згрупувати та розділити будь-якими способами, а загальні числа іноді можуть дати точніше уявлення, ніж дані, поділені на оманливі чи випадкові категорії. Все, що ми можемо зробити - ретельно дослідити ситуації, описані статистично і обміркувати, чи присутні там приховані змінні. Інакше ми будемо вразливими перед тими, хто використовує дані, щоб маніпулювати іншими та популяризувати власні погляди.