Статистиката е убедителна.

Дотолкова, че хора, организации
и цели държави

основават някои от най-важните си решения
на преработена информация.

Но съществува проблем в това.

Всяка статистика може да съдържа
нещо подвеждащо в себе си,

нещо, което преобръща резултатите
с главата надолу.

Например, представи си, че трябва
да избереш между две болници

за операция на възрастен роднина.

От последните 1000 пациенти
на всяка болница,

900 оцелели в Болница А,

докато само 800 оцелели в Болница Б.

Изглежда, сякаш Болница А
е по-добрият избор.

Но преди да вземеш решение,

помни, че не всички пациенти
са приети в болницата

с еднакво здравословно състояние.

Ако разделим последните 1000 пациенти
на всяка болница

на приети в добро състояние
и приети във влошено състояние,

картинката придобива различен вид.

Болница А е имала само 100 пациенти
във влошено състояние,

от които 30 оцелели.

Но Болница Б е имала 400,
от които успели да спасят 210.

Така че Болница Б е по-добрият избор

за пациенти, които пристигат
с лошо здравословно състояние,

тъй като шансът за оцеляване е 52,5%.

А какво става, ако здравето на роднината
е добро, когато е приет в болницата?

Колкото и да е странно, Болница Б
отново е по-добрият избор,

защото шансът за оцеляване 
в този случай е над 98%.

Но как може Болница А да има цялостно
по-добър шанс за оцеляване,

ако Болница Б има по-добра статистика
за пациенти и в двете групи?

Натъкнали сме се на случай, засягащ
парадокса на Симпсън,

където еднаква информация може
да показва противоположни тендеции

в зависимост от това как се групира.

Това често се случва, когато обобщена
информация крие условна променлива,

понякога наричана подвеждаща променлива,

която е скрит допълнителен фактор,
значително повлияващ резултатите.

Тук скритият фактор е относителната
пропорция на пациенти,

които са приети в добро или 
влошено състояние.

Парадоксът на Симпсън не е просто
хипотетичен сценарий.

Появява се от време на време
в реалния свят,

понякога във важен контекст.

Едно проучване във Великобритания показало

по-висок шанс за оцеляване при пушачите, 
отколкото при непушачите

за период от 20 години.

Разделянето на участниците
във възрастови групи

показало, че непушачите били 
значително по-възрастни

и, следователно, с по-голяма вероятност
да починат по време на експеримента,

именно защото живели по-дълго по принцип.

Тук възрастовите групи са 
подвеждащата променлива

и са ключови за правилното интерпретиране
на данните.

В друг пример,

анализ на случаите на 
смъртна присъда във Флорида

показал липса на расово пристрастие
при осъждането

между цветнокожи и бели обвиняеми,
осъдени за убийство.

Но разделянето на случая по раса
на жертвата променило цялата история.

И в двете ситуации,

имало тенденция цветнокожите обвиняеми 
да бъдат осъдени на смърт.

Малко по-високият процент на осъждане
на бели обвиняеми

се дължал на факта, че 
при случаите с бели жертви

било по-вероятно да се издаде
смъртна присъда,

отколкото в случаите, където 
жертвата била цветнокожа

и повечето убийства се случвали
между хора с еднаква раса.

Тогава как да избегнем
попадането в този парадокс?

За съжаление, няма универсален отговор.

Информацията може да бъде групирана
поделена по многобройни начини

и обобщените показатели понякога
предлагат по-точна картина,

отколкото поделените в подвеждащи
или случайни категории.

Само можем внимателно да проучим реалните 
ситуации, които статистиките описват

и да преценим дали съществуват
подвеждащи променливи.

В противния случай оставяме на тези,
които използват информацията

да манипулират останалите
в полза на собствените си виждания.