Статистиката е убедителна.
Дотолкова, че хора, организации
и цели държави
основават някои от най-важните си решения
на преработена информация.
Но съществува проблем в това.
Всяка статистика може да съдържа
нещо подвеждащо в себе си,
нещо, което преобръща резултатите
с главата надолу.
Например, представи си, че трябва
да избереш между две болници
за операция на възрастен роднина.
От последните 1000 пациенти
на всяка болница,
900 оцелели в Болница А,
докато само 800 оцелели в Болница Б.
Изглежда, сякаш Болница А
е по-добрият избор.
Но преди да вземеш решение,
помни, че не всички пациенти
са приети в болницата
с еднакво здравословно състояние.
Ако разделим последните 1000 пациенти
на всяка болница
на приети в добро състояние
и приети във влошено състояние,
картинката придобива различен вид.
Болница А е имала само 100 пациенти
във влошено състояние,
от които 30 оцелели.
Но Болница Б е имала 400,
от които успели да спасят 210.
Така че Болница Б е по-добрият избор
за пациенти, които пристигат
с лошо здравословно състояние,
тъй като шансът за оцеляване е 52,5%.
А какво става, ако здравето на роднината
е добро, когато е приет в болницата?
Колкото и да е странно, Болница Б
отново е по-добрият избор,
защото шансът за оцеляване
в този случай е над 98%.
Но как може Болница А да има цялостно
по-добър шанс за оцеляване,
ако Болница Б има по-добра статистика
за пациенти и в двете групи?
Натъкнали сме се на случай, засягащ
парадокса на Симпсън,
където еднаква информация може
да показва противоположни тендеции
в зависимост от това как се групира.
Това често се случва, когато обобщена
информация крие условна променлива,
понякога наричана подвеждаща променлива,
която е скрит допълнителен фактор,
значително повлияващ резултатите.
Тук скритият фактор е относителната
пропорция на пациенти,
които са приети в добро или
влошено състояние.
Парадоксът на Симпсън не е просто
хипотетичен сценарий.
Появява се от време на време
в реалния свят,
понякога във важен контекст.
Едно проучване във Великобритания показало
по-висок шанс за оцеляване при пушачите,
отколкото при непушачите
за период от 20 години.
Разделянето на участниците
във възрастови групи
показало, че непушачите били
значително по-възрастни
и, следователно, с по-голяма вероятност
да починат по време на експеримента,
именно защото живели по-дълго по принцип.
Тук възрастовите групи са
подвеждащата променлива
и са ключови за правилното интерпретиране
на данните.
В друг пример,
анализ на случаите на
смъртна присъда във Флорида
показал липса на расово пристрастие
при осъждането
между цветнокожи и бели обвиняеми,
осъдени за убийство.
Но разделянето на случая по раса
на жертвата променило цялата история.
И в двете ситуации,
имало тенденция цветнокожите обвиняеми
да бъдат осъдени на смърт.
Малко по-високият процент на осъждане
на бели обвиняеми
се дължал на факта, че
при случаите с бели жертви
било по-вероятно да се издаде
смъртна присъда,
отколкото в случаите, където
жертвата била цветнокожа
и повечето убийства се случвали
между хора с еднаква раса.
Тогава как да избегнем
попадането в този парадокс?
За съжаление, няма универсален отговор.
Информацията може да бъде групирана
поделена по многобройни начини
и обобщените показатели понякога
предлагат по-точна картина,
отколкото поделените в подвеждащи
или случайни категории.
Само можем внимателно да проучим реалните
ситуации, които статистиките описват
и да преценим дали съществуват
подвеждащи променливи.
В противния случай оставяме на тези,
които използват информацията
да манипулират останалите
в полза на собствените си виждания.