Статистиката е убедителна. Дотолкова, че хора, организации и цели държави основават някои от най-важните си решения на преработена информация. Но съществува проблем в това. Всяка статистика може да съдържа нещо подвеждащо в себе си, нещо, което преобръща резултатите с главата надолу. Например, представи си, че трябва да избереш между две болници за операция на възрастен роднина. От последните 1000 пациенти на всяка болница, 900 оцелели в Болница А, докато само 800 оцелели в Болница Б. Изглежда, сякаш Болница А е по-добрият избор. Но преди да вземеш решение, помни, че не всички пациенти са приети в болницата с еднакво здравословно състояние. Ако разделим последните 1000 пациенти на всяка болница на приети в добро състояние и приети във влошено състояние, картинката придобива различен вид. Болница А е имала само 100 пациенти във влошено състояние, от които 30 оцелели. Но Болница Б е имала 400, от които успели да спасят 210. Така че Болница Б е по-добрият избор за пациенти, които пристигат с лошо здравословно състояние, тъй като шансът за оцеляване е 52,5%. А какво става, ако здравето на роднината е добро, когато е приет в болницата? Колкото и да е странно, Болница Б отново е по-добрият избор, защото шансът за оцеляване в този случай е над 98%. Но как може Болница А да има цялостно по-добър шанс за оцеляване, ако Болница Б има по-добра статистика за пациенти и в двете групи? Натъкнали сме се на случай, засягащ парадокса на Симпсън, където еднаква информация може да показва противоположни тендеции в зависимост от това как се групира. Това често се случва, когато обобщена информация крие условна променлива, понякога наричана подвеждаща променлива, която е скрит допълнителен фактор, значително повлияващ резултатите. Тук скритият фактор е относителната пропорция на пациенти, които са приети в добро или влошено състояние. Парадоксът на Симпсън не е просто хипотетичен сценарий. Появява се от време на време в реалния свят, понякога във важен контекст. Едно проучване във Великобритания показало по-висок шанс за оцеляване при пушачите, отколкото при непушачите за период от 20 години. Разделянето на участниците във възрастови групи показало, че непушачите били значително по-възрастни и, следователно, с по-голяма вероятност да починат по време на експеримента, именно защото живели по-дълго по принцип. Тук възрастовите групи са подвеждащата променлива и са ключови за правилното интерпретиране на данните. В друг пример, анализ на случаите на смъртна присъда във Флорида показал липса на расово пристрастие при осъждането между цветнокожи и бели обвиняеми, осъдени за убийство. Но разделянето на случая по раса на жертвата променило цялата история. И в двете ситуации, имало тенденция цветнокожите обвиняеми да бъдат осъдени на смърт. Малко по-високият процент на осъждане на бели обвиняеми се дължал на факта, че при случаите с бели жертви било по-вероятно да се издаде смъртна присъда, отколкото в случаите, където жертвата била цветнокожа и повечето убийства се случвали между хора с еднаква раса. Тогава как да избегнем попадането в този парадокс? За съжаление, няма универсален отговор. Информацията може да бъде групирана поделена по многобройни начини и обобщените показатели понякога предлагат по-точна картина, отколкото поделените в подвеждащи или случайни категории. Само можем внимателно да проучим реалните ситуации, които статистиките описват и да преценим дали съществуват подвеждащи променливи. В противния случай оставяме на тези, които използват информацията да манипулират останалите в полза на собствените си виждания.