İstatistikler ikna edicidir.

Öyle ikna edici ki, insanlar,
kurumlar ve bütün ülkeler

en önemli bazı kararlarını
düzenli bilgiye dayanarak alırlar.

Ancak burada bir sorun var.

İstatistik verilerinde gizlenmiş,
sonuçları tamamen alt üst edebilecek

bir şeyler olabilir.

Örneğin, yaşlı bir akrabanızın 
ameliyatı için iki hastane arasında

seçim yapmak zorunda olduğunuzu düşünün.

Her iki hastanenin de 
son 1000 hastasından,

A hastanesinde 900'ü hayatta kalırken

B hastanesinde sadece 
800 kişi sağ kalmış.

O hâlde A hastanesi 
daha iyi bir seçim gibi görünüyor.

Ancak karar vermeden önce

tüm hastaların hastaneye
aynı sağlık durumunda

gelmediğini hatırlayın.

İki hastanenin de son 1000 hastasını

sağlıklı gelenler ve sağlıksız
gelenler olarak bölersek

resim çok daha farklı görünmeye başlar.

A hastanesine sağlıksız durumda gelen
sadece 100 hasta varken

30'u kurtarılmıştır.

Fakat B hastanesinde 400 hastadan
210'u kurtarılmıştır.

O zaman B hastanesi

ağır durumda gelen hastalar için 
%52,5 kurtulma oranıyla

daha iyi bir seçimdir.

Peki ya hastanızın sağlığı hastaneye
vardığında iyiyse?

Garip gelebilir ama B hastanesi 
%98 hayatta kalma oranıyla

yine daha iyi bir seçimdir.

Her iki gruptan hastalar için B hastanesi
daha iyi kurtulma oranına sahipken

A hastanesi genelde nasıl daha iyi
bir kurtulma orana sahip olabilir?

Karşılaştığımız şey, 
gruplandırma şekline bağlı olarak

aynı verilerin 
zıt eğilimler gösterebildiği

Simpson paradoksudur.

Bu durum genelde kümelenmiş bilgi
koşullu bir değişkeni örttüğünde oluşur,

karışıklığa neden olan değişken
olarak da bilinir,

bu ise sonuçları önemli ölçüde etkileyen
gizli bir ek faktördür.

Buradaki gizli faktör, sağlıklı ve
sağlıksız gelen hastaların

göreceli oranıdır.

Simpson paradoksu basit bir 
varsayımsal durum değildir.

Gerçek dünyada ara sıra,

bazen önemli durumlarda ortaya çıkar.

Birleşik Krallık'ta yapılan bir araştırma

sigara içenlerin içmeyenlerden
-yirmi yıldan fazla bir sürede-

daha yüksek yaşama oranına 
sahip olduğunu gösteriyordu.

Katılımcıların yaş gruplarına bölünmesi,

sigara içmeyenlerin önemli oranda
ortalamadan yaşlı olduğunu

ve bu nedenle genel olarak
daha uzun yaşadıkları için

tam da deney sırasında ölmelerinin
muhtemel olduğunu gösteriyordu.

Burada karışıklığa yol açan
değişken yaş gruplarıdır ve

veriyi doğru yorumlamada 
son derece önemlidir.

Diğer bir örnekte ise

Florida'nın idam cezası 
davalarının analizi,

cinayetten hükümlü
siyahi ve beyaz zanlılar arasında

ceza kararlarında ırksal eşitsizliğin
olmadığını ortaya çıkarır.

Fakat davaları mağdurun ırkına göre 
ayırmak farklı bir tablo gösterir.

Her iki durumda da

siyahi davalıların idam cezası alması
daha muhtemeldir.

Beyaz sanıkların genel ceza oranlarının
nispeten yüksek olması,

mağdurların beyaz olduğu davalarda

idam cezasının çıkmasının,

mağdurun siyahi olduğu davalardan
daha muhtemel olması

ve çoğu cinayetin aynı ırktan insanlar
arasında olmasından dolayıydı.

Peki çelişkiye düşmekten 
nasıl kurtulabiliriz?

Ne yazık ki hepsine uyan bir cevap yok.

Veriler birçok şekilde
gruplanıp kategoriye bölünebilir

ve genel rakamlar bazen 
yanıltıcı ve rastlantısal kategorilere

bölünen verilerden
daha doğru bir tablo verir.

Tek yapabileceğimiz, 
istatistiğin verdiği geçerli durumu

iyi inceleyip karışıklığa neden olan 
değişkeni olup olmadığını düşünmektir.

Aksi takdirde kendimizi, verileri 
başkalarını yönlendirmek ve

kendi çıkarlarını korumak için 
kullananlara karşı savunmasız bırakırız.