İstatistikler ikna edicidir.
Öyle ikna edici ki, insanlar,
kurumlar ve bütün ülkeler
en önemli bazı kararlarını
düzenli bilgiye dayanarak alırlar.
Ancak burada bir sorun var.
İstatistik verilerinde gizlenmiş,
sonuçları tamamen alt üst edebilecek
bir şeyler olabilir.
Örneğin, yaşlı bir akrabanızın
ameliyatı için iki hastane arasında
seçim yapmak zorunda olduğunuzu düşünün.
Her iki hastanenin de
son 1000 hastasından,
A hastanesinde 900'ü hayatta kalırken
B hastanesinde sadece
800 kişi sağ kalmış.
O hâlde A hastanesi
daha iyi bir seçim gibi görünüyor.
Ancak karar vermeden önce
tüm hastaların hastaneye
aynı sağlık durumunda
gelmediğini hatırlayın.
İki hastanenin de son 1000 hastasını
sağlıklı gelenler ve sağlıksız
gelenler olarak bölersek
resim çok daha farklı görünmeye başlar.
A hastanesine sağlıksız durumda gelen
sadece 100 hasta varken
30'u kurtarılmıştır.
Fakat B hastanesinde 400 hastadan
210'u kurtarılmıştır.
O zaman B hastanesi
ağır durumda gelen hastalar için
%52,5 kurtulma oranıyla
daha iyi bir seçimdir.
Peki ya hastanızın sağlığı hastaneye
vardığında iyiyse?
Garip gelebilir ama B hastanesi
%98 hayatta kalma oranıyla
yine daha iyi bir seçimdir.
Her iki gruptan hastalar için B hastanesi
daha iyi kurtulma oranına sahipken
A hastanesi genelde nasıl daha iyi
bir kurtulma orana sahip olabilir?
Karşılaştığımız şey,
gruplandırma şekline bağlı olarak
aynı verilerin
zıt eğilimler gösterebildiği
Simpson paradoksudur.
Bu durum genelde kümelenmiş bilgi
koşullu bir değişkeni örttüğünde oluşur,
karışıklığa neden olan değişken
olarak da bilinir,
bu ise sonuçları önemli ölçüde etkileyen
gizli bir ek faktördür.
Buradaki gizli faktör, sağlıklı ve
sağlıksız gelen hastaların
göreceli oranıdır.
Simpson paradoksu basit bir
varsayımsal durum değildir.
Gerçek dünyada ara sıra,
bazen önemli durumlarda ortaya çıkar.
Birleşik Krallık'ta yapılan bir araştırma
sigara içenlerin içmeyenlerden
-yirmi yıldan fazla bir sürede-
daha yüksek yaşama oranına
sahip olduğunu gösteriyordu.
Katılımcıların yaş gruplarına bölünmesi,
sigara içmeyenlerin önemli oranda
ortalamadan yaşlı olduğunu
ve bu nedenle genel olarak
daha uzun yaşadıkları için
tam da deney sırasında ölmelerinin
muhtemel olduğunu gösteriyordu.
Burada karışıklığa yol açan
değişken yaş gruplarıdır ve
veriyi doğru yorumlamada
son derece önemlidir.
Diğer bir örnekte ise
Florida'nın idam cezası
davalarının analizi,
cinayetten hükümlü
siyahi ve beyaz zanlılar arasında
ceza kararlarında ırksal eşitsizliğin
olmadığını ortaya çıkarır.
Fakat davaları mağdurun ırkına göre
ayırmak farklı bir tablo gösterir.
Her iki durumda da
siyahi davalıların idam cezası alması
daha muhtemeldir.
Beyaz sanıkların genel ceza oranlarının
nispeten yüksek olması,
mağdurların beyaz olduğu davalarda
idam cezasının çıkmasının,
mağdurun siyahi olduğu davalardan
daha muhtemel olması
ve çoğu cinayetin aynı ırktan insanlar
arasında olmasından dolayıydı.
Peki çelişkiye düşmekten
nasıl kurtulabiliriz?
Ne yazık ki hepsine uyan bir cevap yok.
Veriler birçok şekilde
gruplanıp kategoriye bölünebilir
ve genel rakamlar bazen
yanıltıcı ve rastlantısal kategorilere
bölünen verilerden
daha doğru bir tablo verir.
Tek yapabileceğimiz,
istatistiğin verdiği geçerli durumu
iyi inceleyip karışıklığa neden olan
değişkeni olup olmadığını düşünmektir.
Aksi takdirde kendimizi, verileri
başkalarını yönlendirmek ve
kendi çıkarlarını korumak için
kullananlara karşı savunmasız bırakırız.