1 00:00:06,636 --> 00:00:09,077 İstatistikler ikna edicidir. 2 00:00:09,077 --> 00:00:12,541 Öyle ikna edici ki, insanlar, kurumlar ve bütün ülkeler 3 00:00:12,541 --> 00:00:17,747 en önemli bazı kararlarını düzenli bilgiye dayanarak alırlar. 4 00:00:17,747 --> 00:00:19,484 Ancak burada bir sorun var. 5 00:00:19,484 --> 00:00:23,301 İstatistik verilerinde gizlenmiş, sonuçları tamamen alt üst edebilecek 6 00:00:23,301 --> 00:00:27,251 bir şeyler olabilir. 7 00:00:27,251 --> 00:00:30,920 Örneğin, yaşlı bir akrabanızın ameliyatı için iki hastane arasında 8 00:00:30,920 --> 00:00:33,737 seçim yapmak zorunda olduğunuzu düşünün. 9 00:00:33,737 --> 00:00:36,434 Her iki hastanenin de son 1000 hastasından, 10 00:00:36,434 --> 00:00:39,612 A hastanesinde 900'ü hayatta kalırken 11 00:00:39,612 --> 00:00:43,021 B hastanesinde sadece 800 kişi sağ kalmış. 12 00:00:43,021 --> 00:00:46,170 O hâlde A hastanesi daha iyi bir seçim gibi görünüyor. 13 00:00:46,170 --> 00:00:47,843 Ancak karar vermeden önce 14 00:00:47,843 --> 00:00:51,411 tüm hastaların hastaneye aynı sağlık durumunda 15 00:00:51,411 --> 00:00:53,811 gelmediğini hatırlayın. 16 00:00:53,811 --> 00:00:56,703 İki hastanenin de son 1000 hastasını 17 00:00:56,703 --> 00:01:01,132 sağlıklı gelenler ve sağlıksız gelenler olarak bölersek 18 00:01:01,132 --> 00:01:03,772 resim çok daha farklı görünmeye başlar. 19 00:01:03,772 --> 00:01:07,849 A hastanesine sağlıksız durumda gelen sadece 100 hasta varken 20 00:01:07,849 --> 00:01:10,325 30'u kurtarılmıştır. 21 00:01:10,325 --> 00:01:14,852 Fakat B hastanesinde 400 hastadan 210'u kurtarılmıştır. 22 00:01:14,852 --> 00:01:17,169 O zaman B hastanesi 23 00:01:17,169 --> 00:01:20,741 ağır durumda gelen hastalar için %52,5 kurtulma oranıyla 24 00:01:20,741 --> 00:01:24,526 daha iyi bir seçimdir. 25 00:01:24,526 --> 00:01:28,445 Peki ya hastanızın sağlığı hastaneye vardığında iyiyse? 26 00:01:28,445 --> 00:01:32,271 Garip gelebilir ama B hastanesi %98 hayatta kalma oranıyla 27 00:01:32,271 --> 00:01:35,676 yine daha iyi bir seçimdir. 28 00:01:35,676 --> 00:01:39,263 Her iki gruptan hastalar için B hastanesi daha iyi kurtulma oranına sahipken 29 00:01:39,263 --> 00:01:44,830 A hastanesi genelde nasıl daha iyi bir kurtulma orana sahip olabilir? 30 00:01:44,830 --> 00:01:48,589 Karşılaştığımız şey, gruplandırma şekline bağlı olarak 31 00:01:48,589 --> 00:01:51,899 aynı verilerin zıt eğilimler gösterebildiği 32 00:01:51,899 --> 00:01:54,664 Simpson paradoksudur. 33 00:01:54,664 --> 00:01:58,744 Bu durum genelde kümelenmiş bilgi koşullu bir değişkeni örttüğünde oluşur, 34 00:01:58,744 --> 00:02:01,377 karışıklığa neden olan değişken olarak da bilinir, 35 00:02:01,377 --> 00:02:06,584 bu ise sonuçları önemli ölçüde etkileyen gizli bir ek faktördür. 36 00:02:06,584 --> 00:02:10,023 Buradaki gizli faktör, sağlıklı ve sağlıksız gelen hastaların 37 00:02:10,023 --> 00:02:13,264 göreceli oranıdır. 38 00:02:13,264 --> 00:02:16,544 Simpson paradoksu basit bir varsayımsal durum değildir. 39 00:02:16,544 --> 00:02:18,924 Gerçek dünyada ara sıra, 40 00:02:18,924 --> 00:02:22,132 bazen önemli durumlarda ortaya çıkar. 41 00:02:22,132 --> 00:02:24,130 Birleşik Krallık'ta yapılan bir araştırma 42 00:02:24,130 --> 00:02:27,600 sigara içenlerin içmeyenlerden -yirmi yıldan fazla bir sürede- 43 00:02:27,600 --> 00:02:30,216 daha yüksek yaşama oranına sahip olduğunu gösteriyordu. 44 00:02:30,216 --> 00:02:33,307 Katılımcıların yaş gruplarına bölünmesi, 45 00:02:33,307 --> 00:02:37,823 sigara içmeyenlerin önemli oranda ortalamadan yaşlı olduğunu 46 00:02:37,823 --> 00:02:40,930 ve bu nedenle genel olarak daha uzun yaşadıkları için 47 00:02:40,930 --> 00:02:44,438 tam da deney sırasında ölmelerinin muhtemel olduğunu gösteriyordu. 48 00:02:44,438 --> 00:02:47,286 Burada karışıklığa yol açan değişken yaş gruplarıdır ve 49 00:02:47,286 --> 00:02:50,176 veriyi doğru yorumlamada son derece önemlidir. 50 00:02:50,176 --> 00:02:51,559 Diğer bir örnekte ise 51 00:02:51,559 --> 00:02:54,281 Florida'nın idam cezası davalarının analizi, 52 00:02:54,281 --> 00:02:58,265 cinayetten hükümlü siyahi ve beyaz zanlılar arasında 53 00:02:58,265 --> 00:03:01,581 ceza kararlarında ırksal eşitsizliğin olmadığını ortaya çıkarır. 54 00:03:01,581 --> 00:03:06,396 Fakat davaları mağdurun ırkına göre ayırmak farklı bir tablo gösterir. 55 00:03:06,396 --> 00:03:07,969 Her iki durumda da 56 00:03:07,969 --> 00:03:11,091 siyahi davalıların idam cezası alması daha muhtemeldir. 57 00:03:11,091 --> 00:03:15,066 Beyaz sanıkların genel ceza oranlarının nispeten yüksek olması, 58 00:03:15,066 --> 00:03:18,692 mağdurların beyaz olduğu davalarda 59 00:03:18,692 --> 00:03:21,359 idam cezasının çıkmasının, 60 00:03:21,359 --> 00:03:24,091 mağdurun siyahi olduğu davalardan daha muhtemel olması 61 00:03:24,091 --> 00:03:28,483 ve çoğu cinayetin aynı ırktan insanlar arasında olmasından dolayıydı. 62 00:03:28,483 --> 00:03:31,319 Peki çelişkiye düşmekten nasıl kurtulabiliriz? 63 00:03:31,319 --> 00:03:34,686 Ne yazık ki hepsine uyan bir cevap yok. 64 00:03:34,686 --> 00:03:38,504 Veriler birçok şekilde gruplanıp kategoriye bölünebilir 65 00:03:38,504 --> 00:03:42,106 ve genel rakamlar bazen yanıltıcı ve rastlantısal kategorilere 66 00:03:42,106 --> 00:03:46,638 bölünen verilerden daha doğru bir tablo verir. 67 00:03:46,638 --> 00:03:52,089 Tek yapabileceğimiz, istatistiğin verdiği geçerli durumu 68 00:03:52,089 --> 00:03:55,977 iyi inceleyip karışıklığa neden olan değişkeni olup olmadığını düşünmektir. 69 00:03:55,977 --> 00:03:59,378 Aksi takdirde kendimizi, verileri başkalarını yönlendirmek ve 70 00:03:59,378 --> 00:04:02,809 kendi çıkarlarını korumak için kullananlara karşı savunmasız bırakırız.