1 00:00:06,636 --> 00:00:09,077 통계는 설득력이 있습니다. 2 00:00:09,077 --> 00:00:12,541 너무 설득력이 있어서 사람들, 단체, 그리고 국가들은 3 00:00:12,541 --> 00:00:17,747 그 정리된 데이터를 기반으로 중대한 결정을 내립니다. 4 00:00:17,747 --> 00:00:19,484 하지만 거기에는 문제가 있습니다. 5 00:00:19,484 --> 00:00:23,301 어떤 통계든,결과를 완전히 뒤집을 수 있는 6 00:00:23,301 --> 00:00:27,251 무언가가 숨어있을 수도 있습니다. 7 00:00:27,251 --> 00:00:30,920 예를 들어, 여러분이 나이 든 친척 어른의 수술을 위해 8 00:00:30,920 --> 00:00:33,737 두 병원 중 하나를 골라야 한다고 생각해봅시다. 9 00:00:33,737 --> 00:00:36,434 최근 두 병원에서 치료받은 1,000명의 환자 중에 10 00:00:36,434 --> 00:00:39,612 병원 A에서는 900명이 살아남았고 11 00:00:39,612 --> 00:00:43,021 반면, 병원 B에서는 800명이 살아 남았습니다. 12 00:00:43,021 --> 00:00:46,170 그렇다면 병원 A가 더 나은 선택 같이 보입니다. 13 00:00:46,170 --> 00:00:47,843 하지만 그러한 결정을 내리기 전에 14 00:00:47,843 --> 00:00:51,411 모든 환자가 똑같은 건강 상태로 병원에 오는 것이 15 00:00:51,411 --> 00:00:53,811 아니라는 사실을 기억해야 합니다. 16 00:00:53,811 --> 00:00:56,703 최근에 두 병원에 온 환자 1,000명을 17 00:00:56,703 --> 00:01:01,132 건강한 사람과 아픈 사람으로 나눠 보면 18 00:01:01,132 --> 00:01:03,772 상황이 달라 보이기 시작할 것입니다. 19 00:01:03,772 --> 00:01:07,849 병원 A에는 나쁜 건강 상태의 환자가 100명 밖에 오지 않았고 20 00:01:07,849 --> 00:01:10,325 그 중에 30명이 살았습니다. 21 00:01:10,325 --> 00:01:11,852 병원 B에는 나쁜 건강 상태의 환자 400명이 왔고 22 00:01:11,852 --> 00:01:14,852 210명을 살릴 수 있었습니다. 23 00:01:14,852 --> 00:01:17,169 따라서 병원 B가 더 나은 선택입니다. 24 00:01:17,169 --> 00:01:20,741 나쁜 건강 상태로 병원에 온 환자들에게 말이죠. 25 00:01:20,741 --> 00:01:24,526 생존율이 52.5%나 되니까요. 26 00:01:24,526 --> 00:01:25,526 하지만 만약 당신의 친척이 27 00:01:25,526 --> 00:01:28,445 좋은 건강 상태로 병원을 가신다면 어떨까요? 28 00:01:28,445 --> 00:01:32,271 이상하게도, 병원 B가 여전히 더 나은 선택입니다. 29 00:01:32,271 --> 00:01:35,676 생존율이 98%나 되니까요. 30 00:01:35,676 --> 00:01:38,733 그런데도 어떻게 병원 A의 전반적인 생존율이 더 높을 수 있을까요? 31 00:01:38,733 --> 00:01:41,830 병원 B가 각각 2개 그룹 환자의 더 높은 32 00:01:41,830 --> 00:01:44,830 생존율을 가지고 있는데도 말입니다. 33 00:01:44,830 --> 00:01:48,589 여기서 우리가 알아야 할 것이 바로 심슨의 역설입니다. 34 00:01:48,589 --> 00:01:51,899 같은 자료라도 어떻게 분류하는 지에 따라 35 00:01:51,899 --> 00:01:54,664 정반대의 결과를 보일 수 있는 거죠. 36 00:01:54,664 --> 00:01:58,744 이는 취합한 데이터가 조건부 변수를 감추고 있을 때 종종 발생합니다. 37 00:01:58,744 --> 00:02:01,377 그 변수를 잠복 변수라고도 합니다. 38 00:02:01,377 --> 00:02:06,584 결과에 중대한 영향을 미치는 숨겨진 추가적 요인이죠. 39 00:02:06,584 --> 00:02:10,023 이 병원 사례에서 숨겨진 요인은 병원에 온 환자들의 40 00:02:10,023 --> 00:02:13,264 건강 상태에 대한 상대적인 비율이라고 할 수 있습니다. 41 00:02:13,264 --> 00:02:16,544 심슨의 역설은 단지 가상 시나리오가 아닙니다. 42 00:02:16,544 --> 00:02:18,924 그것은 현실에서도 종종 나타납니다. 43 00:02:18,924 --> 00:02:22,132 때로는 중요한 순간에 말입니다. 44 00:02:22,132 --> 00:02:24,130 영국의 한 연구에서는 45 00:02:24,130 --> 00:02:27,600 흡연자들이 비흡연자들보다 더 높은 생존율을 보였습니다. 46 00:02:27,600 --> 00:02:29,846 20년 동안 연구를 한 결과 말이죠. 47 00:02:29,846 --> 00:02:33,307 그것은 참가자들을 연령대별로 분류하기 전까지 맞는 말이었습니다. 48 00:02:33,307 --> 00:02:37,823 그런데 비흡연 참가자들은 평균적으로 나이가 많은 사람들이었습니다. 49 00:02:37,823 --> 00:02:40,930 그래서 연구 기간 동안 사망할 확률이 더 높았던거죠. 50 00:02:40,930 --> 00:02:44,438 정확히 말하면, 그들이 그냥 더 오래 살았기 때문이었어요. 51 00:02:44,438 --> 00:02:47,286 여기서는 연령대가 숨은 변수이자 52 00:02:47,286 --> 00:02:50,176 데이터를 바르게 해석하기 위한 필수적인 요소였습니다. 53 00:02:50,176 --> 00:02:51,559 다른 예에서는 54 00:02:51,559 --> 00:02:54,281 플로리다주의 사형 사건들을 분석해 보면 55 00:02:54,281 --> 00:02:58,265 살인죄로 유죄를 선고받은 흑인과 백인 피고인들 사이에 56 00:02:58,265 --> 00:03:01,581 인종 차별이 없는 것을 알 수 있습니다. 57 00:03:01,581 --> 00:03:06,396 하지만 사건을 피해자의 인종에 따라 분류할 경우, 이야기는 달라집니다. 58 00:03:06,396 --> 00:03:07,969 각각의 경우 59 00:03:07,969 --> 00:03:11,091 흑인 피고인이 사형을 선고받은 확률이 더 높았습니다. 60 00:03:11,091 --> 00:03:15,066 백인 피고인에 대한 전체적인 사형 선고율이 조금 높아지는 이유는 61 00:03:15,066 --> 00:03:18,692 피해자가 백인인 경우의 사건에서 62 00:03:18,692 --> 00:03:21,359 사형 선고를 받을 가능성이 높기 때문입니다. 63 00:03:21,359 --> 00:03:24,091 피해자가 흑인일 경우보다 말입니다. 64 00:03:24,091 --> 00:03:28,483 그리고 대부분의 살인은 같은 인종 간에 발생했습니다. 65 00:03:28,483 --> 00:03:31,319 그렇다면 우리는 어떻게 하면 이러한 역설을 피할 수 있을까요? 66 00:03:31,319 --> 00:03:34,686 불행히도, 딱 정해진 답이 없습니다. 67 00:03:34,686 --> 00:03:38,504 자료는 수많은 기준에 따라 분류 될 수 있으며 68 00:03:38,504 --> 00:03:42,106 오히려 데이터 전체가 더 정확한 그림을 보여주기도 합니다. 69 00:03:42,106 --> 00:03:46,638 자의적이고 잘못된 방식으로 분류된 데이터보다 말이죠. 70 00:03:46,638 --> 00:03:52,089 우리가 할 수 있는 것은 통계가 묘사하는 실제 상황을 꼼꼼히 연구하고 71 00:03:52,089 --> 00:03:55,977 숨은 변수가 있지는 않은지 생각해보는 것입니다. 72 00:03:55,977 --> 00:03:59,378 그렇지 않으면 우리는 스스로를 지키기 힘들어집니다. 73 00:03:59,378 --> 00:04:02,649 사람들이 오해하게 데이터를 이용하는 사람들로부터 말입니다.