WEBVTT 00:00:06.636 --> 00:00:09.077 통계는 설득력이 있습니다. 00:00:09.077 --> 00:00:12.541 너무 설득력이 있어서 사람들, 단체, 그리고 국가들은 00:00:12.541 --> 00:00:17.747 그 정리된 데이터를 기반으로 중대한 결정을 내립니다. 00:00:17.747 --> 00:00:19.484 하지만 거기에는 문제가 있습니다. 00:00:19.484 --> 00:00:23.301 어떤 통계든,결과를 완전히 뒤집을 수 있는 00:00:23.301 --> 00:00:27.251 무언가가 숨어있을 수도 있습니다. 00:00:27.251 --> 00:00:30.920 예를 들어, 여러분이 나이 든 친척 어른의 수술을 위해 00:00:30.920 --> 00:00:33.737 두 병원 중 하나를 골라야 한다고 생각해봅시다. 00:00:33.737 --> 00:00:36.434 최근 두 병원에서 치료받은 1,000명의 환자 중에 00:00:36.434 --> 00:00:39.612 병원 A에서는 900명이 살아남았고 00:00:39.612 --> 00:00:43.021 반면, 병원 B에서는 800명이 살아 남았습니다. 00:00:43.021 --> 00:00:46.170 그렇다면 병원 A가 더 나은 선택 같이 보입니다. 00:00:46.170 --> 00:00:47.843 하지만 그러한 결정을 내리기 전에 00:00:47.843 --> 00:00:51.411 모든 환자가 똑같은 건강 상태로 병원에 오는 것이 00:00:51.411 --> 00:00:53.811 아니라는 사실을 기억해야 합니다. 00:00:53.811 --> 00:00:56.703 최근에 두 병원에 온 환자 1,000명을 00:00:56.703 --> 00:01:01.132 건강한 사람과 아픈 사람으로 나눠 보면 00:01:01.132 --> 00:01:03.772 상황이 달라 보이기 시작할 것입니다. 00:01:03.772 --> 00:01:07.849 병원 A에는 나쁜 건강 상태의 환자가 100명 밖에 오지 않았고 00:01:07.849 --> 00:01:10.325 그 중에 30명이 살았습니다. 00:01:10.325 --> 00:01:11.852 병원 B에는 나쁜 건강 상태의 환자 400명이 왔고 00:01:11.852 --> 00:01:14.852 210명을 살릴 수 있었습니다. 00:01:14.852 --> 00:01:17.169 따라서 병원 B가 더 나은 선택입니다. 00:01:17.169 --> 00:01:20.741 나쁜 건강 상태로 병원에 온 환자들에게 말이죠. 00:01:20.741 --> 00:01:24.526 생존율이 52.5%나 되니까요. 00:01:24.526 --> 00:01:25.526 하지만 만약 당신의 친척이 00:01:25.526 --> 00:01:28.445 좋은 건강 상태로 병원을 가신다면 어떨까요? 00:01:28.445 --> 00:01:32.271 이상하게도, 병원 B가 여전히 더 나은 선택입니다. 00:01:32.271 --> 00:01:35.676 생존율이 98%나 되니까요. 00:01:35.676 --> 00:01:38.733 그런데도 어떻게 병원 A의 전반적인 생존율이 더 높을 수 있을까요? 00:01:38.733 --> 00:01:41.830 병원 B가 각각 2개 그룹 환자의 더 높은 00:01:41.830 --> 00:01:44.830 생존율을 가지고 있는데도 말입니다. 00:01:44.830 --> 00:01:48.589 여기서 우리가 알아야 할 것이 바로 심슨의 역설입니다. 00:01:48.589 --> 00:01:51.899 같은 자료라도 어떻게 분류하는 지에 따라 00:01:51.899 --> 00:01:54.664 정반대의 결과를 보일 수 있는 거죠. 00:01:54.664 --> 00:01:58.744 이는 취합한 데이터가 조건부 변수를 감추고 있을 때 종종 발생합니다. 00:01:58.744 --> 00:02:01.377 그 변수를 잠복 변수라고도 합니다. 00:02:01.377 --> 00:02:06.584 결과에 중대한 영향을 미치는 숨겨진 추가적 요인이죠. 00:02:06.584 --> 00:02:10.023 이 병원 사례에서 숨겨진 요인은 병원에 온 환자들의 00:02:10.023 --> 00:02:13.264 건강 상태에 대한 상대적인 비율이라고 할 수 있습니다. 00:02:13.264 --> 00:02:16.544 심슨의 역설은 단지 가상 시나리오가 아닙니다. 00:02:16.544 --> 00:02:18.924 그것은 현실에서도 종종 나타납니다. 00:02:18.924 --> 00:02:22.132 때로는 중요한 순간에 말입니다. 00:02:22.132 --> 00:02:24.130 영국의 한 연구에서는 00:02:24.130 --> 00:02:27.600 흡연자들이 비흡연자들보다 더 높은 생존율을 보였습니다. 00:02:27.600 --> 00:02:29.846 20년 동안 연구를 한 결과 말이죠. 00:02:29.846 --> 00:02:33.307 그것은 참가자들을 연령대별로 분류하기 전까지 맞는 말이었습니다. 00:02:33.307 --> 00:02:37.823 그런데 비흡연 참가자들은 평균적으로 나이가 많은 사람들이었습니다. 00:02:37.823 --> 00:02:40.930 그래서 연구 기간 동안 사망할 확률이 더 높았던거죠. 00:02:40.930 --> 00:02:44.438 정확히 말하면, 그들이 그냥 더 오래 살았기 때문이었어요. 00:02:44.438 --> 00:02:47.286 여기서는 연령대가 숨은 변수이자 00:02:47.286 --> 00:02:50.176 데이터를 바르게 해석하기 위한 필수적인 요소였습니다. 00:02:50.176 --> 00:02:51.559 다른 예에서는 00:02:51.559 --> 00:02:54.281 플로리다주의 사형 사건들을 분석해 보면 00:02:54.281 --> 00:02:58.265 살인죄로 유죄를 선고받은 흑인과 백인 피고인들 사이에 00:02:58.265 --> 00:03:01.581 인종 차별이 없는 것을 알 수 있습니다. 00:03:01.581 --> 00:03:06.396 하지만 사건을 피해자의 인종에 따라 분류할 경우, 이야기는 달라집니다. 00:03:06.396 --> 00:03:07.969 각각의 경우 00:03:07.969 --> 00:03:11.091 흑인 피고인이 사형을 선고받은 확률이 더 높았습니다. 00:03:11.091 --> 00:03:15.066 백인 피고인에 대한 전체적인 사형 선고율이 조금 높아지는 이유는 00:03:15.066 --> 00:03:18.692 피해자가 백인인 경우의 사건에서 00:03:18.692 --> 00:03:21.359 사형 선고를 받을 가능성이 높기 때문입니다. 00:03:21.359 --> 00:03:24.091 피해자가 흑인일 경우보다 말입니다. 00:03:24.091 --> 00:03:28.483 그리고 대부분의 살인은 같은 인종 간에 발생했습니다. 00:03:28.483 --> 00:03:31.319 그렇다면 우리는 어떻게 하면 이러한 역설을 피할 수 있을까요? 00:03:31.319 --> 00:03:34.686 불행히도, 딱 정해진 답이 없습니다. 00:03:34.686 --> 00:03:38.504 자료는 수많은 기준에 따라 분류 될 수 있으며 00:03:38.504 --> 00:03:42.106 오히려 데이터 전체가 더 정확한 그림을 보여주기도 합니다. 00:03:42.106 --> 00:03:46.638 자의적이고 잘못된 방식으로 분류된 데이터보다 말이죠. 00:03:46.638 --> 00:03:52.089 우리가 할 수 있는 것은 통계가 묘사하는 실제 상황을 꼼꼼히 연구하고 00:03:52.089 --> 00:03:55.977 숨은 변수가 있지는 않은지 생각해보는 것입니다. 00:03:55.977 --> 00:03:59.378 그렇지 않으면 우리는 스스로를 지키기 힘들어집니다. 00:03:59.378 --> 00:04:02.649 사람들이 오해하게 데이터를 이용하는 사람들로부터 말입니다.