0:00:06.636,0:00:09.077 통계는 설득력이 있습니다.[br] 0:00:09.077,0:00:12.541 너무 설득력이 있어서 [br]사람들, 단체, 그리고 국가들은 0:00:12.541,0:00:17.747 그 정리된 데이터를 기반으로 [br]중대한 결정을 내립니다. 0:00:17.747,0:00:19.484 하지만 거기에는 문제가 있습니다. 0:00:19.484,0:00:23.301 어떤 통계든,결과를 [br]완전히 뒤집을 수 있는 0:00:23.301,0:00:27.251 무언가가 숨어있을 수도 있습니다. 0:00:27.251,0:00:30.920 예를 들어, 여러분이 나이 든 [br]친척 어른의 수술을 위해 0:00:30.920,0:00:33.737 두 병원 중 하나를 골라야 [br]한다고 생각해봅시다. 0:00:33.737,0:00:36.434 최근 두 병원에서 치료받은 [br]1,000명의 환자 중에 0:00:36.434,0:00:39.612 병원 A에서는 900명이 살아남았고 0:00:39.612,0:00:43.021 반면, 병원 B에서는 [br]800명이 살아 남았습니다. 0:00:43.021,0:00:46.170 그렇다면 병원 A가 [br]더 나은 선택 같이 보입니다. 0:00:46.170,0:00:47.843 하지만 그러한 결정을 내리기 전에 0:00:47.843,0:00:51.411 모든 환자가 똑같은 건강 [br]상태로 병원에 오는 것이 0:00:51.411,0:00:53.811 아니라는 사실을 기억해야 합니다. 0:00:53.811,0:00:56.703 최근에 두 병원에 온 [br]환자 1,000명을 0:00:56.703,0:01:01.132 건강한 사람과 아픈 사람으로 나눠 보면 0:01:01.132,0:01:03.772 상황이 달라 보이기 시작할 것입니다. 0:01:03.772,0:01:07.849 병원 A에는 나쁜 건강 상태의 [br]환자가 100명 밖에 오지 않았고 0:01:07.849,0:01:10.325 그 중에 30명이 살았습니다. 0:01:10.325,0:01:11.852 병원 B에는 나쁜 건강 상태의 [br]환자 400명이 왔고 0:01:11.852,0:01:14.852 210명을 살릴 수 있었습니다. 0:01:14.852,0:01:17.169 따라서 병원 B가 더 나은 선택입니다. 0:01:17.169,0:01:20.741 나쁜 건강 상태로 병원에 온 [br]환자들에게 말이죠. 0:01:20.741,0:01:24.526 생존율이 52.5%나 되니까요. 0:01:24.526,0:01:25.526 하지만 만약 당신의 친척이 0:01:25.526,0:01:28.445 좋은 건강 상태로 [br]병원을 가신다면 어떨까요? 0:01:28.445,0:01:32.271 이상하게도, 병원 B가 여전히 [br]더 나은 선택입니다. 0:01:32.271,0:01:35.676 생존율이 98%나 되니까요. 0:01:35.676,0:01:38.733 그런데도 어떻게 병원 A의 전반적인 [br]생존율이 더 높을 수 있을까요? 0:01:38.733,0:01:41.830 병원 B가 각각 2개 그룹[br]환자의 더 높은 0:01:41.830,0:01:44.830 생존율을 가지고 있는데도 말입니다. 0:01:44.830,0:01:48.589 여기서 우리가 알아야 할 것이 [br]바로 심슨의 역설입니다. 0:01:48.589,0:01:51.899 같은 자료라도 어떻게 [br]분류하는 지에 따라 0:01:51.899,0:01:54.664 정반대의 결과를 보일 수 있는 거죠. 0:01:54.664,0:01:58.744 이는 취합한 데이터가 조건부 변수를 [br]감추고 있을 때 종종 발생합니다. 0:01:58.744,0:02:01.377 그 변수를 잠복 변수라고도 합니다. 0:02:01.377,0:02:06.584 결과에 중대한 영향을 미치는 [br]숨겨진 추가적 요인이죠. 0:02:06.584,0:02:10.023 이 병원 사례에서 숨겨진 요인은 [br]병원에 온 환자들의 0:02:10.023,0:02:13.264 건강 상태에 대한 상대적인 [br]비율이라고 할 수 있습니다. 0:02:13.264,0:02:16.544 심슨의 역설은 단지 [br]가상 시나리오가 아닙니다. 0:02:16.544,0:02:18.924 그것은 현실에서도 종종 나타납니다. 0:02:18.924,0:02:22.132 때로는 중요한 순간에 말입니다. 0:02:22.132,0:02:24.130 영국의 한 연구에서는 0:02:24.130,0:02:27.600 흡연자들이 비흡연자들보다[br]더 높은 생존율을 보였습니다. 0:02:27.600,0:02:29.846 20년 동안 연구를 한 결과 말이죠. 0:02:29.846,0:02:33.307 그것은 참가자들을 연령대별로 [br]분류하기 전까지 맞는 말이었습니다. 0:02:33.307,0:02:37.823 그런데 비흡연 참가자들은 평균적으로 [br]나이가 많은 사람들이었습니다. 0:02:37.823,0:02:40.930 그래서 연구 기간 동안 [br]사망할 확률이 더 높았던거죠. 0:02:40.930,0:02:44.438 정확히 말하면, 그들이 그냥 더 오래 [br]살았기 때문이었어요. 0:02:44.438,0:02:47.286 여기서는 연령대가 숨은 변수이자 0:02:47.286,0:02:50.176 데이터를 바르게 해석하기 위한 [br]필수적인 요소였습니다. 0:02:50.176,0:02:51.559 다른 예에서는 0:02:51.559,0:02:54.281 플로리다주의 사형 사건들을 분석해 보면 0:02:54.281,0:02:58.265 살인죄로 유죄를 선고받은 [br]흑인과 백인 피고인들 사이에 0:02:58.265,0:03:01.581 인종 차별이 없는 것을[br]알 수 있습니다. 0:03:01.581,0:03:06.396 하지만 사건을 피해자의 인종에 따라 [br]분류할 경우, 이야기는 달라집니다. 0:03:06.396,0:03:07.969 각각의 경우 0:03:07.969,0:03:11.091 흑인 피고인이 사형을 선고받은 [br]확률이 더 높았습니다. 0:03:11.091,0:03:15.066 백인 피고인에 대한 전체적인 [br]사형 선고율이 조금 높아지는 이유는 0:03:15.066,0:03:18.692 피해자가 백인인 경우의 사건에서 0:03:18.692,0:03:21.359 사형 선고를 받을 가능성이 [br]높기 때문입니다. 0:03:21.359,0:03:24.091 피해자가 흑인일 경우보다 말입니다. 0:03:24.091,0:03:28.483 그리고 대부분의 살인은 같은[br]인종 간에 발생했습니다. 0:03:28.483,0:03:31.319 그렇다면 우리는 어떻게 하면 이러한 [br]역설을 피할 수 있을까요? 0:03:31.319,0:03:34.686 불행히도, 딱 정해진 답이 없습니다. 0:03:34.686,0:03:38.504 자료는 수많은 기준에[br]따라 분류 될 수 있으며 0:03:38.504,0:03:42.106 오히려 데이터 전체가 더 정확한[br]그림을 보여주기도 합니다. 0:03:42.106,0:03:46.638 자의적이고 잘못된 방식으로[br]분류된 데이터보다 말이죠. 0:03:46.638,0:03:52.089 우리가 할 수 있는 것은 통계가[br]묘사하는 실제 상황을 꼼꼼히 연구하고 0:03:52.089,0:03:55.977 숨은 변수가 있지는 않은지[br]생각해보는 것입니다. 0:03:55.977,0:03:59.378 그렇지 않으면 우리는[br]스스로를 지키기 힘들어집니다. 0:03:59.378,0:04:02.649 사람들이 오해하게 데이터를[br]이용하는 사람들로부터 말입니다.