0:00:06.636,0:00:09.077
통계는 설득력이 있습니다.[br]

0:00:09.077,0:00:12.541
너무 설득력이 있어서 [br]사람들, 단체, 그리고 국가들은

0:00:12.541,0:00:17.747
그 정리된 데이터를 기반으로 [br]중대한 결정을 내립니다.

0:00:17.747,0:00:19.484
하지만 거기에는 문제가 있습니다.

0:00:19.484,0:00:23.301
어떤 통계든,결과를 [br]완전히 뒤집을 수 있는

0:00:23.301,0:00:27.251
무언가가 숨어있을 수도 있습니다.

0:00:27.251,0:00:30.920
예를 들어, 여러분이 나이 든 [br]친척 어른의 수술을 위해

0:00:30.920,0:00:33.737
두 병원 중 하나를 골라야 [br]한다고 생각해봅시다.

0:00:33.737,0:00:36.434
최근 두 병원에서 치료받은 [br]1,000명의 환자 중에

0:00:36.434,0:00:39.612
병원 A에서는 900명이 살아남았고

0:00:39.612,0:00:43.021
반면, 병원 B에서는 [br]800명이 살아 남았습니다.

0:00:43.021,0:00:46.170
그렇다면 병원 A가 [br]더 나은 선택 같이 보입니다.

0:00:46.170,0:00:47.843
하지만 그러한 결정을 내리기 전에

0:00:47.843,0:00:51.411
모든 환자가 똑같은 건강 [br]상태로 병원에 오는 것이

0:00:51.411,0:00:53.811
아니라는 사실을 기억해야 합니다.

0:00:53.811,0:00:56.703
최근에 두 병원에 온 [br]환자 1,000명을

0:00:56.703,0:01:01.132
건강한 사람과 아픈 사람으로 나눠 보면

0:01:01.132,0:01:03.772
상황이 달라 보이기 시작할 것입니다.

0:01:03.772,0:01:07.849
병원 A에는 나쁜 건강 상태의 [br]환자가 100명 밖에 오지 않았고

0:01:07.849,0:01:10.325
그 중에 30명이 살았습니다.

0:01:10.325,0:01:11.852
병원 B에는 나쁜 건강 상태의 [br]환자 400명이 왔고

0:01:11.852,0:01:14.852
210명을 살릴 수 있었습니다.

0:01:14.852,0:01:17.169
따라서 병원 B가 더 나은 선택입니다.

0:01:17.169,0:01:20.741
나쁜 건강 상태로 병원에 온 [br]환자들에게 말이죠.

0:01:20.741,0:01:24.526
생존율이 52.5%나 되니까요.

0:01:24.526,0:01:25.526
하지만 만약 당신의 친척이

0:01:25.526,0:01:28.445
좋은 건강 상태로 [br]병원을 가신다면 어떨까요?

0:01:28.445,0:01:32.271
이상하게도, 병원 B가 여전히 [br]더 나은 선택입니다.

0:01:32.271,0:01:35.676
생존율이 98%나 되니까요.

0:01:35.676,0:01:38.733
그런데도 어떻게 병원 A의 전반적인 [br]생존율이 더 높을 수 있을까요?

0:01:38.733,0:01:41.830
병원 B가 각각 2개 그룹[br]환자의 더 높은

0:01:41.830,0:01:44.830
생존율을 가지고 있는데도 말입니다.

0:01:44.830,0:01:48.589
여기서 우리가 알아야 할 것이 [br]바로 심슨의 역설입니다.

0:01:48.589,0:01:51.899
같은 자료라도 어떻게 [br]분류하는 지에 따라

0:01:51.899,0:01:54.664
정반대의 결과를 보일 수 있는 거죠.

0:01:54.664,0:01:58.744
이는 취합한 데이터가 조건부 변수를 [br]감추고 있을 때 종종 발생합니다.

0:01:58.744,0:02:01.377
그 변수를 잠복 변수라고도 합니다.

0:02:01.377,0:02:06.584
결과에 중대한 영향을 미치는 [br]숨겨진 추가적 요인이죠.

0:02:06.584,0:02:10.023
이 병원 사례에서 숨겨진 요인은 [br]병원에 온 환자들의

0:02:10.023,0:02:13.264
건강 상태에 대한 상대적인 [br]비율이라고 할 수 있습니다.

0:02:13.264,0:02:16.544
심슨의 역설은 단지 [br]가상 시나리오가 아닙니다.

0:02:16.544,0:02:18.924
그것은 현실에서도 종종 나타납니다.

0:02:18.924,0:02:22.132
때로는 중요한 순간에 말입니다.

0:02:22.132,0:02:24.130
영국의 한 연구에서는

0:02:24.130,0:02:27.600
흡연자들이 비흡연자들보다[br]더 높은 생존율을 보였습니다.

0:02:27.600,0:02:29.846
20년 동안 연구를 한 결과 말이죠.

0:02:29.846,0:02:33.307
그것은 참가자들을 연령대별로 [br]분류하기 전까지 맞는 말이었습니다.

0:02:33.307,0:02:37.823
그런데 비흡연 참가자들은 평균적으로 [br]나이가 많은 사람들이었습니다.

0:02:37.823,0:02:40.930
그래서 연구 기간 동안 [br]사망할 확률이 더 높았던거죠.

0:02:40.930,0:02:44.438
정확히 말하면, 그들이 그냥 더 오래 [br]살았기 때문이었어요.

0:02:44.438,0:02:47.286
여기서는 연령대가 숨은 변수이자

0:02:47.286,0:02:50.176
데이터를 바르게 해석하기 위한 [br]필수적인 요소였습니다.

0:02:50.176,0:02:51.559
다른 예에서는

0:02:51.559,0:02:54.281
플로리다주의 사형 사건들을 분석해 보면

0:02:54.281,0:02:58.265
살인죄로 유죄를 선고받은 [br]흑인과 백인 피고인들 사이에

0:02:58.265,0:03:01.581
인종 차별이 없는 것을[br]알 수 있습니다.

0:03:01.581,0:03:06.396
하지만 사건을 피해자의 인종에 따라 [br]분류할 경우, 이야기는 달라집니다.

0:03:06.396,0:03:07.969
각각의 경우

0:03:07.969,0:03:11.091
흑인 피고인이 사형을 선고받은 [br]확률이 더 높았습니다.

0:03:11.091,0:03:15.066
백인 피고인에 대한 전체적인 [br]사형 선고율이 조금 높아지는 이유는

0:03:15.066,0:03:18.692
피해자가 백인인 경우의 사건에서

0:03:18.692,0:03:21.359
사형 선고를 받을 가능성이 [br]높기 때문입니다.

0:03:21.359,0:03:24.091
피해자가 흑인일 경우보다 말입니다.

0:03:24.091,0:03:28.483
그리고 대부분의 살인은 같은[br]인종 간에 발생했습니다.

0:03:28.483,0:03:31.319
그렇다면 우리는 어떻게 하면 이러한 [br]역설을 피할 수 있을까요?

0:03:31.319,0:03:34.686
불행히도, 딱 정해진 답이 없습니다.

0:03:34.686,0:03:38.504
자료는 수많은 기준에[br]따라 분류 될 수 있으며

0:03:38.504,0:03:42.106
오히려 데이터 전체가 더 정확한[br]그림을 보여주기도 합니다.

0:03:42.106,0:03:46.638
자의적이고 잘못된 방식으로[br]분류된 데이터보다 말이죠.

0:03:46.638,0:03:52.089
우리가 할 수 있는 것은 통계가[br]묘사하는 실제 상황을 꼼꼼히 연구하고

0:03:52.089,0:03:55.977
숨은 변수가 있지는 않은지[br]생각해보는 것입니다.

0:03:55.977,0:03:59.378
그렇지 않으면 우리는[br]스스로를 지키기 힘들어집니다.

0:03:59.378,0:04:02.649
사람들이 오해하게 데이터를[br]이용하는 사람들로부터 말입니다.