WEBVTT

00:00:06.636 --> 00:00:09.077
통계는 설득력이 있습니다.


00:00:09.077 --> 00:00:12.541
너무 설득력이 있어서 
사람들, 단체, 그리고 국가들은

00:00:12.541 --> 00:00:17.747
그 정리된 데이터를 기반으로 
중대한 결정을 내립니다.

00:00:17.747 --> 00:00:19.484
하지만 거기에는 문제가 있습니다.

00:00:19.484 --> 00:00:23.301
어떤 통계든,결과를 
완전히 뒤집을 수 있는

00:00:23.301 --> 00:00:27.251
무언가가 숨어있을 수도 있습니다.

00:00:27.251 --> 00:00:30.920
예를 들어, 여러분이 나이 든 
친척 어른의 수술을 위해

00:00:30.920 --> 00:00:33.737
두 병원 중 하나를 골라야 
한다고 생각해봅시다.

00:00:33.737 --> 00:00:36.434
최근 두 병원에서 치료받은 
1,000명의 환자 중에

00:00:36.434 --> 00:00:39.612
병원 A에서는 900명이 살아남았고

00:00:39.612 --> 00:00:43.021
반면, 병원 B에서는 
800명이 살아 남았습니다.

00:00:43.021 --> 00:00:46.170
그렇다면 병원 A가 
더 나은 선택 같이 보입니다.

00:00:46.170 --> 00:00:47.843
하지만 그러한 결정을 내리기 전에

00:00:47.843 --> 00:00:51.411
모든 환자가 똑같은 건강 
상태로 병원에 오는 것이

00:00:51.411 --> 00:00:53.811
아니라는 사실을 기억해야 합니다.

00:00:53.811 --> 00:00:56.703
최근에 두 병원에 온 
환자 1,000명을

00:00:56.703 --> 00:01:01.132
건강한 사람과 아픈 사람으로 나눠 보면

00:01:01.132 --> 00:01:03.772
상황이 달라 보이기 시작할 것입니다.

00:01:03.772 --> 00:01:07.849
병원 A에는 나쁜 건강 상태의 
환자가 100명 밖에 오지 않았고

00:01:07.849 --> 00:01:10.325
그 중에 30명이 살았습니다.

00:01:10.325 --> 00:01:11.852
병원 B에는 나쁜 건강 상태의 
환자 400명이 왔고

00:01:11.852 --> 00:01:14.852
210명을 살릴 수 있었습니다.

00:01:14.852 --> 00:01:17.169
따라서 병원 B가 더 나은 선택입니다.

00:01:17.169 --> 00:01:20.741
나쁜 건강 상태로 병원에 온 
환자들에게 말이죠.

00:01:20.741 --> 00:01:24.526
생존율이 52.5%나 되니까요.

00:01:24.526 --> 00:01:25.526
하지만 만약 당신의 친척이

00:01:25.526 --> 00:01:28.445
좋은 건강 상태로 
병원을 가신다면 어떨까요?

00:01:28.445 --> 00:01:32.271
이상하게도, 병원 B가 여전히 
더 나은 선택입니다.

00:01:32.271 --> 00:01:35.676
생존율이 98%나 되니까요.

00:01:35.676 --> 00:01:38.733
그런데도 어떻게 병원 A의 전반적인 
생존율이 더 높을 수 있을까요?

00:01:38.733 --> 00:01:41.830
병원 B가 각각 2개 그룹
환자의 더 높은

00:01:41.830 --> 00:01:44.830
생존율을 가지고 있는데도 말입니다.

00:01:44.830 --> 00:01:48.589
여기서 우리가 알아야 할 것이 
바로 심슨의 역설입니다.

00:01:48.589 --> 00:01:51.899
같은 자료라도 어떻게 
분류하는 지에 따라

00:01:51.899 --> 00:01:54.664
정반대의 결과를 보일 수 있는 거죠.

00:01:54.664 --> 00:01:58.744
이는 취합한 데이터가 조건부 변수를 
감추고 있을 때 종종 발생합니다.

00:01:58.744 --> 00:02:01.377
그 변수를 잠복 변수라고도 합니다.

00:02:01.377 --> 00:02:06.584
결과에 중대한 영향을 미치는 
숨겨진 추가적 요인이죠.

00:02:06.584 --> 00:02:10.023
이 병원 사례에서 숨겨진 요인은 
병원에 온 환자들의

00:02:10.023 --> 00:02:13.264
건강 상태에 대한 상대적인 
비율이라고 할 수 있습니다.

00:02:13.264 --> 00:02:16.544
심슨의 역설은 단지 
가상 시나리오가 아닙니다.

00:02:16.544 --> 00:02:18.924
그것은 현실에서도 종종 나타납니다.

00:02:18.924 --> 00:02:22.132
때로는 중요한 순간에 말입니다.

00:02:22.132 --> 00:02:24.130
영국의 한 연구에서는

00:02:24.130 --> 00:02:27.600
흡연자들이 비흡연자들보다
더 높은 생존율을 보였습니다.

00:02:27.600 --> 00:02:29.846
20년 동안 연구를 한 결과 말이죠.

00:02:29.846 --> 00:02:33.307
그것은 참가자들을 연령대별로 
분류하기 전까지 맞는 말이었습니다.

00:02:33.307 --> 00:02:37.823
그런데 비흡연 참가자들은 평균적으로 
나이가 많은 사람들이었습니다.

00:02:37.823 --> 00:02:40.930
그래서 연구 기간 동안 
사망할 확률이 더 높았던거죠.

00:02:40.930 --> 00:02:44.438
정확히 말하면, 그들이 그냥 더 오래 
살았기 때문이었어요.

00:02:44.438 --> 00:02:47.286
여기서는 연령대가 숨은 변수이자

00:02:47.286 --> 00:02:50.176
데이터를 바르게 해석하기 위한 
필수적인 요소였습니다.

00:02:50.176 --> 00:02:51.559
다른 예에서는

00:02:51.559 --> 00:02:54.281
플로리다주의 사형 사건들을 분석해 보면

00:02:54.281 --> 00:02:58.265
살인죄로 유죄를 선고받은 
흑인과 백인 피고인들 사이에

00:02:58.265 --> 00:03:01.581
인종 차별이 없는 것을
알 수 있습니다.

00:03:01.581 --> 00:03:06.396
하지만 사건을 피해자의 인종에 따라 
분류할 경우, 이야기는 달라집니다.

00:03:06.396 --> 00:03:07.969
각각의 경우

00:03:07.969 --> 00:03:11.091
흑인 피고인이 사형을 선고받은 
확률이 더 높았습니다.

00:03:11.091 --> 00:03:15.066
백인 피고인에 대한 전체적인 
사형 선고율이 조금 높아지는 이유는

00:03:15.066 --> 00:03:18.692
피해자가 백인인 경우의 사건에서

00:03:18.692 --> 00:03:21.359
사형 선고를 받을 가능성이 
높기 때문입니다.

00:03:21.359 --> 00:03:24.091
피해자가 흑인일 경우보다 말입니다.

00:03:24.091 --> 00:03:28.483
그리고 대부분의 살인은 같은
인종 간에 발생했습니다.

00:03:28.483 --> 00:03:31.319
그렇다면 우리는 어떻게 하면 이러한 
역설을 피할 수 있을까요?

00:03:31.319 --> 00:03:34.686
불행히도, 딱 정해진 답이 없습니다.

00:03:34.686 --> 00:03:38.504
자료는 수많은 기준에
따라 분류 될 수 있으며

00:03:38.504 --> 00:03:42.106
오히려 데이터 전체가 더 정확한
그림을 보여주기도 합니다.

00:03:42.106 --> 00:03:46.638
자의적이고 잘못된 방식으로
분류된 데이터보다 말이죠.

00:03:46.638 --> 00:03:52.089
우리가 할 수 있는 것은 통계가
묘사하는 실제 상황을 꼼꼼히 연구하고

00:03:52.089 --> 00:03:55.977
숨은 변수가 있지는 않은지
생각해보는 것입니다.

00:03:55.977 --> 00:03:59.378
그렇지 않으면 우리는
스스로를 지키기 힘들어집니다.

00:03:59.378 --> 00:04:02.649
사람들이 오해하게 데이터를
이용하는 사람들로부터 말입니다.