WEBVTT

00:00:06.636 --> 00:00:09.077
統計數據深具說服力

00:00:09.077 --> 00:00:12.541
以致很多人、機構甚至整個國家


00:00:12.541 --> 00:00:17.747
將已整理的數據
作為他們一些最重要決定的依據


00:00:17.747 --> 00:00:19.484
但這做法有一個問題

00:00:19.484 --> 00:00:23.301
任何一組統計數據
都有可能潛伏一些因素

00:00:23.301 --> 00:00:27.251
這些因素有時可能完全改變結論

00:00:27.251 --> 00:00:30.920
例如，想像你需要
從兩間醫院中選擇一間


NOTE Paragraph

00:00:30.920 --> 00:00:33.737
適合年老的親人來做手術

00:00:33.737 --> 00:00:36.434
在各自醫院最近收治的 1000 個病人中

00:00:36.434 --> 00:00:39.612
醫院 A 有 900 人存活

00:00:39.612 --> 00:00:43.021
而醫院 B 只有 800 人存活

00:00:43.021 --> 00:00:46.170
所以看起來醫院 A 是比較好的選擇

00:00:46.170 --> 00:00:47.823
但在你作決定前

00:00:47.843 --> 00:00:51.413
要記得並不是所有病人入院時

00:00:51.413 --> 00:00:53.813
都有相同的健康情況

00:00:53.813 --> 00:00:56.703
若我們把各間醫院最近收治的 1000 個病人

00:00:56.703 --> 00:01:01.132
分成入院時健康良好和欠佳這兩組

00:01:01.132 --> 00:01:03.772
情況變得截然不同

00:01:03.772 --> 00:01:10.329
醫院 A 只有 100 人入院時健康欠佳，
而當中 30 人存活


00:01:10.329 --> 00:01:14.852
但醫院 B 則有 400 人，
而他們能保住 210 人的性命


00:01:14.852 --> 00:01:20.729
所以對於入院時健康欠佳的病人，
醫院 B 是較好的選擇

00:01:20.739 --> 00:01:24.511
其存活率達 52.5 %

00:01:24.526 --> 00:01:28.445
那麼如果你的親人入院時
健康良好呢？

00:01:28.445 --> 00:01:32.271
非常奇怪的是，
醫院 B 仍是較好的選擇

00:01:32.271 --> 00:01:35.676
其存活率超過 98 ％

00:01:35.676 --> 00:01:44.823
所以若醫院 B 在這兩組都有較高存活率，
為何卻是醫院 A 有較高的整體存活率？


00:01:44.830 --> 00:01:48.589
這是我們碰巧遇到的
一個「辛普森悖論」的情況


00:01:48.589 --> 00:01:54.649
同一套數據依據其分組方法，
能呈現出相反的走向


00:01:54.664 --> 00:01:58.744
這經常發生在當已收集的數據中
隱藏了一個「條件變項」


00:01:58.744 --> 00:02:01.377
有時也稱為「潛在變項」

00:02:01.377 --> 00:02:06.584
它是另一個隱藏因素，
會顯著地影響結果


00:02:06.584 --> 00:02:10.023
在此，隱藏因素是
兩組病人的相對比例 


00:02:10.024 --> 00:02:13.264
即入院時健康情況好或壞

00:02:13.264 --> 00:02:16.514
辛普森悖論並不限於假設的情境

00:02:16.544 --> 00:02:18.924
它在真實世界時有出現

00:02:18.924 --> 00:02:22.132
有時甚至在重要的情況

00:02:22.132 --> 00:02:24.120
一個英國的研究發現

00:02:24.134 --> 00:02:27.580
吸煙者比非吸煙者有較高存活率

00:02:27.600 --> 00:02:29.850
這研究長達二十多年

00:02:29.850 --> 00:02:33.317
然而，當把參與者按年齡分組

00:02:33.317 --> 00:02:37.800
便顯現非吸煙者的
平均年齡明顯地比較高

00:02:37.817 --> 00:02:40.930
因此，較可能在研究期間死亡

00:02:40.930 --> 00:02:44.438
這正是因為非吸煙者
普遍較長壽的緣故

00:02:44.438 --> 00:02:47.286
在此，年齡分組是潛在變項

00:02:47.286 --> 00:02:50.176
這對正確解讀數據非常重要

00:02:50.176 --> 00:02:51.529
另一例子是


00:02:51.559 --> 00:02:54.259
佛羅里達州死刑案件的研究分析

00:02:54.279 --> 00:03:01.525
似乎顯示因謀殺罪的黑人或白人
被判死刑的情況，並無種族差異


00:03:01.525 --> 00:03:06.396
但當按受害人的種族來分組，
就截然不同了


00:03:06.396 --> 00:03:11.079
無論受害人的種族如何，
黑人被告都較可能被判死刑

00:03:11.089 --> 00:03:15.056
白人被告在整體上
被判死刑的機率稍微較高


00:03:15.066 --> 00:03:18.677
是因為涉及白人受害者的案件


00:03:18.694 --> 00:03:24.047
比涉及黑人受害者的
較有可能被判死刑 


00:03:24.087 --> 00:03:28.483
而謀殺案又多數發生在相同種族之間

00:03:28.483 --> 00:03:31.319
那我們要如何避免掉入這種悖論呢？

00:03:31.319 --> 00:03:34.686
不幸的是，
並沒有一個適合各種情況的答案


00:03:34.686 --> 00:03:38.504
數據能夠以各種方法進行分組

00:03:38.504 --> 00:03:42.108
而整體數據有時
能給我們一個更準確的描述


00:03:42.108 --> 00:03:46.628
相較於誤導或任意分組的數據

00:03:46.638 --> 00:03:52.089
我們唯一能做的是仔細研究
統計數據所描述的真實情況

00:03:52.089 --> 00:03:55.977
並考慮當中是否存在「潛在變項」

00:03:55.977 --> 00:04:02.858
否則，我們便很容易受到
運用數據達到目的人的操弄了


00:04:03.805 --> 00:04:10.075
翻譯：Crystal Yip