0:00:06.636,0:00:09.077
統計數據深具說服力

0:00:09.077,0:00:12.541
以致很多人、機構甚至整個國家[br]

0:00:12.541,0:00:17.747
將已整理的數據[br]作為他們一些最重要決定的依據[br]

0:00:17.747,0:00:19.484
但這做法有一個問題

0:00:19.484,0:00:23.301
任何一組統計數據[br]都有可能潛伏一些因素

0:00:23.301,0:00:27.251
這些因素有時可能完全改變結論

0:00:27.251,0:00:30.920
例如，想像你需要[br]從兩間醫院中選擇一間[br]

0:00:30.920,0:00:33.737
適合年老的親人來做手術

0:00:33.737,0:00:36.434
在各自醫院最近收治的 1000 個病人中

0:00:36.434,0:00:39.612
醫院 A 有 900 人存活

0:00:39.612,0:00:43.021
而醫院 B 只有 800 人存活

0:00:43.021,0:00:46.170
所以看起來醫院 A 是比較好的選擇

0:00:46.170,0:00:47.823
但在你作決定前

0:00:47.843,0:00:51.413
要記得並不是所有病人入院時

0:00:51.413,0:00:53.813
都有相同的健康情況

0:00:53.813,0:00:56.703
若我們把各間醫院最近收治的 1000 個病人

0:00:56.703,0:01:01.132
分成入院時健康良好和欠佳這兩組

0:01:01.132,0:01:03.772
情況變得截然不同

0:01:03.772,0:01:10.329
醫院 A 只有 100 人入院時健康欠佳，[br]而當中 30 人存活[br]

0:01:10.329,0:01:14.852
但醫院 B 則有 400 人，[br]而他們能保住 210 人的性命[br]

0:01:14.852,0:01:20.729
所以對於入院時健康欠佳的病人，[br]醫院 B 是較好的選擇

0:01:20.739,0:01:24.511
其存活率達 52.5 %

0:01:24.526,0:01:28.445
那麼如果你的親人入院時[br]健康良好呢？

0:01:28.445,0:01:32.271
非常奇怪的是，[br]醫院 B 仍是較好的選擇

0:01:32.271,0:01:35.676
其存活率超過 98 ％

0:01:35.676,0:01:44.823
所以若醫院 B 在這兩組都有較高存活率，[br]為何卻是醫院 A 有較高的整體存活率？[br]

0:01:44.830,0:01:48.589
這是我們碰巧遇到的[br]一個「辛普森悖論」的情況[br]

0:01:48.589,0:01:54.649
同一套數據依據其分組方法，[br]能呈現出相反的走向[br]

0:01:54.664,0:01:58.744
這經常發生在當已收集的數據中[br]隱藏了一個「條件變項」[br]

0:01:58.744,0:02:01.377
有時也稱為「潛在變項」

0:02:01.377,0:02:06.584
它是另一個隱藏因素，[br]會顯著地影響結果[br]

0:02:06.584,0:02:10.023
在此，隱藏因素是[br]兩組病人的相對比例 [br]

0:02:10.024,0:02:13.264
即入院時健康情況好或壞

0:02:13.264,0:02:16.514
辛普森悖論並不限於假設的情境

0:02:16.544,0:02:18.924
它在真實世界時有出現

0:02:18.924,0:02:22.132
有時甚至在重要的情況

0:02:22.132,0:02:24.120
一個英國的研究發現

0:02:24.134,0:02:27.580
吸煙者比非吸煙者有較高存活率

0:02:27.600,0:02:29.850
這研究長達二十多年

0:02:29.850,0:02:33.317
然而，當把參與者按年齡分組

0:02:33.317,0:02:37.800
便顯現非吸煙者的[br]平均年齡明顯地比較高

0:02:37.817,0:02:40.930
因此，較可能在研究期間死亡

0:02:40.930,0:02:44.438
這正是因為非吸煙者[br]普遍較長壽的緣故

0:02:44.438,0:02:47.286
在此，年齡分組是潛在變項

0:02:47.286,0:02:50.176
這對正確解讀數據非常重要

0:02:50.176,0:02:51.529
另一例子是[br]

0:02:51.559,0:02:54.259
佛羅里達州死刑案件的研究分析

0:02:54.279,0:03:01.525
似乎顯示因謀殺罪的黑人或白人[br]被判死刑的情況，並無種族差異[br]

0:03:01.525,0:03:06.396
但當按受害人的種族來分組，[br]就截然不同了[br]

0:03:06.396,0:03:11.079
無論受害人的種族如何，[br]黑人被告都較可能被判死刑

0:03:11.089,0:03:15.056
白人被告在整體上[br]被判死刑的機率稍微較高[br]

0:03:15.066,0:03:18.677
是因為涉及白人受害者的案件[br]

0:03:18.694,0:03:24.047
比涉及黑人受害者的[br]較有可能被判死刑 [br]

0:03:24.087,0:03:28.483
而謀殺案又多數發生在相同種族之間

0:03:28.483,0:03:31.319
那我們要如何避免掉入這種悖論呢？

0:03:31.319,0:03:34.686
不幸的是，[br]並沒有一個適合各種情況的答案[br]

0:03:34.686,0:03:38.504
數據能夠以各種方法進行分組

0:03:38.504,0:03:42.108
而整體數據有時[br]能給我們一個更準確的描述[br]

0:03:42.108,0:03:46.628
相較於誤導或任意分組的數據

0:03:46.638,0:03:52.089
我們唯一能做的是仔細研究[br]統計數據所描述的真實情況

0:03:52.089,0:03:55.977
並考慮當中是否存在「潛在變項」

0:03:55.977,0:04:02.858
否則，我們便很容易受到[br]運用數據達到目的人的操弄了[br]

0:04:03.805,0:04:10.075
翻譯：Crystal Yip