0:00:06.636,0:00:09.077 統計數據深具說服力 0:00:09.077,0:00:12.541 以致很多人、機構甚至整個國家[br] 0:00:12.541,0:00:17.747 將已整理的數據[br]作為他們一些最重要決定的依據[br] 0:00:17.747,0:00:19.484 但這做法有一個問題 0:00:19.484,0:00:23.301 任何一組統計數據[br]都有可能潛伏一些因素 0:00:23.301,0:00:27.251 這些因素有時可能完全改變結論 0:00:27.251,0:00:30.920 例如,想像你需要[br]從兩間醫院中選擇一間[br] 0:00:30.920,0:00:33.737 適合年老的親人來做手術 0:00:33.737,0:00:36.434 在各自醫院最近收治的 1000 個病人中 0:00:36.434,0:00:39.612 醫院 A 有 900 人存活 0:00:39.612,0:00:43.021 而醫院 B 只有 800 人存活 0:00:43.021,0:00:46.170 所以看起來醫院 A 是比較好的選擇 0:00:46.170,0:00:47.823 但在你作決定前 0:00:47.843,0:00:51.413 要記得並不是所有病人入院時 0:00:51.413,0:00:53.813 都有相同的健康情況 0:00:53.813,0:00:56.703 若我們把各間醫院最近收治的 1000 個病人 0:00:56.703,0:01:01.132 分成入院時健康良好和欠佳這兩組 0:01:01.132,0:01:03.772 情況變得截然不同 0:01:03.772,0:01:10.329 醫院 A 只有 100 人入院時健康欠佳,[br]而當中 30 人存活[br] 0:01:10.329,0:01:14.852 但醫院 B 則有 400 人,[br]而他們能保住 210 人的性命[br] 0:01:14.852,0:01:20.729 所以對於入院時健康欠佳的病人,[br]醫院 B 是較好的選擇 0:01:20.739,0:01:24.511 其存活率達 52.5 % 0:01:24.526,0:01:28.445 那麼如果你的親人入院時[br]健康良好呢? 0:01:28.445,0:01:32.271 非常奇怪的是,[br]醫院 B 仍是較好的選擇 0:01:32.271,0:01:35.676 其存活率超過 98 % 0:01:35.676,0:01:44.823 所以若醫院 B 在這兩組都有較高存活率,[br]為何卻是醫院 A 有較高的整體存活率?[br] 0:01:44.830,0:01:48.589 這是我們碰巧遇到的[br]一個「辛普森悖論」的情況[br] 0:01:48.589,0:01:54.649 同一套數據依據其分組方法,[br]能呈現出相反的走向[br] 0:01:54.664,0:01:58.744 這經常發生在當已收集的數據中[br]隱藏了一個「條件變項」[br] 0:01:58.744,0:02:01.377 有時也稱為「潛在變項」 0:02:01.377,0:02:06.584 它是另一個隱藏因素,[br]會顯著地影響結果[br] 0:02:06.584,0:02:10.023 在此,隱藏因素是[br]兩組病人的相對比例 [br] 0:02:10.024,0:02:13.264 即入院時健康情況好或壞 0:02:13.264,0:02:16.514 辛普森悖論並不限於假設的情境 0:02:16.544,0:02:18.924 它在真實世界時有出現 0:02:18.924,0:02:22.132 有時甚至在重要的情況 0:02:22.132,0:02:24.120 一個英國的研究發現 0:02:24.134,0:02:27.580 吸煙者比非吸煙者有較高存活率 0:02:27.600,0:02:29.850 這研究長達二十多年 0:02:29.850,0:02:33.317 然而,當把參與者按年齡分組 0:02:33.317,0:02:37.800 便顯現非吸煙者的[br]平均年齡明顯地比較高 0:02:37.817,0:02:40.930 因此,較可能在研究期間死亡 0:02:40.930,0:02:44.438 這正是因為非吸煙者[br]普遍較長壽的緣故 0:02:44.438,0:02:47.286 在此,年齡分組是潛在變項 0:02:47.286,0:02:50.176 這對正確解讀數據非常重要 0:02:50.176,0:02:51.529 另一例子是[br] 0:02:51.559,0:02:54.259 佛羅里達州死刑案件的研究分析 0:02:54.279,0:03:01.525 似乎顯示因謀殺罪的黑人或白人[br]被判死刑的情況,並無種族差異[br] 0:03:01.525,0:03:06.396 但當按受害人的種族來分組,[br]就截然不同了[br] 0:03:06.396,0:03:11.079 無論受害人的種族如何,[br]黑人被告都較可能被判死刑 0:03:11.089,0:03:15.056 白人被告在整體上[br]被判死刑的機率稍微較高[br] 0:03:15.066,0:03:18.677 是因為涉及白人受害者的案件[br] 0:03:18.694,0:03:24.047 比涉及黑人受害者的[br]較有可能被判死刑 [br] 0:03:24.087,0:03:28.483 而謀殺案又多數發生在相同種族之間 0:03:28.483,0:03:31.319 那我們要如何避免掉入這種悖論呢? 0:03:31.319,0:03:34.686 不幸的是,[br]並沒有一個適合各種情況的答案[br] 0:03:34.686,0:03:38.504 數據能夠以各種方法進行分組 0:03:38.504,0:03:42.108 而整體數據有時[br]能給我們一個更準確的描述[br] 0:03:42.108,0:03:46.628 相較於誤導或任意分組的數據 0:03:46.638,0:03:52.089 我們唯一能做的是仔細研究[br]統計數據所描述的真實情況 0:03:52.089,0:03:55.977 並考慮當中是否存在「潛在變項」 0:03:55.977,0:04:02.858 否則,我們便很容易受到[br]運用數據達到目的人的操弄了[br] 0:04:03.805,0:04:10.075 翻譯:Crystal Yip