1 00:00:06,636 --> 00:00:09,077 統計數據深具說服力 2 00:00:09,077 --> 00:00:12,541 以致很多人、機構甚至整個國家 3 00:00:12,541 --> 00:00:17,747 將已整理的數據 作為他們一些最重要決定的依據 4 00:00:17,747 --> 00:00:19,484 但這做法有一個問題 5 00:00:19,484 --> 00:00:23,301 任何一組統計數據 都有可能潛伏一些因素 6 00:00:23,301 --> 00:00:27,251 這些因素有時可能完全改變結論 7 00:00:27,251 --> 00:00:30,920 例如,想像你需要 從兩間醫院中選擇一間 8 00:00:30,920 --> 00:00:33,737 適合年老的親人來做手術 9 00:00:33,737 --> 00:00:36,434 在各自醫院最近收治的 1000 個病人中 10 00:00:36,434 --> 00:00:39,612 醫院 A 有 900 人存活 11 00:00:39,612 --> 00:00:43,021 而醫院 B 只有 800 人存活 12 00:00:43,021 --> 00:00:46,170 所以看起來醫院 A 是比較好的選擇 13 00:00:46,170 --> 00:00:47,823 但在你作決定前 14 00:00:47,843 --> 00:00:51,413 要記得並不是所有病人入院時 15 00:00:51,413 --> 00:00:53,813 都有相同的健康情況 16 00:00:53,813 --> 00:00:56,703 若我們把各間醫院最近收治的 1000 個病人 17 00:00:56,703 --> 00:01:01,132 分成入院時健康良好和欠佳這兩組 18 00:01:01,132 --> 00:01:03,772 情況變得截然不同 19 00:01:03,772 --> 00:01:10,329 醫院 A 只有 100 人入院時健康欠佳, 而當中 30 人存活 20 00:01:10,329 --> 00:01:14,852 但醫院 B 則有 400 人, 而他們能保住 210 人的性命 21 00:01:14,852 --> 00:01:20,729 所以對於入院時健康欠佳的病人, 醫院 B 是較好的選擇 22 00:01:20,739 --> 00:01:24,511 其存活率達 52.5 % 23 00:01:24,526 --> 00:01:28,445 那麼如果你的親人入院時 健康良好呢? 24 00:01:28,445 --> 00:01:32,271 非常奇怪的是, 醫院 B 仍是較好的選擇 25 00:01:32,271 --> 00:01:35,676 其存活率超過 98 % 26 00:01:35,676 --> 00:01:44,823 所以若醫院 B 在這兩組都有較高存活率, 為何卻是醫院 A 有較高的整體存活率? 27 00:01:44,830 --> 00:01:48,589 這是我們碰巧遇到的 一個「辛普森悖論」的情況 28 00:01:48,589 --> 00:01:54,649 同一套數據依據其分組方法, 能呈現出相反的走向 29 00:01:54,664 --> 00:01:58,744 這經常發生在當已收集的數據中 隱藏了一個「條件變項」 30 00:01:58,744 --> 00:02:01,377 有時也稱為「潛在變項」 31 00:02:01,377 --> 00:02:06,584 它是另一個隱藏因素, 會顯著地影響結果 32 00:02:06,584 --> 00:02:10,023 在此,隱藏因素是 兩組病人的相對比例 33 00:02:10,024 --> 00:02:13,264 即入院時健康情況好或壞 34 00:02:13,264 --> 00:02:16,514 辛普森悖論並不限於假設的情境 35 00:02:16,544 --> 00:02:18,924 它在真實世界時有出現 36 00:02:18,924 --> 00:02:22,132 有時甚至在重要的情況 37 00:02:22,132 --> 00:02:24,120 一個英國的研究發現 38 00:02:24,134 --> 00:02:27,580 吸煙者比非吸煙者有較高存活率 39 00:02:27,600 --> 00:02:29,850 這研究長達二十多年 40 00:02:29,850 --> 00:02:33,317 然而,當把參與者按年齡分組 41 00:02:33,317 --> 00:02:37,800 便顯現非吸煙者的 平均年齡明顯地比較高 42 00:02:37,817 --> 00:02:40,930 因此,較可能在研究期間死亡 43 00:02:40,930 --> 00:02:44,438 這正是因為非吸煙者 普遍較長壽的緣故 44 00:02:44,438 --> 00:02:47,286 在此,年齡分組是潛在變項 45 00:02:47,286 --> 00:02:50,176 這對正確解讀數據非常重要 46 00:02:50,176 --> 00:02:51,529 另一例子是 47 00:02:51,559 --> 00:02:54,259 佛羅里達州死刑案件的研究分析 48 00:02:54,279 --> 00:03:01,525 似乎顯示因謀殺罪的黑人或白人 被判死刑的情況,並無種族差異 49 00:03:01,525 --> 00:03:06,396 但當按受害人的種族來分組, 就截然不同了 50 00:03:06,396 --> 00:03:11,079 無論受害人的種族如何, 黑人被告都較可能被判死刑 51 00:03:11,089 --> 00:03:15,056 白人被告在整體上 被判死刑的機率稍微較高 52 00:03:15,066 --> 00:03:18,677 是因為涉及白人受害者的案件 53 00:03:18,694 --> 00:03:24,047 比涉及黑人受害者的 較有可能被判死刑 54 00:03:24,087 --> 00:03:28,483 而謀殺案又多數發生在相同種族之間 55 00:03:28,483 --> 00:03:31,319 那我們要如何避免掉入這種悖論呢? 56 00:03:31,319 --> 00:03:34,686 不幸的是, 並沒有一個適合各種情況的答案 57 00:03:34,686 --> 00:03:38,504 數據能夠以各種方法進行分組 58 00:03:38,504 --> 00:03:42,108 而整體數據有時 能給我們一個更準確的描述 59 00:03:42,108 --> 00:03:46,628 相較於誤導或任意分組的數據 60 00:03:46,638 --> 00:03:52,089 我們唯一能做的是仔細研究 統計數據所描述的真實情況 61 00:03:52,089 --> 00:03:55,977 並考慮當中是否存在「潛在變項」 62 00:03:55,977 --> 00:04:02,858 否則,我們便很容易受到 運用數據達到目的人的操弄了 63 00:04:03,805 --> 00:04:10,075 翻譯:Crystal Yip