WEBVTT 00:00:06.636 --> 00:00:09.077 統計數據深具說服力 00:00:09.077 --> 00:00:12.541 以致很多人、機構甚至整個國家 00:00:12.541 --> 00:00:17.747 將已整理的數據 作為他們一些最重要決定的依據 00:00:17.747 --> 00:00:19.484 但這做法有一個問題 00:00:19.484 --> 00:00:23.301 任何一組統計數據 都有可能潛伏一些因素 00:00:23.301 --> 00:00:27.251 這些因素有時可能完全改變結論 00:00:27.251 --> 00:00:30.920 例如,想像你需要 從兩間醫院中選擇一間 NOTE Paragraph 00:00:30.920 --> 00:00:33.737 適合年老的親人來做手術 00:00:33.737 --> 00:00:36.434 在各自醫院最近收治的 1000 個病人中 00:00:36.434 --> 00:00:39.612 醫院 A 有 900 人存活 00:00:39.612 --> 00:00:43.021 而醫院 B 只有 800 人存活 00:00:43.021 --> 00:00:46.170 所以看起來醫院 A 是比較好的選擇 00:00:46.170 --> 00:00:47.823 但在你作決定前 00:00:47.843 --> 00:00:51.413 要記得並不是所有病人入院時 00:00:51.413 --> 00:00:53.813 都有相同的健康情況 00:00:53.813 --> 00:00:56.703 若我們把各間醫院最近收治的 1000 個病人 00:00:56.703 --> 00:01:01.132 分成入院時健康良好和欠佳這兩組 00:01:01.132 --> 00:01:03.772 情況變得截然不同 00:01:03.772 --> 00:01:10.329 醫院 A 只有 100 人入院時健康欠佳, 而當中 30 人存活 00:01:10.329 --> 00:01:14.852 但醫院 B 則有 400 人, 而他們能保住 210 人的性命 00:01:14.852 --> 00:01:20.729 所以對於入院時健康欠佳的病人, 醫院 B 是較好的選擇 00:01:20.739 --> 00:01:24.511 其存活率達 52.5 % 00:01:24.526 --> 00:01:28.445 那麼如果你的親人入院時 健康良好呢? 00:01:28.445 --> 00:01:32.271 非常奇怪的是, 醫院 B 仍是較好的選擇 00:01:32.271 --> 00:01:35.676 其存活率超過 98 % 00:01:35.676 --> 00:01:44.823 所以若醫院 B 在這兩組都有較高存活率, 為何卻是醫院 A 有較高的整體存活率? 00:01:44.830 --> 00:01:48.589 這是我們碰巧遇到的 一個「辛普森悖論」的情況 00:01:48.589 --> 00:01:54.649 同一套數據依據其分組方法, 能呈現出相反的走向 00:01:54.664 --> 00:01:58.744 這經常發生在當已收集的數據中 隱藏了一個「條件變項」 00:01:58.744 --> 00:02:01.377 有時也稱為「潛在變項」 00:02:01.377 --> 00:02:06.584 它是另一個隱藏因素, 會顯著地影響結果 00:02:06.584 --> 00:02:10.023 在此,隱藏因素是 兩組病人的相對比例 00:02:10.024 --> 00:02:13.264 即入院時健康情況好或壞 00:02:13.264 --> 00:02:16.514 辛普森悖論並不限於假設的情境 00:02:16.544 --> 00:02:18.924 它在真實世界時有出現 00:02:18.924 --> 00:02:22.132 有時甚至在重要的情況 00:02:22.132 --> 00:02:24.120 一個英國的研究發現 00:02:24.134 --> 00:02:27.580 吸煙者比非吸煙者有較高存活率 00:02:27.600 --> 00:02:29.850 這研究長達二十多年 00:02:29.850 --> 00:02:33.317 然而,當把參與者按年齡分組 00:02:33.317 --> 00:02:37.800 便顯現非吸煙者的 平均年齡明顯地比較高 00:02:37.817 --> 00:02:40.930 因此,較可能在研究期間死亡 00:02:40.930 --> 00:02:44.438 這正是因為非吸煙者 普遍較長壽的緣故 00:02:44.438 --> 00:02:47.286 在此,年齡分組是潛在變項 00:02:47.286 --> 00:02:50.176 這對正確解讀數據非常重要 00:02:50.176 --> 00:02:51.529 另一例子是 00:02:51.559 --> 00:02:54.259 佛羅里達州死刑案件的研究分析 00:02:54.279 --> 00:03:01.525 似乎顯示因謀殺罪的黑人或白人 被判死刑的情況,並無種族差異 00:03:01.525 --> 00:03:06.396 但當按受害人的種族來分組, 就截然不同了 00:03:06.396 --> 00:03:11.079 無論受害人的種族如何, 黑人被告都較可能被判死刑 00:03:11.089 --> 00:03:15.056 白人被告在整體上 被判死刑的機率稍微較高 00:03:15.066 --> 00:03:18.677 是因為涉及白人受害者的案件 00:03:18.694 --> 00:03:24.047 比涉及黑人受害者的 較有可能被判死刑 00:03:24.087 --> 00:03:28.483 而謀殺案又多數發生在相同種族之間 00:03:28.483 --> 00:03:31.319 那我們要如何避免掉入這種悖論呢? 00:03:31.319 --> 00:03:34.686 不幸的是, 並沒有一個適合各種情況的答案 00:03:34.686 --> 00:03:38.504 數據能夠以各種方法進行分組 00:03:38.504 --> 00:03:42.108 而整體數據有時 能給我們一個更準確的描述 00:03:42.108 --> 00:03:46.628 相較於誤導或任意分組的數據 00:03:46.638 --> 00:03:52.089 我們唯一能做的是仔細研究 統計數據所描述的真實情況 00:03:52.089 --> 00:03:55.977 並考慮當中是否存在「潛在變項」 00:03:55.977 --> 00:04:02.858 否則,我們便很容易受到 運用數據達到目的人的操弄了 00:04:03.805 --> 00:04:10.075 翻譯:Crystal Yip