統計數據深具說服力

以致很多人、機構甚至整個國家

將已整理的數據
作為他們一些最重要決定的依據

但這做法有一個問題

任何一組統計數據
都有可能潛伏一些因素

這些因素有時可能完全改變結論

例如，想像你需要
從兩間醫院中選擇一間

適合年老的親人來做手術

在各自醫院最近收治的 1000 個病人中

醫院 A 有 900 人存活

而醫院 B 只有 800 人存活

所以看起來醫院 A 是比較好的選擇

但在你作決定前

要記得並不是所有病人入院時

都有相同的健康情況

若我們把各間醫院最近收治的 1000 個病人

分成入院時健康良好和欠佳這兩組

情況變得截然不同

醫院 A 只有 100 人入院時健康欠佳，
而當中 30 人存活

但醫院 B 則有 400 人，
而他們能保住 210 人的性命

所以對於入院時健康欠佳的病人，
醫院 B 是較好的選擇

其存活率達 52.5 %

那麼如果你的親人入院時
健康良好呢？

非常奇怪的是，
醫院 B 仍是較好的選擇

其存活率超過 98 ％

所以若醫院 B 在這兩組都有較高存活率，
為何卻是醫院 A 有較高的整體存活率？

這是我們碰巧遇到的
一個「辛普森悖論」的情況

同一套數據依據其分組方法，
能呈現出相反的走向

這經常發生在當已收集的數據中
隱藏了一個「條件變項」

有時也稱為「潛在變項」

它是另一個隱藏因素，
會顯著地影響結果

在此，隱藏因素是
兩組病人的相對比例

即入院時健康情況好或壞

辛普森悖論並不限於假設的情境

它在真實世界時有出現

有時甚至在重要的情況

一個英國的研究發現

吸煙者比非吸煙者有較高存活率

這研究長達二十多年

然而，當把參與者按年齡分組

便顯現非吸煙者的
平均年齡明顯地比較高

因此，較可能在研究期間死亡

這正是因為非吸煙者
普遍較長壽的緣故

在此，年齡分組是潛在變項

這對正確解讀數據非常重要

另一例子是

佛羅里達州死刑案件的研究分析

似乎顯示因謀殺罪的黑人或白人
被判死刑的情況，並無種族差異

但當按受害人的種族來分組，
就截然不同了

無論受害人的種族如何，
黑人被告都較可能被判死刑

白人被告在整體上
被判死刑的機率稍微較高

是因為涉及白人受害者的案件

比涉及黑人受害者的
較有可能被判死刑

而謀殺案又多數發生在相同種族之間

那我們要如何避免掉入這種悖論呢？

不幸的是，
並沒有一個適合各種情況的答案

數據能夠以各種方法進行分組

而整體數據有時
能給我們一個更準確的描述

相較於誤導或任意分組的數據

我們唯一能做的是仔細研究
統計數據所描述的真實情況

並考慮當中是否存在「潛在變項」

否則，我們便很容易受到
運用數據達到目的人的操弄了

翻譯：Crystal Yip