1
00:00:06,636 --> 00:00:09,077
統計數據深具說服力

2
00:00:09,077 --> 00:00:12,541
以致很多人、機構甚至整個國家


3
00:00:12,541 --> 00:00:17,747
將已整理的數據
作為他們一些最重要決定的依據


4
00:00:17,747 --> 00:00:19,484
但這做法有一個問題

5
00:00:19,484 --> 00:00:23,301
任何一組統計數據
都有可能潛伏一些因素

6
00:00:23,301 --> 00:00:27,251
這些因素有時可能完全改變結論

7
00:00:27,251 --> 00:00:30,920
例如，想像你需要
從兩間醫院中選擇一間


8
00:00:30,920 --> 00:00:33,737
適合年老的親人來做手術

9
00:00:33,737 --> 00:00:36,434
在各自醫院最近收治的 1000 個病人中

10
00:00:36,434 --> 00:00:39,612
醫院 A 有 900 人存活

11
00:00:39,612 --> 00:00:43,021
而醫院 B 只有 800 人存活

12
00:00:43,021 --> 00:00:46,170
所以看起來醫院 A 是比較好的選擇

13
00:00:46,170 --> 00:00:47,823
但在你作決定前

14
00:00:47,843 --> 00:00:51,413
要記得並不是所有病人入院時

15
00:00:51,413 --> 00:00:53,813
都有相同的健康情況

16
00:00:53,813 --> 00:00:56,703
若我們把各間醫院最近收治的 1000 個病人

17
00:00:56,703 --> 00:01:01,132
分成入院時健康良好和欠佳這兩組

18
00:01:01,132 --> 00:01:03,772
情況變得截然不同

19
00:01:03,772 --> 00:01:10,329
醫院 A 只有 100 人入院時健康欠佳，
而當中 30 人存活


20
00:01:10,329 --> 00:01:14,852
但醫院 B 則有 400 人，
而他們能保住 210 人的性命


21
00:01:14,852 --> 00:01:20,729
所以對於入院時健康欠佳的病人，
醫院 B 是較好的選擇

22
00:01:20,739 --> 00:01:24,511
其存活率達 52.5 %

23
00:01:24,526 --> 00:01:28,445
那麼如果你的親人入院時
健康良好呢？

24
00:01:28,445 --> 00:01:32,271
非常奇怪的是，
醫院 B 仍是較好的選擇

25
00:01:32,271 --> 00:01:35,676
其存活率超過 98 ％

26
00:01:35,676 --> 00:01:44,823
所以若醫院 B 在這兩組都有較高存活率，
為何卻是醫院 A 有較高的整體存活率？


27
00:01:44,830 --> 00:01:48,589
這是我們碰巧遇到的
一個「辛普森悖論」的情況


28
00:01:48,589 --> 00:01:54,649
同一套數據依據其分組方法，
能呈現出相反的走向


29
00:01:54,664 --> 00:01:58,744
這經常發生在當已收集的數據中
隱藏了一個「條件變項」


30
00:01:58,744 --> 00:02:01,377
有時也稱為「潛在變項」

31
00:02:01,377 --> 00:02:06,584
它是另一個隱藏因素，
會顯著地影響結果


32
00:02:06,584 --> 00:02:10,023
在此，隱藏因素是
兩組病人的相對比例 


33
00:02:10,024 --> 00:02:13,264
即入院時健康情況好或壞

34
00:02:13,264 --> 00:02:16,514
辛普森悖論並不限於假設的情境

35
00:02:16,544 --> 00:02:18,924
它在真實世界時有出現

36
00:02:18,924 --> 00:02:22,132
有時甚至在重要的情況

37
00:02:22,132 --> 00:02:24,120
一個英國的研究發現

38
00:02:24,134 --> 00:02:27,580
吸煙者比非吸煙者有較高存活率

39
00:02:27,600 --> 00:02:29,850
這研究長達二十多年

40
00:02:29,850 --> 00:02:33,317
然而，當把參與者按年齡分組

41
00:02:33,317 --> 00:02:37,800
便顯現非吸煙者的
平均年齡明顯地比較高

42
00:02:37,817 --> 00:02:40,930
因此，較可能在研究期間死亡

43
00:02:40,930 --> 00:02:44,438
這正是因為非吸煙者
普遍較長壽的緣故

44
00:02:44,438 --> 00:02:47,286
在此，年齡分組是潛在變項

45
00:02:47,286 --> 00:02:50,176
這對正確解讀數據非常重要

46
00:02:50,176 --> 00:02:51,529
另一例子是


47
00:02:51,559 --> 00:02:54,259
佛羅里達州死刑案件的研究分析

48
00:02:54,279 --> 00:03:01,525
似乎顯示因謀殺罪的黑人或白人
被判死刑的情況，並無種族差異


49
00:03:01,525 --> 00:03:06,396
但當按受害人的種族來分組，
就截然不同了


50
00:03:06,396 --> 00:03:11,079
無論受害人的種族如何，
黑人被告都較可能被判死刑

51
00:03:11,089 --> 00:03:15,056
白人被告在整體上
被判死刑的機率稍微較高


52
00:03:15,066 --> 00:03:18,677
是因為涉及白人受害者的案件


53
00:03:18,694 --> 00:03:24,047
比涉及黑人受害者的
較有可能被判死刑 


54
00:03:24,087 --> 00:03:28,483
而謀殺案又多數發生在相同種族之間

55
00:03:28,483 --> 00:03:31,319
那我們要如何避免掉入這種悖論呢？

56
00:03:31,319 --> 00:03:34,686
不幸的是，
並沒有一個適合各種情況的答案


57
00:03:34,686 --> 00:03:38,504
數據能夠以各種方法進行分組

58
00:03:38,504 --> 00:03:42,108
而整體數據有時
能給我們一個更準確的描述


59
00:03:42,108 --> 00:03:46,628
相較於誤導或任意分組的數據

60
00:03:46,638 --> 00:03:52,089
我們唯一能做的是仔細研究
統計數據所描述的真實情況

61
00:03:52,089 --> 00:03:55,977
並考慮當中是否存在「潛在變項」

62
00:03:55,977 --> 00:04:02,858
否則，我們便很容易受到
運用數據達到目的人的操弄了


63
00:04:03,805 --> 00:04:10,075
翻譯：Crystal Yip