盲目信仰大數據的時代必須要結束

0:01 - 0:03

演算法無所不在。
0:04 - 0:07

它們能把贏家和輸家區分開來。
0:08 - 0:10

贏家能得到工作，
0:10 - 0:12

或是好的信用卡方案。
0:12 - 0:15

輸家連面試的機會都沒有，
0:16 - 0:17

或是他們的保險費比較高。
0:18 - 0:22

我們都被我們不了解的
秘密方程式在評分，
0:23 - 0:26

且那些方程式通常
都沒有申訴體制。
0:27 - 0:29

問題就來了：
0:29 - 0:31

如果演算法是錯的怎麼辦？
0:33 - 0:35

要建立一個演算法，需要兩樣東西：
0:35 - 0:37

需要資料，資料是過去發生的事，
0:37 - 0:39

還需要對成功的定義，
0:39 - 0:41

也就是你在找的東西、
你想要的東西。
0:41 - 0:46

你透過尋找和計算的方式
來訓練一個演算法。
0:46 - 0:50

演算法會算出什麼和成功有相關性。
0:50 - 0:52

什麼樣的情況會導致成功？
0:53 - 0:55

其實，人人都在用演算法。
0:55 - 0:57

他們只是沒把演算法寫為程式。
0:57 - 0:59

讓我舉個例子。
0:59 - 1:02

我每天都用演算法
來為我的家庭做飯。
1:02 - 1:04

我用的資料
1:04 - 1:06

是我廚房中的原料、
1:06 - 1:08

我擁有的時間、
1:08 - 1:09

我的野心、
1:09 - 1:11

我把這些資料拿來做策劃。
1:11 - 1:15

我不把那一小包小包的
拉麵條視為是食物。
1:15 - 1:17

（笑聲）
1:17 - 1:19

我對成功的定義是：
1:19 - 1:21

如果我的孩子吃了蔬菜，
這頓飯就算成功。
1:22 - 1:25

但如果我的小兒子主導時
一切就不同了。
1:25 - 1:28

他會說，如果能吃到很多
能多益（巧克力榛果醬）就算成功。
1:29 - 1:31

但我能選擇什麼才算成功。
1:31 - 1:34

我是主導的人，我的意見才重要。
1:34 - 1:37

那是演算法的第一條規則。
1:37 - 1:40

演算法是被嵌入程式中的意見。
1:42 - 1:45

這和你認為大部份人
對演算法的看法很不一樣。
1:45 - 1:50

他們認為演算法是
客觀的、真實的、科學的。
1:50 - 1:52

那是種行銷技倆。
1:53 - 1:55

還有一種行銷技倆是
1:55 - 1:59

用演算法來威脅你，
1:59 - 2:02

讓你相信並懼怕演算法，
2:02 - 2:04

因為你相信並懼怕數學。
2:06 - 2:10

當我們盲目相信大數據時，
很多地方都可能出錯。
2:12 - 2:15

這位是琦莉索瑞斯，
她是布魯克林的高中校長。
2:15 - 2:18

2011 年，她告訴我，
用來評分她的老師的演算法
2:18 - 2:20

是一種複雜的秘密演算法，
2:20 - 2:22

叫做「加值模型」。
2:23 - 2:26

我告訴她：「找出那方程式
是什麼，給我看，
2:26 - 2:27

我就會解釋給你聽。」
2:27 - 2:29

她說：「嗯，我試過取得方程式了，
2:29 - 2:32

但教育部聯絡人告訴我，
那方程式是數學，
2:32 - 2:34

我也看不懂的。」
2:35 - 2:37

還有更糟的。
2:37 - 2:40

紐約郵報提出了一項
資訊自由法案的請求，
2:40 - 2:43

取得有所有老師的名字
以及他們的分數，
2:43 - 2:46

郵報把這些都刊出來，
用來羞辱老師。
2:47 - 2:51

當我試著透過同樣的手段
來找出方程式、原始碼，
2:51 - 2:53

我被告知我不可能辦到。
2:53 - 2:54

我被拒絕了。
2:54 - 2:56

我後來發現，
2:56 - 2:58

紐約市中沒有人能取得那方程式。
2:58 - 3:00

沒有人了解它。
3:02 - 3:05

有個很聰明的人介入：
蓋瑞魯賓斯坦。
3:05 - 3:09

他發現紐約郵報資料中
有 665 名老師
3:09 - 3:11

其實有兩個分數。
3:11 - 3:13

如果他們是在教七年級
3:13 - 3:15

及八年級數學，是有可能發生。
3:15 - 3:17

他決定把他們用圖畫出來。
3:17 - 3:19

每一個點代表一個老師。
3:19 - 3:21

（笑聲）
3:22 - 3:23

那是什麼？
3:23 - 3:24

（笑聲）
3:24 - 3:28

那絕對不該被用來做個人評估用。
3:28 - 3:30

它幾乎就是個隨機數產生器。
3:30 - 3:33

（掌聲）
3:33 - 3:34

但它的確被用了。
3:34 - 3:35

這是莎拉薇沙琪，
3:35 - 3:37

她和其他 205 名老師都被開除了，
3:37 - 3:40

都是在華盛頓特區的學區，
3:40 - 3:43

即使她有校長及
學童家長的強力推薦，
3:43 - 3:44

還是被開除了。
3:45 - 3:47

我很清楚你們在想什麼，
3:47 - 3:50

特別是這裡的資料科學家
及人工智慧專家。
3:50 - 3:54

你們在想：「我絕對不會寫出
那麼不一致的演算法。」
3:55 - 3:57

但演算法是可能出錯的，
3:57 - 4:01

即使出自好意
仍可能產生毀滅性的效應。
4:03 - 4:05

設計得很糟的飛機墜機，
4:05 - 4:07

每個人都會看到；
4:07 - 4:09

可是，設計很糟的演算法，
4:10 - 4:14

可以一直運作很長的時間，
靜靜地製造破壞或混亂。
4:16 - 4:17

這位是羅傑艾爾斯。
4:17 - 4:19

（笑聲）
4:21 - 4:23

他在 1996 年成立了 Fox News。
4:23 - 4:26

有超過二十位女性投訴性騷擾。
4:26 - 4:29

她們說，她們在 Fox News
不被允許成功。
4:29 - 4:32

他去年被攆走了，但我們看到近期
4:32 - 4:35

這個問題仍然存在。
4:36 - 4:37

這就帶來一個問題：
4:37 - 4:40

Fox News 該做什麼才能改過自新？
4:41 - 4:44

如果他們把僱用的流程換掉，
4:44 - 4:46

換成機器學習演算法呢？
4:46 - 4:48

聽起來很好，對嗎？
4:48 - 4:49

想想看。
4:49 - 4:51

資料，資料會是什麼？
4:51 - 4:56

一個合理的選擇會是 Fox News
過去 21 年間收到的申請。
4:56 - 4:58

很合理。
4:58 - 4:59

成功的定義呢？
5:00 - 5:01

合理的選擇會是，
5:01 - 5:03

在 Fox News 有誰是成功的？
5:03 - 5:07

我猜是在那邊待了四年、
5:07 - 5:08

且至少升遷過一次的人。
5:09 - 5:10

聽起來很合理。
5:10 - 5:13

接著，演算法就會被訓練。
5:13 - 5:17

它會被訓練來找人，
尋找什麼導致成功，
5:17 - 5:22

在過去怎樣的申請書會導致成功，
5:22 - 5:23

用剛剛的成功定義。
5:24 - 5:26

想想看會發生什麼事，
5:26 - 5:29

如果我們把它用到
目前的一堆申請書上。
5:29 - 5:31

它會把女性過濾掉，
5:32 - 5:36

因為在過去，女性
並不像是會成功的人。
5:40 - 5:43

如果只是漫不經心、
盲目地運用演算法，
5:43 - 5:45

它們並不會讓事情變公平。
5:45 - 5:47

演算法不會讓事情變公平。
5:47 - 5:49

它們會重覆我們過去的做法，
5:49 - 5:50

我們的模式。
5:50 - 5:52

它們會把現狀給自動化。
5:53 - 5:55

如果我們有個完美的
世界，那就很好了，
5:56 - 5:57

但世界不完美。
5:57 - 6:01

我還要補充，大部份公司
沒有難堪的訴訟，
6:02 - 6:05

但在那些公司中的資料科學家
6:05 - 6:07

被告知要遵從資料，
6:07 - 6:09

著重正確率。
6:10 - 6:12

想想那意味著什麼。
6:12 - 6:16

因為我們都有偏見，那就意味著，
他們可能會把性別偏見
6:16 - 6:18

或其他偏執給寫到程式中，
6:19 - 6:21

來做個思想實驗，
6:21 - 6:22

因為我喜歡思想實驗：
6:24 - 6:27

一個完全種族隔離的社會，
6:28 - 6:32

所有的城鎮、所有的街坊
都做了種族隔離，
6:32 - 6:35

我們只會針對少數種族
住的街坊派出警力
6:35 - 6:36

來尋找犯罪。
6:36 - 6:39

逮捕的資料會非常偏頗。
6:40 - 6:42

如果再加上，我們
找到了資料科學家，
6:42 - 6:47

付錢給他們，要他們預測下次
犯罪會發生在哪裡，會如何？
6:47 - 6:49

答案：少數種族的街坊。
6:49 - 6:52

或是去預測下一位犯人會是誰？
6:53 - 6:54

答案：少數族裔。
6:56 - 6:59

資料科學家會吹噓他們的的模型
7:00 - 7:01

有多了不起、多精準，
7:01 - 7:02

他們是對的。
7:04 - 7:09

現實沒那麼極端，但在許多
城鎮和城市中，我們的確有
7:09 - 7:10

嚴重的種族隔離，
7:10 - 7:12

我們有很多證據可證明
7:12 - 7:15

執法和司法資料是偏頗的。
7:16 - 7:18

我們確實預測了熱點，
7:18 - 7:20

犯罪會發生的地方。
7:20 - 7:24

事實上，我們確實預測了
個別的犯罪行為，
7:24 - 7:26

個人的犯罪行為。
7:27 - 7:31

新聞組織 ProPublica 近期調查了
7:31 - 7:33

「累犯風險」演算法之一，
7:33 - 7:34

他們是這麼稱呼它的，
7:34 - 7:37

演算法被用在佛羅里達，
法官在判刑時使用。
7:38 - 7:42

左邊的黑人是伯納，
總分十分，他得了十分。
7:43 - 7:45

右邊的狄倫，十分只得了三分。
7:45 - 7:48

十分就得十分，高風險。
十分只得三分，低風險。
7:49 - 7:51

他們都因為持有藥品而被逮捕。
7:51 - 7:52

他們都有犯罪記錄，
7:52 - 7:55

但狄倫犯過重罪，
7:55 - 7:56

伯納則沒有。
7:58 - 8:01

這很重要，因為你的得分越高，
8:01 - 8:04

你就越可能被判比較長的徒刑。
8:06 - 8:08

發生了什麼事？
8:09 - 8:10

洗資料。
8:11 - 8:15

它是個流程，即技術專家
用黑箱作業的演算法
8:15 - 8:17

來隱藏醜陋的真相，
8:17 - 8:19

還宣稱是客觀的；
8:19 - 8:21

是精英領導的。
8:23 - 8:25

我為這些秘密、重要、
8:25 - 8:28

又有毀滅性的演算法取了個名字：
8:28 - 8:30

「毀滅性的數學武器」。
8:30 - 8:32

（笑聲）
8:32 - 8:35

（掌聲）
8:35 - 8:37

它們無所不在，且不是個過失。
8:38 - 8:41

私人公司建立私人演算法，
8:41 - 8:43

來達到私人的目的。
8:43 - 8:46

即使是我剛談到
對老師和警方用的演算法，
8:46 - 8:48

也是由私人公司建立的，
8:48 - 8:51

然後再銷售給政府機關。
8:51 - 8:52

他們稱它為「秘方醬料」，
8:52 - 8:55

所以不能跟我們討論它。
8:55 - 8:57

它也是種私人的權力。
8:58 - 9:03

他們透過行使別人
無法理解的權威來獲利。
9:05 - 9:08

你可能會認為，
所有這些都是私人的，
9:08 - 9:09

且有競爭存在，
9:09 - 9:12

也許自由市場會解決這個問題。
9:12 - 9:13

並不會。
9:13 - 9:16

從不公平中可以賺取很多錢。
9:17 - 9:20

且，我們不是經濟合法代理人。
9:21 - 9:22

我們都有偏見。
9:23 - 9:26

我們都是種族主義的、偏執的，
即使我們也希望不要這樣，
9:26 - 9:28

我們甚至不知道我們是這樣的。
9:29 - 9:32

不過我們確實知道，總的來說，
9:32 - 9:36

因為社會學家不斷地用
他們建立的實驗
9:36 - 9:37

來展現出這一點，
9:37 - 9:40

他們寄出一大堆的工作申請書，
9:40 - 9:42

都有同樣的資格，
但有些用白人人名，
9:43 - 9:44

有些用黑人人名，
9:44 - 9:47

結果總是讓人失望的，總是如此。
9:48 - 9:49

所以，我們才是有偏見的人，
9:49 - 9:53

且我們把這些偏見注入演算法中，
9:53 - 9:55

做法是選擇要收集哪些資料、
9:55 - 9:57

比如我選擇不要考量拉麵，
9:57 - 9:59

我決定它不重要。
9:59 - 10:05

但透過相信這些資料
真的能了解過去的做法，
10:05 - 10:07

以及透過選擇成功的定義，
10:07 - 10:11

我們如何能冀望產生的演算法未受損？
10:11 - 10:13

不能。我們得要檢查這些演算法。
10:14 - 10:16

我們得要檢查它們是否公平。
10:16 - 10:19

好消息是，我們可以
檢查它們是否公平。
10:19 - 10:22

演算法可以被審問，
10:22 - 10:24

且它們每次都會告訴我們真相。
10:24 - 10:27

我們可以修正它們，
我們可以把它們變更好。
10:27 - 10:29

我稱這個為演算法稽核，
10:29 - 10:31

我會帶大家來了解它。
10:31 - 10:33

首先，檢查資料完整性。
10:34 - 10:37

針對我先前說的累犯風險演算法，
10:38 - 10:41

檢查資料完整性就意味著
我們得接受事實，
10:41 - 10:45

事實是，在美國，白人和黑人
抽大麻的比率是一樣的，
10:45 - 10:47

但黑人被逮捕的機率遠高於白人，
10:47 - 10:50

四、五倍高的可能性被捕，
依地區而異。
10:51 - 10:54

在其他犯罪類別中，
那樣的偏見會如何呈現？
10:54 - 10:56

我們要如何處理它？
10:56 - 10:59

第二，我們要想想成功的定義，
10:59 - 11:01

去稽核它。
11:01 - 11:03

記得我們剛剛談過的僱用演算法嗎？
11:03 - 11:07

待了四年且升遷至少一次？
11:07 - 11:08

那就是個成功員工，
11:08 - 11:11

但那也是個被其文化所支持的員工。
11:12 - 11:14

儘管如此，它也可能很有偏見。
11:14 - 11:16

我們得把這兩件事分開。
11:16 - 11:19

我們應該要把交響樂團的盲眼甄選
11:19 - 11:20

當作參考範例。
11:20 - 11:23

他們的做法是讓試演奏的人
在布幕後演奏。
11:23 - 11:25

我想探討的重點是
11:25 - 11:28

那些在聽並且決定什麼重要的人，
11:28 - 11:30

他們也會決定什麼不重要，
11:30 - 11:32

他們不會被不重要的部份給分心。
11:33 - 11:36

當交響樂團開始採用盲眼甄選，
11:36 - 11:39

團內的女性成員數上升五倍。
11:40 - 11:42

接著，我們要考量正確率。
11:43 - 11:47

這就是老師的加值模型
立刻會出問題的地方。
11:48 - 11:50

當然，沒有演算法是完美的，
11:51 - 11:54

所以我們得要考量
每個演算法的錯誤。
11:55 - 11:59

多常會出現錯誤、這個模型
針對哪些人會發生錯誤？
12:00 - 12:02

發生錯誤的成本多高？
12:02 - 12:05

最後，我們得要考量
12:06 - 12:08

演算法的長期效應，
12:09 - 12:11

也就是產生出來的反饋迴圈。
12:12 - 12:13

那聽起來很抽象，
12:13 - 12:16

但想像一下，如果臉書的工程師
12:16 - 12:21

決定只讓我們看到朋友的貼文
之前就先考量那一點。
12:22 - 12:25

我還有兩個訊息要傳遞，
其一是給資料科學家的。
12:25 - 12:29

資料科學家，我們
不應該是真相的仲裁者，
12:30 - 12:32

我們應該是翻譯者，
12:32 - 12:35

翻譯大社會中發生的每個道德討論。
12:36 - 12:38

（掌聲）
12:38 - 12:39

至於你們其他人，
12:40 - 12:41

不是資料科學家的人：
12:41 - 12:43

這不是個數學考試。
12:44 - 12:45

這是場政治鬥爭。
12:47 - 12:50

我們得要求為演算法的超載負責。
12:52 - 12:54

（掌聲）
12:54 - 12:58

盲目信仰大數據的時代必須要結束。
12:58 - 12:59

非常謝謝。
12:59 - 13:04

（掌聲）

Title:: 盲目信仰大數據的時代必須要結束
Speaker:: 凱西歐尼爾
Description:: 演算法決定誰能得到貸款，誰能得到工作面試機會，誰能得到保險，以及其他。但它們並不會自動讓一切變得公平，甚至不怎麼科學。數學家和資料科學家凱西歐尼爾為秘密、重要、又有毀滅性的演算法取了一個名字：「毀滅性的數學武器」。來了解一下這些應該要客觀的方程式背後暗藏了什麼玄機，以及為什麼我們需要建立更好的演算法。

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:18

	Helen Chang approved Chinese, Traditional subtitles for The era of blind faith in big data must end
	Helen Chang edited Chinese, Traditional subtitles for The era of blind faith in big data must end
	Helen Chang edited Chinese, Traditional subtitles for The era of blind faith in big data must end
	NAN-KUN WU accepted Chinese, Traditional subtitles for The era of blind faith in big data must end
	NAN-KUN WU edited Chinese, Traditional subtitles for The era of blind faith in big data must end
	Lilian Chiu edited Chinese, Traditional subtitles for The era of blind faith in big data must end
	Lilian Chiu edited Chinese, Traditional subtitles for The era of blind faith in big data must end
	Lilian Chiu edited Chinese, Traditional subtitles for The era of blind faith in big data must end

Show all

Chinese, Traditional subtitles

Revisions

Revision 7 Edited

Helen Chang

盲目信仰大數據的時代必須要結束

Revisions

Our website uses cookies

Operating cookies (Required)