Return to Video

盲目信仰大數據的時代必須要結束

  • 0:01 - 0:03
    演算法無所不在。
  • 0:04 - 0:07
    它們能把贏家和輸家區分開來。
  • 0:08 - 0:10
    贏家能得到工作,
  • 0:10 - 0:12
    或是好的信用卡方案。
  • 0:12 - 0:15
    輸家連面試的機會都沒有,
  • 0:16 - 0:17
    或是他們的保險費比較高。
  • 0:18 - 0:22
    我們都被我們不了解的
    秘密方程式在評分,
  • 0:23 - 0:26
    且那些方程式通常
    都沒有申訴體制。
  • 0:27 - 0:29
    問題就來了:
  • 0:29 - 0:31
    如果演算法是錯的怎麼辦?
  • 0:33 - 0:35
    要建立一個演算法,需要兩樣東西:
  • 0:35 - 0:37
    需要資料,資料是過去發生的事,
  • 0:37 - 0:39
    還需要對成功的定義,
  • 0:39 - 0:41
    也就是你在找的東西、
    你想要的東西。
  • 0:41 - 0:46
    你透過尋找和計算的方式
    來訓練一個演算法。
  • 0:46 - 0:50
    演算法會算出什麼和成功有相關性。
  • 0:50 - 0:52
    什麼樣的情況會導致成功?
  • 0:53 - 0:55
    其實,人人都在用演算法。
  • 0:55 - 0:57
    他們只是沒把演算法寫為程式。
  • 0:57 - 0:59
    讓我舉個例子。
  • 0:59 - 1:02
    我每天都用演算法
    來為我的家庭做飯。
  • 1:02 - 1:04
    我用的資料
  • 1:04 - 1:06
    是我廚房中的原料、
  • 1:06 - 1:08
    我擁有的時間、
  • 1:08 - 1:09
    我的野心、
  • 1:09 - 1:11
    我把這些資料拿來做策劃。
  • 1:11 - 1:15
    我不把那一小包小包的
    拉麵條視為是食物。
  • 1:15 - 1:17
    (笑聲)
  • 1:17 - 1:19
    我對成功的定義是:
  • 1:19 - 1:21
    如果我的孩子吃了蔬菜,
    這頓飯就算成功。
  • 1:22 - 1:25
    但如果我的小兒子主導時
    一切就不同了。
  • 1:25 - 1:28
    他會說,如果能吃到很多
    能多益(巧克力榛果醬)就算成功。
  • 1:29 - 1:31
    但我能選擇什麼才算成功。
  • 1:31 - 1:34
    我是主導的人,我的意見才重要。
  • 1:34 - 1:37
    那是演算法的第一條規則。
  • 1:37 - 1:40
    演算法是被嵌入程式中的意見。
  • 1:42 - 1:45
    這和你認為大部份人
    對演算法的看法很不一樣。
  • 1:45 - 1:50
    他們認為演算法是
    客觀的、真實的、科學的。
  • 1:50 - 1:52
    那是種行銷技倆。
  • 1:53 - 1:55
    還有一種行銷技倆是
  • 1:55 - 1:59
    用演算法來威脅你,
  • 1:59 - 2:02
    讓你相信並懼怕演算法,
  • 2:02 - 2:04
    因為你相信並懼怕數學。
  • 2:06 - 2:10
    當我們盲目相信大數據時,
    很多地方都可能出錯。
  • 2:12 - 2:15
    這位是琦莉索瑞斯,
    她是布魯克林的高中校長。
  • 2:15 - 2:18
    2011 年,她告訴我,
    用來評分她的老師的演算法
  • 2:18 - 2:20
    是一種複雜的秘密演算法,
  • 2:20 - 2:22
    叫做「加值模型」。
  • 2:23 - 2:26
    我告訴她:「找出那方程式
    是什麼,給我看,
  • 2:26 - 2:27
    我就會解釋給你聽。」
  • 2:27 - 2:29
    她說:「嗯,我試過取得方程式了,
  • 2:29 - 2:32
    但教育部聯絡人告訴我,
    那方程式是數學,
  • 2:32 - 2:34
    我也看不懂的。」
  • 2:35 - 2:37
    還有更糟的。
  • 2:37 - 2:40
    紐約郵報提出了一項
    資訊自由法案的請求,
  • 2:40 - 2:43
    取得有所有老師的名字
    以及他們的分數,
  • 2:43 - 2:46
    郵報把這些都刊出來,
    用來羞辱老師。
  • 2:47 - 2:51
    當我試著透過同樣的手段
    來找出方程式、原始碼,
  • 2:51 - 2:53
    我被告知我不可能辦到。
  • 2:53 - 2:54
    我被拒絕了。
  • 2:54 - 2:56
    我後來發現,
  • 2:56 - 2:58
    紐約市中沒有人能取得那方程式。
  • 2:58 - 3:00
    沒有人了解它。
  • 3:02 - 3:05
    有個很聰明的人介入:
    蓋瑞魯賓斯坦。
  • 3:05 - 3:09
    他發現紐約郵報資料中
    有 665 名老師
  • 3:09 - 3:11
    其實有兩個分數。
  • 3:11 - 3:13
    如果他們是在教七年級
  • 3:13 - 3:15
    及八年級數學,是有可能發生。
  • 3:15 - 3:17
    他決定把他們用圖畫出來。
  • 3:17 - 3:19
    每一個點代表一個老師。
  • 3:19 - 3:21
    (笑聲)
  • 3:22 - 3:23
    那是什麼?
  • 3:23 - 3:24
    (笑聲)
  • 3:24 - 3:28
    那絕對不該被用來做個人評估用。
  • 3:28 - 3:30
    它幾乎就是個隨機數產生器。
  • 3:30 - 3:33
    (掌聲)
  • 3:33 - 3:34
    但它的確被用了。
  • 3:34 - 3:35
    這是莎拉薇沙琪,
  • 3:35 - 3:37
    她和其他 205 名老師都被開除了,
  • 3:37 - 3:40
    都是在華盛頓特區的學區,
  • 3:40 - 3:43
    即使她有校長及
    學童家長的強力推薦,
  • 3:43 - 3:44
    還是被開除了。
  • 3:45 - 3:47
    我很清楚你們在想什麼,
  • 3:47 - 3:50
    特別是這裡的資料科學家
    及人工智慧專家。
  • 3:50 - 3:54
    你們在想:「我絕對不會寫出
    那麼不一致的演算法。」
  • 3:55 - 3:57
    但演算法是可能出錯的,
  • 3:57 - 4:01
    即使出自好意
    仍可能產生毀滅性的效應。
  • 4:03 - 4:05
    設計得很糟的飛機墜機,
  • 4:05 - 4:07
    每個人都會看到;
  • 4:07 - 4:09
    可是,設計很糟的演算法,
  • 4:10 - 4:14
    可以一直運作很長的時間,
    靜靜地製造破壞或混亂。
  • 4:16 - 4:17
    這位是羅傑艾爾斯。
  • 4:17 - 4:19
    (笑聲)
  • 4:21 - 4:23
    他在 1996 年成立了 Fox News。
  • 4:23 - 4:26
    有超過二十位女性投訴性騷擾。
  • 4:26 - 4:29
    她們說,她們在 Fox News
    不被允許成功。
  • 4:29 - 4:32
    他去年被攆走了,但我們看到近期
  • 4:32 - 4:35
    這個問題仍然存在。
  • 4:36 - 4:37
    這就帶來一個問題:
  • 4:37 - 4:40
    Fox News 該做什麼才能改過自新?
  • 4:41 - 4:44
    如果他們把僱用的流程換掉,
  • 4:44 - 4:46
    換成機器學習演算法呢?
  • 4:46 - 4:48
    聽起來很好,對嗎?
  • 4:48 - 4:49
    想想看。
  • 4:49 - 4:51
    資料,資料會是什麼?
  • 4:51 - 4:56
    一個合理的選擇會是 Fox News
    過去 21 年間收到的申請。
  • 4:56 - 4:58
    很合理。
  • 4:58 - 4:59
    成功的定義呢?
  • 5:00 - 5:01
    合理的選擇會是,
  • 5:01 - 5:03
    在 Fox News 有誰是成功的?
  • 5:03 - 5:07
    我猜是在那邊待了四年、
  • 5:07 - 5:08
    且至少升遷過一次的人。
  • 5:09 - 5:10
    聽起來很合理。
  • 5:10 - 5:13
    接著,演算法就會被訓練。
  • 5:13 - 5:17
    它會被訓練來找人,
    尋找什麼導致成功,
  • 5:17 - 5:22
    在過去怎樣的申請書會導致成功,
  • 5:22 - 5:23
    用剛剛的成功定義。
  • 5:24 - 5:26
    想想看會發生什麼事,
  • 5:26 - 5:29
    如果我們把它用到
    目前的一堆申請書上。
  • 5:29 - 5:31
    它會把女性過濾掉,
  • 5:32 - 5:36
    因為在過去,女性
    並不像是會成功的人。
  • 5:40 - 5:43
    如果只是漫不經心、
    盲目地運用演算法,
  • 5:43 - 5:45
    它們並不會讓事情變公平。
  • 5:45 - 5:47
    演算法不會讓事情變公平。
  • 5:47 - 5:49
    它們會重覆我們過去的做法,
  • 5:49 - 5:50
    我們的模式。
  • 5:50 - 5:52
    它們會把現狀給自動化。
  • 5:53 - 5:55
    如果我們有個完美的
    世界,那就很好了,
  • 5:56 - 5:57
    但世界不完美。
  • 5:57 - 6:01
    我還要補充,大部份公司
    沒有難堪的訴訟,
  • 6:02 - 6:05
    但在那些公司中的資料科學家
  • 6:05 - 6:07
    被告知要遵從資料,
  • 6:07 - 6:09
    著重正確率。
  • 6:10 - 6:12
    想想那意味著什麼。
  • 6:12 - 6:16
    因為我們都有偏見,那就意味著,
    他們可能會把性別偏見
  • 6:16 - 6:18
    或其他偏執給寫到程式中,
  • 6:19 - 6:21
    來做個思想實驗,
  • 6:21 - 6:22
    因為我喜歡思想實驗:
  • 6:24 - 6:27
    一個完全種族隔離的社會,
  • 6:28 - 6:32
    所有的城鎮、所有的街坊
    都做了種族隔離,
  • 6:32 - 6:35
    我們只會針對少數種族
    住的街坊派出警力
  • 6:35 - 6:36
    來尋找犯罪。
  • 6:36 - 6:39
    逮捕的資料會非常偏頗。
  • 6:40 - 6:42
    如果再加上,我們
    找到了資料科學家,
  • 6:42 - 6:47
    付錢給他們,要他們預測下次
    犯罪會發生在哪裡,會如何?
  • 6:47 - 6:49
    答案:少數種族的街坊。
  • 6:49 - 6:52
    或是去預測下一位犯人會是誰?
  • 6:53 - 6:54
    答案:少數族裔。
  • 6:56 - 6:59
    資料科學家會吹噓他們的的模型
  • 7:00 - 7:01
    有多了不起、多精準,
  • 7:01 - 7:02
    他們是對的。
  • 7:04 - 7:09
    現實沒那麼極端,但在許多
    城鎮和城市中,我們的確有
  • 7:09 - 7:10
    嚴重的種族隔離,
  • 7:10 - 7:12
    我們有很多證據可證明
  • 7:12 - 7:15
    執法和司法資料是偏頗的。
  • 7:16 - 7:18
    我們確實預測了熱點,
  • 7:18 - 7:20
    犯罪會發生的地方。
  • 7:20 - 7:24
    事實上,我們確實預測了
    個別的犯罪行為,
  • 7:24 - 7:26
    個人的犯罪行為。
  • 7:27 - 7:31
    新聞組織 ProPublica 近期調查了
  • 7:31 - 7:33
    「累犯風險」演算法之一,
  • 7:33 - 7:34
    他們是這麼稱呼它的,
  • 7:34 - 7:37
    演算法被用在佛羅里達,
    法官在判刑時使用。
  • 7:38 - 7:42
    左邊的黑人是伯納,
    總分十分,他得了十分。
  • 7:43 - 7:45
    右邊的狄倫,十分只得了三分。
  • 7:45 - 7:48
    十分就得十分,高風險。
    十分只得三分,低風險。
  • 7:49 - 7:51
    他們都因為持有藥品而被逮捕。
  • 7:51 - 7:52
    他們都有犯罪記錄,
  • 7:52 - 7:55
    但狄倫犯過重罪,
  • 7:55 - 7:56
    伯納則沒有。
  • 7:58 - 8:01
    這很重要,因為你的得分越高,
  • 8:01 - 8:04
    你就越可能被判比較長的徒刑。
  • 8:06 - 8:08
    發生了什麼事?
  • 8:09 - 8:10
    洗資料。
  • 8:11 - 8:15
    它是個流程,即技術專家
    用黑箱作業的演算法
  • 8:15 - 8:17
    來隱藏醜陋的真相,
  • 8:17 - 8:19
    還宣稱是客觀的;
  • 8:19 - 8:21
    是精英領導的。
  • 8:23 - 8:25
    我為這些秘密、重要、
  • 8:25 - 8:28
    又有毀滅性的演算法取了個名字:
  • 8:28 - 8:30
    「毀滅性的數學武器」。
  • 8:30 - 8:32
    (笑聲)
  • 8:32 - 8:35
    (掌聲)
  • 8:35 - 8:37
    它們無所不在,且不是個過失。
  • 8:38 - 8:41
    私人公司建立私人演算法,
  • 8:41 - 8:43
    來達到私人的目的。
  • 8:43 - 8:46
    即使是我剛談到
    對老師和警方用的演算法,
  • 8:46 - 8:48
    也是由私人公司建立的,
  • 8:48 - 8:51
    然後再銷售給政府機關。
  • 8:51 - 8:52
    他們稱它為「秘方醬料」,
  • 8:52 - 8:55
    所以不能跟我們討論它。
  • 8:55 - 8:57
    它也是種私人的權力。
  • 8:58 - 9:03
    他們透過行使別人
    無法理解的權威來獲利。
  • 9:05 - 9:08
    你可能會認為,
    所有這些都是私人的,
  • 9:08 - 9:09
    且有競爭存在,
  • 9:09 - 9:12
    也許自由市場會解決這個問題。
  • 9:12 - 9:13
    並不會。
  • 9:13 - 9:16
    從不公平中可以賺取很多錢。
  • 9:17 - 9:20
    且,我們不是經濟合法代理人。
  • 9:21 - 9:22
    我們都有偏見。
  • 9:23 - 9:26
    我們都是種族主義的、偏執的,
    即使我們也希望不要這樣,
  • 9:26 - 9:28
    我們甚至不知道我們是這樣的。
  • 9:29 - 9:32
    不過我們確實知道,總的來說,
  • 9:32 - 9:36
    因為社會學家不斷地用
    他們建立的實驗
  • 9:36 - 9:37
    來展現出這一點,
  • 9:37 - 9:40
    他們寄出一大堆的工作申請書,
  • 9:40 - 9:42
    都有同樣的資格,
    但有些用白人人名,
  • 9:43 - 9:44
    有些用黑人人名,
  • 9:44 - 9:47
    結果總是讓人失望的,總是如此。
  • 9:48 - 9:49
    所以,我們才是有偏見的人,
  • 9:49 - 9:53
    且我們把這些偏見注入演算法中,
  • 9:53 - 9:55
    做法是選擇要收集哪些資料、
  • 9:55 - 9:57
    比如我選擇不要考量拉麵,
  • 9:57 - 9:59
    我決定它不重要。
  • 9:59 - 10:05
    但透過相信這些資料
    真的能了解過去的做法,
  • 10:05 - 10:07
    以及透過選擇成功的定義,
  • 10:07 - 10:11
    我們如何能冀望產生的演算法未受損?
  • 10:11 - 10:13
    不能。我們得要檢查這些演算法。
  • 10:14 - 10:16
    我們得要檢查它們是否公平。
  • 10:16 - 10:19
    好消息是,我們可以
    檢查它們是否公平。
  • 10:19 - 10:22
    演算法可以被審問,
  • 10:22 - 10:24
    且它們每次都會告訴我們真相。
  • 10:24 - 10:27
    我們可以修正它們,
    我們可以把它們變更好。
  • 10:27 - 10:29
    我稱這個為演算法稽核,
  • 10:29 - 10:31
    我會帶大家來了解它。
  • 10:31 - 10:33
    首先,檢查資料完整性。
  • 10:34 - 10:37
    針對我先前說的累犯風險演算法,
  • 10:38 - 10:41
    檢查資料完整性就意味著
    我們得接受事實,
  • 10:41 - 10:45
    事實是,在美國,白人和黑人
    抽大麻的比率是一樣的,
  • 10:45 - 10:47
    但黑人被逮捕的機率遠高於白人,
  • 10:47 - 10:50
    四、五倍高的可能性被捕,
    依地區而異。
  • 10:51 - 10:54
    在其他犯罪類別中,
    那樣的偏見會如何呈現?
  • 10:54 - 10:56
    我們要如何處理它?
  • 10:56 - 10:59
    第二,我們要想想成功的定義,
  • 10:59 - 11:01
    去稽核它。
  • 11:01 - 11:03
    記得我們剛剛談過的僱用演算法嗎?
  • 11:03 - 11:07
    待了四年且升遷至少一次?
  • 11:07 - 11:08
    那就是個成功員工,
  • 11:08 - 11:11
    但那也是個被其文化所支持的員工。
  • 11:12 - 11:14
    儘管如此,它也可能很有偏見。
  • 11:14 - 11:16
    我們得把這兩件事分開。
  • 11:16 - 11:19
    我們應該要把交響樂團的盲眼甄選
  • 11:19 - 11:20
    當作參考範例。
  • 11:20 - 11:23
    他們的做法是讓試演奏的人
    在布幕後演奏。
  • 11:23 - 11:25
    我想探討的重點是
  • 11:25 - 11:28
    那些在聽並且決定什麼重要的人,
  • 11:28 - 11:30
    他們也會決定什麼不重要 ,
  • 11:30 - 11:32
    他們不會被不重要的部份給分心。
  • 11:33 - 11:36
    當交響樂團開始採用盲眼甄選,
  • 11:36 - 11:39
    團內的女性成員數上升五倍。
  • 11:40 - 11:42
    接著,我們要考量正確率。
  • 11:43 - 11:47
    這就是老師的加值模型
    立刻會出問題的地方。
  • 11:48 - 11:50
    當然,沒有演算法是完美的,
  • 11:51 - 11:54
    所以我們得要考量
    每個演算法的錯誤。
  • 11:55 - 11:59
    多常會出現錯誤、這個模型
    針對哪些人會發生錯誤?
  • 12:00 - 12:02
    發生錯誤的成本多高?
  • 12:02 - 12:05
    最後,我們得要考量
  • 12:06 - 12:08
    演算法的長期效應,
  • 12:09 - 12:11
    也就是產生出來的反饋迴圈。
  • 12:12 - 12:13
    那聽起來很抽象,
  • 12:13 - 12:16
    但想像一下,如果臉書的工程師
  • 12:16 - 12:21
    決定只讓我們看到朋友的貼文
    之前就先考量那一點。
  • 12:22 - 12:25
    我還有兩個訊息要傳遞,
    其一是給資料科學家的。
  • 12:25 - 12:29
    資料科學家,我們
    不應該是真相的仲裁者,
  • 12:30 - 12:32
    我們應該是翻譯者,
  • 12:32 - 12:35
    翻譯大社會中發生的每個道德討論。
  • 12:36 - 12:38
    (掌聲)
  • 12:38 - 12:39
    至於你們其他人,
  • 12:40 - 12:41
    不是資料科學家的人:
  • 12:41 - 12:43
    這不是個數學考試。
  • 12:44 - 12:45
    這是場政治鬥爭。
  • 12:47 - 12:50
    我們得要求為演算法的超載負責。
  • 12:52 - 12:54
    (掌聲)
  • 12:54 - 12:58
    盲目信仰大數據的時代必須要結束。
  • 12:58 - 12:59
    非常謝謝。
  • 12:59 - 13:04
    (掌聲)
Title:
盲目信仰大數據的時代必須要結束
Speaker:
凱西歐尼爾
Description:

演算法決定誰能得到貸款,誰能得到工作面試機會,誰能得到保險,以及其他。但它們並不會自動讓一切變得公平,甚至不怎麼科學。數學家和資料科學家凱西歐尼爾為秘密、重要、又有毀滅性的演算法取了一個名字:「毀滅性的數學武器」。來了解一下這些應該要客觀的方程式背後暗藏了什麼玄機,以及為什麼我們需要建立更好的演算法。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:18

Chinese, Traditional subtitles

Revisions