「大」數據是「好」數據
-
0:01 - 0:05美國人最喜歡哪一種派?
-
0:05 - 0:06觀眾:蘋果派。
-
0:06 - 0:08講者:蘋果派,當然啦!
-
0:08 - 0:09我們怎麼知道?
-
0:09 - 0:12因為有數據。
-
0:12 - 0:14我們分析超市銷售數據,
-
0:14 - 0:18分析直徑 30 公分冷凍蘋果派的
超市銷售數據, -
0:18 - 0:21蘋果派最夯,銷量一面倒。
-
0:21 - 0:25顧客幾乎都是買蘋果派。
-
0:27 - 0:29但是後來,超市開始賣小派,
-
0:29 - 0:32直徑 11 公分的派,
-
0:32 - 0:36突然,蘋果派銷量掉到第四、五名,
-
0:36 - 0:39為什麼?發生了什麼事?
-
0:39 - 0:42好,你想想:
-
0:42 - 0:46如果是買 30 公分的大派,
-
0:46 - 0:48全家人都得同意,
-
0:48 - 0:52而蘋果是全家每個人的第二選擇,
-
0:52 - 0:54(觀眾笑聲)
-
0:54 - 0:57但是當你分開買 11 公分的小派,
-
0:57 - 1:01就可以買你自己想吃的,
-
1:01 - 1:05每個人都可以選自己最愛的口味。
-
1:05 - 1:07這就會產生更多的數據。
-
1:07 - 1:08你會有新發現,
-
1:08 - 1:12看出數據少的時候,
無法發現的現象。 -
1:13 - 1:15現在,這個例子的重點是,
-
1:15 - 1:18數據增加,不只是讓我們看見更「多」,
-
1:18 - 1:20更多我們本來就已經知道的;
-
1:20 - 1:23數據增加,讓我們看見「新」資訊,
-
1:23 - 1:27看得更「準確」,
-
1:27 - 1:30看見「不同」。
-
1:30 - 1:33在這個例子,它使我們看到
-
1:33 - 1:36美國人真正最喜歡的派是什麼:
-
1:36 - 1:38不是蘋果派。
-
1:39 - 1:42你們可能都聽過「大數據」這個詞,
-
1:42 - 1:46其實,你們可能已經聽膩了。
-
1:46 - 1:49的確有很多大肆宣傳,
-
1:49 - 1:52非常遺憾。
-
1:52 - 1:55因為大數據是極為重要的工具,
-
1:55 - 1:59將會推動社會進步。
-
1:59 - 2:02過去,我們依賴少量數據,
-
2:02 - 2:04研究其含義,
-
2:04 - 2:05試圖了解我們的世界。
-
2:05 - 2:07現在我們有了更多數據,
-
2:07 - 2:10遠超過以往能力所及。
-
2:11 - 2:12我們發現,
-
2:12 - 2:13當我們擁有龐大的數據,
-
2:13 - 2:18就可以做過去數據較少時做不到的事。
-
2:18 - 2:19大數據很重要,
-
2:19 - 2:21大數據也很新。
-
2:21 - 2:22你想一想,
-
2:22 - 2:26唯一能幫助地球因應全球的挑戰:
-
2:26 - 2:28解決饑荒、
-
2:28 - 2:30提供醫療、
-
2:30 - 2:33提供能源和電力、
-
2:33 - 2:36確保我們不被全球暖化烤焦,
-
2:36 - 2:40唯一的方法,就是靠善用數據。
-
2:40 - 2:42所以大數據有什麼稀奇?
-
2:42 - 2:44有什麼好「大」驚小怪?
-
2:44 - 2:46要回答這個問題,
-
2:46 - 2:51讓我們先來看資訊以前長什麼樣子。
-
2:52 - 2:52好,
-
2:52 - 2:551908 年,在克里特島,
-
2:55 - 3:00考古學家發現一個泥土圓盤,
-
3:00 - 3:02鑑定大約是公元前 2 千年製成的,
-
3:02 - 3:04所以已經有 4 千年之久。
-
3:04 - 3:06圓盤上刻有古文字,
-
3:06 - 3:07但無法解讀,
-
3:07 - 3:08是個謎團。
-
3:08 - 3:13但重點是,4 千年前資訊是這個樣貌,
-
3:13 - 3:18古人是用這種方式儲存、傳遞資訊。
-
3:19 - 3:23到現在,社會並沒有進步那麼多,
-
3:23 - 3:27我們還是把資訊存在碟片上,
-
3:27 - 3:30只是現在可以儲存更多資訊,
-
3:30 - 3:31空前的多。
-
3:31 - 3:34搜尋更容易,複製更容易,
-
3:34 - 3:38分享更容易,處理更容易。
-
3:38 - 3:41我們可以重複使用這些資訊,
-
3:41 - 3:42用途之廣,超乎想像,
-
3:42 - 3:46超乎我們蒐集資訊時的預期。
-
3:46 - 3:48這樣看來,資訊已經
-
3:48 - 3:51從「存料」 變成「流動」;
-
3:51 - 3:55從靜止、靜態的,
-
3:55 - 3:59變成流體、動態的。
-
3:59 - 4:03資訊可說是,有流動性。
-
4:03 - 4:08那個 4 千年之久的克里特圓盤,
-
4:08 - 4:10它很重,
-
4:10 - 4:12儲存的資訊量不多,
-
4:12 - 4:15內容也不能更改。
-
4:15 - 4:17相較之下,
-
4:17 - 4:21愛德華.史諾登盜走的所有檔案,
-
4:21 - 4:24就是他從美國國安局竊走的資料,
-
4:24 - 4:26可以全部存在一個記憶卡,
-
4:26 - 4:29體積只有指甲般的大小。
-
4:29 - 4:34並且可以用光速來傳輸分享。
-
4:34 - 4:36更多的數據!
-
4:36 - 4:38更多。
-
4:39 - 4:41今天之所以有這麼多的數據,
-
4:41 - 4:43原因之一是
我們正在蒐集過去 -
4:43 - 4:46儲存資訊的物體;
-
4:46 - 4:47原因之二是,
-
4:47 - 4:51我們把一些經常很資訊性的東西——
-
4:51 - 4:54從未數據化的資訊,
-
4:54 - 4:56把它們變成數據,
-
4:56 - 5:00例如,地理位置。
-
5:00 - 5:02舉馬丁.路德為例,
-
5:02 - 5:03如果我們想知道十六世紀時,
-
5:03 - 5:06馬丁.路德去過哪些地方,
-
5:06 - 5:08我們必須隨時跟著他到處跑,
-
5:08 - 5:10可能還要帶著羽毛筆和墨水瓶,
-
5:10 - 5:12隨時記錄。
-
5:12 - 5:14但是看看現在的做法,
-
5:14 - 5:16你知道世界上某處,
-
5:16 - 5:19可能是電信商的資料庫裡面,
-
5:19 - 5:22有一個試算表
或至少有一筆記錄, -
5:22 - 5:24存著關於你的資訊,
-
5:24 - 5:26記錄你去過的所有地方。
-
5:26 - 5:27如果你有一支手機,
-
5:27 - 5:30手機有 GPS,但就算沒有 GPS,
-
5:30 - 5:33還是可以記錄你的資訊。
-
5:33 - 5:37就這個角度來說,位置已經被數據化。
-
5:37 - 5:41現在再想想這個例子:姿勢,
-
5:41 - 5:43就是你們現在的坐姿,
-
5:43 - 5:45你的坐姿、
-
5:45 - 5:47你的坐姿,和你的坐姿,
-
5:47 - 5:49都不一樣,取決於你的腿長、
-
5:49 - 5:52你的背和背部輪廓。
-
5:52 - 5:54要是我現在裝 1 百個感應器,
-
5:54 - 5:56到你們每個人的椅子上,
-
5:56 - 5:59我可以建出你個人獨特的索引資料,
-
5:59 - 6:04有點像指紋,但不是你的手指。
-
6:04 - 6:07這有什麼用?
-
6:07 - 6:09東京的研究員用這種數據
-
6:09 - 6:14來研發汽車防盜裝置。
-
6:14 - 6:16概念是,偷車賊坐在駕駛座,
-
6:16 - 6:18急著開車逃逸,
-
6:18 - 6:21但是車子辨識出開車的人未經授權,
-
6:21 - 6:22引擎就自動熄火,
-
6:22 - 6:26除非你輸入密碼到儀表板,
-
6:26 - 6:29告訴系統:「嘿,我可是有經授權喔!」
-
6:29 - 6:31很好。
-
6:31 - 6:35若歐洲每輛汽車都有這個裝置呢?
-
6:35 - 6:37那又能做什麼?
-
6:38 - 6:40或許,我們可以聚集所有的數據,
-
6:40 - 6:44或許能提早偵測到警訊,
-
6:44 - 6:47預測車禍
-
6:47 - 6:53即將在 5 秒鐘內發生。
-
6:53 - 6:55然後我們還可以數據化
-
6:55 - 6:57駕駛員的疲勞狀態,
-
6:57 - 6:59汽車系統可以偵測到
-
6:59 - 7:03駕駛癱坐成某個姿勢,
-
7:03 - 7:07自動感知,發出指令啟動響鈴,
-
7:07 - 7:09導致方向盤震動,
-
7:09 - 7:11車內喇叭作響,大喊:「嘿,快醒來!
-
7:11 - 7:12注意路況!」
-
7:12 - 7:14這一類的事都可以做到,
-
7:14 - 7:17當我們把更多的生活層面數據化。
-
7:17 - 7:21那麼,大數據究竟有什麼價值?
-
7:21 - 7:23想想看,
-
7:23 - 7:25現在有更多資訊,
-
7:25 - 7:29可以做過去不能做的事。
-
7:29 - 7:33這概念的應用當中,最驚人的領域之一,
-
7:33 - 7:35就是「機器學習」。
-
7:35 - 7:39機器學習是人工智慧的一個分支,
-
7:39 - 7:42人工智慧又是電腦科學的分支。
-
7:42 - 7:43基本概念是:
-
7:43 - 7:46不必告訴電腦要做什麼,
-
7:46 - 7:48只要把數據輸入到問題裡,
-
7:48 - 7:51然後叫電腦自己想辦法。
-
7:51 - 7:57我們回顧一下源頭,
就會比較容易了解。 -
7:57 - 8:001950 年代,IBM 有位電腦科學家
-
8:00 - 8:03名叫亞瑟.山姆爾,很愛下跳棋,
-
8:03 - 8:04所以他寫了一個電腦程式,
-
8:04 - 8:07叫電腦跟他對打。
-
8:07 - 8:10他開始下棋,結果他贏了。
-
8:10 - 8:12他再開始下棋,結果他又贏了。
-
8:12 - 8:15他再下,還是他贏。
-
8:15 - 8:17因為電腦只會
-
8:17 - 8:19棋步的規則。
-
8:19 - 8:21而亞瑟.山姆爾會得更多,
-
8:21 - 8:26他懂得策略。
-
8:26 - 8:28所以他又寫了一個副程式,
-
8:28 - 8:30在背景執行,只做一件事:
-
8:30 - 8:32就是計算機率,
-
8:32 - 8:34評估目前的棋局,
-
8:34 - 8:37比較贏棋和輸棋的機率,
-
8:37 - 8:40每下一步棋,就重算一次。
-
8:40 - 8:43然後他又跟電腦對打,結果他贏。
-
8:43 - 8:45再對打,還是他贏。
-
8:45 - 8:49再對打,還是他贏。
-
8:49 - 8:54然後亞瑟.山姆爾讓電腦自己對打。
-
8:54 - 8:57它就自己下棋,一邊收集數據。
-
8:57 - 9:01越收集越多,它的預測準確度就提高。
-
9:01 - 9:03然後亞瑟.山姆爾再回來跟電腦對打。
-
9:03 - 9:06他開始下棋,結果他輸了。
-
9:06 - 9:08他又下,又輸了。
-
9:08 - 9:10再下,還是輸。
-
9:10 - 9:13亞瑟.山姆爾創造了一台機器,
-
9:13 - 9:19它的能力青出於藍,更甚於藍。
-
9:19 - 9:21而這種機器學習的概念,
-
9:21 - 9:25現在到處可見。
-
9:25 - 9:29你想我們怎麼會有自動駕駛汽車?
-
9:29 - 9:34把全部交通規則都輸入到軟體,
可以改善社會嗎? -
9:34 - 9:35不是。
-
9:35 - 9:37因為記憶體更便宜嗎?不是。
-
9:37 - 9:38演算法變快了?不。
-
9:38 - 9:40有更好的處理器?不。
-
9:40 - 9:43這些都很重要,但不是真正的原因。
-
9:43 - 9:46真正的原因是
我們改變了問題的本質。 -
9:46 - 9:48我們把問題從
-
9:48 - 9:53明確指示電腦如何開車,
-
9:53 - 9:54改成對電腦說:
-
9:54 - 9:56「我給你大量的開車數據,
-
9:56 - 9:57你自個兒看著辦吧!」
-
9:57 - 9:59你自己判斷出那是紅綠燈,
-
9:59 - 10:01而且現在亮紅燈,不是綠燈,
-
10:01 - 10:03表示你要停車,
-
10:03 - 10:06不能繼續開。」
-
10:06 - 10:08機器學習也是
-
10:08 - 10:10我們許多網路活動的基礎:
-
10:10 - 10:12搜尋引擎、
-
10:12 - 10:16亞馬遜的個人化演算法、
-
10:16 - 10:18電腦翻譯、
-
10:18 - 10:22語音辨識系統。
-
10:22 - 10:25研究專家近來研究
-
10:25 - 10:28活組織切片檢查,
-
10:28 - 10:31癌組織切片,
-
10:31 - 10:33他們叫電腦自己判別,
-
10:33 - 10:36電腦分析數據和存活率,
-
10:36 - 10:43判斷是否為癌症細胞。
-
10:43 - 10:45果然,當你把數據丟給電腦,
-
10:45 - 10:47透過一個機器學習的演算法,
-
10:47 - 10:49電腦真的能找出
-
10:49 - 10:5012 大危險徵兆,
-
10:50 - 10:54預測這個乳房癌細胞的切片
-
10:54 - 10:57真的就是癌腫瘤。
-
10:57 - 11:00問題來了:醫學文獻只知道
-
11:00 - 11:03其中 9 項。
-
11:03 - 11:04另外 3 項特性
-
11:04 - 11:07是我們以前不需檢查的,
-
11:07 - 11:11卻被電腦找出來了。
-
11:12 - 11:13好。
-
11:14 - 11:19不過,大數據也有不好的一面。
-
11:19 - 11:20它會改善我們的生活,
-
11:20 - 11:24但是也有我們必須注意的問題。
-
11:24 - 11:25第一,
-
11:25 - 11:29我們可能因為預測而受罰,
-
11:29 - 11:33警察可能會利用大數據來辦案,
-
11:33 - 11:35有點像電影《關鍵報告》。
-
11:35 - 11:38這叫做「預測性警務」,
-
11:38 - 11:40或「演算犯罪學」。
-
11:40 - 11:42原理是,我們蒐集大量數據,
-
11:42 - 11:44例如,分析過去犯罪發生地點的大數據,
-
11:44 - 11:47我們就知道要往哪裡派送警力。
-
11:47 - 11:49這很合邏輯。但問題是,當然,
-
11:49 - 11:53這種策略不會
只限犯罪地點的數據, -
11:53 - 11:56而會一直延伸到個人資料。
-
11:56 - 11:59何不利用人們的
-
11:59 - 12:01高中成績單?
-
12:01 - 12:02或許我們可以看看
-
12:02 - 12:04他們是否失業、信用評等、
-
12:04 - 12:06上網瀏覽行為、
-
12:06 - 12:08是否熬夜、
-
12:08 - 12:11Fitbit 智慧健康手環,
當它能識別個人生化數據, -
12:11 - 12:15可看出主人是否有攻擊性的想法。
-
12:15 - 12:19可能有演算法
會預測我們將要做什麼事, -
12:19 - 12:23可能還沒有付諸行動,就得負責。
-
12:23 - 12:28在小數據時代,
最重要的挑戰是隱私。 -
12:28 - 12:30在大數據時代,
-
12:30 - 12:34挑戰則變成保衛自由意志、
-
12:34 - 12:38道德選擇、人的意志、
-
12:38 - 12:41人的「能動性」(human agency)。
-
12:43 - 12:45還有一個問題:
-
12:45 - 12:48大數據會搶走我們的工作。
-
12:48 - 12:52大數據和演算法將會挑戰
-
12:52 - 12:5721 世紀的白領、專業知識工作,
-
12:57 - 13:01就像工廠自動化和生產線
-
13:01 - 13:04在 20 世紀挑戰藍領工作者一樣。
-
13:04 - 13:06試想一位實驗室技術員,
-
13:06 - 13:09他正在用顯微鏡看腫瘤切片,
-
13:09 - 13:12要判斷是否為癌細胞。
-
13:12 - 13:14他唸過大學,
-
13:14 - 13:15買了房子,
-
13:15 - 13:17會投票,
-
13:17 - 13:21他與社會利害相關。
-
13:21 - 13:26他的工作,及許多像他一樣的專業人士,
-
13:26 - 13:29將發現他們的工作起了劇變,
-
13:29 - 13:31甚至完全被淘汰。
-
13:31 - 13:33我們喜歡相信
-
13:33 - 13:36長遠來說,科技創造工作機會,
-
13:36 - 13:39即使剛開始會先經歷
短暫的錯亂與重組, -
13:39 - 13:43這對我們所處的工業革命時代來說,
並沒有錯, -
13:43 - 13:46因為事實的確如此。
-
13:46 - 13:48但是這個分析遺漏了一點:
-
13:48 - 13:51有些工作類別其實已經消失,
-
13:51 - 13:53且從未起死回生。
-
13:53 - 13:58如果你是一匹馬,
那麼工業革命對你並不利。 -
13:59 - 14:01所以我們必須非常謹慎,
-
14:01 - 14:05正確駕馭大數據,
調整它以適應我們所需, -
14:05 - 14:08滿足我們的人性需求。
-
14:08 - 14:10我們必須成為這項科技的主人,
-
14:10 - 14:12而不是淪為它的奴隸。
-
14:12 - 14:15大數據時代才正開始,
-
14:15 - 14:18老實說,我們並不是很擅長
-
14:18 - 14:22處理我們能蒐集的龐大數據資料。
-
14:22 - 14:25這不只是國安局的問題,
-
14:25 - 14:28企業也蒐集大量資料,
同樣也誤用、濫用。 -
14:28 - 14:32我們都必須學習怎麼正確運用,
而這需要時間。 -
14:32 - 14:36有點像原始人用火
所面臨的挑戰。 -
14:36 - 14:38大數據是個工具,
-
14:38 - 14:42如果運用失當,就會燒傷我們。
-
14:44 - 14:47大數據將改變我們如何生活、
-
14:47 - 14:50工作,和思考。
-
14:50 - 14:52它可以幫助我們管理職涯,
-
14:52 - 14:55讓我們過滿意、夢想的生活,
-
14:55 - 14:58帶來快樂與健康。
-
14:58 - 15:02以往,我們常在看待「資訊科技」時,
-
15:02 - 15:04只專注在「科技」,
-
15:04 - 15:06只重視硬體,
-
15:06 - 15:08因為它具體可見。
-
15:08 - 15:11現在我們必須重新對焦,
-
15:11 - 15:12轉向「資訊」,
-
15:12 - 15:14它比較不明顯,
-
15:14 - 15:18但是就某些方面來說,卻重要得多。
-
15:18 - 15:23人性總算可以向我們蒐集來的資訊學習,
-
15:24 - 15:26成為我們永恆追尋的一部份,
-
15:26 - 15:29藉此了解我們的世界,和人類的角色,
-
15:29 - 15:34這是為什麼大數據將「大」有可為。
-
15:34 - 15:38(觀眾掌聲)
- Title:
- 「大」數據是「好」數據
- Speaker:
- 肯尼斯.庫基耶
- Description:
-
自動駕駛汽車只是開端。大數據驅動的科技與設計,將帶給我們什麼樣的未來?在這個令人振奮的科學演講中,肯尼斯.庫基耶探討機器學習以及人類知識的明天。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 15:51
Geoff Chen edited Chinese, Traditional subtitles for Big data is better data | ||
Geoff Chen edited Chinese, Traditional subtitles for Big data is better data | ||
Geoff Chen edited Chinese, Traditional subtitles for Big data is better data | ||
Geoff Chen approved Chinese, Traditional subtitles for Big data is better data | ||
Rocky LIANG edited Chinese, Traditional subtitles for Big data is better data | ||
Rocky LIANG edited Chinese, Traditional subtitles for Big data is better data | ||
Rocky LIANG accepted Chinese, Traditional subtitles for Big data is better data | ||
Geoff Chen approved Chinese, Traditional subtitles for Big data is better data |