「大」數據是「好」數據

0:01 - 0:05

美國人最喜歡哪一種派？
0:05 - 0:06

觀眾：蘋果派。
0:06 - 0:08

講者：蘋果派，當然啦！
0:08 - 0:09

我們怎麼知道？
0:09 - 0:12

因為有數據。
0:12 - 0:14

我們分析超市銷售數據，
0:14 - 0:18

分析直徑 30 公分冷凍蘋果派的
超市銷售數據，
0:18 - 0:21

蘋果派最夯，銷量一面倒。
0:21 - 0:25

顧客幾乎都是買蘋果派。
0:27 - 0:29

但是後來，超市開始賣小派，
0:29 - 0:32

直徑 11 公分的派，
0:32 - 0:36

突然，蘋果派銷量掉到第四、五名，
0:36 - 0:39

為什麼？發生了什麼事？
0:39 - 0:42

好，你想想：
0:42 - 0:46

如果是買 30 公分的大派，
0:46 - 0:48

全家人都得同意，
0:48 - 0:52

而蘋果是全家每個人的第二選擇，
0:52 - 0:54

（觀眾笑聲）
0:54 - 0:57

但是當你分開買 11 公分的小派，
0:57 - 1:01

就可以買你自己想吃的，
1:01 - 1:05

每個人都可以選自己最愛的口味。
1:05 - 1:07

這就會產生更多的數據。
1:07 - 1:08

你會有新發現，
1:08 - 1:12

看出數據少的時候，
無法發現的現象。
1:13 - 1:15

現在，這個例子的重點是，
1:15 - 1:18

數據增加，不只是讓我們看見更「多」，
1:18 - 1:20

更多我們本來就已經知道的；
1:20 - 1:23

數據增加，讓我們看見「新」資訊，
1:23 - 1:27

看得更「準確」，
1:27 - 1:30

看見「不同」。
1:30 - 1:33

在這個例子，它使我們看到
1:33 - 1:36

美國人真正最喜歡的派是什麼：
1:36 - 1:38

不是蘋果派。
1:39 - 1:42

你們可能都聽過「大數據」這個詞，
1:42 - 1:46

其實，你們可能已經聽膩了。
1:46 - 1:49

的確有很多大肆宣傳，
1:49 - 1:52

非常遺憾。
1:52 - 1:55

因為大數據是極為重要的工具，
1:55 - 1:59

將會推動社會進步。
1:59 - 2:02

過去，我們依賴少量數據，
2:02 - 2:04

研究其含義，
2:04 - 2:05

試圖了解我們的世界。
2:05 - 2:07

現在我們有了更多數據，
2:07 - 2:10

遠超過以往能力所及。
2:11 - 2:12

我們發現，
2:12 - 2:13

當我們擁有龐大的數據，
2:13 - 2:18

就可以做過去數據較少時做不到的事。
2:18 - 2:19

大數據很重要，
2:19 - 2:21

大數據也很新。
2:21 - 2:22

你想一想，
2:22 - 2:26

唯一能幫助地球因應全球的挑戰：
2:26 - 2:28

解決饑荒、
2:28 - 2:30

提供醫療、
2:30 - 2:33

提供能源和電力、
2:33 - 2:36

確保我們不被全球暖化烤焦，
2:36 - 2:40

唯一的方法，就是靠善用數據。
2:40 - 2:42

所以大數據有什麼稀奇？
2:42 - 2:44

有什麼好「大」驚小怪？
2:44 - 2:46

要回答這個問題，
2:46 - 2:51

讓我們先來看資訊以前長什麼樣子。
2:52 - 2:52

好，
2:52 - 2:55

1908 年，在克里特島，
2:55 - 3:00

考古學家發現一個泥土圓盤，
3:00 - 3:02

鑑定大約是公元前 2 千年製成的，
3:02 - 3:04

所以已經有 4 千年之久。
3:04 - 3:06

圓盤上刻有古文字，
3:06 - 3:07

但無法解讀，
3:07 - 3:08

是個謎團。
3:08 - 3:13

但重點是，4 千年前資訊是這個樣貌，
3:13 - 3:18

古人是用這種方式儲存、傳遞資訊。
3:19 - 3:23

到現在，社會並沒有進步那麼多，
3:23 - 3:27

我們還是把資訊存在碟片上，
3:27 - 3:30

只是現在可以儲存更多資訊，
3:30 - 3:31

空前的多。
3:31 - 3:34

搜尋更容易，複製更容易，
3:34 - 3:38

分享更容易，處理更容易。
3:38 - 3:41

我們可以重複使用這些資訊，
3:41 - 3:42

用途之廣，超乎想像，
3:42 - 3:46

超乎我們蒐集資訊時的預期。
3:46 - 3:48

這樣看來，資訊已經
3:48 - 3:51

從「存料」變成「流動」；
3:51 - 3:55

從靜止、靜態的，
3:55 - 3:59

變成流體、動態的。
3:59 - 4:03

資訊可說是，有流動性。
4:03 - 4:08

那個 4 千年之久的克里特圓盤，
4:08 - 4:10

它很重，
4:10 - 4:12

儲存的資訊量不多，
4:12 - 4:15

內容也不能更改。
4:15 - 4:17

相較之下，
4:17 - 4:21

愛德華．史諾登盜走的所有檔案，
4:21 - 4:24

就是他從美國國安局竊走的資料，
4:24 - 4:26

可以全部存在一個記憶卡，
4:26 - 4:29

體積只有指甲般的大小。
4:29 - 4:34

並且可以用光速來傳輸分享。
4:34 - 4:36

更多的數據！
4:36 - 4:38

更多。
4:39 - 4:41

今天之所以有這麼多的數據，
4:41 - 4:43

原因之一是
我們正在蒐集過去
4:43 - 4:46

儲存資訊的物體；
4:46 - 4:47

原因之二是，
4:47 - 4:51

我們把一些經常很資訊性的東西——
4:51 - 4:54

從未數據化的資訊，
4:54 - 4:56

把它們變成數據，
4:56 - 5:00

例如，地理位置。
5:00 - 5:02

舉馬丁．路德為例，
5:02 - 5:03

如果我們想知道十六世紀時，
5:03 - 5:06

馬丁．路德去過哪些地方，
5:06 - 5:08

我們必須隨時跟著他到處跑，
5:08 - 5:10

可能還要帶著羽毛筆和墨水瓶，
5:10 - 5:12

隨時記錄。
5:12 - 5:14

但是看看現在的做法，
5:14 - 5:16

你知道世界上某處，
5:16 - 5:19

可能是電信商的資料庫裡面，
5:19 - 5:22

有一個試算表
或至少有一筆記錄，
5:22 - 5:24

存著關於你的資訊，
5:24 - 5:26

記錄你去過的所有地方。
5:26 - 5:27

如果你有一支手機，
5:27 - 5:30

手機有 GPS，但就算沒有 GPS，
5:30 - 5:33

還是可以記錄你的資訊。
5:33 - 5:37

就這個角度來說，位置已經被數據化。
5:37 - 5:41

現在再想想這個例子：姿勢，
5:41 - 5:43

就是你們現在的坐姿，
5:43 - 5:45

你的坐姿、
5:45 - 5:47

你的坐姿，和你的坐姿，
5:47 - 5:49

都不一樣，取決於你的腿長、
5:49 - 5:52

你的背和背部輪廓。
5:52 - 5:54

要是我現在裝 1 百個感應器，
5:54 - 5:56

到你們每個人的椅子上，
5:56 - 5:59

我可以建出你個人獨特的索引資料，
5:59 - 6:04

有點像指紋，但不是你的手指。
6:04 - 6:07

這有什麼用？
6:07 - 6:09

東京的研究員用這種數據
6:09 - 6:14

來研發汽車防盜裝置。
6:14 - 6:16

概念是，偷車賊坐在駕駛座，
6:16 - 6:18

急著開車逃逸，
6:18 - 6:21

但是車子辨識出開車的人未經授權，
6:21 - 6:22

引擎就自動熄火，
6:22 - 6:26

除非你輸入密碼到儀表板，
6:26 - 6:29

告訴系統：「嘿，我可是有經授權喔！」
6:29 - 6:31

很好。
6:31 - 6:35

若歐洲每輛汽車都有這個裝置呢？
6:35 - 6:37

那又能做什麼？
6:38 - 6:40

或許，我們可以聚集所有的數據，
6:40 - 6:44

或許能提早偵測到警訊，
6:44 - 6:47

預測車禍
6:47 - 6:53

即將在 5 秒鐘內發生。
6:53 - 6:55

然後我們還可以數據化
6:55 - 6:57

駕駛員的疲勞狀態，
6:57 - 6:59

汽車系統可以偵測到
6:59 - 7:03

駕駛癱坐成某個姿勢，
7:03 - 7:07

自動感知，發出指令啟動響鈴，
7:07 - 7:09

導致方向盤震動，
7:09 - 7:11

車內喇叭作響，大喊：「嘿，快醒來！
7:11 - 7:12

注意路況！」
7:12 - 7:14

這一類的事都可以做到，
7:14 - 7:17

當我們把更多的生活層面數據化。
7:17 - 7:21

那麼，大數據究竟有什麼價值？
7:21 - 7:23

想想看，
7:23 - 7:25

現在有更多資訊，
7:25 - 7:29

可以做過去不能做的事。
7:29 - 7:33

這概念的應用當中，最驚人的領域之一，
7:33 - 7:35

就是「機器學習」。
7:35 - 7:39

機器學習是人工智慧的一個分支，
7:39 - 7:42

人工智慧又是電腦科學的分支。
7:42 - 7:43

基本概念是：
7:43 - 7:46

不必告訴電腦要做什麼，
7:46 - 7:48

只要把數據輸入到問題裡，
7:48 - 7:51

然後叫電腦自己想辦法。
7:51 - 7:57

我們回顧一下源頭，
就會比較容易了解。
7:57 - 8:00

1950 年代，IBM 有位電腦科學家
8:00 - 8:03

名叫亞瑟．山姆爾，很愛下跳棋，
8:03 - 8:04

所以他寫了一個電腦程式，
8:04 - 8:07

叫電腦跟他對打。
8:07 - 8:10

他開始下棋，結果他贏了。
8:10 - 8:12

他再開始下棋，結果他又贏了。
8:12 - 8:15

他再下，還是他贏。
8:15 - 8:17

因為電腦只會
8:17 - 8:19

棋步的規則。
8:19 - 8:21

而亞瑟．山姆爾會得更多，
8:21 - 8:26

他懂得策略。
8:26 - 8:28

所以他又寫了一個副程式，
8:28 - 8:30

在背景執行，只做一件事：
8:30 - 8:32

就是計算機率，
8:32 - 8:34

評估目前的棋局，
8:34 - 8:37

比較贏棋和輸棋的機率，
8:37 - 8:40

每下一步棋，就重算一次。
8:40 - 8:43

然後他又跟電腦對打，結果他贏。
8:43 - 8:45

再對打，還是他贏。
8:45 - 8:49

再對打，還是他贏。
8:49 - 8:54

然後亞瑟．山姆爾讓電腦自己對打。
8:54 - 8:57

它就自己下棋，一邊收集數據。
8:57 - 9:01

越收集越多，它的預測準確度就提高。
9:01 - 9:03

然後亞瑟．山姆爾再回來跟電腦對打。
9:03 - 9:06

他開始下棋，結果他輸了。
9:06 - 9:08

他又下，又輸了。
9:08 - 9:10

再下，還是輸。
9:10 - 9:13

亞瑟．山姆爾創造了一台機器，
9:13 - 9:19

它的能力青出於藍，更甚於藍。
9:19 - 9:21

而這種機器學習的概念，
9:21 - 9:25

現在到處可見。
9:25 - 9:29

你想我們怎麼會有自動駕駛汽車？
9:29 - 9:34

把全部交通規則都輸入到軟體，
可以改善社會嗎？
9:34 - 9:35

不是。
9:35 - 9:37

因為記憶體更便宜嗎？不是。
9:37 - 9:38

演算法變快了？不。
9:38 - 9:40

有更好的處理器？不。
9:40 - 9:43

這些都很重要，但不是真正的原因。
9:43 - 9:46

真正的原因是
我們改變了問題的本質。
9:46 - 9:48

我們把問題從
9:48 - 9:53

明確指示電腦如何開車，
9:53 - 9:54

改成對電腦說：
9:54 - 9:56

「我給你大量的開車數據，
9:56 - 9:57

你自個兒看著辦吧！」
9:57 - 9:59

你自己判斷出那是紅綠燈，
9:59 - 10:01

而且現在亮紅燈，不是綠燈，
10:01 - 10:03

表示你要停車，
10:03 - 10:06

不能繼續開。」
10:06 - 10:08

機器學習也是
10:08 - 10:10

我們許多網路活動的基礎：
10:10 - 10:12

搜尋引擎、
10:12 - 10:16

亞馬遜的個人化演算法、
10:16 - 10:18

電腦翻譯、
10:18 - 10:22

語音辨識系統。
10:22 - 10:25

研究專家近來研究
10:25 - 10:28

活組織切片檢查，
10:28 - 10:31

癌組織切片，
10:31 - 10:33

他們叫電腦自己判別，
10:33 - 10:36

電腦分析數據和存活率，
10:36 - 10:43

判斷是否為癌症細胞。
10:43 - 10:45

果然，當你把數據丟給電腦，
10:45 - 10:47

透過一個機器學習的演算法，
10:47 - 10:49

電腦真的能找出
10:49 - 10:50

12 大危險徵兆，
10:50 - 10:54

預測這個乳房癌細胞的切片
10:54 - 10:57

真的就是癌腫瘤。
10:57 - 11:00

問題來了：醫學文獻只知道
11:00 - 11:03

其中 9 項。
11:03 - 11:04

另外 3 項特性
11:04 - 11:07

是我們以前不需檢查的，
11:07 - 11:11

卻被電腦找出來了。
11:12 - 11:13

好。
11:14 - 11:19

不過，大數據也有不好的一面。
11:19 - 11:20

它會改善我們的生活，
11:20 - 11:24

但是也有我們必須注意的問題。
11:24 - 11:25

第一，
11:25 - 11:29

我們可能因為預測而受罰，
11:29 - 11:33

警察可能會利用大數據來辦案，
11:33 - 11:35

有點像電影《關鍵報告》。
11:35 - 11:38

這叫做「預測性警務」，
11:38 - 11:40

或「演算犯罪學」。
11:40 - 11:42

原理是，我們蒐集大量數據，
11:42 - 11:44

例如，分析過去犯罪發生地點的大數據，
11:44 - 11:47

我們就知道要往哪裡派送警力。
11:47 - 11:49

這很合邏輯。但問題是，當然，
11:49 - 11:53

這種策略不會
只限犯罪地點的數據，
11:53 - 11:56

而會一直延伸到個人資料。
11:56 - 11:59

何不利用人們的
11:59 - 12:01

高中成績單？
12:01 - 12:02

或許我們可以看看
12:02 - 12:04

他們是否失業、信用評等、
12:04 - 12:06

上網瀏覽行為、
12:06 - 12:08

是否熬夜、
12:08 - 12:11

Fitbit 智慧健康手環，
當它能識別個人生化數據，
12:11 - 12:15

可看出主人是否有攻擊性的想法。
12:15 - 12:19

可能有演算法
會預測我們將要做什麼事，
12:19 - 12:23

可能還沒有付諸行動，就得負責。
12:23 - 12:28

在小數據時代，
最重要的挑戰是隱私。
12:28 - 12:30

在大數據時代，
12:30 - 12:34

挑戰則變成保衛自由意志、
12:34 - 12:38

道德選擇、人的意志、
12:38 - 12:41

人的「能動性」(human agency)。
12:43 - 12:45

還有一個問題：
12:45 - 12:48

大數據會搶走我們的工作。
12:48 - 12:52

大數據和演算法將會挑戰
12:52 - 12:57

21 世紀的白領、專業知識工作，
12:57 - 13:01

就像工廠自動化和生產線
13:01 - 13:04

在 20 世紀挑戰藍領工作者一樣。
13:04 - 13:06

試想一位實驗室技術員，
13:06 - 13:09

他正在用顯微鏡看腫瘤切片，
13:09 - 13:12

要判斷是否為癌細胞。
13:12 - 13:14

他唸過大學，
13:14 - 13:15

買了房子，
13:15 - 13:17

會投票，
13:17 - 13:21

他與社會利害相關。
13:21 - 13:26

他的工作，及許多像他一樣的專業人士，
13:26 - 13:29

將發現他們的工作起了劇變，
13:29 - 13:31

甚至完全被淘汰。
13:31 - 13:33

我們喜歡相信
13:33 - 13:36

長遠來說，科技創造工作機會，
13:36 - 13:39

即使剛開始會先經歷
短暫的錯亂與重組，
13:39 - 13:43

這對我們所處的工業革命時代來說，
並沒有錯，
13:43 - 13:46

因為事實的確如此。
13:46 - 13:48

但是這個分析遺漏了一點：
13:48 - 13:51

有些工作類別其實已經消失，
13:51 - 13:53

且從未起死回生。
13:53 - 13:58

如果你是一匹馬，
那麼工業革命對你並不利。
13:59 - 14:01

所以我們必須非常謹慎，
14:01 - 14:05

正確駕馭大數據，
調整它以適應我們所需，
14:05 - 14:08

滿足我們的人性需求。
14:08 - 14:10

我們必須成為這項科技的主人，
14:10 - 14:12

而不是淪為它的奴隸。
14:12 - 14:15

大數據時代才正開始，
14:15 - 14:18

老實說，我們並不是很擅長
14:18 - 14:22

處理我們能蒐集的龐大數據資料。
14:22 - 14:25

這不只是國安局的問題，
14:25 - 14:28

企業也蒐集大量資料，
同樣也誤用、濫用。
14:28 - 14:32

我們都必須學習怎麼正確運用，
而這需要時間。
14:32 - 14:36

有點像原始人用火
所面臨的挑戰。
14:36 - 14:38

大數據是個工具，
14:38 - 14:42

如果運用失當，就會燒傷我們。
14:44 - 14:47

大數據將改變我們如何生活、
14:47 - 14:50

工作，和思考。
14:50 - 14:52

它可以幫助我們管理職涯，
14:52 - 14:55

讓我們過滿意、夢想的生活，
14:55 - 14:58

帶來快樂與健康。
14:58 - 15:02

以往，我們常在看待「資訊科技」時，
15:02 - 15:04

只專注在「科技」，
15:04 - 15:06

只重視硬體，
15:06 - 15:08

因為它具體可見。
15:08 - 15:11

現在我們必須重新對焦，
15:11 - 15:12

轉向「資訊」，
15:12 - 15:14

它比較不明顯，
15:14 - 15:18

但是就某些方面來說，卻重要得多。
15:18 - 15:23

人性總算可以向我們蒐集來的資訊學習，
15:24 - 15:26

成為我們永恆追尋的一部份，
15:26 - 15:29

藉此了解我們的世界，和人類的角色，
15:29 - 15:34

這是為什麼大數據將「大」有可為。
15:34 - 15:38

（觀眾掌聲）

Title:: 「大」數據是「好」數據
Speaker:: 肯尼斯．庫基耶
Description:: 自動駕駛汽車只是開端。大數據驅動的科技與設計，將帶給我們什麼樣的未來？在這個令人振奮的科學演講中，肯尼斯．庫基耶探討機器學習以及人類知識的明天。

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 15:51

	Geoff Chen edited Chinese, Traditional subtitles for Big data is better data
	Geoff Chen edited Chinese, Traditional subtitles for Big data is better data
	Geoff Chen edited Chinese, Traditional subtitles for Big data is better data
	Geoff Chen approved Chinese, Traditional subtitles for Big data is better data
	Rocky LIANG edited Chinese, Traditional subtitles for Big data is better data
	Rocky LIANG edited Chinese, Traditional subtitles for Big data is better data
	Rocky LIANG accepted Chinese, Traditional subtitles for Big data is better data
	Geoff Chen approved Chinese, Traditional subtitles for Big data is better data

Show all

Chinese, Traditional subtitles

Revisions

Revision 14 Edited

Geoff Chen

「大」數據是「好」數據

Revisions

Our website uses cookies

Operating cookies (Required)