Return to Video

「大」數據是「好」數據

  • 0:01 - 0:05
    美國人最喜歡哪一種派?
  • 0:05 - 0:06
    觀眾:蘋果派。
  • 0:06 - 0:08
    講者:蘋果派,當然啦!
  • 0:08 - 0:09
    我們怎麼知道?
  • 0:09 - 0:12
    因為有數據。
  • 0:12 - 0:14
    我們分析超市銷售數據,
  • 0:14 - 0:18
    分析直徑 30 公分冷凍蘋果派的
    超市銷售數據,
  • 0:18 - 0:21
    蘋果派最夯,銷量一面倒。
  • 0:21 - 0:25
    顧客幾乎都是買蘋果派。
  • 0:27 - 0:29
    但是後來,超市開始賣小派,
  • 0:29 - 0:32
    直徑 11 公分的派,
  • 0:32 - 0:36
    突然,蘋果派銷量掉到第四、五名,
  • 0:36 - 0:39
    為什麼?發生了什麼事?
  • 0:39 - 0:42
    好,你想想:
  • 0:42 - 0:46
    如果是買 30 公分的大派,
  • 0:46 - 0:48
    全家人都得同意,
  • 0:48 - 0:52
    而蘋果是全家每個人的第二選擇,
  • 0:52 - 0:54
    (觀眾笑聲)
  • 0:54 - 0:57
    但是當你分開買 11 公分的小派,
  • 0:57 - 1:01
    就可以買你自己想吃的,
  • 1:01 - 1:05
    每個人都可以選自己最愛的口味。
  • 1:05 - 1:07
    這就會產生更多的數據。
  • 1:07 - 1:08
    你會有新發現,
  • 1:08 - 1:12
    看出數據少的時候,
    無法發現的現象。
  • 1:13 - 1:15
    現在,這個例子的重點是,
  • 1:15 - 1:18
    數據增加,不只是讓我們看見更「多」,
  • 1:18 - 1:20
    更多我們本來就已經知道的;
  • 1:20 - 1:23
    數據增加,讓我們看見「新」資訊,
  • 1:23 - 1:27
    看得更「準確」,
  • 1:27 - 1:30
    看見「不同」。
  • 1:30 - 1:33
    在這個例子,它使我們看到
  • 1:33 - 1:36
    美國人真正最喜歡的派是什麼:
  • 1:36 - 1:38
    不是蘋果派。
  • 1:39 - 1:42
    你們可能都聽過「大數據」這個詞,
  • 1:42 - 1:46
    其實,你們可能已經聽膩了。
  • 1:46 - 1:49
    的確有很多大肆宣傳,
  • 1:49 - 1:52
    非常遺憾。
  • 1:52 - 1:55
    因為大數據是極為重要的工具,
  • 1:55 - 1:59
    將會推動社會進步。
  • 1:59 - 2:02
    過去,我們依賴少量數據,
  • 2:02 - 2:04
    研究其含義,
  • 2:04 - 2:05
    試圖了解我們的世界。
  • 2:05 - 2:07
    現在我們有了更多數據,
  • 2:07 - 2:10
    遠超過以往能力所及。
  • 2:11 - 2:12
    我們發現,
  • 2:12 - 2:13
    當我們擁有龐大的數據,
  • 2:13 - 2:18
    就可以做過去數據較少時做不到的事。
  • 2:18 - 2:19
    大數據很重要,
  • 2:19 - 2:21
    大數據也很新。
  • 2:21 - 2:22
    你想一想,
  • 2:22 - 2:26
    唯一能幫助地球因應全球的挑戰:
  • 2:26 - 2:28
    解決饑荒、
  • 2:28 - 2:30
    提供醫療、
  • 2:30 - 2:33
    提供能源和電力、
  • 2:33 - 2:36
    確保我們不被全球暖化烤焦,
  • 2:36 - 2:40
    唯一的方法,就是靠善用數據。
  • 2:40 - 2:42
    所以大數據有什麼稀奇?
  • 2:42 - 2:44
    有什麼好「大」驚小怪?
  • 2:44 - 2:46
    要回答這個問題,
  • 2:46 - 2:51
    讓我們先來看資訊以前長什麼樣子。
  • 2:52 - 2:52
    好,
  • 2:52 - 2:55
    1908 年,在克里特島,
  • 2:55 - 3:00
    考古學家發現一個泥土圓盤,
  • 3:00 - 3:02
    鑑定大約是公元前 2 千年製成的,
  • 3:02 - 3:04
    所以已經有 4 千年之久。
  • 3:04 - 3:06
    圓盤上刻有古文字,
  • 3:06 - 3:07
    但無法解讀,
  • 3:07 - 3:08
    是個謎團。
  • 3:08 - 3:13
    但重點是,4 千年前資訊是這個樣貌,
  • 3:13 - 3:18
    古人是用這種方式儲存、傳遞資訊。
  • 3:19 - 3:23
    到現在,社會並沒有進步那麼多,
  • 3:23 - 3:27
    我們還是把資訊存在碟片上,
  • 3:27 - 3:30
    只是現在可以儲存更多資訊,
  • 3:30 - 3:31
    空前的多。
  • 3:31 - 3:34
    搜尋更容易,複製更容易,
  • 3:34 - 3:38
    分享更容易,處理更容易。
  • 3:38 - 3:41
    我們可以重複使用這些資訊,
  • 3:41 - 3:42
    用途之廣,超乎想像,
  • 3:42 - 3:46
    超乎我們蒐集資訊時的預期。
  • 3:46 - 3:48
    這樣看來,資訊已經
  • 3:48 - 3:51
    從「存料」 變成「流動」;
  • 3:51 - 3:55
    從靜止、靜態的,
  • 3:55 - 3:59
    變成流體、動態的。
  • 3:59 - 4:03
    資訊可說是,有流動性。
  • 4:03 - 4:08
    那個 4 千年之久的克里特圓盤,
  • 4:08 - 4:10
    它很重,
  • 4:10 - 4:12
    儲存的資訊量不多,
  • 4:12 - 4:15
    內容也不能更改。
  • 4:15 - 4:17
    相較之下,
  • 4:17 - 4:21
    愛德華.史諾登盜走的所有檔案,
  • 4:21 - 4:24
    就是他從美國國安局竊走的資料,
  • 4:24 - 4:26
    可以全部存在一個記憶卡,
  • 4:26 - 4:29
    體積只有指甲般的大小。
  • 4:29 - 4:34
    並且可以用光速來傳輸分享。
  • 4:34 - 4:36
    更多的數據!
  • 4:36 - 4:38
    更多。
  • 4:39 - 4:41
    今天之所以有這麼多的數據,
  • 4:41 - 4:43
    原因之一是
    我們正在蒐集過去
  • 4:43 - 4:46
    儲存資訊的物體;
  • 4:46 - 4:47
    原因之二是,
  • 4:47 - 4:51
    我們把一些經常很資訊性的東西——
  • 4:51 - 4:54
    從未數據化的資訊,
  • 4:54 - 4:56
    把它們變成數據,
  • 4:56 - 5:00
    例如,地理位置。
  • 5:00 - 5:02
    舉馬丁.路德為例,
  • 5:02 - 5:03
    如果我們想知道十六世紀時,
  • 5:03 - 5:06
    馬丁.路德去過哪些地方,
  • 5:06 - 5:08
    我們必須隨時跟著他到處跑,
  • 5:08 - 5:10
    可能還要帶著羽毛筆和墨水瓶,
  • 5:10 - 5:12
    隨時記錄。
  • 5:12 - 5:14
    但是看看現在的做法,
  • 5:14 - 5:16
    你知道世界上某處,
  • 5:16 - 5:19
    可能是電信商的資料庫裡面,
  • 5:19 - 5:22
    有一個試算表
    或至少有一筆記錄,
  • 5:22 - 5:24
    存著關於你的資訊,
  • 5:24 - 5:26
    記錄你去過的所有地方。
  • 5:26 - 5:27
    如果你有一支手機,
  • 5:27 - 5:30
    手機有 GPS,但就算沒有 GPS,
  • 5:30 - 5:33
    還是可以記錄你的資訊。
  • 5:33 - 5:37
    就這個角度來說,位置已經被數據化。
  • 5:37 - 5:41
    現在再想想這個例子:姿勢,
  • 5:41 - 5:43
    就是你們現在的坐姿,
  • 5:43 - 5:45
    你的坐姿、
  • 5:45 - 5:47
    你的坐姿,和你的坐姿,
  • 5:47 - 5:49
    都不一樣,取決於你的腿長、
  • 5:49 - 5:52
    你的背和背部輪廓。
  • 5:52 - 5:54
    要是我現在裝 1 百個感應器,
  • 5:54 - 5:56
    到你們每個人的椅子上,
  • 5:56 - 5:59
    我可以建出你個人獨特的索引資料,
  • 5:59 - 6:04
    有點像指紋,但不是你的手指。
  • 6:04 - 6:07
    這有什麼用?
  • 6:07 - 6:09
    東京的研究員用這種數據
  • 6:09 - 6:14
    來研發汽車防盜裝置。
  • 6:14 - 6:16
    概念是,偷車賊坐在駕駛座,
  • 6:16 - 6:18
    急著開車逃逸,
  • 6:18 - 6:21
    但是車子辨識出開車的人未經授權,
  • 6:21 - 6:22
    引擎就自動熄火,
  • 6:22 - 6:26
    除非你輸入密碼到儀表板,
  • 6:26 - 6:29
    告訴系統:「嘿,我可是有經授權喔!」
  • 6:29 - 6:31
    很好。
  • 6:31 - 6:35
    若歐洲每輛汽車都有這個裝置呢?
  • 6:35 - 6:37
    那又能做什麼?
  • 6:38 - 6:40
    或許,我們可以聚集所有的數據,
  • 6:40 - 6:44
    或許能提早偵測到警訊,
  • 6:44 - 6:47
    預測車禍
  • 6:47 - 6:53
    即將在 5 秒鐘內發生。
  • 6:53 - 6:55
    然後我們還可以數據化
  • 6:55 - 6:57
    駕駛員的疲勞狀態,
  • 6:57 - 6:59
    汽車系統可以偵測到
  • 6:59 - 7:03
    駕駛癱坐成某個姿勢,
  • 7:03 - 7:07
    自動感知,發出指令啟動響鈴,
  • 7:07 - 7:09
    導致方向盤震動,
  • 7:09 - 7:11
    車內喇叭作響,大喊:「嘿,快醒來!
  • 7:11 - 7:12
    注意路況!」
  • 7:12 - 7:14
    這一類的事都可以做到,
  • 7:14 - 7:17
    當我們把更多的生活層面數據化。
  • 7:17 - 7:21
    那麼,大數據究竟有什麼價值?
  • 7:21 - 7:23
    想想看,
  • 7:23 - 7:25
    現在有更多資訊,
  • 7:25 - 7:29
    可以做過去不能做的事。
  • 7:29 - 7:33
    這概念的應用當中,最驚人的領域之一,
  • 7:33 - 7:35
    就是「機器學習」。
  • 7:35 - 7:39
    機器學習是人工智慧的一個分支,
  • 7:39 - 7:42
    人工智慧又是電腦科學的分支。
  • 7:42 - 7:43
    基本概念是:
  • 7:43 - 7:46
    不必告訴電腦要做什麼,
  • 7:46 - 7:48
    只要把數據輸入到問題裡,
  • 7:48 - 7:51
    然後叫電腦自己想辦法。
  • 7:51 - 7:57
    我們回顧一下源頭,
    就會比較容易了解。
  • 7:57 - 8:00
    1950 年代,IBM 有位電腦科學家
  • 8:00 - 8:03
    名叫亞瑟.山姆爾,很愛下跳棋,
  • 8:03 - 8:04
    所以他寫了一個電腦程式,
  • 8:04 - 8:07
    叫電腦跟他對打。
  • 8:07 - 8:10
    他開始下棋,結果他贏了。
  • 8:10 - 8:12
    他再開始下棋,結果他又贏了。
  • 8:12 - 8:15
    他再下,還是他贏。
  • 8:15 - 8:17
    因為電腦只會
  • 8:17 - 8:19
    棋步的規則。
  • 8:19 - 8:21
    而亞瑟.山姆爾會得更多,
  • 8:21 - 8:26
    他懂得策略。
  • 8:26 - 8:28
    所以他又寫了一個副程式,
  • 8:28 - 8:30
    在背景執行,只做一件事:
  • 8:30 - 8:32
    就是計算機率,
  • 8:32 - 8:34
    評估目前的棋局,
  • 8:34 - 8:37
    比較贏棋和輸棋的機率,
  • 8:37 - 8:40
    每下一步棋,就重算一次。
  • 8:40 - 8:43
    然後他又跟電腦對打,結果他贏。
  • 8:43 - 8:45
    再對打,還是他贏。
  • 8:45 - 8:49
    再對打,還是他贏。
  • 8:49 - 8:54
    然後亞瑟.山姆爾讓電腦自己對打。
  • 8:54 - 8:57
    它就自己下棋,一邊收集數據。
  • 8:57 - 9:01
    越收集越多,它的預測準確度就提高。
  • 9:01 - 9:03
    然後亞瑟.山姆爾再回來跟電腦對打。
  • 9:03 - 9:06
    他開始下棋,結果他輸了。
  • 9:06 - 9:08
    他又下,又輸了。
  • 9:08 - 9:10
    再下,還是輸。
  • 9:10 - 9:13
    亞瑟.山姆爾創造了一台機器,
  • 9:13 - 9:19
    它的能力青出於藍,更甚於藍。
  • 9:19 - 9:21
    而這種機器學習的概念,
  • 9:21 - 9:25
    現在到處可見。
  • 9:25 - 9:29
    你想我們怎麼會有自動駕駛汽車?
  • 9:29 - 9:34
    把全部交通規則都輸入到軟體,
    可以改善社會嗎?
  • 9:34 - 9:35
    不是。
  • 9:35 - 9:37
    因為記憶體更便宜嗎?不是。
  • 9:37 - 9:38
    演算法變快了?不。
  • 9:38 - 9:40
    有更好的處理器?不。
  • 9:40 - 9:43
    這些都很重要,但不是真正的原因。
  • 9:43 - 9:46
    真正的原因是
    我們改變了問題的本質。
  • 9:46 - 9:48
    我們把問題從
  • 9:48 - 9:53
    明確指示電腦如何開車,
  • 9:53 - 9:54
    改成對電腦說:
  • 9:54 - 9:56
    「我給你大量的開車數據,
  • 9:56 - 9:57
    你自個兒看著辦吧!」
  • 9:57 - 9:59
    你自己判斷出那是紅綠燈,
  • 9:59 - 10:01
    而且現在亮紅燈,不是綠燈,
  • 10:01 - 10:03
    表示你要停車,
  • 10:03 - 10:06
    不能繼續開。」
  • 10:06 - 10:08
    機器學習也是
  • 10:08 - 10:10
    我們許多網路活動的基礎:
  • 10:10 - 10:12
    搜尋引擎、
  • 10:12 - 10:16
    亞馬遜的個人化演算法、
  • 10:16 - 10:18
    電腦翻譯、
  • 10:18 - 10:22
    語音辨識系統。
  • 10:22 - 10:25
    研究專家近來研究
  • 10:25 - 10:28
    活組織切片檢查,
  • 10:28 - 10:31
    癌組織切片,
  • 10:31 - 10:33
    他們叫電腦自己判別,
  • 10:33 - 10:36
    電腦分析數據和存活率,
  • 10:36 - 10:43
    判斷是否為癌症細胞。
  • 10:43 - 10:45
    果然,當你把數據丟給電腦,
  • 10:45 - 10:47
    透過一個機器學習的演算法,
  • 10:47 - 10:49
    電腦真的能找出
  • 10:49 - 10:50
    12 大危險徵兆,
  • 10:50 - 10:54
    預測這個乳房癌細胞的切片
  • 10:54 - 10:57
    真的就是癌腫瘤。
  • 10:57 - 11:00
    問題來了:醫學文獻只知道
  • 11:00 - 11:03
    其中 9 項。
  • 11:03 - 11:04
    另外 3 項特性
  • 11:04 - 11:07
    是我們以前不需檢查的,
  • 11:07 - 11:11
    卻被電腦找出來了。
  • 11:12 - 11:13
    好。
  • 11:14 - 11:19
    不過,大數據也有不好的一面。
  • 11:19 - 11:20
    它會改善我們的生活,
  • 11:20 - 11:24
    但是也有我們必須注意的問題。
  • 11:24 - 11:25
    第一,
  • 11:25 - 11:29
    我們可能因為預測而受罰,
  • 11:29 - 11:33
    警察可能會利用大數據來辦案,
  • 11:33 - 11:35
    有點像電影《關鍵報告》。
  • 11:35 - 11:38
    這叫做「預測性警務」,
  • 11:38 - 11:40
    或「演算犯罪學」。
  • 11:40 - 11:42
    原理是,我們蒐集大量數據,
  • 11:42 - 11:44
    例如,分析過去犯罪發生地點的大數據,
  • 11:44 - 11:47
    我們就知道要往哪裡派送警力。
  • 11:47 - 11:49
    這很合邏輯。但問題是,當然,
  • 11:49 - 11:53
    這種策略不會
    只限犯罪地點的數據,
  • 11:53 - 11:56
    而會一直延伸到個人資料。
  • 11:56 - 11:59
    何不利用人們的
  • 11:59 - 12:01
    高中成績單?
  • 12:01 - 12:02
    或許我們可以看看
  • 12:02 - 12:04
    他們是否失業、信用評等、
  • 12:04 - 12:06
    上網瀏覽行為、
  • 12:06 - 12:08
    是否熬夜、
  • 12:08 - 12:11
    Fitbit 智慧健康手環,
    當它能識別個人生化數據,
  • 12:11 - 12:15
    可看出主人是否有攻擊性的想法。
  • 12:15 - 12:19
    可能有演算法
    會預測我們將要做什麼事,
  • 12:19 - 12:23
    可能還沒有付諸行動,就得負責。
  • 12:23 - 12:28
    在小數據時代,
    最重要的挑戰是隱私。
  • 12:28 - 12:30
    在大數據時代,
  • 12:30 - 12:34
    挑戰則變成保衛自由意志、
  • 12:34 - 12:38
    道德選擇、人的意志、
  • 12:38 - 12:41
    人的「能動性」(human agency)。
  • 12:43 - 12:45
    還有一個問題:
  • 12:45 - 12:48
    大數據會搶走我們的工作。
  • 12:48 - 12:52
    大數據和演算法將會挑戰
  • 12:52 - 12:57
    21 世紀的白領、專業知識工作,
  • 12:57 - 13:01
    就像工廠自動化和生產線
  • 13:01 - 13:04
    在 20 世紀挑戰藍領工作者一樣。
  • 13:04 - 13:06
    試想一位實驗室技術員,
  • 13:06 - 13:09
    他正在用顯微鏡看腫瘤切片,
  • 13:09 - 13:12
    要判斷是否為癌細胞。
  • 13:12 - 13:14
    他唸過大學,
  • 13:14 - 13:15
    買了房子,
  • 13:15 - 13:17
    會投票,
  • 13:17 - 13:21
    他與社會利害相關。
  • 13:21 - 13:26
    他的工作,及許多像他一樣的專業人士,
  • 13:26 - 13:29
    將發現他們的工作起了劇變,
  • 13:29 - 13:31
    甚至完全被淘汰。
  • 13:31 - 13:33
    我們喜歡相信
  • 13:33 - 13:36
    長遠來說,科技創造工作機會,
  • 13:36 - 13:39
    即使剛開始會先經歷
    短暫的錯亂與重組,
  • 13:39 - 13:43
    這對我們所處的工業革命時代來說,
    並沒有錯,
  • 13:43 - 13:46
    因為事實的確如此。
  • 13:46 - 13:48
    但是這個分析遺漏了一點:
  • 13:48 - 13:51
    有些工作類別其實已經消失,
  • 13:51 - 13:53
    且從未起死回生。
  • 13:53 - 13:58
    如果你是一匹馬,
    那麼工業革命對你並不利。
  • 13:59 - 14:01
    所以我們必須非常謹慎,
  • 14:01 - 14:05
    正確駕馭大數據,
    調整它以適應我們所需,
  • 14:05 - 14:08
    滿足我們的人性需求。
  • 14:08 - 14:10
    我們必須成為這項科技的主人,
  • 14:10 - 14:12
    而不是淪為它的奴隸。
  • 14:12 - 14:15
    大數據時代才正開始,
  • 14:15 - 14:18
    老實說,我們並不是很擅長
  • 14:18 - 14:22
    處理我們能蒐集的龐大數據資料。
  • 14:22 - 14:25
    這不只是國安局的問題,
  • 14:25 - 14:28
    企業也蒐集大量資料,
    同樣也誤用、濫用。
  • 14:28 - 14:32
    我們都必須學習怎麼正確運用,
    而這需要時間。
  • 14:32 - 14:36
    有點像原始人用火
    所面臨的挑戰。
  • 14:36 - 14:38
    大數據是個工具,
  • 14:38 - 14:42
    如果運用失當,就會燒傷我們。
  • 14:44 - 14:47
    大數據將改變我們如何生活、
  • 14:47 - 14:50
    工作,和思考。
  • 14:50 - 14:52
    它可以幫助我們管理職涯,
  • 14:52 - 14:55
    讓我們過滿意、夢想的生活,
  • 14:55 - 14:58
    帶來快樂與健康。
  • 14:58 - 15:02
    以往,我們常在看待「資訊科技」時,
  • 15:02 - 15:04
    只專注在「科技」,
  • 15:04 - 15:06
    只重視硬體,
  • 15:06 - 15:08
    因為它具體可見。
  • 15:08 - 15:11
    現在我們必須重新對焦,
  • 15:11 - 15:12
    轉向「資訊」,
  • 15:12 - 15:14
    它比較不明顯,
  • 15:14 - 15:18
    但是就某些方面來說,卻重要得多。
  • 15:18 - 15:23
    人性總算可以向我們蒐集來的資訊學習,
  • 15:24 - 15:26
    成為我們永恆追尋的一部份,
  • 15:26 - 15:29
    藉此了解我們的世界,和人類的角色,
  • 15:29 - 15:34
    這是為什麼大數據將「大」有可為。
  • 15:34 - 15:38
    (觀眾掌聲)
Title:
「大」數據是「好」數據
Speaker:
肯尼斯.庫基耶
Description:

自動駕駛汽車只是開端。大數據驅動的科技與設計,將帶給我們什麼樣的未來?在這個令人振奮的科學演講中,肯尼斯.庫基耶探討機器學習以及人類知識的明天。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
15:51

Chinese, Traditional subtitles

Revisions