電腦是如何學習即時辨識物體的？

0:01 - 0:02

10 年前，
0:02 - 0:05

電腦視覺研究人員認為，
0:05 - 0:07

要讓電腦辨別貓與狗的差別，
0:08 - 0:09

幾乎是比登天還難，
0:10 - 0:13

即使用了相當先進的
人工智慧都很難辦到。
0:13 - 0:17

現在我們可以把辨別的準確度
提升到 99% 以上。
0:18 - 0:20

這技術叫做圖像分類——
0:20 - 0:23

給電腦看圖片，
並給圖片貼上標籤——
0:23 - 0:26

電腦還可以識別出
許多其它類別的東西。
0:27 - 0:30

我目前是華盛頓大學的研究生，
0:30 - 0:31

我正在做一個專題叫做「暗黑網路」，
0:32 - 0:33

它是一個用來訓練及測試
0:33 - 0:36

電腦視覺模型的神經網路架構。
0:36 - 0:39

所以，讓我們來瞧瞧暗黑網路
0:39 - 0:41

對我們照片識別能力的狀況。
0:43 - 0:45

當我們在這張照片上
0:45 - 0:46

開啟我們的分類器，
0:46 - 0:49

可以看到電腦現在不只
在預測這是狗或貓，
0:49 - 0:51

它實際上正在擷取特定品種的預測。
0:51 - 0:53

這就是現在我們電腦的粒度等級。
0:53 - 0:55

辨別正確。
0:55 - 0:57

我的狗的確是隻雪橇犬。
0:57 - 1:01

所以，我們在圖像識別上
已經有了很大的進步，
1:01 - 1:03

但如果我們用識別器
1:03 - 1:05

來辨別這樣的照片呢？
1:07 - 1:08

嗯……
1:13 - 1:17

可以看到從分類器
得到的預測也相當類似。
1:17 - 1:20

沒錯，圖片中有一隻雪橇狗，
1:20 - 1:21

但它只給出一個標籤，
1:21 - 1:25

我們對這張照片的理解
還不是很完整。
1:25 - 1:27

我們需要更強的東西。
1:27 - 1:30

我正在研究一個問題，
叫做「物件偵測」，
1:30 - 1:33

我們把一張照片中的
所有物體都找出來，
1:33 - 1:34

用邊界框把它們框起來，
1:34 - 1:36

然後標示它們是那些東西。
1:36 - 1:41

我們來看一下當我們在這一張圖片上
執行偵測軟體時，會發生甚麼事。
1:41 - 1:43

現在，有了這類的結果，
1:44 - 1:46

我們就可以利用電腦視覺演算法，
幫我們做更多的事。
1:46 - 1:49

我們可以看到，
電腦知道圖片中有一隻貓和狗。
1:49 - 1:51

它知道牠們彼此的相對位置、
1:52 - 1:53

大小。
1:53 - 1:55

電腦甚至可能知道其它的資訊。
1:55 - 1:57

它也看到了背景中有一本書。
1:57 - 2:01

如果你想要建立一個
基於電腦視覺系統的實用系統，
2:01 - 2:04

比如說，自動駕駛車或機械人系統，
2:04 - 2:06

這類就會是你想要的資訊。
2:07 - 2:10

你會想要一個可以
與實體世界互動的東西。
2:11 - 2:13

當我開始做物件偵測時，
2:13 - 2:16

它要花 20 秒才能處理一張圖片。
2:16 - 2:20

為了讓各位體會
為什麼這個領域這麼講究速度，
2:21 - 2:24

我這邊做個執行物件偵測器的示範，
2:24 - 2:26

一張照片只要 2 秒的處理時間。
2:26 - 2:29

所以，比 20 秒一張的偵測器
2:29 - 2:32

快了 10 倍，
2:32 - 2:35

各位可以看到，
在它識別圖像的過程中，
2:35 - 2:37

周圍環境已經發生了變化，
2:38 - 2:40

但對一個應用軟體而言，
2:40 - 2:42

這樣的速度是很鷄肋的。
2:42 - 2:44

如果我們把另一個參數調升到 10 ，
2:44 - 2:47

這個偵測器每秒
就可以識別 5 張圖片。
2:47 - 2:49

這樣好多了，
2:49 - 2:51

但，假如，
2:51 - 2:53

移動很快的時候……
2:53 - 2:56

我可不想在我車上裝這樣慢的系統。
2:57 - 3:00

這是在我筆電上運行的
即時偵測系統。
3:01 - 3:04

我在框框附近移動的時候，
它可以很順暢地追蹤著我，
3:04 - 3:08

而且，它可以根據不同的大小、
3:09 - 3:11

姿勢、
3:11 - 3:13

前、後來做調整。
3:13 - 3:14

太棒了。
3:14 - 3:18

如果我們要建立一個
基於電腦視覺系統的實用系統，
3:18 - 3:20

這個才會是我真正想要的。
3:20 - 3:23

（掌聲）
3:24 - 3:26

所以，才幾年的時間，
3:26 - 3:29

我們從每 20 秒處理一張照片，
3:29 - 3:33

進步到每張照片只要 20 毫秒，
快了 1000 倍。
3:33 - 3:34

我們是如何辦到的？
3:34 - 3:37

過去，物件偵測系統，
3:37 - 3:39

會把一張像這樣的照片，
3:39 - 3:42

分割成好幾個小區塊，
3:42 - 3:45

然後在每一個小區塊
運行分類器軟體，
3:45 - 3:47

相似度得分如果比較高
3:47 - 3:51

會被識別器認為照片偵測成功。
3:51 - 3:55

但這樣一張圖片要執行
好幾千次的識別指令、
3:55 - 3:59

經過好幾千次的神經網路評估
才有辦法偵測出來。
3:59 - 4:04

但我們不是這樣做，我們訓練了一個
網路模型來幫我們完成所有的偵測。
4:04 - 4:08

它可以同時產出邊界框
並同時對可能的結果進行評估。
4:09 - 4:12

有了我們的系統，
你就不用一張圖片看了好幾千遍
4:12 - 4:14

才能偵測出來。
4:14 - 4:15

你只要看一眼 (YOLO)，
4:15 - 4:18

所以我們簡稱這個
物件偵測技術為「YOLO」。
4:19 - 4:23

所以，有了這樣的辨識速度，
我們不只可以偵測圖片；
4:23 - 4:26

還可以處理即時的影片。
4:26 - 4:29

現在各位看到的不是
貓、狗的靜態圖片，
4:29 - 4:33

而是有牠們在移動、
互動的動態影片。
4:35 - 4:38

這是我們用微軟 COCO 資料集裡
4:38 - 4:41

80 種不同的類別
4:41 - 4:44

訓練出來的辨識器。
4:44 - 4:48

它包含各種東西，
像是湯匙、叉子、碗
4:48 - 4:50

這類的日常用品。
4:50 - 4:53

它還有很多奇妙的東西：
4:53 - 4:57

動物、車子、斑馬、長頸鹿。
4:57 - 4:59

現在我們要進行一件好玩的事。
4:59 - 5:01

我們會進到觀眾席，
5:01 - 5:03

去看看能辨識到哪些東西。
5:03 - 5:04

有誰要填充娃娃？
5:06 - 5:09

這邊還有一些泰迪熊。
5:10 - 5:15

我們現在降低一下
對偵測結果的精確度的要求，
5:15 - 5:18

這樣我們可以在觀眾席中
找到更多東西。
5:20 - 5:22

我們來看看能不能偵測到停止標誌。
5:22 - 5:24

我們有偵測到一些背包。
5:26 - 5:28

現在把鏡頭拉近一點。
5:30 - 5:32

這真的很厲害。
5:32 - 5:34

所有的偵測流程
5:34 - 5:37

都可以在筆電裡即時呈現。
5:37 - 5:39

更重要的是，
5:39 - 5:42

這只是一個一般用的物件偵測系統，
5:42 - 5:47

我們還可以訓練它
辨別任何領域的照片。
5:48 - 5:51

同樣的程式碼，
放在自動駕駛車裡，
5:51 - 5:53

可以偵測到停止標誌、行人、
5:53 - 5:55

腳踏車，
5:55 - 5:58

但放到組織切片
5:58 - 6:01

就可以偵測出癌症細胞。
6:01 - 6:05

現在全球有很多研究人員
已經開始在使用這項技術
6:06 - 6:10

做進一步的研究，
像是醫藥、機械人領域。
6:10 - 6:11

今天早上，我讀到一篇文章，
6:11 - 6:16

在奈洛比國家公園裡，
他們要對動物們進行統計調查，
6:16 - 6:19

YOLO 就是其使用的
偵測系統的一部分。
6:19 - 6:22

而這一切都是因為
暗黑網路是開放原始碼，
6:22 - 6:24

在公眾領域，
任何人都可以免費使用。
6:26 - 6:31

（掌聲）
6:31 - 6:36

但我們希望偵測系統
可以更親民、更好用，
6:36 - 6:40

所以在經過模型優化、
6:40 - 6:43

網路二值化及近似度化的整合後，
6:43 - 6:47

我們終於可以在手機上偵測物件。
6:53 - 6:58

（掌聲）
6:59 - 7:02

而我真的相當興奮，因為我們現在
7:02 - 7:07

在低階的電腦影像處理問題上
有了相當強力的解決方式，
7:07 - 7:10

任何人都可以拿去並創造一些東西。
7:10 - 7:13

所以，接下來就看各位
7:13 - 7:16

以及全世界所有人
用這個軟體大展身手了，
7:16 - 7:20

我真的等不及想看看你們
用這項科技所做出來的產品。
7:20 - 7:21

謝謝。
7:21 - 7:25

（掌聲）

Title:: 電腦是如何學習即時辨識物體的？
Speaker:: 喬瑟夫．瑞德蒙
Description:: 10 年前，研究人員認為要讓電腦辨別出貓、狗，那根本是不可能的。今日，電腦視覺系統已經可以做到 99% 以上的辨識度。這是怎麼辦到的？喬瑟夫．瑞德蒙致力於YOLO（你只要看一眼）的開放原始碼物體辨識方法，它已經可以像閃電般的速度，辨識出圖片及影片中的物件——從斑馬到停止標誌。在這場令人驚嘆的演示中，瑞德蒙向我們展示了這項技術重要的進步里程碑，像是在自動駕駛車、機器人、甚至是癌症檢測上的應用。

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Regina Chu approved Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	Regina Chu edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	Wilde Luo accepted Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	Wilde Luo edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	易帆余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	易帆余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	易帆余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly
	易帆余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly

Show all

Chinese, Traditional subtitles

Revisions

Revision 7 Edited

Regina Chu

電腦是如何學習即時辨識物體的？

Revisions

Our website uses cookies

Operating cookies (Required)