電腦是如何學習即時辨識物體的?
-
0:01 - 0:0210 年前,
-
0:02 - 0:05電腦視覺研究人員認為,
-
0:05 - 0:07要讓電腦辨別貓與狗的差別,
-
0:08 - 0:09幾乎是比登天還難,
-
0:10 - 0:13即使用了相當先進的
人工智慧都很難辦到。 -
0:13 - 0:17現在我們可以把辨別的準確度
提升到 99% 以上。 -
0:18 - 0:20這技術叫做圖像分類——
-
0:20 - 0:23給電腦看圖片,
並給圖片貼上標籤—— -
0:23 - 0:26電腦還可以識別出
許多其它類別的東西。 -
0:27 - 0:30我目前是華盛頓大學的研究生,
-
0:30 - 0:31我正在做一個專題叫做「暗黑網路」,
-
0:32 - 0:33它是一個用來訓練及測試
-
0:33 - 0:36電腦視覺模型的神經網路架構。
-
0:36 - 0:39所以,讓我們來瞧瞧暗黑網路
-
0:39 - 0:41對我們照片識別能力的狀況。
-
0:43 - 0:45當我們在這張照片上
-
0:45 - 0:46開啟我們的分類器,
-
0:46 - 0:49可以看到電腦現在不只
在預測這是狗或貓, -
0:49 - 0:51它實際上正在擷取特定品種的預測。
-
0:51 - 0:53這就是現在我們電腦的粒度等級。
-
0:53 - 0:55辨別正確。
-
0:55 - 0:57我的狗的確是隻雪橇犬。
-
0:57 - 1:01所以,我們在圖像識別上
已經有了很大的進步, -
1:01 - 1:03但如果我們用識別器
-
1:03 - 1:05來辨別這樣的照片呢?
-
1:07 - 1:08嗯……
-
1:13 - 1:17可以看到從分類器
得到的預測也相當類似。 -
1:17 - 1:20沒錯,圖片中有一隻雪橇狗,
-
1:20 - 1:21但它只給出一個標籤,
-
1:21 - 1:25我們對這張照片的理解
還不是很完整。 -
1:25 - 1:27我們需要更強的東西。
-
1:27 - 1:30我正在研究一個問題,
叫做「物件偵測」, -
1:30 - 1:33我們把一張照片中的
所有物體都找出來, -
1:33 - 1:34用邊界框把它們框起來,
-
1:34 - 1:36然後標示它們是那些東西。
-
1:36 - 1:41我們來看一下當我們在這一張圖片上
執行偵測軟體時,會發生甚麼事。 -
1:41 - 1:43現在,有了這類的結果,
-
1:44 - 1:46我們就可以利用電腦視覺演算法,
幫我們做更多的事。 -
1:46 - 1:49我們可以看到,
電腦知道圖片中有一隻貓和狗。 -
1:49 - 1:51它知道牠們彼此的相對位置、
-
1:52 - 1:53大小。
-
1:53 - 1:55電腦甚至可能知道其它的資訊。
-
1:55 - 1:57它也看到了背景中有一本書。
-
1:57 - 2:01如果你想要建立一個
基於電腦視覺系統的實用系統, -
2:01 - 2:04比如說,自動駕駛車或機械人系統,
-
2:04 - 2:06這類就會是你想要的資訊。
-
2:07 - 2:10你會想要一個可以
與實體世界互動的東西。 -
2:11 - 2:13當我開始做物件偵測時,
-
2:13 - 2:16它要花 20 秒才能處理一張圖片。
-
2:16 - 2:20為了讓各位體會
為什麼這個領域這麼講究速度, -
2:21 - 2:24我這邊做個執行物件偵測器的示範,
-
2:24 - 2:26一張照片只要 2 秒的處理時間。
-
2:26 - 2:29所以,比 20 秒一張的偵測器
-
2:29 - 2:32快了 10 倍,
-
2:32 - 2:35各位可以看到,
在它識別圖像的過程中, -
2:35 - 2:37周圍環境已經發生了變化,
-
2:38 - 2:40但對一個應用軟體而言,
-
2:40 - 2:42這樣的速度是很鷄肋的。
-
2:42 - 2:44如果我們把另一個參數調升到 10 ,
-
2:44 - 2:47這個偵測器每秒
就可以識別 5 張圖片。 -
2:47 - 2:49這樣好多了,
-
2:49 - 2:51但,假如,
-
2:51 - 2:53移動很快的時候……
-
2:53 - 2:56我可不想在我車上裝這樣慢的系統。
-
2:57 - 3:00這是在我筆電上運行的
即時偵測系統。 -
3:01 - 3:04我在框框附近移動的時候,
它可以很順暢地追蹤著我, -
3:04 - 3:08而且,它可以根據不同的大小、
-
3:09 - 3:11姿勢、
-
3:11 - 3:13前、後來做調整。
-
3:13 - 3:14太棒了。
-
3:14 - 3:18如果我們要建立一個
基於電腦視覺系統的實用系統, -
3:18 - 3:20這個才會是我真正想要的。
-
3:20 - 3:23(掌聲)
-
3:24 - 3:26所以,才幾年的時間,
-
3:26 - 3:29我們從每 20 秒處理一張照片,
-
3:29 - 3:33進步到每張照片只要 20 毫秒,
快了 1000 倍。 -
3:33 - 3:34我們是如何辦到的?
-
3:34 - 3:37過去,物件偵測系統,
-
3:37 - 3:39會把一張像這樣的照片,
-
3:39 - 3:42分割成好幾個小區塊,
-
3:42 - 3:45然後在每一個小區塊
運行分類器軟體, -
3:45 - 3:47相似度得分如果比較高
-
3:47 - 3:51會被識別器認為照片偵測成功。
-
3:51 - 3:55但這樣一張圖片要執行
好幾千次的識別指令、 -
3:55 - 3:59經過好幾千次的神經網路評估
才有辦法偵測出來。 -
3:59 - 4:04但我們不是這樣做,我們訓練了一個
網路模型來幫我們完成所有的偵測。 -
4:04 - 4:08它可以同時產出邊界框
並同時對可能的結果進行評估。 -
4:09 - 4:12有了我們的系統,
你就不用一張圖片看了好幾千遍 -
4:12 - 4:14才能偵測出來。
-
4:14 - 4:15你只要看一眼 (YOLO),
-
4:15 - 4:18所以我們簡稱這個
物件偵測技術為「YOLO」。 -
4:19 - 4:23所以,有了這樣的辨識速度,
我們不只可以偵測圖片; -
4:23 - 4:26還可以處理即時的影片。
-
4:26 - 4:29現在各位看到的不是
貓、狗的靜態圖片, -
4:29 - 4:33而是有牠們在移動、
互動的動態影片。 -
4:35 - 4:38這是我們用微軟 COCO 資料集裡
-
4:38 - 4:4180 種不同的類別
-
4:41 - 4:44訓練出來的辨識器。
-
4:44 - 4:48它包含各種東西,
像是湯匙、叉子、碗 -
4:48 - 4:50這類的日常用品。
-
4:50 - 4:53它還有很多奇妙的東西:
-
4:53 - 4:57動物、車子、斑馬、長頸鹿。
-
4:57 - 4:59現在我們要進行一件好玩的事。
-
4:59 - 5:01我們會進到觀眾席,
-
5:01 - 5:03去看看能辨識到哪些東西。
-
5:03 - 5:04有誰要填充娃娃?
-
5:06 - 5:09這邊還有一些泰迪熊。
-
5:10 - 5:15我們現在降低一下
對偵測結果的精確度的要求, -
5:15 - 5:18這樣我們可以在觀眾席中
找到更多東西。 -
5:20 - 5:22我們來看看能不能偵測到停止標誌。
-
5:22 - 5:24我們有偵測到一些背包。
-
5:26 - 5:28現在把鏡頭拉近一點。
-
5:30 - 5:32這真的很厲害。
-
5:32 - 5:34所有的偵測流程
-
5:34 - 5:37都可以在筆電裡即時呈現。
-
5:37 - 5:39更重要的是,
-
5:39 - 5:42這只是一個一般用的物件偵測系統,
-
5:42 - 5:47我們還可以訓練它
辨別任何領域的照片。 -
5:48 - 5:51同樣的程式碼,
放在自動駕駛車裡, -
5:51 - 5:53可以偵測到停止標誌、行人、
-
5:53 - 5:55腳踏車,
-
5:55 - 5:58但放到組織切片
-
5:58 - 6:01就可以偵測出癌症細胞。
-
6:01 - 6:05現在全球有很多研究人員
已經開始在使用這項技術 -
6:06 - 6:10做進一步的研究,
像是醫藥、機械人領域。 -
6:10 - 6:11今天早上,我讀到一篇文章,
-
6:11 - 6:16在奈洛比國家公園裡,
他們要對動物們進行統計調查, -
6:16 - 6:19YOLO 就是其使用的
偵測系統的一部分。 -
6:19 - 6:22而這一切都是因為
暗黑網路是開放原始碼, -
6:22 - 6:24在公眾領域,
任何人都可以免費使用。 -
6:26 - 6:31(掌聲)
-
6:31 - 6:36但我們希望偵測系統
可以更親民、更好用, -
6:36 - 6:40所以在經過模型優化、
-
6:40 - 6:43網路二值化及近似度化的整合後,
-
6:43 - 6:47我們終於可以在手機上偵測物件。
-
6:53 - 6:58(掌聲)
-
6:59 - 7:02而我真的相當興奮,因為我們現在
-
7:02 - 7:07在低階的電腦影像處理問題上
有了相當強力的解決方式, -
7:07 - 7:10任何人都可以拿去並創造一些東西。
-
7:10 - 7:13所以,接下來就看各位
-
7:13 - 7:16以及全世界所有人
用這個軟體大展身手了, -
7:16 - 7:20我真的等不及想看看你們
用這項科技所做出來的產品。 -
7:20 - 7:21謝謝。
-
7:21 - 7:25(掌聲)
- Title:
- 電腦是如何學習即時辨識物體的?
- Speaker:
- 喬瑟夫.瑞德蒙
- Description:
-
10 年前,研究人員認為要讓電腦辨別出貓、狗,那根本是不可能的。今日,電腦視覺系統已經可以做到 99% 以上的辨識度。這是怎麼辦到的?喬瑟夫.瑞德蒙致力於YOLO(你只要看一眼)的開放原始碼物體辨識方法,它已經可以像閃電般的速度,辨識出圖片及影片中的物件——從斑馬到停止標誌。在這場令人驚嘆的演示中,瑞德蒙向我們展示了這項技術重要的進步里程碑,像是在自動駕駛車、機器人、甚至是癌症檢測上的應用。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
Regina Chu approved Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
Regina Chu edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
Wilde Luo accepted Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
Wilde Luo edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
易帆 余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
易帆 余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
易帆 余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly | ||
易帆 余 edited Chinese, Traditional subtitles for How computers learn to recognize objects instantly |