Return to Video

電腦是如何學習即時辨識物體的?

  • 0:01 - 0:02
    10 年前,
  • 0:02 - 0:05
    電腦視覺研究人員認為,
  • 0:05 - 0:07
    要讓電腦辨別貓與狗的差別,
  • 0:08 - 0:09
    幾乎是比登天還難,
  • 0:10 - 0:13
    即使用了相當先進的
    人工智慧都很難辦到。
  • 0:13 - 0:17
    現在我們可以把辨別的準確度
    提升到 99% 以上。
  • 0:18 - 0:20
    這技術叫做圖像分類——
  • 0:20 - 0:23
    給電腦看圖片,
    並給圖片貼上標籤——
  • 0:23 - 0:26
    電腦還可以識別出
    許多其它類別的東西。
  • 0:27 - 0:30
    我目前是華盛頓大學的研究生,
  • 0:30 - 0:31
    我正在做一個專題叫做「暗黑網路」,
  • 0:32 - 0:33
    它是一個用來訓練及測試
  • 0:33 - 0:36
    電腦視覺模型的神經網路架構。
  • 0:36 - 0:39
    所以,讓我們來瞧瞧暗黑網路
  • 0:39 - 0:41
    對我們照片識別能力的狀況。
  • 0:43 - 0:45
    當我們在這張照片上
  • 0:45 - 0:46
    開啟我們的分類器,
  • 0:46 - 0:49
    可以看到電腦現在不只
    在預測這是狗或貓,
  • 0:49 - 0:51
    它實際上正在擷取特定品種的預測。
  • 0:51 - 0:53
    這就是現在我們電腦的粒度等級。
  • 0:53 - 0:55
    辨別正確。
  • 0:55 - 0:57
    我的狗的確是隻雪橇犬。
  • 0:57 - 1:01
    所以,我們在圖像識別上
    已經有了很大的進步,
  • 1:01 - 1:03
    但如果我們用識別器
  • 1:03 - 1:05
    來辨別這樣的照片呢?
  • 1:07 - 1:08
    嗯……
  • 1:13 - 1:17
    可以看到從分類器
    得到的預測也相當類似。
  • 1:17 - 1:20
    沒錯,圖片中有一隻雪橇狗,
  • 1:20 - 1:21
    但它只給出一個標籤,
  • 1:21 - 1:25
    我們對這張照片的理解
    還不是很完整。
  • 1:25 - 1:27
    我們需要更強的東西。
  • 1:27 - 1:30
    我正在研究一個問題,
    叫做「物件偵測」,
  • 1:30 - 1:33
    我們把一張照片中的
    所有物體都找出來,
  • 1:33 - 1:34
    用邊界框把它們框起來,
  • 1:34 - 1:36
    然後標示它們是那些東西。
  • 1:36 - 1:41
    我們來看一下當我們在這一張圖片上
    執行偵測軟體時,會發生甚麼事。
  • 1:41 - 1:43
    現在,有了這類的結果,
  • 1:44 - 1:46
    我們就可以利用電腦視覺演算法,
    幫我們做更多的事。
  • 1:46 - 1:49
    我們可以看到,
    電腦知道圖片中有一隻貓和狗。
  • 1:49 - 1:51
    它知道牠們彼此的相對位置、
  • 1:52 - 1:53
    大小。
  • 1:53 - 1:55
    電腦甚至可能知道其它的資訊。
  • 1:55 - 1:57
    它也看到了背景中有一本書。
  • 1:57 - 2:01
    如果你想要建立一個
    基於電腦視覺系統的實用系統,
  • 2:01 - 2:04
    比如說,自動駕駛車或機械人系統,
  • 2:04 - 2:06
    這類就會是你想要的資訊。
  • 2:07 - 2:10
    你會想要一個可以
    與實體世界互動的東西。
  • 2:11 - 2:13
    當我開始做物件偵測時,
  • 2:13 - 2:16
    它要花 20 秒才能處理一張圖片。
  • 2:16 - 2:20
    為了讓各位體會
    為什麼這個領域這麼講究速度,
  • 2:21 - 2:24
    我這邊做個執行物件偵測器的示範,
  • 2:24 - 2:26
    一張照片只要 2 秒的處理時間。
  • 2:26 - 2:29
    所以,比 20 秒一張的偵測器
  • 2:29 - 2:32
    快了 10 倍,
  • 2:32 - 2:35
    各位可以看到,
    在它識別圖像的過程中,
  • 2:35 - 2:37
    周圍環境已經發生了變化,
  • 2:38 - 2:40
    但對一個應用軟體而言,
  • 2:40 - 2:42
    這樣的速度是很鷄肋的。
  • 2:42 - 2:44
    如果我們把另一個參數調升到 10 ,
  • 2:44 - 2:47
    這個偵測器每秒
    就可以識別 5 張圖片。
  • 2:47 - 2:49
    這樣好多了,
  • 2:49 - 2:51
    但,假如,
  • 2:51 - 2:53
    移動很快的時候……
  • 2:53 - 2:56
    我可不想在我車上裝這樣慢的系統。
  • 2:57 - 3:00
    這是在我筆電上運行的
    即時偵測系統。
  • 3:01 - 3:04
    我在框框附近移動的時候,
    它可以很順暢地追蹤著我,
  • 3:04 - 3:08
    而且,它可以根據不同的大小、
  • 3:09 - 3:11
    姿勢、
  • 3:11 - 3:13
    前、後來做調整。
  • 3:13 - 3:14
    太棒了。
  • 3:14 - 3:18
    如果我們要建立一個
    基於電腦視覺系統的實用系統,
  • 3:18 - 3:20
    這個才會是我真正想要的。
  • 3:20 - 3:23
    (掌聲)
  • 3:24 - 3:26
    所以,才幾年的時間,
  • 3:26 - 3:29
    我們從每 20 秒處理一張照片,
  • 3:29 - 3:33
    進步到每張照片只要 20 毫秒,
    快了 1000 倍。
  • 3:33 - 3:34
    我們是如何辦到的?
  • 3:34 - 3:37
    過去,物件偵測系統,
  • 3:37 - 3:39
    會把一張像這樣的照片,
  • 3:39 - 3:42
    分割成好幾個小區塊,
  • 3:42 - 3:45
    然後在每一個小區塊
    運行分類器軟體,
  • 3:45 - 3:47
    相似度得分如果比較高
  • 3:47 - 3:51
    會被識別器認為照片偵測成功。
  • 3:51 - 3:55
    但這樣一張圖片要執行
    好幾千次的識別指令、
  • 3:55 - 3:59
    經過好幾千次的神經網路評估
    才有辦法偵測出來。
  • 3:59 - 4:04
    但我們不是這樣做,我們訓練了一個
    網路模型來幫我們完成所有的偵測。
  • 4:04 - 4:08
    它可以同時產出邊界框
    並同時對可能的結果進行評估。
  • 4:09 - 4:12
    有了我們的系統,
    你就不用一張圖片看了好幾千遍
  • 4:12 - 4:14
    才能偵測出來。
  • 4:14 - 4:15
    你只要看一眼 (YOLO),
  • 4:15 - 4:18
    所以我們簡稱這個
    物件偵測技術為「YOLO」。
  • 4:19 - 4:23
    所以,有了這樣的辨識速度,
    我們不只可以偵測圖片;
  • 4:23 - 4:26
    還可以處理即時的影片。
  • 4:26 - 4:29
    現在各位看到的不是
    貓、狗的靜態圖片,
  • 4:29 - 4:33
    而是有牠們在移動、
    互動的動態影片。
  • 4:35 - 4:38
    這是我們用微軟 COCO 資料集裡
  • 4:38 - 4:41
    80 種不同的類別
  • 4:41 - 4:44
    訓練出來的辨識器。
  • 4:44 - 4:48
    它包含各種東西,
    像是湯匙、叉子、碗
  • 4:48 - 4:50
    這類的日常用品。
  • 4:50 - 4:53
    它還有很多奇妙的東西:
  • 4:53 - 4:57
    動物、車子、斑馬、長頸鹿。
  • 4:57 - 4:59
    現在我們要進行一件好玩的事。
  • 4:59 - 5:01
    我們會進到觀眾席,
  • 5:01 - 5:03
    去看看能辨識到哪些東西。
  • 5:03 - 5:04
    有誰要填充娃娃?
  • 5:06 - 5:09
    這邊還有一些泰迪熊。
  • 5:10 - 5:15
    我們現在降低一下
    對偵測結果的精確度的要求,
  • 5:15 - 5:18
    這樣我們可以在觀眾席中
    找到更多東西。
  • 5:20 - 5:22
    我們來看看能不能偵測到停止標誌。
  • 5:22 - 5:24
    我們有偵測到一些背包。
  • 5:26 - 5:28
    現在把鏡頭拉近一點。
  • 5:30 - 5:32
    這真的很厲害。
  • 5:32 - 5:34
    所有的偵測流程
  • 5:34 - 5:37
    都可以在筆電裡即時呈現。
  • 5:37 - 5:39
    更重要的是,
  • 5:39 - 5:42
    這只是一個一般用的物件偵測系統,
  • 5:42 - 5:47
    我們還可以訓練它
    辨別任何領域的照片。
  • 5:48 - 5:51
    同樣的程式碼,
    放在自動駕駛車裡,
  • 5:51 - 5:53
    可以偵測到停止標誌、行人、
  • 5:53 - 5:55
    腳踏車,
  • 5:55 - 5:58
    但放到組織切片
  • 5:58 - 6:01
    就可以偵測出癌症細胞。
  • 6:01 - 6:05
    現在全球有很多研究人員
    已經開始在使用這項技術
  • 6:06 - 6:10
    做進一步的研究,
    像是醫藥、機械人領域。
  • 6:10 - 6:11
    今天早上,我讀到一篇文章,
  • 6:11 - 6:16
    在奈洛比國家公園裡,
    他們要對動物們進行統計調查,
  • 6:16 - 6:19
    YOLO 就是其使用的
    偵測系統的一部分。
  • 6:19 - 6:22
    而這一切都是因為
    暗黑網路是開放原始碼,
  • 6:22 - 6:24
    在公眾領域,
    任何人都可以免費使用。
  • 6:26 - 6:31
    (掌聲)
  • 6:31 - 6:36
    但我們希望偵測系統
    可以更親民、更好用,
  • 6:36 - 6:40
    所以在經過模型優化、
  • 6:40 - 6:43
    網路二值化及近似度化的整合後,
  • 6:43 - 6:47
    我們終於可以在手機上偵測物件。
  • 6:53 - 6:58
    (掌聲)
  • 6:59 - 7:02
    而我真的相當興奮,因為我們現在
  • 7:02 - 7:07
    在低階的電腦影像處理問題上
    有了相當強力的解決方式,
  • 7:07 - 7:10
    任何人都可以拿去並創造一些東西。
  • 7:10 - 7:13
    所以,接下來就看各位
  • 7:13 - 7:16
    以及全世界所有人
    用這個軟體大展身手了,
  • 7:16 - 7:20
    我真的等不及想看看你們
    用這項科技所做出來的產品。
  • 7:20 - 7:21
    謝謝。
  • 7:21 - 7:25
    (掌聲)
Title:
電腦是如何學習即時辨識物體的?
Speaker:
喬瑟夫.瑞德蒙
Description:

10 年前,研究人員認為要讓電腦辨別出貓、狗,那根本是不可能的。今日,電腦視覺系統已經可以做到 99% 以上的辨識度。這是怎麼辦到的?喬瑟夫.瑞德蒙致力於YOLO(你只要看一眼)的開放原始碼物體辨識方法,它已經可以像閃電般的速度,辨識出圖片及影片中的物件——從斑馬到停止標誌。在這場令人驚嘆的演示中,瑞德蒙向我們展示了這項技術重要的進步里程碑,像是在自動駕駛車、機器人、甚至是癌症檢測上的應用。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Chinese, Traditional subtitles

Revisions