10年前，

计算机视觉研究者认为
要让一台电脑

去分辨出一只猫和狗的不同之处

几乎是不可能的，

即便是在人工智能已经取得了
重大突破的情况下。

现在我们已经可以做到
让它的正确率在99%以上。

这个方法叫做图像分类——

给它一张图，再给这张图贴上标签——

通过这种方式，电脑就可以知道
数千种的分类。

我是华盛顿大学的一名研究生，

我致力于一个名叫“暗网”的项目，

这是一个用来训练和测试
计算机视觉模型的

神经网络结构。

让我们来看看暗网是如何看待

我们手上的这张图片。

当我们在这张图片上

运行识别器时，

我们注意到，它不仅能判断出
图片上是猫是狗，

还能给出它是哪个品种的预测。

这就是我们目前所达到的粒度级别。

而且它的预测是正确的。

我的狗的确是一只
阿拉斯加雪橇犬。

很明显，我们在图像识别上
取得了惊人的进步，

但是如果我们对这样一张图片上

运行识别器，会如何呢？

看一下。。。。。

我们看到识别器给出了一个
非常相似的预测。

而且是正确的，图中是有一只
阿拉斯加雪橇犬，

但只使用这一个标签，
我们并不能真正的了解

这张图片里的故事。

我们需要更强大的检测器。

我正在研究一个叫做
目标检测的问题，

也就是我们尝试
将一张图上的所有目标物都找出来，

然后将它们分别框起来，

再加上标注。

这就是我们对这张照片
运行检测器时所发生的。

基于这样的结果，

我们可以用计算机视觉算法
做更多的事情。

我们发现，它知道
这里有一只猫和一只狗。

它知道它们的相对位置，

它们的大小。

它可能甚至还知道一些
额外的信息。

例如背景里有一本书。

如果你想建立一个
基于计算机视觉的系统，

比如说无人驾驶汽车
或者机器人系统，

那么这就是你想要得到的那类信息。

你要一个能与物质世界互动的系统。

当我最开始开展目标检测项目时，

它要花20秒去处理一张图片。

为了感受一下为什么速度
在这个领域是如此重要，

举一个例子，这是一个2秒钟

就能处理一张图片的检测器。

这个检测器的速度要比

处理每张图需要20秒的
检测器快10倍，

你还可以看到
在它做出预测的时候，

被检测的世界已经发生变化了，

这对于一个应用来说

是没有多大用处的。

如果我们将它的速度再提升10倍，

这个检测器每秒可处理5张画面。

这就好很多了，

但是，举个例子

如果有任何重大的移动
（它就反应不过来了），

我可不想让这样的一个系统
来驾驶我的汽车。

这是在我电脑上运行的
实时检测系统。

当我在移动时，它能顺利地追踪我，

而且它强大到能适应不同的大小、

姿势、

向前、向后的改变。

很了不起。

如果我们想要建造一个

基于计算机视觉的系统，
那么这就是我们真正需要的。

（掌声）

仅仅是几年的时间，

我们就从每张图20秒，

提升到了每张图20毫秒，
速度提高了1000倍。

我们是如何做到的呢？

事实上在过去，目标检测系统

会将这张图片

分成很多小区域，

然后在每一块区域运行一下识别器，

在识别器中获得最高分数（的输出）

就会被认为是这张图片的检测结果。

这涉及到要在一张图片上
运行数千次识别器，

以及数千次的神经网络评估
才能获得检测结果。

而现在，我们训练了可以做出
所有检测的单一网络。

它能同时生成边界盒和类别概率。

使用我们的系统，
不需要为了生成检测结果

去重复上千数次地看同一张图片，

“只看一次”就行了，

这也是为什么我们称之为
目标检测的“YOLO”法。

有了这个速度，我们就
不仅限于识别图像了，

还可以实时处理视频。

现在，我们不仅看到了猫和狗，

还能看到它们走来走去，互相嘻戏。

这是一个我们在微软的
COCO数据库上，

用80种不同种类的物品

训练过的检测器。

包含了各种东西，
像勺子、叉子、碗

等常见物品。

还有各种奇特的东西：

动物、汽车、斑马、长颈鹿。

现在我们要做点儿有趣的事情。

我们的摄像头将要对准观众区，

看看能检测出什么。

谁想要一个毛绒动物玩具？

观众席里有了一些泰迪熊。

我们把检测阀值调低一点，

这样就可以找出更多的观众。

看下我们能不能找出这些停车标志。

我们找到了一些背包。

再放大一点。

非常棒。

所有这些都是在电脑上

实时处理的。

请大家记住：

这是一个通用的目标检测系统，

因此我们可以将它训练
用于任何领域的图像识别。

我们在无人驾驶汽车中

用来发现停车标志、行人

和自行车的代码，

同样可以用于在组织活检中

找出癌细胞。

全球已经有很多研究者
正在利用这一技术

在医学、机器人学等方面取得了进展。

今天早上，我刚读到一篇文章，

人们在内罗毕国家公园
对动物数量进行普查，

使用了YOLO作为检测系统的一部分。

这是因为暗网是一个开源项目，

在公共领域，任何人都可以免费使用。

（掌声）

但是我们想要让检测器
能被更多人使用、也更好用，

因此通过结合模型优化，

网络二值化和近似法，

我们实际上已经可以
在手机上进行目标检测了。

（掌声）

我真的很激动，
因为我们在这个低级的

计算机视觉问题上
有了一个强大的解决方案，

而且任何人都可以
使用它来做些什么。

所以接下来就看所有在座的各位

以及世界上所有
能够使用这个软件的人了，

而我已经等不及想要看看，
人们会用这一技术造出什么来了。

谢谢。

（掌声）