我们怎么教计算机理解图片?
-
0:04 - 0:06我先来给你们看点东西。
-
0:06 - 0:10(视频)女孩:
好吧,这是只猫,坐在床上。 -
0:10 - 0:14一个男孩摸着一头大象。
-
0:14 - 0:19那些人正准备登机。
-
0:19 - 0:21那是架大飞机。
-
0:21 - 0:24李飞飞:
这是一个三岁的小孩 -
0:24 - 0:27在讲述她从一系列照片里看到的东西。
-
0:27 - 0:30对这个世界,
她也许还有很多要学的东西, -
0:30 - 0:35但在一个重要的任务上,
她已经是专家了: -
0:35 - 0:38去理解她所看到的东西。
-
0:38 - 0:42我们的社会已经在科技上
取得了前所未有的进步。 -
0:42 - 0:46我们把人送上月球,
我们制造出可以与我们对话的手机, -
0:46 - 0:51或者订制一个音乐电台,
播放的全是我们喜欢的音乐。 -
0:51 - 0:55然而,哪怕是我们最先进的机器和电脑
-
0:55 - 0:58也会在这个问题上犯难。
-
0:58 - 1:02所以今天我在这里,
向大家做个进度汇报: -
1:02 - 1:06关于我们在计算机
视觉方面最新的研究进展。 -
1:06 - 1:10这是计算机科学领域最前沿的、
-
1:10 - 1:13具有革命性潜力的科技。
-
1:13 - 1:17是的,我们现在已经有了
具备自动驾驶功能的原型车, -
1:17 - 1:21但是如果没有敏锐的视觉,
它们就不能真正区分出 -
1:21 - 1:25地上摆着的是一个压扁的纸袋,
可以被轻易压过, -
1:25 - 1:29还是一块相同体积的石头,
应该避开。 -
1:29 - 1:33我们已经造出了超高清的相机,
-
1:33 - 1:36但我们仍然无法把
这些画面传递给盲人。 -
1:36 - 1:40我们的无人机可以飞跃广阔的土地,
-
1:40 - 1:42却没有足够的视觉技术
-
1:42 - 1:45去帮我们追踪热带雨林的变化。
-
1:45 - 1:48安全摄像头到处都是,
-
1:48 - 1:53但当有孩子在泳池里溺水时
它们无法向我们报警。 -
1:54 - 2:00照片和视频,已经成为
全人类生活里不可缺少的部分。 -
2:00 - 2:04它们以极快的速度被创造出来,
以至于没有任何人,或者团体, -
2:04 - 2:07能够完全浏览这些内容,
-
2:07 - 2:11而你我正参与其中的这场TED,
也为之添砖加瓦。 -
2:11 - 2:16直到现在,我们最先进的
软件也依然为之犯难: -
2:16 - 2:20该怎么理解和处理
这些数量庞大的内容? -
2:20 - 2:24所以换句话说,
在作为集体的这个社会里, -
2:24 - 2:30我们依然非常茫然,因为我们最智能的机器
依然有视觉上的缺陷。 -
2:32 - 2:34”为什么这么困难?“你也许会问。
-
2:34 - 2:37照相机可以像这样获得照片:
-
2:37 - 2:41它把采集到的光线转换成
二维数字矩阵来存储 -
2:41 - 2:42——也就是“像素”,
-
2:42 - 2:45但这些仍然是死板的数字。
-
2:45 - 2:48它们自身并不携带任何意义。
-
2:48 - 2:52就像”听到“和”听“完全不同,
-
2:52 - 2:57”拍照“和”看“也完全不同。
-
2:57 - 3:00通过“看”,
我们实际上是“理解”了这个画面。 -
3:01 - 3:07事实上,大自然经过了5亿4千万年的努力
-
3:07 - 3:09才完成了这个工作,
-
3:09 - 3:11而这努力中更多的部分
-
3:11 - 3:17是用在进化我们的大脑内
用于视觉处理的器官, -
3:17 - 3:19而不是眼睛本身。
-
3:19 - 3:22所以"视觉”从眼睛采集信息开始,
-
3:22 - 3:26但大脑才是它真正呈现意义的地方。
-
3:26 - 3:31所以15年来,
从我进入加州理工学院攻读Ph.D. -
3:31 - 3:34到后来领导
斯坦福大学的视觉实验室, -
3:34 - 3:39我一直在和我的导师、
合作者和学生们一起 -
3:39 - 3:42教计算机如何去“看”。
-
3:42 - 3:46我们的研究领域叫做
"计算机视觉与机器学习"。 -
3:46 - 3:50这是AI(人工智能)领域的一个分支。
-
3:51 - 3:56最终,我们希望能教会机器
像我们一样看见事物: -
3:56 - 4:02识别物品、辨别不同的人、
推断物体的立体形状、 -
4:02 - 4:08理解事物的关联、
人的情绪、动作和意图。 -
4:08 - 4:16像你我一样,只凝视一个画面一眼
就能理清整个故事中的人物、地点、事件。 -
4:17 - 4:23实现这一目标的第一步是
教计算机看到“对象”(物品), -
4:23 - 4:26这是建造视觉世界的基石。
-
4:26 - 4:30在这个最简单的任务里,
想象一下这个教学过程: -
4:30 - 4:37给计算机看一些特定物品的训练图片,
比如说猫, -
4:37 - 4:41并让它从这些训练图片中,
学习建立出一个模型来。 -
4:41 - 4:43这有多难呢?
-
4:43 - 4:47不管怎么说,一只猫只是一些
形状和颜色拼凑起来的图案罢了, -
4:47 - 4:52比如这个就是我们
最初设计的抽象模型。 -
4:52 - 4:55我们用数学的语言,
告诉计算机这种算法: -
4:55 - 4:59“猫”有着圆脸、胖身子、
-
4:59 - 5:01两个尖尖的耳朵,还有一条长尾巴,
-
5:01 - 5:02这(算法)看上去挺好的。
-
5:03 - 5:05但如果遇到这样的猫呢?
-
5:05 - 5:06(笑)
-
5:06 - 5:07它整个蜷缩起来了。
-
5:07 - 5:12现在你不得不加入一些别的形状和视角
来描述这个物品模型。 -
5:12 - 5:14但如果猫是藏起来的呢?
-
5:15 - 5:18再看看这些傻猫呢?
-
5:19 - 5:22你现在知道了吧。
-
5:22 - 5:25即使那些事物简单到
只是一只家养的宠物, -
5:25 - 5:29都可以出呈现出无限种变化的外观模型,
-
5:29 - 5:32而这还只是“一个”对象的模型。
-
5:33 - 5:35所以大概在8年前,
-
5:35 - 5:40一个非常简单、有冲击力的
观察改变了我的想法。 -
5:41 - 5:44没有人教过婴儿怎么“看”,
-
5:44 - 5:46尤其是在他们还很小的时候。
-
5:46 - 5:51他们是从真实世界的经验
和例子中学到这个的。 -
5:51 - 5:54如果你把孩子的眼睛
-
5:54 - 5:57都看作是生物照相机,
-
5:57 - 6:01那他们每200毫秒就拍一张照。
-
6:01 - 6:04——这是眼球转动一次的平均时间。
-
6:04 - 6:11所以到3岁大的时候,一个孩子已经看过了
上亿张的真实世界照片。 -
6:11 - 6:14这种“训练照片”的数量是非常大的。
-
6:14 - 6:20所以,与其孤立地关注于
算法的优化、再优化, -
6:20 - 6:26我的关注点放在了给算法
提供像那样的训练数据 -
6:26 - 6:32——那些,婴儿们从经验中获得的
质量和数量都极其惊人的训练照片。 -
6:33 - 6:35一旦我们知道了这个,
-
6:35 - 6:38我们就明白自己需要收集的数据集,
-
6:38 - 6:42必须比我们曾有过的任何数据库都丰富
-
6:42 - 6:45——可能要丰富数千倍。
-
6:45 - 6:49因此,通过与普林斯顿大学的
Kai Li教授合作, -
6:49 - 6:54我们在2007年发起了
ImageNet(图片网络)计划。 -
6:54 - 6:59幸运的是,我们不必在自己脑子里
装上一台照相机,然后等它拍很多年。 -
6:59 - 7:01我们运用了互联网,
-
7:01 - 7:05这个由人类创造的
最大的图片宝库。 -
7:05 - 7:08我们下载了接近10亿张图片
-
7:08 - 7:14并利用众包技术(利用互联网分配工作、发现创意或
解决技术问题),像“亚马逊土耳其机器人”这样的平台 -
7:14 - 7:16来帮我们标记这些图片。
-
7:16 - 7:24在高峰期时,ImageNet是「亚马逊土耳其机器人」
这个平台上最大的雇主之一: -
7:24 - 7:32来自世界上167个国家的
接近5万个工作者,在一起工作 -
7:32 - 7:40帮我们筛选、排序、标记了
接近10亿张备选照片。 -
7:40 - 7:43这就是我们为这个计划投入的精力,
-
7:43 - 7:51去捕捉,一个婴儿可能在他早期发育阶段
获取的”一小部分“图像。 -
7:52 - 8:00事后我们再来看,这个利用大数据来训练
计算机算法的思路,也许现在看起来很普通, -
8:00 - 8:04但回到2007年时,它就不那么寻常了。
-
8:04 - 8:08我们在这段旅程上孤独地前行了很久。
-
8:08 - 8:14一些很友善的同事建议我
做一些更有用的事来获得终身教职, -
8:14 - 8:18而且我们也不断地为项目的研究经费发愁。
-
8:18 - 8:20有一次,我甚至对
我的研究生学生开玩笑说: -
8:20 - 8:24我要重新回去开我的干洗店
来赚钱资助ImageNet了。 -
8:24 - 8:29——毕竟,我的大学时光
就是靠这个资助的。 -
8:29 - 8:31所以我们仍然在继续着。
-
8:31 - 8:35在2009年,ImageNet项目诞生了——
-
8:35 - 8:44一个含有1500万张照片的数据库,
涵盖了22000种物品。 -
8:44 - 8:47这些物品是根据日常英语单词
进行分类组织的。 -
8:47 - 8:50无论是在质量上还是数量上,
-
8:50 - 8:53这都是一个规模空前的数据库。
-
8:53 - 8:56举个例子,在"猫"这个对象中,
-
8:56 - 8:59我们有超过62000只猫
-
8:59 - 9:03长相各异,姿势五花八门,
-
9:03 - 9:08而且涵盖了各种品种的家猫和野猫。
-
9:08 - 9:12我们对ImageNet收集到的图片
感到异常兴奋, -
9:12 - 9:15而且我们希望整个研究界能从中受益,
-
9:15 - 9:17所以以一种和TED一样的方式,
-
9:17 - 9:23我们公开了整个数据库,
免费提供给全世界的研究团体。 -
9:23 - 9:28(掌声)
-
9:29 - 9:34那么现在,我们有了用来
培育计算机大脑的数据库, -
9:34 - 9:37我们可以回到”算法“本身上来了。
-
9:37 - 9:47因为ImageNet的横空出世,它提供的信息财富
完美地适用于一些特定类别的机器学习算法, -
9:48 - 9:50称作“卷积神经网络”,
-
9:50 - 9:59最早由Kunihiko Fukushima,Geoff Hinton,
和Yann LeCun在上世纪七八十年代开创。 -
9:59 - 10:05就像大脑是由上十亿的
紧密联结的神经元组成, -
10:05 - 10:11神经网络里最基础的运算单元
也是一个“神经元式”的节点。 -
10:11 - 10:16每个节点从其它节点处获取输入信息,
然后把自己的输出信息再交给另外的节点。 -
10:16 - 10:21此外,这些成千上万、甚至上百万的节点
-
10:21 - 10:24都被按等级分布于不同层次,
-
10:24 - 10:26就像大脑一样。
-
10:26 - 10:31在一个我们用来训练“对象识别模型”的
典型神经网络里, -
10:31 - 10:40有着2400万个节点,1亿4千万个参数,
和150亿个联结。 -
10:40 - 10:43这是一个庞大的模型。
-
10:43 - 10:47借助ImageNet提供的巨大规模数据支持,
-
10:47 - 10:52通过大量最先进的CPU和GPU,
来训练这些堆积如山的模型, -
10:52 - 10:58“卷积神经网络”
以难以想象的方式蓬勃发展起来。 -
10:58 - 11:01它成为了一个成功体系,
-
11:01 - 11:06在对象识别领域,
产生了激动人心的新成果。 -
11:06 - 11:09这张图,是计算机在告诉我们:
-
11:09 - 11:11照片里有一只猫、
-
11:11 - 11:13还有猫所在的位置。
-
11:13 - 11:15当然不止有猫了,
-
11:15 - 11:17所以这是计算机算法在告诉我们
-
11:17 - 11:21照片里有一个男孩,和一个泰迪熊;
-
11:21 - 11:25一只狗,一个人,和背景里的小风筝;
-
11:25 - 11:33或者是一张拍摄于闹市的照片
比如人、滑板、栏杆、灯柱…等等。 -
11:33 - 11:38有时候,如果计算机
不是很确定它看到的是什么, -
11:39 - 11:45我们还教它用足够聪明的方式
给出一个“安全”的答案,而不是“言多必失” -
11:45 - 11:48——就像人类面对这类问题时一样。
-
11:48 - 11:53但在其他时候,我们的计算机
算法厉害到可以告诉我们 -
11:53 - 11:59关于对象的更确切的信息,
比如汽车的品牌、型号、年份。 -
11:59 - 12:04我们在上百万张谷歌街景照片中
应用了这一算法, -
12:04 - 12:07那些照片涵盖了上百个美国城市。
-
12:07 - 12:10我们从中发现一些有趣的事:
-
12:10 - 12:14首先,它证实了我们的一些常识:
-
12:14 - 12:19汽车的价格,与家庭收入
呈现出明显的正相关。 -
12:19 - 12:26但令人惊奇的是,汽车价格与犯罪率
也呈现出明显的正相关性, -
12:26 - 12:32以上结论是基于城市、或投票的
邮编区域进行分析的结果。 -
12:32 - 12:34那么等一下,这就是全部成果了吗?
-
12:34 - 12:39计算机是不是已经达到,
或者甚至超过了人类的能力? -
12:39 - 12:41——还没有那么快。
-
12:41 - 12:46目前为止,我们还只是
教会了计算机去看对象。 -
12:46 - 12:51这就像是一个小宝宝学会说出几个名词。
-
12:51 - 12:54这是一项难以置信的成就,
-
12:54 - 12:56但这还只是第一步。
-
12:56 - 13:00很快,我们就会到达
发展历程的另一个里程碑: -
13:00 - 13:03这个小孩会开始用“句子”进行交流。
-
13:03 - 13:08所以不止是说这张图里有只“猫”,
-
13:08 - 13:13你在开头已经听到小妹妹
告诉我们“这只猫是坐在床上的”。 -
13:13 - 13:18为了教计算机看懂图片并生成句子,
-
13:18 - 13:24“大数据”和“机器学习算法”的结合
需要更进一步。 -
13:24 - 13:34现在,计算机需要从图片和人类创造的
自然语言句子中同时进行学习。 -
13:35 - 13:39就像我们的大脑,
把视觉现象和语言融合在一起, -
13:39 - 13:41我们开发了一个模型,
-
13:41 - 13:51可以把一部分视觉信息,像视觉片段,
与语句中的文字、短语联系起来。 -
13:51 - 13:55大约4个月前,
我们最终把所有技术结合在了一起, -
13:55 - 13:59创造了第一个“计算机视觉模型”,
-
13:59 - 14:07它在看到图片的第一时间,就有能力生成
类似人类语言的句子。 -
14:07 - 14:13现在,我准备给你们看看
计算机看到图片时会说些什么 -
14:13 - 14:17——还是那些在演讲开头给小女孩看的图片。
-
14:19 - 14:22(视频)计算机:
“一个男人站在一头大象旁边。” -
14:24 - 14:28“一架大飞机停在机场跑道一端。”
-
14:29 - 14:33李飞飞:
当然,我们还在努力改善我们的算法, -
14:33 - 14:35它还有很多要学的东西。
-
14:35 - 14:39(掌声)
-
14:39 - 14:42计算机还是会犯很多错误的。
-
14:42 - 14:46(视频)计算机:
“一只猫躺在床上的毯子上。” -
14:46 - 14:52李飞飞:所以…当然——如果它看过太多种的猫,
它就会觉得什么东西都长得像猫…… -
14:53 - 14:56(视频)计算机:
“一个小男孩拿着一根棒球棍。” -
14:56 - 14:58(笑声)
-
14:58 - 15:03李飞飞:或者…如果它从没见过牙刷,
它就分不清牙刷和棒球棍的区别。 -
15:03 - 15:07(视频)计算机:
“建筑旁的街道上有一个男人骑马经过。” -
15:07 - 15:08(笑声)
-
15:08 - 15:12李飞飞:我们还没教它Art 101
(美国大学艺术基础课)。 -
15:13 - 15:16(视频)计算机:
“一只斑马站在一片草原上。” -
15:16 - 15:22李飞飞:它还没学会像你我一样
欣赏大自然里的绝美景色。 -
15:22 - 15:25所以,这是一条漫长的道路。
-
15:25 - 15:29将一个孩子从出生培养到3岁是很辛苦的。
-
15:29 - 15:35而真正的挑战是从3岁到13岁的过程中,
而且远远不止于此。 -
15:35 - 15:39让我再给你们看看这张
关于小男孩和蛋糕的图。 -
15:39 - 15:44目前为止,
我们已经教会计算机“看”对象, -
15:44 - 15:48或者甚至基于图片,
告诉我们一个简单的故事。 -
15:48 - 15:51(视频)计算机:
”一个人坐在放蛋糕的桌子旁。“ -
15:51 - 15:56李飞飞:但图片里还有更多信息
——远不止一个人和一个蛋糕。 -
15:56 - 16:01计算机无法理解的是:
这是一个特殊的意大利蛋糕, -
16:01 - 16:04它只在复活节限时供应。
-
16:04 - 16:07而这个男孩穿着的
是他最喜欢的T恤衫, -
16:07 - 16:11那是他父亲去悉尼旅行时
带给他的礼物。 -
16:11 - 16:18另外,你和我都能清楚地看出,
这个小孩有多高兴,以及这一刻在想什么。 -
16:19 - 16:22这是我的儿子Leo。
-
16:22 - 16:25在我探索视觉智能的道路上,
-
16:25 - 16:30我不断地想到Leo
和他未来将要生活的那个世界。 -
16:30 - 16:32当机器可以“看到”的时候,
-
16:32 - 16:37医生和护士会获得一双额外的、
不知疲倦的眼睛, -
16:37 - 16:41帮他们诊断病情、照顾病人。
-
16:41 - 16:45汽车可以在道路上行驶得
更智能、更安全。 -
16:45 - 16:48机器人,而不只是人类,
-
16:48 - 16:53会帮我们救助灾区被困和受伤的人员。
-
16:53 - 16:57我们会发现新的物种、更好的材料,
-
16:57 - 17:02还可以在机器的帮助下
探索从未见到过的前沿地带。 -
17:03 - 17:07一点一点地,
我们正在赋予机器以视力。 -
17:07 - 17:10首先,我们教它们去“看”。
-
17:10 - 17:13然后,它们反过来也帮助我们,
让我们看得更清楚。 -
17:13 - 17:20这是第一次,人类的眼睛不再
独自地思考和探索我们的世界。 -
17:20 - 17:23我们将不止是“使用”机器的智力,
-
17:23 - 17:29我们还要以一种从未想象过的方式,
与它们“合作”。 -
17:29 - 17:32我所追求的是:
-
17:32 - 17:34赋予计算机视觉智能,
-
17:34 - 17:39并为Leo和这个世界,
创造出更美好的未来。 -
17:39 - 17:41谢谢。
-
17:41 - 17:45(掌声)
- Title:
- 我们怎么教计算机理解图片?
- Speaker:
- 李飞飞
- Description:
-
当一个非常小的孩子看到图片时,她可以辨认出里面简单的要素:"猫""书""椅子"。现在,电脑也聪明得可以做同样的工作了。接下来呢?在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状——包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库——而关键性的要点还不止于此。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Yolanda Zhang approved Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures | ||
Yolanda Zhang edited Chinese, Simplified subtitles for How we're teaching computers to understand pictures |