Return to Video

我们怎么教计算机理解图片?

  • 0:04 - 0:06
    我先来给你们看点东西。
  • 0:06 - 0:10
    (视频)女孩:
    好吧,这是只猫,坐在床上。
  • 0:10 - 0:14
    一个男孩摸着一头大象。
  • 0:14 - 0:19
    那些人正准备登机。
  • 0:19 - 0:21
    那是架大飞机。
  • 0:21 - 0:24
    李飞飞:
    这是一个三岁的小孩
  • 0:24 - 0:27
    在讲述她从一系列照片里看到的东西。
  • 0:27 - 0:30
    对这个世界,
    她也许还有很多要学的东西,
  • 0:30 - 0:35
    但在一个重要的任务上,
    她已经是专家了:
  • 0:35 - 0:38
    去理解她所看到的东西。
  • 0:38 - 0:42
    我们的社会已经在科技上
    取得了前所未有的进步。
  • 0:42 - 0:46
    我们把人送上月球,
    我们制造出可以与我们对话的手机,
  • 0:46 - 0:51
    或者订制一个音乐电台,
    播放的全是我们喜欢的音乐。
  • 0:51 - 0:55
    然而,哪怕是我们最先进的机器和电脑
  • 0:55 - 0:58
    也会在这个问题上犯难。
  • 0:58 - 1:02
    所以今天我在这里,
    向大家做个进度汇报:
  • 1:02 - 1:06
    关于我们在计算机
    视觉方面最新的研究进展。
  • 1:06 - 1:10
    这是计算机科学领域最前沿的、
  • 1:10 - 1:13
    具有革命性潜力的科技。
  • 1:13 - 1:17
    是的,我们现在已经有了
    具备自动驾驶功能的原型车,
  • 1:17 - 1:21
    但是如果没有敏锐的视觉,
    它们就不能真正区分出
  • 1:21 - 1:25
    地上摆着的是一个压扁的纸袋,
    可以被轻易压过,
  • 1:25 - 1:29
    还是一块相同体积的石头,
    应该避开。
  • 1:29 - 1:33
    我们已经造出了超高清的相机,
  • 1:33 - 1:36
    但我们仍然无法把
    这些画面传递给盲人。
  • 1:36 - 1:40
    我们的无人机可以飞跃广阔的土地,
  • 1:40 - 1:42
    却没有足够的视觉技术
  • 1:42 - 1:45
    去帮我们追踪热带雨林的变化。
  • 1:45 - 1:48
    安全摄像头到处都是,
  • 1:48 - 1:53
    但当有孩子在泳池里溺水时
    它们无法向我们报警。
  • 1:54 - 2:00
    照片和视频,已经成为
    全人类生活里不可缺少的部分。
  • 2:00 - 2:04
    它们以极快的速度被创造出来,
    以至于没有任何人,或者团体,
  • 2:04 - 2:07
    能够完全浏览这些内容,
  • 2:07 - 2:11
    而你我正参与其中的这场TED,
    也为之添砖加瓦。
  • 2:11 - 2:16
    直到现在,我们最先进的
    软件也依然为之犯难:
  • 2:16 - 2:20
    该怎么理解和处理
    这些数量庞大的内容?
  • 2:20 - 2:24
    所以换句话说,
    在作为集体的这个社会里,
  • 2:24 - 2:30
    我们依然非常茫然,因为我们最智能的机器
    依然有视觉上的缺陷。
  • 2:32 - 2:34
    ”为什么这么困难?“你也许会问。
  • 2:34 - 2:37
    照相机可以像这样获得照片:
  • 2:37 - 2:41
    它把采集到的光线转换成
    二维数字矩阵来存储
  • 2:41 - 2:42
    ——也就是“像素”,
  • 2:42 - 2:45
    但这些仍然是死板的数字。
  • 2:45 - 2:48
    它们自身并不携带任何意义。
  • 2:48 - 2:52
    就像”听到“和”听“完全不同,
  • 2:52 - 2:57
    ”拍照“和”看“也完全不同。
  • 2:57 - 3:00
    通过“看”,
    我们实际上是“理解”了这个画面。
  • 3:01 - 3:07
    事实上,大自然经过了5亿4千万年的努力
  • 3:07 - 3:09
    才完成了这个工作,
  • 3:09 - 3:11
    而这努力中更多的部分
  • 3:11 - 3:17
    是用在进化我们的大脑内
    用于视觉处理的器官,
  • 3:17 - 3:19
    而不是眼睛本身。
  • 3:19 - 3:22
    所以"视觉”从眼睛采集信息开始,
  • 3:22 - 3:26
    但大脑才是它真正呈现意义的地方。
  • 3:26 - 3:31
    所以15年来,
    从我进入加州理工学院攻读Ph.D.
  • 3:31 - 3:34
    到后来领导
    斯坦福大学的视觉实验室,
  • 3:34 - 3:39
    我一直在和我的导师、
    合作者和学生们一起
  • 3:39 - 3:42
    教计算机如何去“看”。
  • 3:42 - 3:46
    我们的研究领域叫做
    "计算机视觉与机器学习"。
  • 3:46 - 3:50
    这是AI(人工智能)领域的一个分支。
  • 3:51 - 3:56
    最终,我们希望能教会机器
    像我们一样看见事物:
  • 3:56 - 4:02
    识别物品、辨别不同的人、
    推断物体的立体形状、
  • 4:02 - 4:08
    理解事物的关联、
    人的情绪、动作和意图。
  • 4:08 - 4:16
    像你我一样,只凝视一个画面一眼
    就能理清整个故事中的人物、地点、事件。
  • 4:17 - 4:23
    实现这一目标的第一步是
    教计算机看到“对象”(物品),
  • 4:23 - 4:26
    这是建造视觉世界的基石。
  • 4:26 - 4:30
    在这个最简单的任务里,
    想象一下这个教学过程:
  • 4:30 - 4:37
    给计算机看一些特定物品的训练图片,
    比如说猫,
  • 4:37 - 4:41
    并让它从这些训练图片中,
    学习建立出一个模型来。
  • 4:41 - 4:43
    这有多难呢?
  • 4:43 - 4:47
    不管怎么说,一只猫只是一些
    形状和颜色拼凑起来的图案罢了,
  • 4:47 - 4:52
    比如这个就是我们
    最初设计的抽象模型。
  • 4:52 - 4:55
    我们用数学的语言,
    告诉计算机这种算法:
  • 4:55 - 4:59
    “猫”有着圆脸、胖身子、
  • 4:59 - 5:01
    两个尖尖的耳朵,还有一条长尾巴,
  • 5:01 - 5:02
    这(算法)看上去挺好的。
  • 5:03 - 5:05
    但如果遇到这样的猫呢?
  • 5:05 - 5:06
    (笑)
  • 5:06 - 5:07
    它整个蜷缩起来了。
  • 5:07 - 5:12
    现在你不得不加入一些别的形状和视角
    来描述这个物品模型。
  • 5:12 - 5:14
    但如果猫是藏起来的呢?
  • 5:15 - 5:18
    再看看这些傻猫呢?
  • 5:19 - 5:22
    你现在知道了吧。
  • 5:22 - 5:25
    即使那些事物简单到
    只是一只家养的宠物,
  • 5:25 - 5:29
    都可以出呈现出无限种变化的外观模型,
  • 5:29 - 5:32
    而这还只是“一个”对象的模型。
  • 5:33 - 5:35
    所以大概在8年前,
  • 5:35 - 5:40
    一个非常简单、有冲击力的
    观察改变了我的想法。
  • 5:41 - 5:44
    没有人教过婴儿怎么“看”,
  • 5:44 - 5:46
    尤其是在他们还很小的时候。
  • 5:46 - 5:51
    他们是从真实世界的经验
    和例子中学到这个的。
  • 5:51 - 5:54
    如果你把孩子的眼睛
  • 5:54 - 5:57
    都看作是生物照相机,
  • 5:57 - 6:01
    那他们每200毫秒就拍一张照。
  • 6:01 - 6:04
    ——这是眼球转动一次的平均时间。
  • 6:04 - 6:11
    所以到3岁大的时候,一个孩子已经看过了
    上亿张的真实世界照片。
  • 6:11 - 6:14
    这种“训练照片”的数量是非常大的。
  • 6:14 - 6:20
    所以,与其孤立地关注于
    算法的优化、再优化,
  • 6:20 - 6:26
    我的关注点放在了给算法
    提供像那样的训练数据
  • 6:26 - 6:32
    ——那些,婴儿们从经验中获得的
    质量和数量都极其惊人的训练照片。
  • 6:33 - 6:35
    一旦我们知道了这个,
  • 6:35 - 6:38
    我们就明白自己需要收集的数据集,
  • 6:38 - 6:42
    必须比我们曾有过的任何数据库都丰富
  • 6:42 - 6:45
    ——可能要丰富数千倍。
  • 6:45 - 6:49
    因此,通过与普林斯顿大学的
    Kai Li教授合作,
  • 6:49 - 6:54
    我们在2007年发起了
    ImageNet(图片网络)计划。
  • 6:54 - 6:59
    幸运的是,我们不必在自己脑子里
    装上一台照相机,然后等它拍很多年。
  • 6:59 - 7:01
    我们运用了互联网,
  • 7:01 - 7:05
    这个由人类创造的
    最大的图片宝库。
  • 7:05 - 7:08
    我们下载了接近10亿张图片
  • 7:08 - 7:14
    并利用众包技术(利用互联网分配工作、发现创意或
    解决技术问题),像“亚马逊土耳其机器人”这样的平台
  • 7:14 - 7:16
    来帮我们标记这些图片。
  • 7:16 - 7:24
    在高峰期时,ImageNet是「亚马逊土耳其机器人」
    这个平台上最大的雇主之一:
  • 7:24 - 7:32
    来自世界上167个国家的
    接近5万个工作者,在一起工作
  • 7:32 - 7:40
    帮我们筛选、排序、标记了
    接近10亿张备选照片。
  • 7:40 - 7:43
    这就是我们为这个计划投入的精力,
  • 7:43 - 7:51
    去捕捉,一个婴儿可能在他早期发育阶段
    获取的”一小部分“图像。
  • 7:52 - 8:00
    事后我们再来看,这个利用大数据来训练
    计算机算法的思路,也许现在看起来很普通,
  • 8:00 - 8:04
    但回到2007年时,它就不那么寻常了。
  • 8:04 - 8:08
    我们在这段旅程上孤独地前行了很久。
  • 8:08 - 8:14
    一些很友善的同事建议我
    做一些更有用的事来获得终身教职,
  • 8:14 - 8:18
    而且我们也不断地为项目的研究经费发愁。
  • 8:18 - 8:20
    有一次,我甚至对
    我的研究生学生开玩笑说:
  • 8:20 - 8:24
    我要重新回去开我的干洗店
    来赚钱资助ImageNet了。
  • 8:24 - 8:29
    ——毕竟,我的大学时光
    就是靠这个资助的。
  • 8:29 - 8:31
    所以我们仍然在继续着。
  • 8:31 - 8:35
    在2009年,ImageNet项目诞生了——
  • 8:35 - 8:44
    一个含有1500万张照片的数据库,
    涵盖了22000种物品。
  • 8:44 - 8:47
    这些物品是根据日常英语单词
    进行分类组织的。
  • 8:47 - 8:50
    无论是在质量上还是数量上,
  • 8:50 - 8:53
    这都是一个规模空前的数据库。
  • 8:53 - 8:56
    举个例子,在"猫"这个对象中,
  • 8:56 - 8:59
    我们有超过62000只猫
  • 8:59 - 9:03
    长相各异,姿势五花八门,
  • 9:03 - 9:08
    而且涵盖了各种品种的家猫和野猫。
  • 9:08 - 9:12
    我们对ImageNet收集到的图片
    感到异常兴奋,
  • 9:12 - 9:15
    而且我们希望整个研究界能从中受益,
  • 9:15 - 9:17
    所以以一种和TED一样的方式,
  • 9:17 - 9:23
    我们公开了整个数据库,
    免费提供给全世界的研究团体。
  • 9:23 - 9:28
    (掌声)
  • 9:29 - 9:34
    那么现在,我们有了用来
    培育计算机大脑的数据库,
  • 9:34 - 9:37
    我们可以回到”算法“本身上来了。
  • 9:37 - 9:47
    因为ImageNet的横空出世,它提供的信息财富
    完美地适用于一些特定类别的机器学习算法,
  • 9:48 - 9:50
    称作“卷积神经网络”,
  • 9:50 - 9:59
    最早由Kunihiko Fukushima,Geoff Hinton,
    和Yann LeCun在上世纪七八十年代开创。
  • 9:59 - 10:05
    就像大脑是由上十亿的
    紧密联结的神经元组成,
  • 10:05 - 10:11
    神经网络里最基础的运算单元
    也是一个“神经元式”的节点。
  • 10:11 - 10:16
    每个节点从其它节点处获取输入信息,
    然后把自己的输出信息再交给另外的节点。
  • 10:16 - 10:21
    此外,这些成千上万、甚至上百万的节点
  • 10:21 - 10:24
    都被按等级分布于不同层次,
  • 10:24 - 10:26
    就像大脑一样。
  • 10:26 - 10:31
    在一个我们用来训练“对象识别模型”的
    典型神经网络里,
  • 10:31 - 10:40
    有着2400万个节点,1亿4千万个参数,
    和150亿个联结。
  • 10:40 - 10:43
    这是一个庞大的模型。
  • 10:43 - 10:47
    借助ImageNet提供的巨大规模数据支持,
  • 10:47 - 10:52
    通过大量最先进的CPU和GPU,
    来训练这些堆积如山的模型,
  • 10:52 - 10:58
    “卷积神经网络”
    以难以想象的方式蓬勃发展起来。
  • 10:58 - 11:01
    它成为了一个成功体系,
  • 11:01 - 11:06
    在对象识别领域,
    产生了激动人心的新成果。
  • 11:06 - 11:09
    这张图,是计算机在告诉我们:
  • 11:09 - 11:11
    照片里有一只猫、
  • 11:11 - 11:13
    还有猫所在的位置。
  • 11:13 - 11:15
    当然不止有猫了,
  • 11:15 - 11:17
    所以这是计算机算法在告诉我们
  • 11:17 - 11:21
    照片里有一个男孩,和一个泰迪熊;
  • 11:21 - 11:25
    一只狗,一个人,和背景里的小风筝;
  • 11:25 - 11:33
    或者是一张拍摄于闹市的照片
    比如人、滑板、栏杆、灯柱…等等。
  • 11:33 - 11:38
    有时候,如果计算机
    不是很确定它看到的是什么,
  • 11:39 - 11:45
    我们还教它用足够聪明的方式
    给出一个“安全”的答案,而不是“言多必失”
  • 11:45 - 11:48
    ——就像人类面对这类问题时一样。
  • 11:48 - 11:53
    但在其他时候,我们的计算机
    算法厉害到可以告诉我们
  • 11:53 - 11:59
    关于对象的更确切的信息,
    比如汽车的品牌、型号、年份。
  • 11:59 - 12:04
    我们在上百万张谷歌街景照片中
    应用了这一算法,
  • 12:04 - 12:07
    那些照片涵盖了上百个美国城市。
  • 12:07 - 12:10
    我们从中发现一些有趣的事:
  • 12:10 - 12:14
    首先,它证实了我们的一些常识:
  • 12:14 - 12:19
    汽车的价格,与家庭收入
    呈现出明显的正相关。
  • 12:19 - 12:26
    但令人惊奇的是,汽车价格与犯罪率
    也呈现出明显的正相关性,
  • 12:26 - 12:32
    以上结论是基于城市、或投票的
    邮编区域进行分析的结果。
  • 12:32 - 12:34
    那么等一下,这就是全部成果了吗?
  • 12:34 - 12:39
    计算机是不是已经达到,
    或者甚至超过了人类的能力?
  • 12:39 - 12:41
    ——还没有那么快。
  • 12:41 - 12:46
    目前为止,我们还只是
    教会了计算机去看对象。
  • 12:46 - 12:51
    这就像是一个小宝宝学会说出几个名词。
  • 12:51 - 12:54
    这是一项难以置信的成就,
  • 12:54 - 12:56
    但这还只是第一步。
  • 12:56 - 13:00
    很快,我们就会到达
    发展历程的另一个里程碑:
  • 13:00 - 13:03
    这个小孩会开始用“句子”进行交流。
  • 13:03 - 13:08
    所以不止是说这张图里有只“猫”,
  • 13:08 - 13:13
    你在开头已经听到小妹妹
    告诉我们“这只猫是坐在床上的”。
  • 13:13 - 13:18
    为了教计算机看懂图片并生成句子,
  • 13:18 - 13:24
    “大数据”和“机器学习算法”的结合
    需要更进一步。
  • 13:24 - 13:34
    现在,计算机需要从图片和人类创造的
    自然语言句子中同时进行学习。
  • 13:35 - 13:39
    就像我们的大脑,
    把视觉现象和语言融合在一起,
  • 13:39 - 13:41
    我们开发了一个模型,
  • 13:41 - 13:51
    可以把一部分视觉信息,像视觉片段,
    与语句中的文字、短语联系起来。
  • 13:51 - 13:55
    大约4个月前,
    我们最终把所有技术结合在了一起,
  • 13:55 - 13:59
    创造了第一个“计算机视觉模型”,
  • 13:59 - 14:07
    它在看到图片的第一时间,就有能力生成
    类似人类语言的句子。
  • 14:07 - 14:13
    现在,我准备给你们看看
    计算机看到图片时会说些什么
  • 14:13 - 14:17
    ——还是那些在演讲开头给小女孩看的图片。
  • 14:19 - 14:22
    (视频)计算机:
    “一个男人站在一头大象旁边。”
  • 14:24 - 14:28
    “一架大飞机停在机场跑道一端。”
  • 14:29 - 14:33
    李飞飞:
    当然,我们还在努力改善我们的算法,
  • 14:33 - 14:35
    它还有很多要学的东西。
  • 14:35 - 14:39
    (掌声)
  • 14:39 - 14:42
    计算机还是会犯很多错误的。
  • 14:42 - 14:46
    (视频)计算机:
    “一只猫躺在床上的毯子上。”
  • 14:46 - 14:52
    李飞飞:所以…当然——如果它看过太多种的猫,
    它就会觉得什么东西都长得像猫……
  • 14:53 - 14:56
    (视频)计算机:
    “一个小男孩拿着一根棒球棍。”
  • 14:56 - 14:58
    (笑声)
  • 14:58 - 15:03
    李飞飞:或者…如果它从没见过牙刷,
    它就分不清牙刷和棒球棍的区别。
  • 15:03 - 15:07
    (视频)计算机:
    “建筑旁的街道上有一个男人骑马经过。”
  • 15:07 - 15:08
    (笑声)
  • 15:08 - 15:12
    李飞飞:我们还没教它Art 101
    (美国大学艺术基础课)。
  • 15:13 - 15:16
    (视频)计算机:
    “一只斑马站在一片草原上。”
  • 15:16 - 15:22
    李飞飞:它还没学会像你我一样
    欣赏大自然里的绝美景色。
  • 15:22 - 15:25
    所以,这是一条漫长的道路。
  • 15:25 - 15:29
    将一个孩子从出生培养到3岁是很辛苦的。
  • 15:29 - 15:35
    而真正的挑战是从3岁到13岁的过程中,
    而且远远不止于此。
  • 15:35 - 15:39
    让我再给你们看看这张
    关于小男孩和蛋糕的图。
  • 15:39 - 15:44
    目前为止,
    我们已经教会计算机“看”对象,
  • 15:44 - 15:48
    或者甚至基于图片,
    告诉我们一个简单的故事。
  • 15:48 - 15:51
    (视频)计算机:
    ”一个人坐在放蛋糕的桌子旁。“
  • 15:51 - 15:56
    李飞飞:但图片里还有更多信息
    ——远不止一个人和一个蛋糕。
  • 15:56 - 16:01
    计算机无法理解的是:
    这是一个特殊的意大利蛋糕,
  • 16:01 - 16:04
    它只在复活节限时供应。
  • 16:04 - 16:07
    而这个男孩穿着的
    是他最喜欢的T恤衫,
  • 16:07 - 16:11
    那是他父亲去悉尼旅行时
    带给他的礼物。
  • 16:11 - 16:18
    另外,你和我都能清楚地看出,
    这个小孩有多高兴,以及这一刻在想什么。
  • 16:19 - 16:22
    这是我的儿子Leo。
  • 16:22 - 16:25
    在我探索视觉智能的道路上,
  • 16:25 - 16:30
    我不断地想到Leo
    和他未来将要生活的那个世界。
  • 16:30 - 16:32
    当机器可以“看到”的时候,
  • 16:32 - 16:37
    医生和护士会获得一双额外的、
    不知疲倦的眼睛,
  • 16:37 - 16:41
    帮他们诊断病情、照顾病人。
  • 16:41 - 16:45
    汽车可以在道路上行驶得
    更智能、更安全。
  • 16:45 - 16:48
    机器人,而不只是人类,
  • 16:48 - 16:53
    会帮我们救助灾区被困和受伤的人员。
  • 16:53 - 16:57
    我们会发现新的物种、更好的材料,
  • 16:57 - 17:02
    还可以在机器的帮助下
    探索从未见到过的前沿地带。
  • 17:03 - 17:07
    一点一点地,
    我们正在赋予机器以视力。
  • 17:07 - 17:10
    首先,我们教它们去“看”。
  • 17:10 - 17:13
    然后,它们反过来也帮助我们,
    让我们看得更清楚。
  • 17:13 - 17:20
    这是第一次,人类的眼睛不再
    独自地思考和探索我们的世界。
  • 17:20 - 17:23
    我们将不止是“使用”机器的智力,
  • 17:23 - 17:29
    我们还要以一种从未想象过的方式,
    与它们“合作”。
  • 17:29 - 17:32
    我所追求的是:
  • 17:32 - 17:34
    赋予计算机视觉智能,
  • 17:34 - 17:39
    并为Leo和这个世界,
    创造出更美好的未来。
  • 17:39 - 17:41
    谢谢。
  • 17:41 - 17:45
    (掌声)
Title:
我们怎么教计算机理解图片?
Speaker:
李飞飞
Description:

当一个非常小的孩子看到图片时,她可以辨认出里面简单的要素:"猫""书""椅子"。现在,电脑也聪明得可以做同样的工作了。接下来呢?在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状——包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库——而关键性的要点还不止于此。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Chinese, Simplified subtitles

Revisions