Return to Video

揭示物体隐藏属性的视频新技术

  • 0:01 - 0:05
    大部分人认为
    动作是明显可见的。
  • 0:06 - 0:11
    比如我走过这个舞台,
    或者边做手势边说话,
  • 0:11 - 0:13
    这些动作都能被大家看到。
  • 0:14 - 0:20
    但还有很多重要的动作
    肉眼很难察觉到,
  • 0:20 - 0:22
    在过去几年中,
  • 0:22 - 0:24
    我们致力于寻找某种摄像机
  • 0:24 - 0:27
    可以捕捉到人眼看不到的运动。
  • 0:28 - 0:30
    请看大屏幕。
  • 0:31 - 0:34
    左边是一个人的手腕,
  • 0:34 - 0:37
    右边是一个熟睡的婴儿,
  • 0:37 - 0:41
    但是如果我不告诉你们这是一段视频,
  • 0:41 - 0:44
    你们可能会认为
    这只是两张普通的图片,
  • 0:44 - 0:46
    因为乍一看,
  • 0:46 - 0:49
    这两段视频几乎是完全静止的。
  • 0:50 - 0:54
    但实际上,画面中
    有许多细微的运动变化,
  • 0:54 - 0:56
    如果你能碰到左边的那个手腕,
  • 0:56 - 0:58
    你会感受到脉搏的跳动,
  • 0:58 - 1:01
    如果你抱起右边的婴儿,
  • 1:01 - 1:03
    你能感受到她胸腔的起伏,
  • 1:03 - 1:05
    感受到她的每一次呼吸。
  • 1:06 - 1:09
    这些动作都很重要,
  • 1:09 - 1:13
    但由于过于细微,
    很难被我们察觉,
  • 1:13 - 1:15
    要想感受到这些动作的存在
  • 1:15 - 1:18
    只能通过直接接触。
  • 1:19 - 1:20
    然而几年前,
  • 1:20 - 1:25
    我在麻省理工学院的同事们
    开发出了一种被称为“动作显微镜”的软件,
  • 1:25 - 1:29
    能够发现视频中细微的运动,
  • 1:29 - 1:33
    并将其放大到肉眼可见的级别。
  • 1:33 - 1:37
    如果我们运用这一软件分析左边的视频,
  • 1:37 - 1:40
    我们就能看到手腕上的脉搏跳动,
  • 1:40 - 1:42
    通过计算脉搏数量,
  • 1:42 - 1:44
    就能得知这个人的心率。
  • 1:45 - 1:48
    而用这一软件分析右边的视频,
  • 1:48 - 1:51
    我们就能看清婴儿的每一次呼吸,
  • 1:51 - 1:56
    不需要触碰就能监控她的呼吸。
  • 1:57 - 2:02
    这项技术非常强大,
    因为它能帮助我们看到
  • 2:02 - 2:05
    原本要靠触觉才能感受到的东西,
  • 2:05 - 2:08
    并且这一过程是可见和无创的。
  • 2:09 - 2:14
    因此在几年前,我开始
    与这个软件的编写者们一起工作,
  • 2:14 - 2:17
    我们产生了一个疯狂的想法。
  • 2:17 - 2:20
    我们觉得,运用软件将细微的动作
  • 2:20 - 2:23
    可视化的这个点子非常酷,
  • 2:23 - 2:27
    你甚至可以把它当做拓展
    人类触觉感官的好方法。
  • 2:27 - 2:31
    那如果我们能用相同的方法
    来增强我们的听觉呢?
  • 2:33 - 2:37
    如果我们能通过视频捕捉到声音的振动,
  • 2:37 - 2:40
    声音的振动实际上也是一种运动,
  • 2:40 - 2:43
    将“看到”的东西录入麦克风呢?
  • 2:44 - 2:46
    也许听起来有点不太好理解,
  • 2:46 - 2:49
    我试着为大家解释一下。
  • 2:50 - 2:53
    传统麦克风的工作原理
  • 2:53 - 2:57
    是将其内部薄膜的振动转换成电信号,
  • 2:57 - 3:01
    这个薄膜极易随声音振动,
  • 3:01 - 3:06
    这个振动可以被记录下来
    并还原成声音。
  • 3:06 - 3:09
    而声音事实上可以
    引起任何物体的振动。
  • 3:09 - 3:15
    只不过这种振动对我们而言
    通常很细微而且转瞬即逝。
  • 3:15 - 3:19
    但如果我们用高速摄影机
    将这种振动录下来,
  • 3:19 - 3:22
    并通过软件从这些高速视频中
  • 3:22 - 3:24
    提取出这些细小的振动,
  • 3:24 - 3:29
    然后分析这些振动来
    弄清声音的来源,会怎么样呢?
  • 3:30 - 3:35
    这样一来我们可以将远处的
    可见物体转化为可视化麦克风。
  • 3:37 - 3:39
    我们进行了各种尝试,
  • 3:39 - 3:41
    以下是我们的试验之一,
  • 3:41 - 3:44
    右边是一株盆栽植物,
  • 3:44 - 3:47
    我们用高速摄影机拍下它,
  • 3:47 - 3:50
    同时旁边的音箱在播放这个声音。
  • 3:50 - 3:58
    (音乐:玛丽有一只小羊羔)
  • 4:00 - 4:03
    这是我们录下的视频,
  • 4:03 - 4:07
    用的是每秒数千帧的速度,
  • 4:07 - 4:09
    但即使你凑得非常近,
  • 4:09 - 4:11
    也只能看到一些叶子
  • 4:11 - 4:14
    静静地呆在那儿,一动不动,
  • 4:14 - 4:19
    因为刚才的音乐
    只能让叶子移动一微米,
  • 4:19 - 4:23
    也就是一厘米的万分之一,
  • 4:23 - 4:28
    只占这幅图像中一个像素的
  • 4:28 - 4:30
    百分之一到千分之一。
  • 4:30 - 4:33
    你大可以眯着眼使劲儿看,
  • 4:33 - 4:37
    但如此细微的运动
    从感官上来说是不可见的。
  • 4:38 - 4:42
    但事实证明感官上不可见的东西
  • 4:42 - 4:45
    在数值上可能很惊人,
  • 4:45 - 4:47
    因为通过正确的算法,
  • 4:47 - 4:50
    我们就可以从这段无声的
    看似静止的视频中
  • 4:50 - 4:52
    还原出这段声音。
  • 4:53 - 5:00
    (音乐:玛丽有一只小羊羔)
  • 5:00 - 5:09
    (掌声)
  • 5:10 - 5:12
    这怎么可能呢?
  • 5:12 - 5:16
    我们怎么能从如此细小的运动中
    得到如此丰富的信息?
  • 5:16 - 5:22
    我们必须承认这些叶子
    只移动了一微米,
  • 5:22 - 5:26
    只改变了图像中一个像素的千分之一。
  • 5:27 - 5:30
    看起来很微不足道,
  • 5:30 - 5:32
    但是视频中的每一帧
  • 5:32 - 5:35
    都包含数以万计的像素,
  • 5:35 - 5:39
    当我们将整幅画面中
    所有细微的运动
  • 5:39 - 5:41
    组合在一起来看的时候,
  • 5:41 - 5:43
    无数个千分之一像素聚在一起
  • 5:43 - 5:46
    就能组合出有十分意义的信息。
  • 5:47 - 5:51
    老实说,当我们想通
    这一点的时候真是乐疯了。
  • 5:51 - 5:53
    (笑声)
  • 5:53 - 5:56
    但是,即便运用正确的算法
  • 5:56 - 6:00
    我们还是会丢失掉很多重要的信息。
  • 6:00 - 6:03
    这项技术能否成功
  • 6:03 - 6:05
    取决于很多因素。
  • 6:05 - 6:08
    比如目标物体的距离;
  • 6:08 - 6:11
    摄影机和镜头的选用;
  • 6:11 - 6:15
    光线是否充足,
    声音是否够大等等。
  • 6:16 - 6:19
    因此,即便我们的算法正确,
  • 6:19 - 6:23
    在早期试验中
    我们还是得万分谨慎,
  • 6:23 - 6:25
    因为一着不慎,满盘皆输,
  • 6:25 - 6:27
    得不到有用的信息,
    也查不出原因。
  • 6:27 - 6:30
    还原出来的只有噪音。
  • 6:30 - 6:33
    初期的试验场景是这样的。
  • 6:33 - 6:36
    左边的是我,
  • 6:36 - 6:40
    左下角是我们的高速摄影机,
  • 6:40 - 6:42
    正对着一袋薯片,
  • 6:42 - 6:45
    薯片被一盏明亮的灯照着。
  • 6:45 - 6:49
    就像刚才我说的,
    在初期试验中我们需要十分小心,
  • 6:49 - 6:52
    得有多小心呢?请看。
  • 6:52 - 6:55
    (视频:三、二、一,开始)
  • 6:55 - 7:01
    (视频:玛丽有一只小羊羔!
    小羊羔!小羊羔!)
  • 7:01 - 7:05
    (笑声)
  • 7:05 - 7:08
    这试验看起来真是弱爆了。
  • 7:08 - 7:10
    (笑声)
  • 7:10 - 7:12
    我可是对着一袋薯片在咆哮——
  • 7:12 - 7:14
    (笑声)
  • 7:14 - 7:16
    而且我们用的灯功率太大,
  • 7:16 - 7:20
    差点把第一袋薯片点着了。
    (笑声)
  • 7:20 - 7:24
    虽然看起来很不靠谱,
  • 7:24 - 7:26
    但结果还是不错的,
  • 7:26 - 7:29
    因为我们最终还原出了这段声音。
  • 7:29 - 7:33
    (音频:玛丽有一只小羊羔!
    小羊羔!小羊羔!)
  • 7:33 - 7:37
    (掌声)
  • 7:37 - 7:39
    这绝对是一个里程碑,
  • 7:39 - 7:43
    因为这是我们第一次
    从一段无声录像中
  • 7:43 - 7:46
    还原出具有意义的人声。
  • 7:46 - 7:48
    因此我们以此为出发点
  • 7:48 - 7:52
    不断修正我们的试验,
  • 7:52 - 7:56
    更换试验对象,调整距离,
  • 7:56 - 7:59
    减小光线强度,降低声音等等。
  • 8:00 - 8:03
    我们不断分析试验结果,
  • 8:03 - 8:06
    直到发现这一技术的局限性,
  • 8:06 - 8:08
    因为只有搞清楚局限在哪儿
  • 8:08 - 8:11
    我们才能不断取得突破。
  • 8:11 - 8:14
    于是,就有了下面这个试验,
  • 8:14 - 8:17
    这一次,我还是对着一袋薯片说话,
  • 8:17 - 8:21
    但将摄影机后退到了15英尺
    (4.572米)远的室外,
  • 8:21 - 8:24
    隔着一层隔音玻璃,
  • 8:24 - 8:27
    只借助自然光线。
  • 8:29 - 8:31
    这是我们拍下的视频。
  • 8:32 - 8:37
    这是在室内,
    在薯片旁说话的原声。
  • 8:37 - 8:42
    (音频:玛丽有一只小羊羔,
    身上羊毛白又好,
  • 8:42 - 8:48
    无论玛丽走到哪,
    小羊都会跟着跑。)
  • 8:48 - 8:52
    这是通过我们从室外
    隔音玻璃后采集的无声影像
  • 8:52 - 8:54
    还原出来的声音。
  • 8:54 - 8:58
    (音频:玛丽有一只小羊羔,
    身上羊毛白又好,
  • 8:58 - 9:04
    无论玛丽走到哪,
    小羊都会跟着跑。)
  • 9:04 - 9:10
    (掌声)
  • 9:10 - 9:14
    我们还调整了其它参数。
  • 9:14 - 9:16
    比如说降低音量,
  • 9:16 - 9:20
    这有一副耳机,插在笔记本电脑上,
  • 9:20 - 9:24
    在这个实验中,我们想仅通过拍摄下
    这对塑料耳机的
  • 9:24 - 9:26
    无声视频来还原
  • 9:26 - 9:29
    笔记本里播放的音乐,
  • 9:29 - 9:31
    结果很理想,
  • 9:31 - 9:33
    我甚至能用Shazam
    来识别出这段音乐。
  • 9:33 - 9:36
    (笑声)
  • 9:37 - 9:50
    (音乐:“皇后乐队”的《重压之下》)
  • 9:50 - 9:55
    (掌声)
  • 9:55 - 9:59
    我们还尝试了更换试验设备
    来完善我们的成果。
  • 9:59 - 10:02
    因为前面我给大家展示的试验
  • 10:02 - 10:04
    都是通过高速摄影机完成的,
  • 10:04 - 10:07
    它的拍摄速度比大多数手机摄像头
  • 10:07 - 10:09
    快100倍,
  • 10:09 - 10:12
    但是我们也找到了用普通摄影机
  • 10:12 - 10:14
    来完成试验的方法,
  • 10:14 - 10:18
    我们利用了叫做“滚动快门”的技术。
  • 10:18 - 10:23
    大部分摄像头是逐行拍摄影像的,
  • 10:23 - 10:28
    因此如果在拍摄单张照片时
    物体发生了移动,
  • 10:28 - 10:31
    每一行影像间就会出现少许延迟,
  • 10:31 - 10:34
    这种延迟使得视频的每一帧
  • 10:34 - 10:38
    都会产生轻微的变形。
  • 10:38 - 10:42
    通过分析这种变形,
  • 10:42 - 10:46
    运用调整过的算法
    我们还是可以还原声音。
  • 10:46 - 10:48
    在接下来这个试验里,
  • 10:48 - 10:50
    我们拍摄的是一袋糖果,
  • 10:50 - 10:51
    旁边的喇叭里播放的
  • 10:51 - 10:54
    还是之前那首“玛丽有一只小羊羔”,
  • 10:54 - 10:59
    但这一次我们使用的是
    能在店里买到的普通摄影机,
  • 10:59 - 11:02
    下面请听我们还原出来的声音,
  • 11:02 - 11:04
    这次的声音有些失真,
  • 11:04 - 11:08
    但仔细听一下,
    看你能否分辨出来这段音乐。
  • 11:08 - 11:24
    (音频:玛丽有一只小羊羔)
  • 11:26 - 11:29
    就是这样,听起来有点失真,
  • 11:29 - 11:33
    但别忘了
    我们这次用的是普通摄影机,
  • 11:33 - 11:36
    你随便到一家百思买
    这样的电器商店
  • 11:36 - 11:37
    就可以买到。
  • 11:39 - 11:40
    那么目前为止,
  • 11:40 - 11:42
    相信许多人看到这儿
  • 11:42 - 11:46
    立刻想到了监听。
  • 11:46 - 11:48
    说实话,
  • 11:48 - 11:52
    用这个技术去监听
    还真不是什么难事。
  • 11:52 - 11:56
    但请大家注意,
    早就有很多成熟的技术
  • 11:56 - 11:58
    被用于监听了。
  • 11:58 - 12:00
    实际上,将激光投射在物体上
  • 12:00 - 12:03
    进行远距离监听的技术
    已经出现几十年了。
  • 12:04 - 12:06
    但我们这项技术的创新之处,
  • 12:06 - 12:07
    与众不同之处
  • 12:07 - 12:12
    在于我们掌握了一种
    描绘物体振动的方法,
  • 12:12 - 12:15
    使我们能通过一种全新的镜头
    去看这个世界。
  • 12:15 - 12:17
    通过这个镜头,
  • 12:17 - 12:22
    不仅能看清使物体产生振动的外力,
    比如声音,
  • 12:22 - 12:24
    还能了解物体本身的性质。
  • 12:25 - 12:27
    因此我想换个角度
  • 12:27 - 12:31
    思考这将如何改变
    我们使用视频的方式,
  • 12:31 - 12:34
    我们通常用视频来“看”东西,
  • 12:34 - 12:37
    而我刚刚给大家展示的是如何用视频
  • 12:37 - 12:39
    来“听”东西。
  • 12:39 - 12:43
    但是还有一种认识世界的重要方式,
  • 12:43 - 12:45
    就是与世界互动。
  • 12:45 - 12:48
    我们可以移动或触碰某个物体。
  • 12:48 - 12:51
    或者摇晃它,看它会发生什么变化。
  • 12:51 - 12:55
    但这一变化(可能太过微小)
    视频没法捕捉,
  • 12:55 - 12:58
    至少用传统的方式实现不了。
  • 12:58 - 13:00
    因此我想向大家展示一项新的成果,
  • 13:00 - 13:02
    这项成果基于我几个月前的一个想法,
  • 13:02 - 13:06
    今天其实是我第一次将它公之于众。
  • 13:06 - 13:11
    简而言之就是,
    我们会利用视频里的振动
  • 13:11 - 13:15
    来与物体进行互动,
  • 13:15 - 13:18
    然后看物体如何反应。
  • 13:19 - 13:21
    这是我们的试验对象,
  • 13:21 - 13:25
    一个用铁丝做成的小人,
  • 13:25 - 13:28
    我们使用的是一台普通的摄影机。
  • 13:28 - 13:30
    没有任何特别之处。
  • 13:30 - 13:33
    实际上,我用手机也能做到。
  • 13:33 - 13:35
    但如果我们想让这个小人振动,
  • 13:35 - 13:36
    要怎么做呢,
  • 13:36 - 13:40
    我们仅仅在放置小人的
    台子上敲了几下,
  • 13:40 - 13:42
    并把过程拍了下来。
  • 13:47 - 13:51
    就这样,我们得到了一段
    五秒钟的普通视频,
  • 13:51 - 13:53
    敲了几下台子,
  • 13:53 - 13:57
    我们将利用视频里的振动
  • 13:57 - 14:01
    来研究这个小人的
    结构特征和材料特征,
  • 14:01 - 14:06
    并利用这些信息
    创造出一种新的具有互动性的东西。
  • 14:13 - 14:16
    这就是我们的成果
  • 14:16 - 14:18
    看起来像一张普通的图片,
  • 14:18 - 14:21
    但这不是图片,
    也不是视频,
  • 14:21 - 14:23
    因为我可以移动鼠标
  • 14:23 - 14:26
    与这个小人进行互动。
  • 14:33 - 14:35
    现在大家看到的
  • 14:35 - 14:38
    是模拟小人在受到外力时
  • 14:38 - 14:42
    会如何反应,
    即使这种外力是初次施加的,
  • 14:42 - 14:46
    而这都来源于那
    短短五秒钟的普通视频。
  • 14:47 - 14:56
    (掌声)
  • 14:57 - 15:01
    这的确是一种审视世界的有效方法,
  • 15:01 - 15:04
    让我们可以预测物体在新的条件下
  • 15:04 - 15:05
    会作何反应,
  • 15:05 - 15:09
    想象一下,前面有一座很旧的桥,
  • 15:09 - 15:12
    我们不知道它是否足够结实,
  • 15:12 - 15:15
    我们能不能把车开过去。
  • 15:15 - 15:18
    而这种问题
    最好在你开车上桥之前
  • 15:18 - 15:21
    就搞清楚答案。
  • 15:22 - 15:25
    当然,这项技术有它的局限,
  • 15:25 - 15:28
    就像之前的视觉麦克风试验一样,
  • 15:28 - 15:31
    但我们也发现
    它能在许多场景下发挥作用,
  • 15:31 - 15:33
    有时甚至出乎你的意料,
  • 15:33 - 15:36
    特别是当视频时间足够长的时候。
  • 15:36 - 15:38
    举个例子,这段视频
  • 15:38 - 15:40
    拍的是我公寓外的灌木丛,
  • 15:40 - 15:43
    我没有动过它,
  • 15:43 - 15:46
    只是拍了一段1分钟长的视频,
  • 15:46 - 15:50
    微风不断吹动灌木,
  • 15:50 - 15:53
    让我能够收集到足够的信息
    来完成这段模拟。
  • 15:55 - 16:01
    (掌声)
  • 16:01 - 16:04
    想象一下,
    如果电影导演掌握了这项技术,
  • 16:04 - 16:06
    他就可以在后期制作时
  • 16:06 - 16:11
    随心所欲地控制风的大小和方向。
  • 16:13 - 16:17
    来看另一个例子,
    我们拍摄了一副挂起来的窗帘,
  • 16:17 - 16:21
    在这段视频里
    你甚至看不出来窗帘在动,
  • 16:21 - 16:24
    但是利用2分钟长的一段视频,
  • 16:24 - 16:27
    仅仅靠房间里的自然空气流动
  • 16:27 - 16:31
    引发的无法察觉的动作和振动,
  • 16:31 - 16:36
    就能使我们提取出足够多的
    信息来完成这段模拟。
  • 16:36 - 16:39
    神奇的是,
  • 16:39 - 16:42
    以往我们都是针对虚拟物体,
  • 16:42 - 16:44
    针对游戏和3D模型
  • 16:44 - 16:48
    来实现这种互动,
  • 16:48 - 16:52
    而这项技术仅仅是利用
    普通的视频
  • 16:52 - 16:55
    对现实世界中的
    真实物体进行采样,
  • 16:55 - 16:58
    它极富新意,
    具有广阔的应用前景。
  • 16:58 - 17:04
    这些是跟我共同研究
    这项技术的优秀的同事。
  • 17:04 - 17:12
    (掌声)
  • 17:13 - 17:16
    今天向大家展示的
    只是一个技术雏形。
  • 17:16 - 17:18
    关于如何使用这种新型图像,
  • 17:18 - 17:21
    我们才刚刚入门,
  • 17:21 - 17:23
    它为我们提供了一种
  • 17:23 - 17:28
    运用已有的普通技术
    来记录周围事物的新方法。
  • 17:28 - 17:30
    展望一下未来,
  • 17:30 - 17:32
    我们迫不及待地想要看到如何
  • 17:32 - 17:34
    利用这项技术去更好地了解世界。
  • 17:34 - 17:36
    谢谢大家。
  • 17:36 - 17:42
    (掌声)
Title:
揭示物体隐藏属性的视频新技术
Speaker:
阿比·戴维斯
Description:

细微的运动在我们周围无时无刻不在发生,包括由声音引起的细微振动。新技术能让我们从一段看似静止的视频中提取这些振动,并将声音还原。但阿比·戴维斯更进了一步:请看他如何利用软件,通过一段简单的视频,揭示物体的隐藏属性,并创造出一种与物体互动的新方式。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:57

Chinese, Simplified subtitles

Revisions