揭示物体隐藏属性的视频新技术
-
0:01 - 0:05大部分人认为
动作是明显可见的。 -
0:06 - 0:11比如我走过这个舞台,
或者边做手势边说话, -
0:11 - 0:13这些动作都能被大家看到。
-
0:14 - 0:20但还有很多重要的动作
肉眼很难察觉到, -
0:20 - 0:22在过去几年中,
-
0:22 - 0:24我们致力于寻找某种摄像机
-
0:24 - 0:27可以捕捉到人眼看不到的运动。
-
0:28 - 0:30请看大屏幕。
-
0:31 - 0:34左边是一个人的手腕,
-
0:34 - 0:37右边是一个熟睡的婴儿,
-
0:37 - 0:41但是如果我不告诉你们这是一段视频,
-
0:41 - 0:44你们可能会认为
这只是两张普通的图片, -
0:44 - 0:46因为乍一看,
-
0:46 - 0:49这两段视频几乎是完全静止的。
-
0:50 - 0:54但实际上,画面中
有许多细微的运动变化, -
0:54 - 0:56如果你能碰到左边的那个手腕,
-
0:56 - 0:58你会感受到脉搏的跳动,
-
0:58 - 1:01如果你抱起右边的婴儿,
-
1:01 - 1:03你能感受到她胸腔的起伏,
-
1:03 - 1:05感受到她的每一次呼吸。
-
1:06 - 1:09这些动作都很重要,
-
1:09 - 1:13但由于过于细微,
很难被我们察觉, -
1:13 - 1:15要想感受到这些动作的存在
-
1:15 - 1:18只能通过直接接触。
-
1:19 - 1:20然而几年前,
-
1:20 - 1:25我在麻省理工学院的同事们
开发出了一种被称为“动作显微镜”的软件, -
1:25 - 1:29能够发现视频中细微的运动,
-
1:29 - 1:33并将其放大到肉眼可见的级别。
-
1:33 - 1:37如果我们运用这一软件分析左边的视频,
-
1:37 - 1:40我们就能看到手腕上的脉搏跳动,
-
1:40 - 1:42通过计算脉搏数量,
-
1:42 - 1:44就能得知这个人的心率。
-
1:45 - 1:48而用这一软件分析右边的视频,
-
1:48 - 1:51我们就能看清婴儿的每一次呼吸,
-
1:51 - 1:56不需要触碰就能监控她的呼吸。
-
1:57 - 2:02这项技术非常强大,
因为它能帮助我们看到 -
2:02 - 2:05原本要靠触觉才能感受到的东西,
-
2:05 - 2:08并且这一过程是可见和无创的。
-
2:09 - 2:14因此在几年前,我开始
与这个软件的编写者们一起工作, -
2:14 - 2:17我们产生了一个疯狂的想法。
-
2:17 - 2:20我们觉得,运用软件将细微的动作
-
2:20 - 2:23可视化的这个点子非常酷,
-
2:23 - 2:27你甚至可以把它当做拓展
人类触觉感官的好方法。 -
2:27 - 2:31那如果我们能用相同的方法
来增强我们的听觉呢? -
2:33 - 2:37如果我们能通过视频捕捉到声音的振动,
-
2:37 - 2:40声音的振动实际上也是一种运动,
-
2:40 - 2:43将“看到”的东西录入麦克风呢?
-
2:44 - 2:46也许听起来有点不太好理解,
-
2:46 - 2:49我试着为大家解释一下。
-
2:50 - 2:53传统麦克风的工作原理
-
2:53 - 2:57是将其内部薄膜的振动转换成电信号,
-
2:57 - 3:01这个薄膜极易随声音振动,
-
3:01 - 3:06这个振动可以被记录下来
并还原成声音。 -
3:06 - 3:09而声音事实上可以
引起任何物体的振动。 -
3:09 - 3:15只不过这种振动对我们而言
通常很细微而且转瞬即逝。 -
3:15 - 3:19但如果我们用高速摄影机
将这种振动录下来, -
3:19 - 3:22并通过软件从这些高速视频中
-
3:22 - 3:24提取出这些细小的振动,
-
3:24 - 3:29然后分析这些振动来
弄清声音的来源,会怎么样呢? -
3:30 - 3:35这样一来我们可以将远处的
可见物体转化为可视化麦克风。 -
3:37 - 3:39我们进行了各种尝试,
-
3:39 - 3:41以下是我们的试验之一,
-
3:41 - 3:44右边是一株盆栽植物,
-
3:44 - 3:47我们用高速摄影机拍下它,
-
3:47 - 3:50同时旁边的音箱在播放这个声音。
-
3:50 - 3:58(音乐:玛丽有一只小羊羔)
-
4:00 - 4:03这是我们录下的视频,
-
4:03 - 4:07用的是每秒数千帧的速度,
-
4:07 - 4:09但即使你凑得非常近,
-
4:09 - 4:11也只能看到一些叶子
-
4:11 - 4:14静静地呆在那儿,一动不动,
-
4:14 - 4:19因为刚才的音乐
只能让叶子移动一微米, -
4:19 - 4:23也就是一厘米的万分之一,
-
4:23 - 4:28只占这幅图像中一个像素的
-
4:28 - 4:30百分之一到千分之一。
-
4:30 - 4:33你大可以眯着眼使劲儿看,
-
4:33 - 4:37但如此细微的运动
从感官上来说是不可见的。 -
4:38 - 4:42但事实证明感官上不可见的东西
-
4:42 - 4:45在数值上可能很惊人,
-
4:45 - 4:47因为通过正确的算法,
-
4:47 - 4:50我们就可以从这段无声的
看似静止的视频中 -
4:50 - 4:52还原出这段声音。
-
4:53 - 5:00(音乐:玛丽有一只小羊羔)
-
5:00 - 5:09(掌声)
-
5:10 - 5:12这怎么可能呢?
-
5:12 - 5:16我们怎么能从如此细小的运动中
得到如此丰富的信息? -
5:16 - 5:22我们必须承认这些叶子
只移动了一微米, -
5:22 - 5:26只改变了图像中一个像素的千分之一。
-
5:27 - 5:30看起来很微不足道,
-
5:30 - 5:32但是视频中的每一帧
-
5:32 - 5:35都包含数以万计的像素,
-
5:35 - 5:39当我们将整幅画面中
所有细微的运动 -
5:39 - 5:41组合在一起来看的时候,
-
5:41 - 5:43无数个千分之一像素聚在一起
-
5:43 - 5:46就能组合出有十分意义的信息。
-
5:47 - 5:51老实说,当我们想通
这一点的时候真是乐疯了。 -
5:51 - 5:53(笑声)
-
5:53 - 5:56但是,即便运用正确的算法
-
5:56 - 6:00我们还是会丢失掉很多重要的信息。
-
6:00 - 6:03这项技术能否成功
-
6:03 - 6:05取决于很多因素。
-
6:05 - 6:08比如目标物体的距离;
-
6:08 - 6:11摄影机和镜头的选用;
-
6:11 - 6:15光线是否充足,
声音是否够大等等。 -
6:16 - 6:19因此,即便我们的算法正确,
-
6:19 - 6:23在早期试验中
我们还是得万分谨慎, -
6:23 - 6:25因为一着不慎,满盘皆输,
-
6:25 - 6:27得不到有用的信息,
也查不出原因。 -
6:27 - 6:30还原出来的只有噪音。
-
6:30 - 6:33初期的试验场景是这样的。
-
6:33 - 6:36左边的是我,
-
6:36 - 6:40左下角是我们的高速摄影机,
-
6:40 - 6:42正对着一袋薯片,
-
6:42 - 6:45薯片被一盏明亮的灯照着。
-
6:45 - 6:49就像刚才我说的,
在初期试验中我们需要十分小心, -
6:49 - 6:52得有多小心呢?请看。
-
6:52 - 6:55(视频:三、二、一,开始)
-
6:55 - 7:01(视频:玛丽有一只小羊羔!
小羊羔!小羊羔!) -
7:01 - 7:05(笑声)
-
7:05 - 7:08这试验看起来真是弱爆了。
-
7:08 - 7:10(笑声)
-
7:10 - 7:12我可是对着一袋薯片在咆哮——
-
7:12 - 7:14(笑声)
-
7:14 - 7:16而且我们用的灯功率太大,
-
7:16 - 7:20差点把第一袋薯片点着了。
(笑声) -
7:20 - 7:24虽然看起来很不靠谱,
-
7:24 - 7:26但结果还是不错的,
-
7:26 - 7:29因为我们最终还原出了这段声音。
-
7:29 - 7:33(音频:玛丽有一只小羊羔!
小羊羔!小羊羔!) -
7:33 - 7:37(掌声)
-
7:37 - 7:39这绝对是一个里程碑,
-
7:39 - 7:43因为这是我们第一次
从一段无声录像中 -
7:43 - 7:46还原出具有意义的人声。
-
7:46 - 7:48因此我们以此为出发点
-
7:48 - 7:52不断修正我们的试验,
-
7:52 - 7:56更换试验对象,调整距离,
-
7:56 - 7:59减小光线强度,降低声音等等。
-
8:00 - 8:03我们不断分析试验结果,
-
8:03 - 8:06直到发现这一技术的局限性,
-
8:06 - 8:08因为只有搞清楚局限在哪儿
-
8:08 - 8:11我们才能不断取得突破。
-
8:11 - 8:14于是,就有了下面这个试验,
-
8:14 - 8:17这一次,我还是对着一袋薯片说话,
-
8:17 - 8:21但将摄影机后退到了15英尺
(4.572米)远的室外, -
8:21 - 8:24隔着一层隔音玻璃,
-
8:24 - 8:27只借助自然光线。
-
8:29 - 8:31这是我们拍下的视频。
-
8:32 - 8:37这是在室内,
在薯片旁说话的原声。 -
8:37 - 8:42(音频:玛丽有一只小羊羔,
身上羊毛白又好, -
8:42 - 8:48无论玛丽走到哪,
小羊都会跟着跑。) -
8:48 - 8:52这是通过我们从室外
隔音玻璃后采集的无声影像 -
8:52 - 8:54还原出来的声音。
-
8:54 - 8:58(音频:玛丽有一只小羊羔,
身上羊毛白又好, -
8:58 - 9:04无论玛丽走到哪,
小羊都会跟着跑。) -
9:04 - 9:10(掌声)
-
9:10 - 9:14我们还调整了其它参数。
-
9:14 - 9:16比如说降低音量,
-
9:16 - 9:20这有一副耳机,插在笔记本电脑上,
-
9:20 - 9:24在这个实验中,我们想仅通过拍摄下
这对塑料耳机的 -
9:24 - 9:26无声视频来还原
-
9:26 - 9:29笔记本里播放的音乐,
-
9:29 - 9:31结果很理想,
-
9:31 - 9:33我甚至能用Shazam
来识别出这段音乐。 -
9:33 - 9:36(笑声)
-
9:37 - 9:50(音乐:“皇后乐队”的《重压之下》)
-
9:50 - 9:55(掌声)
-
9:55 - 9:59我们还尝试了更换试验设备
来完善我们的成果。 -
9:59 - 10:02因为前面我给大家展示的试验
-
10:02 - 10:04都是通过高速摄影机完成的,
-
10:04 - 10:07它的拍摄速度比大多数手机摄像头
-
10:07 - 10:09快100倍,
-
10:09 - 10:12但是我们也找到了用普通摄影机
-
10:12 - 10:14来完成试验的方法,
-
10:14 - 10:18我们利用了叫做“滚动快门”的技术。
-
10:18 - 10:23大部分摄像头是逐行拍摄影像的,
-
10:23 - 10:28因此如果在拍摄单张照片时
物体发生了移动, -
10:28 - 10:31每一行影像间就会出现少许延迟,
-
10:31 - 10:34这种延迟使得视频的每一帧
-
10:34 - 10:38都会产生轻微的变形。
-
10:38 - 10:42通过分析这种变形,
-
10:42 - 10:46运用调整过的算法
我们还是可以还原声音。 -
10:46 - 10:48在接下来这个试验里,
-
10:48 - 10:50我们拍摄的是一袋糖果,
-
10:50 - 10:51旁边的喇叭里播放的
-
10:51 - 10:54还是之前那首“玛丽有一只小羊羔”,
-
10:54 - 10:59但这一次我们使用的是
能在店里买到的普通摄影机, -
10:59 - 11:02下面请听我们还原出来的声音,
-
11:02 - 11:04这次的声音有些失真,
-
11:04 - 11:08但仔细听一下,
看你能否分辨出来这段音乐。 -
11:08 - 11:24(音频:玛丽有一只小羊羔)
-
11:26 - 11:29就是这样,听起来有点失真,
-
11:29 - 11:33但别忘了
我们这次用的是普通摄影机, -
11:33 - 11:36你随便到一家百思买
这样的电器商店 -
11:36 - 11:37就可以买到。
-
11:39 - 11:40那么目前为止,
-
11:40 - 11:42相信许多人看到这儿
-
11:42 - 11:46立刻想到了监听。
-
11:46 - 11:48说实话,
-
11:48 - 11:52用这个技术去监听
还真不是什么难事。 -
11:52 - 11:56但请大家注意,
早就有很多成熟的技术 -
11:56 - 11:58被用于监听了。
-
11:58 - 12:00实际上,将激光投射在物体上
-
12:00 - 12:03进行远距离监听的技术
已经出现几十年了。 -
12:04 - 12:06但我们这项技术的创新之处,
-
12:06 - 12:07与众不同之处
-
12:07 - 12:12在于我们掌握了一种
描绘物体振动的方法, -
12:12 - 12:15使我们能通过一种全新的镜头
去看这个世界。 -
12:15 - 12:17通过这个镜头,
-
12:17 - 12:22不仅能看清使物体产生振动的外力,
比如声音, -
12:22 - 12:24还能了解物体本身的性质。
-
12:25 - 12:27因此我想换个角度
-
12:27 - 12:31思考这将如何改变
我们使用视频的方式, -
12:31 - 12:34我们通常用视频来“看”东西,
-
12:34 - 12:37而我刚刚给大家展示的是如何用视频
-
12:37 - 12:39来“听”东西。
-
12:39 - 12:43但是还有一种认识世界的重要方式,
-
12:43 - 12:45就是与世界互动。
-
12:45 - 12:48我们可以移动或触碰某个物体。
-
12:48 - 12:51或者摇晃它,看它会发生什么变化。
-
12:51 - 12:55但这一变化(可能太过微小)
视频没法捕捉, -
12:55 - 12:58至少用传统的方式实现不了。
-
12:58 - 13:00因此我想向大家展示一项新的成果,
-
13:00 - 13:02这项成果基于我几个月前的一个想法,
-
13:02 - 13:06今天其实是我第一次将它公之于众。
-
13:06 - 13:11简而言之就是,
我们会利用视频里的振动 -
13:11 - 13:15来与物体进行互动,
-
13:15 - 13:18然后看物体如何反应。
-
13:19 - 13:21这是我们的试验对象,
-
13:21 - 13:25一个用铁丝做成的小人,
-
13:25 - 13:28我们使用的是一台普通的摄影机。
-
13:28 - 13:30没有任何特别之处。
-
13:30 - 13:33实际上,我用手机也能做到。
-
13:33 - 13:35但如果我们想让这个小人振动,
-
13:35 - 13:36要怎么做呢,
-
13:36 - 13:40我们仅仅在放置小人的
台子上敲了几下, -
13:40 - 13:42并把过程拍了下来。
-
13:47 - 13:51就这样,我们得到了一段
五秒钟的普通视频, -
13:51 - 13:53敲了几下台子,
-
13:53 - 13:57我们将利用视频里的振动
-
13:57 - 14:01来研究这个小人的
结构特征和材料特征, -
14:01 - 14:06并利用这些信息
创造出一种新的具有互动性的东西。 -
14:13 - 14:16这就是我们的成果
-
14:16 - 14:18看起来像一张普通的图片,
-
14:18 - 14:21但这不是图片,
也不是视频, -
14:21 - 14:23因为我可以移动鼠标
-
14:23 - 14:26与这个小人进行互动。
-
14:33 - 14:35现在大家看到的
-
14:35 - 14:38是模拟小人在受到外力时
-
14:38 - 14:42会如何反应,
即使这种外力是初次施加的, -
14:42 - 14:46而这都来源于那
短短五秒钟的普通视频。 -
14:47 - 14:56(掌声)
-
14:57 - 15:01这的确是一种审视世界的有效方法,
-
15:01 - 15:04让我们可以预测物体在新的条件下
-
15:04 - 15:05会作何反应,
-
15:05 - 15:09想象一下,前面有一座很旧的桥,
-
15:09 - 15:12我们不知道它是否足够结实,
-
15:12 - 15:15我们能不能把车开过去。
-
15:15 - 15:18而这种问题
最好在你开车上桥之前 -
15:18 - 15:21就搞清楚答案。
-
15:22 - 15:25当然,这项技术有它的局限,
-
15:25 - 15:28就像之前的视觉麦克风试验一样,
-
15:28 - 15:31但我们也发现
它能在许多场景下发挥作用, -
15:31 - 15:33有时甚至出乎你的意料,
-
15:33 - 15:36特别是当视频时间足够长的时候。
-
15:36 - 15:38举个例子,这段视频
-
15:38 - 15:40拍的是我公寓外的灌木丛,
-
15:40 - 15:43我没有动过它,
-
15:43 - 15:46只是拍了一段1分钟长的视频,
-
15:46 - 15:50微风不断吹动灌木,
-
15:50 - 15:53让我能够收集到足够的信息
来完成这段模拟。 -
15:55 - 16:01(掌声)
-
16:01 - 16:04想象一下,
如果电影导演掌握了这项技术, -
16:04 - 16:06他就可以在后期制作时
-
16:06 - 16:11随心所欲地控制风的大小和方向。
-
16:13 - 16:17来看另一个例子,
我们拍摄了一副挂起来的窗帘, -
16:17 - 16:21在这段视频里
你甚至看不出来窗帘在动, -
16:21 - 16:24但是利用2分钟长的一段视频,
-
16:24 - 16:27仅仅靠房间里的自然空气流动
-
16:27 - 16:31引发的无法察觉的动作和振动,
-
16:31 - 16:36就能使我们提取出足够多的
信息来完成这段模拟。 -
16:36 - 16:39神奇的是,
-
16:39 - 16:42以往我们都是针对虚拟物体,
-
16:42 - 16:44针对游戏和3D模型
-
16:44 - 16:48来实现这种互动,
-
16:48 - 16:52而这项技术仅仅是利用
普通的视频 -
16:52 - 16:55对现实世界中的
真实物体进行采样, -
16:55 - 16:58它极富新意,
具有广阔的应用前景。 -
16:58 - 17:04这些是跟我共同研究
这项技术的优秀的同事。 -
17:04 - 17:12(掌声)
-
17:13 - 17:16今天向大家展示的
只是一个技术雏形。 -
17:16 - 17:18关于如何使用这种新型图像,
-
17:18 - 17:21我们才刚刚入门,
-
17:21 - 17:23它为我们提供了一种
-
17:23 - 17:28运用已有的普通技术
来记录周围事物的新方法。 -
17:28 - 17:30展望一下未来,
-
17:30 - 17:32我们迫不及待地想要看到如何
-
17:32 - 17:34利用这项技术去更好地了解世界。
-
17:34 - 17:36谢谢大家。
-
17:36 - 17:42(掌声)
- Title:
- 揭示物体隐藏属性的视频新技术
- Speaker:
- 阿比·戴维斯
- Description:
-
细微的运动在我们周围无时无刻不在发生,包括由声音引起的细微振动。新技术能让我们从一段看似静止的视频中提取这些振动,并将声音还原。但阿比·戴维斯更进了一步:请看他如何利用软件,通过一段简单的视频,揭示物体的隐藏属性,并创造出一种与物体互动的新方式。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:57
Yolanda Zhang approved Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties | ||
Yolanda Zhang edited Chinese, Simplified subtitles for New video technology that reveals an object's hidden properties |