大部分人认为
动作是明显可见的。
比如我走过这个舞台,
或者边做手势边说话,
这些动作都能被大家看到。
但还有很多重要的动作
肉眼很难察觉到,
在过去几年中,
我们致力于寻找某种摄像机
可以捕捉到人眼看不到的运动。
请看大屏幕。
左边是一个人的手腕,
右边是一个熟睡的婴儿,
但是如果我不告诉你们这是一段视频,
你们可能会认为
这只是两张普通的图片,
因为乍一看,
这两段视频几乎是完全静止的。
但实际上,画面中
有许多细微的运动变化,
如果你能碰到左边的那个手腕,
你会感受到脉搏的跳动,
如果你抱起右边的婴儿,
你能感受到她胸腔的起伏,
感受到她的每一次呼吸。
这些动作都很重要,
但由于过于细微,
很难被我们察觉,
要想感受到这些动作的存在
只能通过直接接触。
然而几年前,
我在麻省理工学院的同事们
开发出了一种被称为“动作显微镜”的软件,
能够发现视频中细微的运动,
并将其放大到肉眼可见的级别。
如果我们运用这一软件分析左边的视频,
我们就能看到手腕上的脉搏跳动,
通过计算脉搏数量,
就能得知这个人的心率。
而用这一软件分析右边的视频,
我们就能看清婴儿的每一次呼吸,
不需要触碰就能监控她的呼吸。
这项技术非常强大,
因为它能帮助我们看到
原本要靠触觉才能感受到的东西,
并且这一过程是可见和无创的。
因此在几年前,我开始
与这个软件的编写者们一起工作,
我们产生了一个疯狂的想法。
我们觉得,运用软件将细微的动作
可视化的这个点子非常酷,
你甚至可以把它当做拓展
人类触觉感官的好方法。
那如果我们能用相同的方法
来增强我们的听觉呢?
如果我们能通过视频捕捉到声音的振动,
声音的振动实际上也是一种运动,
将“看到”的东西录入麦克风呢?
也许听起来有点不太好理解,
我试着为大家解释一下。
传统麦克风的工作原理
是将其内部薄膜的振动转换成电信号,
这个薄膜极易随声音振动,
这个振动可以被记录下来
并还原成声音。
而声音事实上可以
引起任何物体的振动。
只不过这种振动对我们而言
通常很细微而且转瞬即逝。
但如果我们用高速摄影机
将这种振动录下来,
并通过软件从这些高速视频中
提取出这些细小的振动,
然后分析这些振动来
弄清声音的来源,会怎么样呢?
这样一来我们可以将远处的
可见物体转化为可视化麦克风。
我们进行了各种尝试,
以下是我们的试验之一,
右边是一株盆栽植物,
我们用高速摄影机拍下它,
同时旁边的音箱在播放这个声音。
(音乐:玛丽有一只小羊羔)
这是我们录下的视频,
用的是每秒数千帧的速度,
但即使你凑得非常近,
也只能看到一些叶子
静静地呆在那儿,一动不动,
因为刚才的音乐
只能让叶子移动一微米,
也就是一厘米的万分之一,
只占这幅图像中一个像素的
百分之一到千分之一。
你大可以眯着眼使劲儿看,
但如此细微的运动
从感官上来说是不可见的。
但事实证明感官上不可见的东西
在数值上可能很惊人,
因为通过正确的算法,
我们就可以从这段无声的
看似静止的视频中
还原出这段声音。
(音乐:玛丽有一只小羊羔)
(掌声)
这怎么可能呢?
我们怎么能从如此细小的运动中
得到如此丰富的信息?
我们必须承认这些叶子
只移动了一微米,
只改变了图像中一个像素的千分之一。
看起来很微不足道,
但是视频中的每一帧
都包含数以万计的像素,
当我们将整幅画面中
所有细微的运动
组合在一起来看的时候,
无数个千分之一像素聚在一起
就能组合出有十分意义的信息。
老实说,当我们想通
这一点的时候真是乐疯了。
(笑声)
但是,即便运用正确的算法
我们还是会丢失掉很多重要的信息。
这项技术能否成功
取决于很多因素。
比如目标物体的距离;
摄影机和镜头的选用;
光线是否充足,
声音是否够大等等。
因此,即便我们的算法正确,
在早期试验中
我们还是得万分谨慎,
因为一着不慎,满盘皆输,
得不到有用的信息,
也查不出原因。
还原出来的只有噪音。
初期的试验场景是这样的。
左边的是我,
左下角是我们的高速摄影机,
正对着一袋薯片,
薯片被一盏明亮的灯照着。
就像刚才我说的,
在初期试验中我们需要十分小心,
得有多小心呢?请看。
(视频:三、二、一,开始)
(视频:玛丽有一只小羊羔!
小羊羔!小羊羔!)
(笑声)
这试验看起来真是弱爆了。
(笑声)
我可是对着一袋薯片在咆哮——
(笑声)
而且我们用的灯功率太大,
差点把第一袋薯片点着了。
(笑声)
虽然看起来很不靠谱,
但结果还是不错的,
因为我们最终还原出了这段声音。
(音频:玛丽有一只小羊羔!
小羊羔!小羊羔!)
(掌声)
这绝对是一个里程碑,
因为这是我们第一次
从一段无声录像中
还原出具有意义的人声。
因此我们以此为出发点
不断修正我们的试验,
更换试验对象,调整距离,
减小光线强度,降低声音等等。
我们不断分析试验结果,
直到发现这一技术的局限性,
因为只有搞清楚局限在哪儿
我们才能不断取得突破。
于是,就有了下面这个试验,
这一次,我还是对着一袋薯片说话,
但将摄影机后退到了15英尺
(4.572米)远的室外,
隔着一层隔音玻璃,
只借助自然光线。
这是我们拍下的视频。
这是在室内,
在薯片旁说话的原声。
(音频:玛丽有一只小羊羔,
身上羊毛白又好,
无论玛丽走到哪,
小羊都会跟着跑。)
这是通过我们从室外
隔音玻璃后采集的无声影像
还原出来的声音。
(音频:玛丽有一只小羊羔,
身上羊毛白又好,
无论玛丽走到哪,
小羊都会跟着跑。)
(掌声)
我们还调整了其它参数。
比如说降低音量,
这有一副耳机,插在笔记本电脑上,
在这个实验中,我们想仅通过拍摄下
这对塑料耳机的
无声视频来还原
笔记本里播放的音乐,
结果很理想,
我甚至能用Shazam
来识别出这段音乐。
(笑声)
(音乐:“皇后乐队”的《重压之下》)
(掌声)
我们还尝试了更换试验设备
来完善我们的成果。
因为前面我给大家展示的试验
都是通过高速摄影机完成的,
它的拍摄速度比大多数手机摄像头
快100倍,
但是我们也找到了用普通摄影机
来完成试验的方法,
我们利用了叫做“滚动快门”的技术。
大部分摄像头是逐行拍摄影像的,
因此如果在拍摄单张照片时
物体发生了移动,
每一行影像间就会出现少许延迟,
这种延迟使得视频的每一帧
都会产生轻微的变形。
通过分析这种变形,
运用调整过的算法
我们还是可以还原声音。
在接下来这个试验里,
我们拍摄的是一袋糖果,
旁边的喇叭里播放的
还是之前那首“玛丽有一只小羊羔”,
但这一次我们使用的是
能在店里买到的普通摄影机,
下面请听我们还原出来的声音,
这次的声音有些失真,
但仔细听一下,
看你能否分辨出来这段音乐。
(音频:玛丽有一只小羊羔)
就是这样,听起来有点失真,
但别忘了
我们这次用的是普通摄影机,
你随便到一家百思买
这样的电器商店
就可以买到。
那么目前为止,
相信许多人看到这儿
立刻想到了监听。
说实话,
用这个技术去监听
还真不是什么难事。
但请大家注意,
早就有很多成熟的技术
被用于监听了。
实际上,将激光投射在物体上
进行远距离监听的技术
已经出现几十年了。
但我们这项技术的创新之处,
与众不同之处
在于我们掌握了一种
描绘物体振动的方法,
使我们能通过一种全新的镜头
去看这个世界。
通过这个镜头,
不仅能看清使物体产生振动的外力,
比如声音,
还能了解物体本身的性质。
因此我想换个角度
思考这将如何改变
我们使用视频的方式,
我们通常用视频来“看”东西,
而我刚刚给大家展示的是如何用视频
来“听”东西。
但是还有一种认识世界的重要方式,
就是与世界互动。
我们可以移动或触碰某个物体。
或者摇晃它,看它会发生什么变化。
但这一变化(可能太过微小)
视频没法捕捉,
至少用传统的方式实现不了。
因此我想向大家展示一项新的成果,
这项成果基于我几个月前的一个想法,
今天其实是我第一次将它公之于众。
简而言之就是,
我们会利用视频里的振动
来与物体进行互动,
然后看物体如何反应。
这是我们的试验对象,
一个用铁丝做成的小人,
我们使用的是一台普通的摄影机。
没有任何特别之处。
实际上,我用手机也能做到。
但如果我们想让这个小人振动,
要怎么做呢,
我们仅仅在放置小人的
台子上敲了几下,
并把过程拍了下来。
就这样,我们得到了一段
五秒钟的普通视频,
敲了几下台子,
我们将利用视频里的振动
来研究这个小人的
结构特征和材料特征,
并利用这些信息
创造出一种新的具有互动性的东西。
这就是我们的成果
看起来像一张普通的图片,
但这不是图片,
也不是视频,
因为我可以移动鼠标
与这个小人进行互动。
现在大家看到的
是模拟小人在受到外力时
会如何反应,
即使这种外力是初次施加的,
而这都来源于那
短短五秒钟的普通视频。
(掌声)
这的确是一种审视世界的有效方法,
让我们可以预测物体在新的条件下
会作何反应,
想象一下,前面有一座很旧的桥,
我们不知道它是否足够结实,
我们能不能把车开过去。
而这种问题
最好在你开车上桥之前
就搞清楚答案。
当然,这项技术有它的局限,
就像之前的视觉麦克风试验一样,
但我们也发现
它能在许多场景下发挥作用,
有时甚至出乎你的意料,
特别是当视频时间足够长的时候。
举个例子,这段视频
拍的是我公寓外的灌木丛,
我没有动过它,
只是拍了一段1分钟长的视频,
微风不断吹动灌木,
让我能够收集到足够的信息
来完成这段模拟。
(掌声)
想象一下,
如果电影导演掌握了这项技术,
他就可以在后期制作时
随心所欲地控制风的大小和方向。
来看另一个例子,
我们拍摄了一副挂起来的窗帘,
在这段视频里
你甚至看不出来窗帘在动,
但是利用2分钟长的一段视频,
仅仅靠房间里的自然空气流动
引发的无法察觉的动作和振动,
就能使我们提取出足够多的
信息来完成这段模拟。
神奇的是,
以往我们都是针对虚拟物体,
针对游戏和3D模型
来实现这种互动,
而这项技术仅仅是利用
普通的视频
对现实世界中的
真实物体进行采样,
它极富新意,
具有广阔的应用前景。
这些是跟我共同研究
这项技术的优秀的同事。
(掌声)
今天向大家展示的
只是一个技术雏形。
关于如何使用这种新型图像,
我们才刚刚入门,
它为我们提供了一种
运用已有的普通技术
来记录周围事物的新方法。
展望一下未来,
我们迫不及待地想要看到如何
利用这项技术去更好地了解世界。
谢谢大家。
(掌声)