WEBVTT

00:00:01.373 --> 00:00:04.722
大部分人认为
动作是明显可见的。

00:00:05.889 --> 00:00:10.977
比如我走过这个舞台，
或者边做手势边说话，

00:00:10.977 --> 00:00:13.238
这些动作都能被大家看到。

00:00:14.255 --> 00:00:19.737
但还有很多重要的动作
肉眼很难察觉到，

00:00:19.737 --> 00:00:21.778
在过去几年中，

00:00:21.778 --> 00:00:23.775
我们致力于寻找某种摄像机

00:00:23.775 --> 00:00:27.185
可以捕捉到人眼看不到的运动。

NOTE Paragraph

00:00:28.305 --> 00:00:29.856
请看大屏幕。

00:00:30.717 --> 00:00:34.339
左边是一个人的手腕，

00:00:34.339 --> 00:00:37.486
右边是一个熟睡的婴儿，

00:00:37.486 --> 00:00:40.532
但是如果我不告诉你们这是一段视频，

00:00:40.532 --> 00:00:44.283
你们可能会认为
这只是两张普通的图片，

00:00:44.283 --> 00:00:45.825
因为乍一看，

00:00:45.825 --> 00:00:49.112
这两段视频几乎是完全静止的。

00:00:50.175 --> 00:00:54.060
但实际上，画面中
有许多细微的运动变化，

00:00:54.060 --> 00:00:56.452
如果你能碰到左边的那个手腕，

00:00:56.452 --> 00:00:58.448
你会感受到脉搏的跳动，

00:00:58.448 --> 00:01:00.933
如果你抱起右边的婴儿，

00:01:00.933 --> 00:01:03.324
你能感受到她胸腔的起伏，

00:01:03.324 --> 00:01:04.954
感受到她的每一次呼吸。

00:01:05.762 --> 00:01:09.338
这些动作都很重要，

00:01:09.338 --> 00:01:12.681
但由于过于细微，
很难被我们察觉，

00:01:12.681 --> 00:01:14.957
要想感受到这些动作的存在

00:01:14.957 --> 00:01:17.857
只能通过直接接触。

NOTE Paragraph

00:01:18.997 --> 00:01:20.262
然而几年前，

00:01:20.262 --> 00:01:24.667
我在麻省理工学院的同事们
开发出了一种被称为“动作显微镜”的软件，

00:01:24.667 --> 00:01:29.051
能够发现视频中细微的运动，

00:01:29.051 --> 00:01:32.613
并将其放大到肉眼可见的级别。

00:01:33.416 --> 00:01:36.899
如果我们运用这一软件分析左边的视频，

00:01:36.899 --> 00:01:40.149
我们就能看到手腕上的脉搏跳动，

00:01:40.149 --> 00:01:41.844
通过计算脉搏数量，

00:01:41.844 --> 00:01:44.199
就能得知这个人的心率。

00:01:45.095 --> 00:01:48.160
而用这一软件分析右边的视频，

00:01:48.160 --> 00:01:51.387
我们就能看清婴儿的每一次呼吸，

00:01:51.387 --> 00:01:55.524
不需要触碰就能监控她的呼吸。

NOTE Paragraph

00:01:56.884 --> 00:02:02.232
这项技术非常强大，
因为它能帮助我们看到

00:02:02.232 --> 00:02:04.599
原本要靠触觉才能感受到的东西，

00:02:04.599 --> 00:02:07.556
并且这一过程是可见和无创的。

NOTE Paragraph

00:02:09.104 --> 00:02:13.515
因此在几年前，我开始
与这个软件的编写者们一起工作，

00:02:13.515 --> 00:02:16.882
我们产生了一个疯狂的想法。

00:02:16.882 --> 00:02:19.575
我们觉得，运用软件将细微的动作

00:02:19.575 --> 00:02:22.710
可视化的这个点子非常酷，

00:02:22.710 --> 00:02:27.168
你甚至可以把它当做拓展
人类触觉感官的好方法。

00:02:27.168 --> 00:02:31.227
那如果我们能用相同的方法
来增强我们的听觉呢？

00:02:32.508 --> 00:02:37.173
如果我们能通过视频捕捉到声音的振动，

00:02:37.173 --> 00:02:40.000
声音的振动实际上也是一种运动，

00:02:40.000 --> 00:02:43.346
将“看到”的东西录入麦克风呢？

NOTE Paragraph

00:02:44.236 --> 00:02:46.207
也许听起来有点不太好理解，

00:02:46.207 --> 00:02:48.793
我试着为大家解释一下。

00:02:49.523 --> 00:02:53.011
传统麦克风的工作原理

00:02:53.011 --> 00:02:56.610
是将其内部薄膜的振动转换成电信号，

00:02:56.610 --> 00:03:00.928
这个薄膜极易随声音振动，

00:03:00.928 --> 00:03:05.735
这个振动可以被记录下来
并还原成声音。

00:03:05.735 --> 00:03:09.403
而声音事实上可以
引起任何物体的振动。

00:03:09.403 --> 00:03:14.883
只不过这种振动对我们而言
通常很细微而且转瞬即逝。

NOTE Paragraph

00:03:14.883 --> 00:03:18.621
但如果我们用高速摄影机
将这种振动录下来，

00:03:18.621 --> 00:03:22.197
并通过软件从这些高速视频中

00:03:22.197 --> 00:03:24.287
提取出这些细小的振动，

00:03:24.287 --> 00:03:28.561
然后分析这些振动来
弄清声音的来源，会怎么样呢？

00:03:29.859 --> 00:03:35.308
这样一来我们可以将远处的
可见物体转化为可视化麦克风。

00:03:37.080 --> 00:03:39.263
我们进行了各种尝试，

00:03:39.263 --> 00:03:41.030
以下是我们的试验之一，

00:03:41.030 --> 00:03:44.139
右边是一株盆栽植物，

00:03:44.139 --> 00:03:46.577
我们用高速摄影机拍下它，

00:03:46.577 --> 00:03:50.106
同时旁边的音箱在播放这个声音。

NOTE Paragraph

00:03:50.275 --> 00:03:58.465
（音乐：玛丽有一只小羊羔）

NOTE Paragraph

00:03:59.820 --> 00:04:02.644
这是我们录下的视频，

00:04:02.644 --> 00:04:06.568
用的是每秒数千帧的速度，

00:04:06.568 --> 00:04:08.890
但即使你凑得非常近，

00:04:08.890 --> 00:04:10.841
也只能看到一些叶子

00:04:10.841 --> 00:04:13.906
静静地呆在那儿，一动不动，

00:04:13.906 --> 00:04:18.712
因为刚才的音乐
只能让叶子移动一微米，

00:04:19.103 --> 00:04:23.379
也就是一厘米的万分之一，

00:04:23.379 --> 00:04:27.535
只占这幅图像中一个像素的

00:04:27.535 --> 00:04:29.834
百分之一到千分之一。

00:04:29.881 --> 00:04:32.768
你大可以眯着眼使劲儿看，

00:04:32.768 --> 00:04:36.503
但如此细微的运动
从感官上来说是不可见的。

00:04:37.667 --> 00:04:41.824
但事实证明感官上不可见的东西

00:04:41.824 --> 00:04:44.633
在数值上可能很惊人,

00:04:44.633 --> 00:04:46.635
因为通过正确的算法，

00:04:46.635 --> 00:04:50.322
我们就可以从这段无声的
看似静止的视频中

00:04:50.322 --> 00:04:51.849
还原出这段声音。

NOTE Paragraph

00:04:52.690 --> 00:05:00.074
（音乐：玛丽有一只小羊羔）

NOTE Paragraph

00:05:00.074 --> 00:05:08.932
（掌声）

NOTE Paragraph

00:05:10.058 --> 00:05:11.997
这怎么可能呢？

00:05:11.997 --> 00:05:16.341
我们怎么能从如此细小的运动中
得到如此丰富的信息？

00:05:16.341 --> 00:05:21.702
我们必须承认这些叶子
只移动了一微米，

00:05:21.702 --> 00:05:26.010
只改变了图像中一个像素的千分之一。

00:05:27.269 --> 00:05:29.841
看起来很微不足道，

00:05:29.841 --> 00:05:31.837
但是视频中的每一帧

00:05:31.837 --> 00:05:35.094
都包含数以万计的像素，

00:05:35.094 --> 00:05:38.548
当我们将整幅画面中
所有细微的运动

00:05:38.548 --> 00:05:40.846
组合在一起来看的时候，

00:05:40.846 --> 00:05:43.469
无数个千分之一像素聚在一起

00:05:43.469 --> 00:05:46.244
就能组合出有十分意义的信息。

NOTE Paragraph

00:05:46.870 --> 00:05:50.505
老实说，当我们想通
这一点的时候真是乐疯了。

00:05:50.505 --> 00:05:52.825
（笑声）

00:05:52.825 --> 00:05:56.078
但是，即便运用正确的算法

00:05:56.078 --> 00:05:59.695
我们还是会丢失掉很多重要的信息。

00:05:59.695 --> 00:06:03.299
这项技术能否成功

00:06:03.299 --> 00:06:05.296
取决于很多因素。

00:06:05.296 --> 00:06:08.500
比如目标物体的距离；

00:06:08.500 --> 00:06:10.894
摄影机和镜头的选用；

00:06:10.894 --> 00:06:14.985
光线是否充足，
声音是否够大等等。

00:06:15.945 --> 00:06:19.320
因此，即便我们的算法正确，

00:06:19.320 --> 00:06:22.710
在早期试验中
我们还是得万分谨慎，

00:06:22.710 --> 00:06:25.102
因为一着不慎，满盘皆输，

00:06:25.102 --> 00:06:27.470
得不到有用的信息，
也查不出原因。

00:06:27.470 --> 00:06:30.117
还原出来的只有噪音。

00:06:30.117 --> 00:06:33.437
初期的试验场景是这样的。

00:06:33.437 --> 00:06:35.643
左边的是我，

00:06:35.643 --> 00:06:39.683
左下角是我们的高速摄影机，

00:06:39.683 --> 00:06:41.866
正对着一袋薯片，

00:06:41.866 --> 00:06:44.815
薯片被一盏明亮的灯照着。

00:06:44.815 --> 00:06:49.180
就像刚才我说的，
在初期试验中我们需要十分小心，

00:06:49.180 --> 00:06:51.688
得有多小心呢？请看。

NOTE Paragraph

00:06:51.688 --> 00:06:55.449
（视频：三、二、一，开始）

00:06:55.449 --> 00:07:00.836
（视频：玛丽有一只小羊羔！
小羊羔！小羊羔！）

NOTE Paragraph

00:07:00.836 --> 00:07:05.336
（笑声）

NOTE Paragraph

00:07:05.336 --> 00:07:08.150
这试验看起来真是弱爆了。

00:07:08.150 --> 00:07:09.938
（笑声）

00:07:09.938 --> 00:07:12.283
我可是对着一袋薯片在咆哮——

00:07:12.283 --> 00:07:13.834
（笑声）

00:07:13.834 --> 00:07:15.951
而且我们用的灯功率太大，

00:07:15.951 --> 00:07:20.485
差点把第一袋薯片点着了。
（笑声）

00:07:20.485 --> 00:07:23.799
虽然看起来很不靠谱，

00:07:23.799 --> 00:07:25.587
但结果还是不错的，

00:07:25.587 --> 00:07:28.513
因为我们最终还原出了这段声音。

NOTE Paragraph

00:07:28.513 --> 00:07:33.225
（音频：玛丽有一只小羊羔！
小羊羔！小羊羔！）

NOTE Paragraph

00:07:33.225 --> 00:07:37.313
（掌声）

NOTE Paragraph

00:07:37.313 --> 00:07:39.194
这绝对是一个里程碑，

00:07:39.194 --> 00:07:43.433
因为这是我们第一次
从一段无声录像中

00:07:43.433 --> 00:07:45.765
还原出具有意义的人声。

00:07:45.765 --> 00:07:48.156
因此我们以此为出发点

00:07:48.156 --> 00:07:52.097
不断修正我们的试验，

00:07:52.106 --> 00:07:55.911
更换试验对象，调整距离，

00:07:55.911 --> 00:07:58.681
减小光线强度，降低声音等等。

00:07:59.887 --> 00:08:02.761
我们不断分析试验结果，

00:08:02.761 --> 00:08:06.383
直到发现这一技术的局限性，

00:08:06.383 --> 00:08:08.333
因为只有搞清楚局限在哪儿

00:08:08.333 --> 00:08:10.679
我们才能不断取得突破。

NOTE Paragraph

00:08:10.679 --> 00:08:13.860
于是，就有了下面这个试验，

00:08:13.860 --> 00:08:16.599
这一次，我还是对着一袋薯片说话，

00:08:16.599 --> 00:08:21.429
但将摄影机后退到了15英尺
（4.572米）远的室外，

00:08:21.429 --> 00:08:24.262
隔着一层隔音玻璃，

00:08:24.262 --> 00:08:27.065
只借助自然光线。

00:08:28.529 --> 00:08:30.684
这是我们拍下的视频。

00:08:32.450 --> 00:08:37.009
这是在室内，
在薯片旁说话的原声。

NOTE Paragraph

00:08:37.009 --> 00:08:42.047
（音频：玛丽有一只小羊羔，
身上羊毛白又好，

00:08:42.047 --> 00:08:47.666
无论玛丽走到哪，
小羊都会跟着跑。）

NOTE Paragraph

00:08:47.666 --> 00:08:51.683
这是通过我们从室外
隔音玻璃后采集的无声影像

00:08:51.683 --> 00:08:54.028
还原出来的声音。

NOTE Paragraph

00:08:54.028 --> 00:08:58.463
（音频：玛丽有一只小羊羔，
身上羊毛白又好，

00:08:58.463 --> 00:09:03.920
无论玛丽走到哪，
小羊都会跟着跑。）

NOTE Paragraph

00:09:03.920 --> 00:09:10.421
（掌声）

NOTE Paragraph

00:09:10.421 --> 00:09:13.963
我们还调整了其它参数。

00:09:13.963 --> 00:09:15.761
比如说降低音量，

00:09:15.761 --> 00:09:19.871
这有一副耳机，插在笔记本电脑上，

00:09:19.871 --> 00:09:23.981
在这个实验中，我们想仅通过拍摄下
这对塑料耳机的

00:09:23.981 --> 00:09:26.280
无声视频来还原

00:09:26.280 --> 00:09:28.787
笔记本里播放的音乐，

00:09:28.787 --> 00:09:30.970
结果很理想，

00:09:30.970 --> 00:09:33.431
我甚至能用Shazam
来识别出这段音乐。

00:09:33.431 --> 00:09:35.842
（笑声）

NOTE Paragraph

00:09:37.191 --> 00:09:49.615
（音乐：“皇后乐队”的《重压之下》）

NOTE Paragraph

00:09:49.615 --> 00:09:54.584
（掌声）

NOTE Paragraph

00:09:54.584 --> 00:09:59.135
我们还尝试了更换试验设备
来完善我们的成果。

00:09:59.135 --> 00:10:01.596
因为前面我给大家展示的试验

00:10:01.596 --> 00:10:03.918
都是通过高速摄影机完成的，

00:10:03.918 --> 00:10:06.797
它的拍摄速度比大多数手机摄像头

00:10:06.797 --> 00:10:08.724
快100倍，

00:10:08.724 --> 00:10:11.533
但是我们也找到了用普通摄影机

00:10:11.533 --> 00:10:13.763
来完成试验的方法，

00:10:13.763 --> 00:10:17.832
我们利用了叫做“滚动快门”的技术。

00:10:17.832 --> 00:10:22.630
大部分摄像头是逐行拍摄影像的，

00:10:22.630 --> 00:10:28.332
因此如果在拍摄单张照片时
物体发生了移动，

00:10:28.344 --> 00:10:31.061
每一行影像间就会出现少许延迟，

00:10:31.061 --> 00:10:34.218
这种延迟使得视频的每一帧

00:10:34.218 --> 00:10:37.701
都会产生轻微的变形。

00:10:37.701 --> 00:10:41.507
通过分析这种变形，

00:10:41.507 --> 00:10:46.122
运用调整过的算法
我们还是可以还原声音。

00:10:46.122 --> 00:10:48.034
在接下来这个试验里，

00:10:48.034 --> 00:10:49.729
我们拍摄的是一袋糖果，

00:10:49.729 --> 00:10:51.470
旁边的喇叭里播放的

00:10:51.470 --> 00:10:54.442
还是之前那首“玛丽有一只小羊羔”，

00:10:54.442 --> 00:10:58.645
但这一次我们使用的是
能在店里买到的普通摄影机，

00:10:58.645 --> 00:11:01.629
下面请听我们还原出来的声音，

00:11:01.629 --> 00:11:03.869
这次的声音有些失真，

00:11:03.869 --> 00:11:07.555
但仔细听一下，
看你能否分辨出来这段音乐。

NOTE Paragraph

00:11:07.723 --> 00:11:24.186
（音频：玛丽有一只小羊羔）

NOTE Paragraph

00:11:25.527 --> 00:11:28.992
就是这样，听起来有点失真，

00:11:28.992 --> 00:11:33.378
但别忘了
我们这次用的是普通摄影机，

00:11:33.378 --> 00:11:36.004
你随便到一家百思买
这样的电器商店

00:11:36.004 --> 00:11:37.448
就可以买到。

NOTE Paragraph

00:11:39.122 --> 00:11:40.485
那么目前为止，

00:11:40.485 --> 00:11:42.459
相信许多人看到这儿

00:11:42.459 --> 00:11:45.872
立刻想到了监听。

00:11:45.872 --> 00:11:48.287
说实话，

00:11:48.287 --> 00:11:52.420
用这个技术去监听
还真不是什么难事。

00:11:52.420 --> 00:11:56.367
但请大家注意，
早就有很多成熟的技术

00:11:56.367 --> 00:11:57.946
被用于监听了。

00:11:57.946 --> 00:12:00.036
实际上，将激光投射在物体上

00:12:00.036 --> 00:12:02.835
进行远距离监听的技术
已经出现几十年了。

00:12:03.978 --> 00:12:06.003
但我们这项技术的创新之处，

00:12:06.003 --> 00:12:07.443
与众不同之处

00:12:07.443 --> 00:12:11.738
在于我们掌握了一种
描绘物体振动的方法，

00:12:11.738 --> 00:12:15.151
使我们能通过一种全新的镜头
去看这个世界。

00:12:15.151 --> 00:12:16.661
通过这个镜头，

00:12:16.661 --> 00:12:21.560
不仅能看清使物体产生振动的外力，
比如声音，

00:12:21.560 --> 00:12:23.848
还能了解物体本身的性质。

NOTE Paragraph

00:12:24.975 --> 00:12:26.668
因此我想换个角度

00:12:26.668 --> 00:12:30.917
思考这将如何改变
我们使用视频的方式，

00:12:30.917 --> 00:12:34.470
我们通常用视频来“看”东西，

00:12:34.470 --> 00:12:36.792
而我刚刚给大家展示的是如何用视频

00:12:36.792 --> 00:12:38.649
来“听”东西。

00:12:38.649 --> 00:12:42.620
但是还有一种认识世界的重要方式，

00:12:42.620 --> 00:12:44.895
就是与世界互动。

00:12:44.895 --> 00:12:48.006
我们可以移动或触碰某个物体。

00:12:48.006 --> 00:12:51.187
或者摇晃它，看它会发生什么变化。

00:12:51.187 --> 00:12:55.460
但这一变化（可能太过微小）
视频没法捕捉，

00:12:55.460 --> 00:12:57.596
至少用传统的方式实现不了。

00:12:57.596 --> 00:12:59.546
因此我想向大家展示一项新的成果，

00:12:59.546 --> 00:13:02.213
这项成果基于我几个月前的一个想法，

00:13:02.213 --> 00:13:05.514
今天其实是我第一次将它公之于众。

00:13:05.514 --> 00:13:10.877
简而言之就是，
我们会利用视频里的振动

00:13:10.877 --> 00:13:15.358
来与物体进行互动，

00:13:15.358 --> 00:13:18.052
然后看物体如何反应。

NOTE Paragraph

00:13:19.120 --> 00:13:20.884
这是我们的试验对象，

00:13:20.884 --> 00:13:24.716
一个用铁丝做成的小人，

00:13:24.716 --> 00:13:27.804
我们使用的是一台普通的摄影机。

00:13:27.804 --> 00:13:29.928
没有任何特别之处。

00:13:29.928 --> 00:13:32.889
实际上，我用手机也能做到。

00:13:32.889 --> 00:13:35.141
但如果我们想让这个小人振动，

00:13:35.141 --> 00:13:36.274
要怎么做呢，

00:13:36.274 --> 00:13:39.620
我们仅仅在放置小人的
台子上敲了几下，

00:13:39.620 --> 00:13:41.758
并把过程拍了下来。

NOTE Paragraph

00:13:47.398 --> 00:13:51.069
就这样，我们得到了一段
五秒钟的普通视频，

00:13:51.069 --> 00:13:53.205
敲了几下台子，

00:13:53.205 --> 00:13:56.718
我们将利用视频里的振动

00:13:56.718 --> 00:14:01.262
来研究这个小人的
结构特征和材料特征，

00:14:01.262 --> 00:14:06.096
并利用这些信息
创造出一种新的具有互动性的东西。

00:14:12.866 --> 00:14:15.519
这就是我们的成果

00:14:15.519 --> 00:14:17.748
看起来像一张普通的图片，

00:14:17.748 --> 00:14:20.859
但这不是图片，
也不是视频，

00:14:20.859 --> 00:14:23.227
因为我可以移动鼠标

00:14:23.227 --> 00:14:26.086
与这个小人进行互动。

00:14:32.936 --> 00:14:35.463
现在大家看到的

00:14:35.463 --> 00:14:37.615
是模拟小人在受到外力时

00:14:37.615 --> 00:14:42.073
会如何反应，
即使这种外力是初次施加的，

00:14:42.073 --> 00:14:45.706
而这都来源于那
短短五秒钟的普通视频。

NOTE Paragraph

00:14:47.249 --> 00:14:55.564
（掌声）

NOTE Paragraph

00:14:57.421 --> 00:15:00.648
这的确是一种审视世界的有效方法，

00:15:00.648 --> 00:15:03.620
让我们可以预测物体在新的条件下

00:15:03.620 --> 00:15:05.443
会作何反应，

00:15:05.443 --> 00:15:08.916
想象一下，前面有一座很旧的桥，

00:15:08.916 --> 00:15:12.443
我们不知道它是否足够结实，

00:15:12.443 --> 00:15:15.276
我们能不能把车开过去。

00:15:15.276 --> 00:15:18.050
而这种问题
最好在你开车上桥之前

00:15:18.050 --> 00:15:20.610
就搞清楚答案。

00:15:21.988 --> 00:15:25.260
当然，这项技术有它的局限，

00:15:25.260 --> 00:15:27.722
就像之前的视觉麦克风试验一样，

00:15:27.722 --> 00:15:30.903
但我们也发现
它能在许多场景下发挥作用，

00:15:30.903 --> 00:15:32.778
有时甚至出乎你的意料，

00:15:32.778 --> 00:15:35.546
特别是当视频时间足够长的时候。

NOTE Paragraph

00:15:35.546 --> 00:15:38.054
举个例子，这段视频

00:15:38.054 --> 00:15:40.353
拍的是我公寓外的灌木丛，

00:15:40.353 --> 00:15:43.441
我没有动过它，

00:15:43.441 --> 00:15:46.146
只是拍了一段1分钟长的视频，

00:15:46.146 --> 00:15:49.524
微风不断吹动灌木，

00:15:49.524 --> 00:15:53.111
让我能够收集到足够的信息
来完成这段模拟。

00:15:55.270 --> 00:16:01.412
（掌声）

00:16:01.412 --> 00:16:04.384
想象一下，
如果电影导演掌握了这项技术，

00:16:04.384 --> 00:16:06.103
他就可以在后期制作时

00:16:06.103 --> 00:16:11.025
随心所欲地控制风的大小和方向。

00:16:12.810 --> 00:16:17.345
来看另一个例子，
我们拍摄了一副挂起来的窗帘，

00:16:17.345 --> 00:16:21.474
在这段视频里
你甚至看不出来窗帘在动，

00:16:21.474 --> 00:16:24.399
但是利用2分钟长的一段视频，

00:16:24.399 --> 00:16:26.837
仅仅靠房间里的自然空气流动

00:16:26.837 --> 00:16:31.249
引发的无法察觉的动作和振动，

00:16:31.249 --> 00:16:36.244
就能使我们提取出足够多的
信息来完成这段模拟。

NOTE Paragraph

00:16:36.244 --> 00:16:38.609
神奇的是，

00:16:38.609 --> 00:16:41.697
以往我们都是针对虚拟物体，

00:16:41.697 --> 00:16:44.344
针对游戏和3D模型

00:16:44.344 --> 00:16:47.641
来实现这种互动，

00:16:47.641 --> 00:16:52.045
而这项技术仅仅是利用
普通的视频

00:16:52.045 --> 00:16:54.862
对现实世界中的
真实物体进行采样，

00:16:54.862 --> 00:16:58.415
它极富新意，
具有广阔的应用前景。

NOTE Paragraph

00:16:58.415 --> 00:17:04.064
这些是跟我共同研究
这项技术的优秀的同事。

00:17:04.064 --> 00:17:11.803
（掌声）

NOTE Paragraph

00:17:12.819 --> 00:17:15.876
今天向大家展示的
只是一个技术雏形。

00:17:15.876 --> 00:17:17.989
关于如何使用这种新型图像，

00:17:17.989 --> 00:17:20.961
我们才刚刚入门，

00:17:20.961 --> 00:17:23.337
它为我们提供了一种

00:17:23.342 --> 00:17:28.066
运用已有的普通技术
来记录周围事物的新方法。

00:17:28.066 --> 00:17:29.995
展望一下未来，

00:17:29.995 --> 00:17:32.032
我们迫不及待地想要看到如何

00:17:32.032 --> 00:17:34.438
利用这项技术去更好地了解世界。

NOTE Paragraph

00:17:34.438 --> 00:17:35.655
谢谢大家。

NOTE Paragraph

00:17:35.655 --> 00:17:41.717
（掌声）