0:00:01.373,0:00:04.722
絕大部分的人認為[br]「動作」是非常視覺的。

0:00:05.889,0:00:10.977
如果我走過這個舞台，[br]或在說話的時候使用手勢，

0:00:10.977,0:00:13.238
這些動作都是你可以看見的。

0:00:14.255,0:00:19.737
但有一些細微的重要動作，[br]是人類的眼睛無法看見的。

0:00:19.737,0:00:21.778
而在過去的幾年中，

0:00:21.778,0:00:23.435
我們發現鏡頭，

0:00:23.435,0:00:27.185
能夠看到這些人類所看不見的動作。

0:00:28.305,0:00:29.856
所以讓我來帶大家了解一下，

0:00:30.717,0:00:34.339
在左邊，你可以看到一個人手腕的影片；

0:00:34.339,0:00:37.486
在右邊，你可以看到一個睡著嬰兒的影片。

0:00:37.486,0:00:40.632
但是如果我沒有告訴你這是影片的話，

0:00:40.632,0:00:43.963
你有可能會認為[br]你只是在看兩張非常普通的圖片。

0:00:43.963,0:00:45.655
因為在這兩個情況之下，

0:00:45.655,0:00:49.112
這些影片看起來只是完全靜止的。

0:00:50.175,0:00:54.060
事實上這裏發生著許多細微的動作。

0:00:54.060,0:00:56.452
如果你觸碰左邊手腕的話，

0:00:56.452,0:00:58.448
你會感覺到脈搏。

0:00:58.448,0:01:00.933
如果你抱起這個右邊嬰兒的話，

0:01:00.933,0:01:03.324
你會感覺到她的胸部上下起伏，

0:01:03.324,0:01:04.714
當她正在呼吸的時候。

0:01:05.762,0:01:09.338
這些動作十分重要，

0:01:09.338,0:01:12.681
但對我們來說太細微[br]以至於我們看不到。

0:01:12.681,0:01:14.957
所以我們要用

0:01:14.957,0:01:17.857
直接的觸碰去感知它們。

0:01:18.997,0:01:20.262
但是，幾年前，

0:01:20.262,0:01:24.667
我麻省理工的同事[br]研究出了動作顯微鏡。

0:01:24.667,0:01:29.051
這軟體可用來尋找影片中的細微動作，

0:01:29.051,0:01:32.613
然後將它們放大使得我們可以看到。

0:01:33.416,0:01:36.899
所以說，如果我們在左邊的影片上[br]使用那個軟體，

0:01:36.899,0:01:40.149
它能讓我們看到腕部的脈搏。

0:01:40.149,0:01:41.844
而且如果我們數一數脈搏的話，

0:01:41.844,0:01:44.199
我們甚至可以得出這個人的心率。

0:01:45.095,0:01:48.160
如果我們在右邊的影片上用同一軟體的話，

0:01:48.160,0:01:51.387
它可以讓我們看到嬰兒的每一個呼吸。

0:01:51.387,0:01:55.524
我們可以將這個軟體視為[br]不用接觸就能觀察嬰兒呼吸的探測器。

0:01:56.884,0:02:01.492
所以這種科技非常強大，[br]它記錄的現象

0:02:01.492,0:02:04.599
是原本我們得觸摸才能感受到的現象，

0:02:04.599,0:02:07.556
而且它可以讓我們可視地、無創地觀察他們。

0:02:09.104,0:02:13.515
所以數年以前，我開始[br]和這些開發軟體的人一起工作，

0:02:13.515,0:02:16.882
然後我們決定去追尋一個瘋狂的主意。

0:02:16.882,0:02:19.575
我們認為用這個軟體發現細小的動作

0:02:19.575,0:02:22.010
是很酷炫的，

0:02:22.010,0:02:27.168
而且可以將它視為我們觸覺的延伸。

0:02:27.168,0:02:31.227
但是如果我們可以[br]做出擴展我們聽覺的軟體呢？

0:02:32.508,0:02:37.173
如果我們可以通過影片[br]從而獲得聲音的振動，

0:02:37.173,0:02:40.000
振動是另外一種動作，

0:02:40.000,0:02:43.346
然後將我們看到的所有東西[br]轉化為聲音進入麥克風呢？

0:02:44.236,0:02:46.207
這是一個有點奇怪的主意，

0:02:46.207,0:02:48.793
所以讓我將它變得更加易懂一些。

0:02:49.523,0:02:54.131
傳統的麥克風通過將內部隔膜的振動

0:02:54.131,0:02:56.610
轉換為電信號，

0:02:56.610,0:03:00.928
設計讓隔膜隨著聲音方便移動。

0:03:00.928,0:03:05.735
它的振動可以被記錄和轉換成聲音。

0:03:05.735,0:03:09.403
但是聲音可以使任何物體產生振動。

0:03:09.403,0:03:14.883
那些振動與我們來說太小太快，[br]以至於我們不能看不見。

0:03:14.883,0:03:18.621
要是我們用高速錄影機記錄下振動，

0:03:18.621,0:03:21.977
然後用軟體從高速錄影機的影片中

0:03:21.977,0:03:24.287
分離出細微的動作，

0:03:24.287,0:03:28.561
然後分析那些動作[br]並且搞清楚是什麼聲音創造了振動呢？

0:03:29.859,0:03:35.308
這樣我們可以在一定距離內[br]將可視物體轉換到可視話筒中。

0:03:37.080,0:03:39.263
然後我們進行了實驗。

0:03:39.263,0:03:41.190
這裏可以看到我們的實驗。

0:03:41.190,0:03:44.139
在右邊我們放置了一盆盆栽，

0:03:44.139,0:03:46.577
然後我們用高速錄影機記錄了下來。

0:03:46.577,0:03:50.106
同事在邊上用擴音器發出這個聲音。

0:03:50.275,0:03:58.465
（音樂：“瑪麗有隻小綿羊”）

0:03:59.820,0:04:02.644
然後下面是我們記錄下的聲音。

0:04:02.644,0:04:06.568
我們每秒鐘記錄下上千次畫面，

0:04:06.568,0:04:08.890
但是就算你再仔細地看，

0:04:08.890,0:04:10.841
你只會看到一些好看的樹葉，

0:04:10.841,0:04:13.906
就只是靜止在那什麼也不做。

0:04:13.906,0:04:18.712
那是因為我們的聲音[br]只移動了樹葉大約一微米的距離，

0:04:19.103,0:04:23.379
那個距離大概是萬分之一釐米，

0:04:23.379,0:04:27.535
在千分之一和百分之一之間，

0:04:27.535,0:04:29.834
只是這一個圖像的像素點。

0:04:29.881,0:04:32.768
所以你可以盡量瞇著眼睛看，

0:04:32.768,0:04:36.103
但是細小的動作是不容易被感知到的。

0:04:37.667,0:04:41.824
但結果卻是一些不容易被看到的物體，

0:04:41.824,0:04:44.633
在數字上仍然非常重要。

0:04:44.633,0:04:46.635
因為當使用了正確的演算法之後，

0:04:46.635,0:04:50.322
我們可以獲取這段看起來靜止無聲的影片，

0:04:50.322,0:04:51.849
然後還原出聲音。

0:04:52.690,0:05:00.074
（音樂：“瑪麗有隻小綿羊”）

0:05:00.074,0:05:05.902
（掌聲）

0:05:10.058,0:05:11.997
這是為什麼呢？

0:05:11.997,0:05:16.341
我們是如何在這細小的動作中[br]得到如此多訊息的呢？

0:05:16.341,0:05:21.702
那麼讓我們假設這些樹葉[br]只是移動了一點點距離，

0:05:21.702,0:05:26.010
再者樹葉只是移動了[br]千分之一個像素的距離。

0:05:27.269,0:05:29.841
那看起來並不多，

0:05:29.841,0:05:31.837
但是一個單一幀率的影片，

0:05:31.837,0:05:35.094
可能有不計其數的像素。

0:05:35.094,0:05:38.548
所以如果我們將這些細小的動作

0:05:38.548,0:05:40.846
從整個畫面中截取出來的話，可以看到

0:05:40.846,0:05:43.469
一個像素的千分之一

0:05:43.469,0:05:46.244
可以累計變得十分重要。

0:05:46.870,0:05:50.505
就我個人來說，[br]我們研究出來時高興得都要瘋了。

0:05:50.505,0:05:52.825
（笑聲）

0:05:52.825,0:05:56.078
但是就算擁有正確的算法，

0:05:56.078,0:05:59.695
我們仍然會丟失整個拼圖中最重要的部分。

0:05:59.695,0:06:01.749
你們知道有許多的因素

0:06:01.749,0:06:05.296
會對這個技術正常工作造成影響。

0:06:05.296,0:06:08.500
這些因素包括，物體離得有多少遠、

0:06:08.500,0:06:10.894
拍攝的時候使用的鏡頭、

0:06:10.894,0:06:14.985
有多少光照在物體上，還有放出的聲音多響。

0:06:15.945,0:06:19.320
而且就算擁有正確的算法，

0:06:19.320,0:06:22.710
我們在早期的試驗中必須十分小心。

0:06:22.710,0:06:25.102
如果說我們弄錯了其中任何一個細節，

0:06:25.102,0:06:27.470
我們沒有辦法找出問題所在，

0:06:27.470,0:06:30.117
只會得到一段噪音。

0:06:30.117,0:06:33.437
所以我們早期的研究是像這樣的。

0:06:33.437,0:06:35.643
這就是我。

0:06:35.643,0:06:39.683
在畫面的左下角可以看到我們的高速錄影機，

0:06:39.683,0:06:41.866
它正對著一包洋芋片，

0:06:41.866,0:06:44.815
所有的事物被一盞燈所照亮。

0:06:44.815,0:06:49.180
就像我說的，我們需要格外小心。

0:06:49.180,0:06:51.688
這就是這個試驗如何進行的。

0:06:51.688,0:06:55.449
（影片）亞伯戴維斯：三二一開始。

0:06:55.449,0:07:00.836
瑪麗有隻小綿羊[br]小綿羊！小綿羊！

0:07:00.836,0:07:05.336
（笑聲）

0:07:05.336,0:07:08.150
亞伯戴維斯：所以這個實驗看起來十分可笑。

0:07:08.150,0:07:09.938
（笑聲）

0:07:09.938,0:07:12.283
我對著一袋洋芋片尖叫。

0:07:12.283,0:07:13.834
（笑聲）

0:07:13.834,0:07:15.951
我們在充足的光照下對著它大叫，

0:07:15.951,0:07:20.430
我們確實將第一個實驗的洋芋融化了。（笑聲）

0:07:20.525,0:07:23.799
儘管看上去很可笑，

0:07:23.799,0:07:25.587
這確實是十分重要，

0:07:25.587,0:07:28.513
因為我們可以復原這個聲音。

0:07:28.513,0:07:33.225
（聲音）瑪麗有隻小綿羊，小綿羊！小綿羊！

0:07:33.225,0:07:37.313
（掌聲）

0:07:37.313,0:07:39.194
這是十分重要的。

0:07:39.194,0:07:43.313
因為這是第一次[br]我們從一個物體靜止的影像中，

0:07:43.424,0:07:45.765
復原出了清楚的人聲。

0:07:45.765,0:07:48.156
所以這給了我們一個參考，

0:07:48.156,0:07:52.027
並且可以逐漸去修改這個實驗。

0:07:52.106,0:07:55.911
用不同的物體或者把物體移到更遠的地方，

0:07:55.911,0:07:58.681
或者使用少量的光和更加輕的聲音。

0:07:59.887,0:08:02.761
我們分析了實驗，

0:08:02.761,0:08:06.383
直到我們弄清楚我們技術的侷限性在哪，

0:08:06.383,0:08:08.333
因為只要我們明白它們的極限，

0:08:08.333,0:08:10.679
就可以知道如何去推動它們。

0:08:10.679,0:08:13.860
我們的實驗就可能變成這一個，

0:08:13.860,0:08:16.599
我在同一個地方[br]再一次向一包洋芋片說話，

0:08:16.599,0:08:21.429
但是這一次我們把攝影機往後移動了15英尺，

0:08:21.429,0:08:24.262
放置在隔音玻璃後面，

0:08:24.262,0:08:27.065
所有的東西僅僅是被太陽光所照亮。

0:08:28.529,0:08:30.684
這是我們拍攝到的影片。

0:08:32.450,0:08:37.009
聽起來這個聲音是從洋芋片內部發出來的。

0:08:37.009,0:08:42.047
（聲音）瑪麗有隻小綿羊，[br]牠的毛白得像雪一樣。

0:08:42.047,0:08:47.666
並且瑪麗走到哪裏，[br]小綿羊就跟到哪裏。

0:08:47.666,0:08:51.683
這是我們能夠通過在玻璃外面捕捉的

0:08:51.683,0:08:54.028
靜止影像中還原出來的。

0:08:54.028,0:08:58.463
（聲音）瑪麗有隻小綿羊，[br]牠的毛白得像雪一樣。

0:08:58.463,0:09:03.920
並且瑪麗走到哪裏，[br]小綿羊就跟到哪裏。

0:09:03.920,0:09:10.421
（掌聲）

0:09:10.421,0:09:13.963
還有其他辦法去推動這些限制，

0:09:13.963,0:09:15.761
所以下面是一個更安靜的實驗。

0:09:15.761,0:09:19.871
我們拍攝了一些插在電腦上的耳機。

0:09:19.871,0:09:23.981
我們的目標是還原出[br]在手提電腦上所放出的聲音，

0:09:23.981,0:09:26.280
從這兩個小耳機中的

0:09:26.280,0:09:28.787
從靜止影片中得到。

0:09:28.787,0:09:30.970
並且我們可以做得很好，

0:09:30.970,0:09:33.431
甚至能夠用聽歌識曲軟體鑑別我們的結果。

0:09:33.431,0:09:35.842
（笑聲）

0:09:37.191,0:09:47.225
（音樂：皇后樂隊 “壓力之下”）

0:09:49.615,0:09:54.584
（掌聲）

0:09:54.584,0:09:59.135
我們也可以通過改變硬體來推動事物。

0:09:59.135,0:10:01.596
我給你們看的這些實驗

0:10:01.596,0:10:03.918
都使用了攝影機，高速攝影機，

0:10:03.918,0:10:06.797
我們可以比大多數手機

0:10:06.797,0:10:08.724
快一百倍地記錄影片。

0:10:08.724,0:10:11.533
但是我們也找到了用普通攝影機

0:10:11.533,0:10:13.763
使用這一項技術的方法。

0:10:13.763,0:10:17.832
我們採用普通照相機[br]像百葉窗一樣記錄東西優點來記錄。

0:10:17.832,0:10:22.630
你們知道，大多數照相機[br]一段時間記錄一排的圖像，

0:10:22.630,0:10:28.332
所以如果一個物體[br]只在被記錄的圖像中移動，

0:10:28.344,0:10:31.061
在記錄的每一排之間幾乎沒有延遲。

0:10:31.061,0:10:34.218
這樣就可以使物體

0:10:34.218,0:10:37.701
被記錄到影片的每一個部分之中。

0:10:37.701,0:10:41.507
我們發現透過分析這些東西，

0:10:41.507,0:10:46.122
實際上只是用了更改過的算法來還原出聲音。

0:10:46.122,0:10:48.034
下面就是我們所做的實驗。

0:10:48.034,0:10:49.729
我們拍攝了一袋糖，

0:10:49.729,0:10:51.470
同時邊上有一個擴音器正在播放著

0:10:51.470,0:10:54.442
與之前相同的“瑪麗有隻小綿羊”。

0:10:54.442,0:10:58.645
但是這一次我們僅使用從商店買來的攝影機。

0:10:58.645,0:11:01.819
馬上我就向你們播放我們還原出的聲音。

0:11:01.819,0:11:03.869
這一次聲音聽起來有一些扭曲，

0:11:03.869,0:11:06.705
但是請聽聽看能否分辨出這音樂。

0:11:07.723,0:11:13.946
（聲音：“瑪麗有隻小綿羊”）

0:11:25.527,0:11:28.992
聲音確實被扭曲了，

0:11:28.992,0:11:33.378
但是神奇的是，我們能夠做這個事情，

0:11:33.378,0:11:36.004
運用一些用完以後

0:11:36.004,0:11:37.448
就可以在 Best Buy 買到的東西。

0:11:39.122,0:11:40.485
所以在這時

0:11:40.485,0:11:42.459
很多人可以看到我們的研究結果，

0:11:42.459,0:11:45.872
然後他們立刻會想到監視。

0:11:45.872,0:11:48.287
公平的說，

0:11:48.287,0:11:52.420
不難想到你們可以用這項技術去監視其他人。

0:11:52.420,0:11:56.367
但是要記住早就有許多成熟的技術

0:11:56.367,0:11:57.946
為監視所準備。

0:11:57.946,0:12:00.036
事實上，人們數十年來使用雷射

0:12:00.036,0:12:02.835
去竊聽別的事物。

0:12:03.978,0:12:06.003
但是，這個技術新穎的地方、

0:12:06.003,0:12:07.443
完全不同的地方，

0:12:07.443,0:12:11.738
是我們現在有辦法拍攝出物體的振動。

0:12:11.738,0:12:15.151
讓我們獲得了觀察這個世界的新鏡頭，

0:12:15.151,0:12:16.661
並且可以使用這鏡頭，

0:12:16.661,0:12:21.560
不僅僅是為了去瞭解導致物體振動的聲音，

0:12:21.560,0:12:23.848
還瞭解了物體本身。

0:12:24.975,0:12:26.668
所以我想往回退一步

0:12:26.668,0:12:30.917
去思考這個技術會如何改變[br]我們應用影片的方法。

0:12:30.917,0:12:34.470
因為我們用影片通常來看一些東西，

0:12:34.470,0:12:36.792
並且我剛才已經展示如何使用它

0:12:36.792,0:12:38.649
去聽一些東西。

0:12:38.649,0:12:42.620
但是另外有一個我們瞭解世界的重要方法，

0:12:42.620,0:12:44.895
那就是和它互動。

0:12:44.895,0:12:48.006
我們推、拉、戳、刺一些事物，

0:12:48.006,0:12:51.187
我們搖動物體來明白發生了什麼事。

0:12:51.187,0:12:55.460
那是影片無法做到的。

0:12:55.460,0:12:57.596
至少過去不行。

0:12:57.596,0:12:59.546
所以我想向你們展示一些新的成品，

0:12:59.546,0:13:02.213
這源自我幾個月之前的想法，

0:13:02.213,0:13:05.514
所以這是我第一次公眾展示。

0:13:05.514,0:13:10.877
而且基本的想法就是[br]我們會用影片之中的振動，

0:13:10.877,0:13:15.358
來捕捉物體[br]在某種程度上這樣可以使我們與物體互動，

0:13:15.358,0:13:17.332
並且可以知道它們如何對我們進行反應。

0:13:19.120,0:13:20.884
這是一個物體。

0:13:20.884,0:13:24.716
這是一個用線做成的人。

0:13:24.716,0:13:27.624
我們要用普通的相機去拍攝它，

0:13:27.624,0:13:29.698
所以這個相機沒有什麼特別之處。

0:13:29.698,0:13:32.889
事實上我曾經用我的手機完成過這件事

0:13:32.889,0:13:35.141
但是我們確實希望這個物體振動。

0:13:35.141,0:13:36.274
所以為了做到這點，

0:13:36.274,0:13:39.620
我們在拍攝的時候

0:13:39.620,0:13:41.758
在它放置的地方敲擊。

0:13:47.398,0:13:51.069
這就是全部了：一個僅僅五秒鐘的普通影片，

0:13:51.069,0:13:53.205
拍攝我們敲擊表面的時候。

0:13:53.205,0:13:56.718
我們將要用這個影片的震動

0:13:56.718,0:14:01.262
去瞭解這個物體的結構和組織組成，

0:14:01.262,0:14:06.096
然後使用這個訊息[br]去創造新穎和互動性的東西。

0:14:12.866,0:14:15.519
這就是我們所創造的。

0:14:15.519,0:14:17.748
這看起來像一個普通的圖片，

0:14:17.748,0:14:20.859
但是這不是圖片也不是影片。

0:14:20.859,0:14:23.227
因為我可以用我的游標，

0:14:23.227,0:14:26.086
也可以和我這個物體互動。

0:14:32.936,0:14:35.293
所以你們看到的

0:14:35.389,0:14:37.615
是一個我們從來沒看到過的，

0:14:37.615,0:14:42.073
關於物體如何對新的力量進行反應。

0:14:42.073,0:14:45.706
我們只是使用了五秒鐘的影片。

0:14:47.249,0:14:51.964
（掌聲）

0:14:57.421,0:15:00.648
所以這是個十分有力的看世界的方法，

0:15:00.648,0:15:03.620
讓我們能推測物體是如何在新環境

0:15:03.620,0:15:05.443
做出反應的。

0:15:05.443,0:15:08.916
並且可以想像，例如看一個古老的橋樑，

0:15:08.916,0:15:12.543
並思考開車經過那座橋時

0:15:12.543,0:15:15.276
它會如何支撐住。

0:15:15.276,0:15:18.050
那是一個在你開車穿過之前，

0:15:18.050,0:15:20.610
你會想先知道答案的問題。

0:15:21.988,0:15:25.260
的確，這項技術還是有侷限性的，

0:15:25.260,0:15:27.722
就像視覺麥克風也有缺陷一樣，

0:15:27.722,0:15:30.903
但是我們發現它適用於許多情況，

0:15:30.903,0:15:32.778
你可能沒有想到的，

0:15:32.778,0:15:35.546
尤其是拍攝更長影片的時候。

0:15:35.546,0:15:38.054
例如，這是我拍的一段影片，

0:15:38.054,0:15:40.353
是我公寓外的灌木叢。

0:15:40.353,0:15:43.441
我沒有對這灌木叢做什麼事，

0:15:43.441,0:15:46.146
但是透過拍攝一段一分鐘的影片，

0:15:46.146,0:15:49.524
一陣輕風可以產生足夠的振動，

0:15:49.524,0:15:53.111
我們可以足夠地瞭解這個灌木叢[br]從而創造出這樣的模擬情況。

0:15:55.270,0:16:01.412
（掌聲）

0:16:01.412,0:16:04.384
所以你可以想像將這個技術給一個電影導演，

0:16:04.384,0:16:06.103
讓他來控制

0:16:06.103,0:16:11.025
影片拍攝完後的風力強度和方向。

0:16:12.810,0:16:17.345
我們也將相機指向了一個掛著的窗簾，

0:16:17.345,0:16:21.474
你幾乎看不到影片中有任何動作，

0:16:21.474,0:16:24.399
但是拍攝兩分鐘的影片後，

0:16:24.399,0:16:26.837
在這個房間中的天然氣流

0:16:26.837,0:16:31.249
創造了足夠細微、不可被察覺的動作和振動，

0:16:31.249,0:16:33.814
這樣我們也可以透過振動製造出模擬。

0:16:36.243,0:16:38.609
可笑的是，

0:16:38.609,0:16:41.697
我們只是在

0:16:41.697,0:16:44.344
虛擬的物體上，

0:16:44.344,0:16:47.641
電視遊戲和3D模型中使用這種互動。

0:16:47.641,0:16:52.045
但是僅僅使用簡單普通的影片

0:16:52.045,0:16:54.862
去捕捉現實世界中的真實物體，

0:16:54.862,0:16:57.045
仍然有很大的潛力。

0:16:58.410,0:17:03.314
這裏有許多傑出的人[br]與我共同研究這些計劃。

0:17:04.057,0:17:09.653
（掌聲）

0:17:12.819,0:17:15.876
我今天展示給你們看的只是個開始。

0:17:15.876,0:17:17.989
我們僅僅開始挖出表面的一部分，

0:17:17.989,0:17:20.961
看看這樣的成像技術能做到什麼事。

0:17:20.961,0:17:23.247
因為它給了我們一個新的方法

0:17:23.342,0:17:28.066
透過平常可得到的技術去捕捉周圍的東西。

0:17:28.066,0:17:29.995
所以展望未來，

0:17:29.995,0:17:32.032
探索這個技術[br]可以告訴我們關於這個世界

0:17:32.032,0:17:33.888
會變得格外激動人心。

0:17:34.381,0:17:35.585
謝謝。

0:17:35.610,0:17:41.717
（掌聲）