0:00:01.373,0:00:04.722 絕大部分的人認為[br]「動作」是非常視覺的。 0:00:05.889,0:00:10.977 如果我走過這個舞台,[br]或在說話的時候使用手勢, 0:00:10.977,0:00:13.238 這些動作都是你可以看見的。 0:00:14.255,0:00:19.737 但有一些細微的重要動作,[br]是人類的眼睛無法看見的。 0:00:19.737,0:00:21.778 而在過去的幾年中, 0:00:21.778,0:00:23.435 我們發現鏡頭, 0:00:23.435,0:00:27.185 能夠看到這些人類所看不見的動作。 0:00:28.305,0:00:29.856 所以讓我來帶大家了解一下, 0:00:30.717,0:00:34.339 在左邊,你可以看到一個人手腕的影片; 0:00:34.339,0:00:37.486 在右邊,你可以看到一個睡著嬰兒的影片。 0:00:37.486,0:00:40.632 但是如果我沒有告訴你這是影片的話, 0:00:40.632,0:00:43.963 你有可能會認為[br]你只是在看兩張非常普通的圖片。 0:00:43.963,0:00:45.655 因為在這兩個情況之下, 0:00:45.655,0:00:49.112 這些影片看起來只是完全靜止的。 0:00:50.175,0:00:54.060 事實上這裏發生著許多細微的動作。 0:00:54.060,0:00:56.452 如果你觸碰左邊手腕的話, 0:00:56.452,0:00:58.448 你會感覺到脈搏。 0:00:58.448,0:01:00.933 如果你抱起這個右邊嬰兒的話, 0:01:00.933,0:01:03.324 你會感覺到她的胸部上下起伏, 0:01:03.324,0:01:04.714 當她正在呼吸的時候。 0:01:05.762,0:01:09.338 這些動作十分重要, 0:01:09.338,0:01:12.681 但對我們來說太細微[br]以至於我們看不到。 0:01:12.681,0:01:14.957 所以我們要用 0:01:14.957,0:01:17.857 直接的觸碰去感知它們。 0:01:18.997,0:01:20.262 但是,幾年前, 0:01:20.262,0:01:24.667 我麻省理工的同事[br]研究出了動作顯微鏡。 0:01:24.667,0:01:29.051 這軟體可用來尋找影片中的細微動作, 0:01:29.051,0:01:32.613 然後將它們放大使得我們可以看到。 0:01:33.416,0:01:36.899 所以說,如果我們在左邊的影片上[br]使用那個軟體, 0:01:36.899,0:01:40.149 它能讓我們看到腕部的脈搏。 0:01:40.149,0:01:41.844 而且如果我們數一數脈搏的話, 0:01:41.844,0:01:44.199 我們甚至可以得出這個人的心率。 0:01:45.095,0:01:48.160 如果我們在右邊的影片上用同一軟體的話, 0:01:48.160,0:01:51.387 它可以讓我們看到嬰兒的每一個呼吸。 0:01:51.387,0:01:55.524 我們可以將這個軟體視為[br]不用接觸就能觀察嬰兒呼吸的探測器。 0:01:56.884,0:02:01.492 所以這種科技非常強大,[br]它記錄的現象 0:02:01.492,0:02:04.599 是原本我們得觸摸才能感受到的現象, 0:02:04.599,0:02:07.556 而且它可以讓我們可視地、無創地觀察他們。 0:02:09.104,0:02:13.515 所以數年以前,我開始[br]和這些開發軟體的人一起工作, 0:02:13.515,0:02:16.882 然後我們決定去追尋一個瘋狂的主意。 0:02:16.882,0:02:19.575 我們認為用這個軟體發現細小的動作 0:02:19.575,0:02:22.010 是很酷炫的, 0:02:22.010,0:02:27.168 而且可以將它視為我們觸覺的延伸。 0:02:27.168,0:02:31.227 但是如果我們可以[br]做出擴展我們聽覺的軟體呢? 0:02:32.508,0:02:37.173 如果我們可以通過影片[br]從而獲得聲音的振動, 0:02:37.173,0:02:40.000 振動是另外一種動作, 0:02:40.000,0:02:43.346 然後將我們看到的所有東西[br]轉化為聲音進入麥克風呢? 0:02:44.236,0:02:46.207 這是一個有點奇怪的主意, 0:02:46.207,0:02:48.793 所以讓我將它變得更加易懂一些。 0:02:49.523,0:02:54.131 傳統的麥克風通過將內部隔膜的振動 0:02:54.131,0:02:56.610 轉換為電信號, 0:02:56.610,0:03:00.928 設計讓隔膜隨著聲音方便移動。 0:03:00.928,0:03:05.735 它的振動可以被記錄和轉換成聲音。 0:03:05.735,0:03:09.403 但是聲音可以使任何物體產生振動。 0:03:09.403,0:03:14.883 那些振動與我們來說太小太快,[br]以至於我們不能看不見。 0:03:14.883,0:03:18.621 要是我們用高速錄影機記錄下振動, 0:03:18.621,0:03:21.977 然後用軟體從高速錄影機的影片中 0:03:21.977,0:03:24.287 分離出細微的動作, 0:03:24.287,0:03:28.561 然後分析那些動作[br]並且搞清楚是什麼聲音創造了振動呢? 0:03:29.859,0:03:35.308 這樣我們可以在一定距離內[br]將可視物體轉換到可視話筒中。 0:03:37.080,0:03:39.263 然後我們進行了實驗。 0:03:39.263,0:03:41.190 這裏可以看到我們的實驗。 0:03:41.190,0:03:44.139 在右邊我們放置了一盆盆栽, 0:03:44.139,0:03:46.577 然後我們用高速錄影機記錄了下來。 0:03:46.577,0:03:50.106 同事在邊上用擴音器發出這個聲音。 0:03:50.275,0:03:58.465 (音樂:“瑪麗有隻小綿羊”) 0:03:59.820,0:04:02.644 然後下面是我們記錄下的聲音。 0:04:02.644,0:04:06.568 我們每秒鐘記錄下上千次畫面, 0:04:06.568,0:04:08.890 但是就算你再仔細地看, 0:04:08.890,0:04:10.841 你只會看到一些好看的樹葉, 0:04:10.841,0:04:13.906 就只是靜止在那什麼也不做。 0:04:13.906,0:04:18.712 那是因為我們的聲音[br]只移動了樹葉大約一微米的距離, 0:04:19.103,0:04:23.379 那個距離大概是萬分之一釐米, 0:04:23.379,0:04:27.535 在千分之一和百分之一之間, 0:04:27.535,0:04:29.834 只是這一個圖像的像素點。 0:04:29.881,0:04:32.768 所以你可以盡量瞇著眼睛看, 0:04:32.768,0:04:36.103 但是細小的動作是不容易被感知到的。 0:04:37.667,0:04:41.824 但結果卻是一些不容易被看到的物體, 0:04:41.824,0:04:44.633 在數字上仍然非常重要。 0:04:44.633,0:04:46.635 因為當使用了正確的演算法之後, 0:04:46.635,0:04:50.322 我們可以獲取這段看起來靜止無聲的影片, 0:04:50.322,0:04:51.849 然後還原出聲音。 0:04:52.690,0:05:00.074 (音樂:“瑪麗有隻小綿羊”) 0:05:00.074,0:05:05.902 (掌聲) 0:05:10.058,0:05:11.997 這是為什麼呢? 0:05:11.997,0:05:16.341 我們是如何在這細小的動作中[br]得到如此多訊息的呢? 0:05:16.341,0:05:21.702 那麼讓我們假設這些樹葉[br]只是移動了一點點距離, 0:05:21.702,0:05:26.010 再者樹葉只是移動了[br]千分之一個像素的距離。 0:05:27.269,0:05:29.841 那看起來並不多, 0:05:29.841,0:05:31.837 但是一個單一幀率的影片, 0:05:31.837,0:05:35.094 可能有不計其數的像素。 0:05:35.094,0:05:38.548 所以如果我們將這些細小的動作 0:05:38.548,0:05:40.846 從整個畫面中截取出來的話,可以看到 0:05:40.846,0:05:43.469 一個像素的千分之一 0:05:43.469,0:05:46.244 可以累計變得十分重要。 0:05:46.870,0:05:50.505 就我個人來說,[br]我們研究出來時高興得都要瘋了。 0:05:50.505,0:05:52.825 (笑聲) 0:05:52.825,0:05:56.078 但是就算擁有正確的算法, 0:05:56.078,0:05:59.695 我們仍然會丟失整個拼圖中最重要的部分。 0:05:59.695,0:06:01.749 你們知道有許多的因素 0:06:01.749,0:06:05.296 會對這個技術正常工作造成影響。 0:06:05.296,0:06:08.500 這些因素包括,物體離得有多少遠、 0:06:08.500,0:06:10.894 拍攝的時候使用的鏡頭、 0:06:10.894,0:06:14.985 有多少光照在物體上,還有放出的聲音多響。 0:06:15.945,0:06:19.320 而且就算擁有正確的算法, 0:06:19.320,0:06:22.710 我們在早期的試驗中必須十分小心。 0:06:22.710,0:06:25.102 如果說我們弄錯了其中任何一個細節, 0:06:25.102,0:06:27.470 我們沒有辦法找出問題所在, 0:06:27.470,0:06:30.117 只會得到一段噪音。 0:06:30.117,0:06:33.437 所以我們早期的研究是像這樣的。 0:06:33.437,0:06:35.643 這就是我。 0:06:35.643,0:06:39.683 在畫面的左下角可以看到我們的高速錄影機, 0:06:39.683,0:06:41.866 它正對著一包洋芋片, 0:06:41.866,0:06:44.815 所有的事物被一盞燈所照亮。 0:06:44.815,0:06:49.180 就像我說的,我們需要格外小心。 0:06:49.180,0:06:51.688 這就是這個試驗如何進行的。 0:06:51.688,0:06:55.449 (影片)亞伯戴維斯:三二一開始。 0:06:55.449,0:07:00.836 瑪麗有隻小綿羊[br]小綿羊!小綿羊! 0:07:00.836,0:07:05.336 (笑聲) 0:07:05.336,0:07:08.150 亞伯戴維斯:所以這個實驗看起來十分可笑。 0:07:08.150,0:07:09.938 (笑聲) 0:07:09.938,0:07:12.283 我對著一袋洋芋片尖叫。 0:07:12.283,0:07:13.834 (笑聲) 0:07:13.834,0:07:15.951 我們在充足的光照下對著它大叫, 0:07:15.951,0:07:20.430 我們確實將第一個實驗的洋芋融化了。(笑聲) 0:07:20.525,0:07:23.799 儘管看上去很可笑, 0:07:23.799,0:07:25.587 這確實是十分重要, 0:07:25.587,0:07:28.513 因為我們可以復原這個聲音。 0:07:28.513,0:07:33.225 (聲音)瑪麗有隻小綿羊,小綿羊!小綿羊! 0:07:33.225,0:07:37.313 (掌聲) 0:07:37.313,0:07:39.194 這是十分重要的。 0:07:39.194,0:07:43.313 因為這是第一次[br]我們從一個物體靜止的影像中, 0:07:43.424,0:07:45.765 復原出了清楚的人聲。 0:07:45.765,0:07:48.156 所以這給了我們一個參考, 0:07:48.156,0:07:52.027 並且可以逐漸去修改這個實驗。 0:07:52.106,0:07:55.911 用不同的物體或者把物體移到更遠的地方, 0:07:55.911,0:07:58.681 或者使用少量的光和更加輕的聲音。 0:07:59.887,0:08:02.761 我們分析了實驗, 0:08:02.761,0:08:06.383 直到我們弄清楚我們技術的侷限性在哪, 0:08:06.383,0:08:08.333 因為只要我們明白它們的極限, 0:08:08.333,0:08:10.679 就可以知道如何去推動它們。 0:08:10.679,0:08:13.860 我們的實驗就可能變成這一個, 0:08:13.860,0:08:16.599 我在同一個地方[br]再一次向一包洋芋片說話, 0:08:16.599,0:08:21.429 但是這一次我們把攝影機往後移動了15英尺, 0:08:21.429,0:08:24.262 放置在隔音玻璃後面, 0:08:24.262,0:08:27.065 所有的東西僅僅是被太陽光所照亮。 0:08:28.529,0:08:30.684 這是我們拍攝到的影片。 0:08:32.450,0:08:37.009 聽起來這個聲音是從洋芋片內部發出來的。 0:08:37.009,0:08:42.047 (聲音)瑪麗有隻小綿羊,[br]牠的毛白得像雪一樣。 0:08:42.047,0:08:47.666 並且瑪麗走到哪裏,[br]小綿羊就跟到哪裏。 0:08:47.666,0:08:51.683 這是我們能夠通過在玻璃外面捕捉的 0:08:51.683,0:08:54.028 靜止影像中還原出來的。 0:08:54.028,0:08:58.463 (聲音)瑪麗有隻小綿羊,[br]牠的毛白得像雪一樣。 0:08:58.463,0:09:03.920 並且瑪麗走到哪裏,[br]小綿羊就跟到哪裏。 0:09:03.920,0:09:10.421 (掌聲) 0:09:10.421,0:09:13.963 還有其他辦法去推動這些限制, 0:09:13.963,0:09:15.761 所以下面是一個更安靜的實驗。 0:09:15.761,0:09:19.871 我們拍攝了一些插在電腦上的耳機。 0:09:19.871,0:09:23.981 我們的目標是還原出[br]在手提電腦上所放出的聲音, 0:09:23.981,0:09:26.280 從這兩個小耳機中的 0:09:26.280,0:09:28.787 從靜止影片中得到。 0:09:28.787,0:09:30.970 並且我們可以做得很好, 0:09:30.970,0:09:33.431 甚至能夠用聽歌識曲軟體鑑別我們的結果。 0:09:33.431,0:09:35.842 (笑聲) 0:09:37.191,0:09:47.225 (音樂:皇后樂隊 “壓力之下”) 0:09:49.615,0:09:54.584 (掌聲) 0:09:54.584,0:09:59.135 我們也可以通過改變硬體來推動事物。 0:09:59.135,0:10:01.596 我給你們看的這些實驗 0:10:01.596,0:10:03.918 都使用了攝影機,高速攝影機, 0:10:03.918,0:10:06.797 我們可以比大多數手機 0:10:06.797,0:10:08.724 快一百倍地記錄影片。 0:10:08.724,0:10:11.533 但是我們也找到了用普通攝影機 0:10:11.533,0:10:13.763 使用這一項技術的方法。 0:10:13.763,0:10:17.832 我們採用普通照相機[br]像百葉窗一樣記錄東西優點來記錄。 0:10:17.832,0:10:22.630 你們知道,大多數照相機[br]一段時間記錄一排的圖像, 0:10:22.630,0:10:28.332 所以如果一個物體[br]只在被記錄的圖像中移動, 0:10:28.344,0:10:31.061 在記錄的每一排之間幾乎沒有延遲。 0:10:31.061,0:10:34.218 這樣就可以使物體 0:10:34.218,0:10:37.701 被記錄到影片的每一個部分之中。 0:10:37.701,0:10:41.507 我們發現透過分析這些東西, 0:10:41.507,0:10:46.122 實際上只是用了更改過的算法來還原出聲音。 0:10:46.122,0:10:48.034 下面就是我們所做的實驗。 0:10:48.034,0:10:49.729 我們拍攝了一袋糖, 0:10:49.729,0:10:51.470 同時邊上有一個擴音器正在播放著 0:10:51.470,0:10:54.442 與之前相同的“瑪麗有隻小綿羊”。 0:10:54.442,0:10:58.645 但是這一次我們僅使用從商店買來的攝影機。 0:10:58.645,0:11:01.819 馬上我就向你們播放我們還原出的聲音。 0:11:01.819,0:11:03.869 這一次聲音聽起來有一些扭曲, 0:11:03.869,0:11:06.705 但是請聽聽看能否分辨出這音樂。 0:11:07.723,0:11:13.946 (聲音:“瑪麗有隻小綿羊”) 0:11:25.527,0:11:28.992 聲音確實被扭曲了, 0:11:28.992,0:11:33.378 但是神奇的是,我們能夠做這個事情, 0:11:33.378,0:11:36.004 運用一些用完以後 0:11:36.004,0:11:37.448 就可以在 Best Buy 買到的東西。 0:11:39.122,0:11:40.485 所以在這時 0:11:40.485,0:11:42.459 很多人可以看到我們的研究結果, 0:11:42.459,0:11:45.872 然後他們立刻會想到監視。 0:11:45.872,0:11:48.287 公平的說, 0:11:48.287,0:11:52.420 不難想到你們可以用這項技術去監視其他人。 0:11:52.420,0:11:56.367 但是要記住早就有許多成熟的技術 0:11:56.367,0:11:57.946 為監視所準備。 0:11:57.946,0:12:00.036 事實上,人們數十年來使用雷射 0:12:00.036,0:12:02.835 去竊聽別的事物。 0:12:03.978,0:12:06.003 但是,這個技術新穎的地方、 0:12:06.003,0:12:07.443 完全不同的地方, 0:12:07.443,0:12:11.738 是我們現在有辦法拍攝出物體的振動。 0:12:11.738,0:12:15.151 讓我們獲得了觀察這個世界的新鏡頭, 0:12:15.151,0:12:16.661 並且可以使用這鏡頭, 0:12:16.661,0:12:21.560 不僅僅是為了去瞭解導致物體振動的聲音, 0:12:21.560,0:12:23.848 還瞭解了物體本身。 0:12:24.975,0:12:26.668 所以我想往回退一步 0:12:26.668,0:12:30.917 去思考這個技術會如何改變[br]我們應用影片的方法。 0:12:30.917,0:12:34.470 因為我們用影片通常來看一些東西, 0:12:34.470,0:12:36.792 並且我剛才已經展示如何使用它 0:12:36.792,0:12:38.649 去聽一些東西。 0:12:38.649,0:12:42.620 但是另外有一個我們瞭解世界的重要方法, 0:12:42.620,0:12:44.895 那就是和它互動。 0:12:44.895,0:12:48.006 我們推、拉、戳、刺一些事物, 0:12:48.006,0:12:51.187 我們搖動物體來明白發生了什麼事。 0:12:51.187,0:12:55.460 那是影片無法做到的。 0:12:55.460,0:12:57.596 至少過去不行。 0:12:57.596,0:12:59.546 所以我想向你們展示一些新的成品, 0:12:59.546,0:13:02.213 這源自我幾個月之前的想法, 0:13:02.213,0:13:05.514 所以這是我第一次公眾展示。 0:13:05.514,0:13:10.877 而且基本的想法就是[br]我們會用影片之中的振動, 0:13:10.877,0:13:15.358 來捕捉物體[br]在某種程度上這樣可以使我們與物體互動, 0:13:15.358,0:13:17.332 並且可以知道它們如何對我們進行反應。 0:13:19.120,0:13:20.884 這是一個物體。 0:13:20.884,0:13:24.716 這是一個用線做成的人。 0:13:24.716,0:13:27.624 我們要用普通的相機去拍攝它, 0:13:27.624,0:13:29.698 所以這個相機沒有什麼特別之處。 0:13:29.698,0:13:32.889 事實上我曾經用我的手機完成過這件事 0:13:32.889,0:13:35.141 但是我們確實希望這個物體振動。 0:13:35.141,0:13:36.274 所以為了做到這點, 0:13:36.274,0:13:39.620 我們在拍攝的時候 0:13:39.620,0:13:41.758 在它放置的地方敲擊。 0:13:47.398,0:13:51.069 這就是全部了:一個僅僅五秒鐘的普通影片, 0:13:51.069,0:13:53.205 拍攝我們敲擊表面的時候。 0:13:53.205,0:13:56.718 我們將要用這個影片的震動 0:13:56.718,0:14:01.262 去瞭解這個物體的結構和組織組成, 0:14:01.262,0:14:06.096 然後使用這個訊息[br]去創造新穎和互動性的東西。 0:14:12.866,0:14:15.519 這就是我們所創造的。 0:14:15.519,0:14:17.748 這看起來像一個普通的圖片, 0:14:17.748,0:14:20.859 但是這不是圖片也不是影片。 0:14:20.859,0:14:23.227 因為我可以用我的游標, 0:14:23.227,0:14:26.086 也可以和我這個物體互動。 0:14:32.936,0:14:35.293 所以你們看到的 0:14:35.389,0:14:37.615 是一個我們從來沒看到過的, 0:14:37.615,0:14:42.073 關於物體如何對新的力量進行反應。 0:14:42.073,0:14:45.706 我們只是使用了五秒鐘的影片。 0:14:47.249,0:14:51.964 (掌聲) 0:14:57.421,0:15:00.648 所以這是個十分有力的看世界的方法, 0:15:00.648,0:15:03.620 讓我們能推測物體是如何在新環境 0:15:03.620,0:15:05.443 做出反應的。 0:15:05.443,0:15:08.916 並且可以想像,例如看一個古老的橋樑, 0:15:08.916,0:15:12.543 並思考開車經過那座橋時 0:15:12.543,0:15:15.276 它會如何支撐住。 0:15:15.276,0:15:18.050 那是一個在你開車穿過之前, 0:15:18.050,0:15:20.610 你會想先知道答案的問題。 0:15:21.988,0:15:25.260 的確,這項技術還是有侷限性的, 0:15:25.260,0:15:27.722 就像視覺麥克風也有缺陷一樣, 0:15:27.722,0:15:30.903 但是我們發現它適用於許多情況, 0:15:30.903,0:15:32.778 你可能沒有想到的, 0:15:32.778,0:15:35.546 尤其是拍攝更長影片的時候。 0:15:35.546,0:15:38.054 例如,這是我拍的一段影片, 0:15:38.054,0:15:40.353 是我公寓外的灌木叢。 0:15:40.353,0:15:43.441 我沒有對這灌木叢做什麼事, 0:15:43.441,0:15:46.146 但是透過拍攝一段一分鐘的影片, 0:15:46.146,0:15:49.524 一陣輕風可以產生足夠的振動, 0:15:49.524,0:15:53.111 我們可以足夠地瞭解這個灌木叢[br]從而創造出這樣的模擬情況。 0:15:55.270,0:16:01.412 (掌聲) 0:16:01.412,0:16:04.384 所以你可以想像將這個技術給一個電影導演, 0:16:04.384,0:16:06.103 讓他來控制 0:16:06.103,0:16:11.025 影片拍攝完後的風力強度和方向。 0:16:12.810,0:16:17.345 我們也將相機指向了一個掛著的窗簾, 0:16:17.345,0:16:21.474 你幾乎看不到影片中有任何動作, 0:16:21.474,0:16:24.399 但是拍攝兩分鐘的影片後, 0:16:24.399,0:16:26.837 在這個房間中的天然氣流 0:16:26.837,0:16:31.249 創造了足夠細微、不可被察覺的動作和振動, 0:16:31.249,0:16:33.814 這樣我們也可以透過振動製造出模擬。 0:16:36.243,0:16:38.609 可笑的是, 0:16:38.609,0:16:41.697 我們只是在 0:16:41.697,0:16:44.344 虛擬的物體上, 0:16:44.344,0:16:47.641 電視遊戲和3D模型中使用這種互動。 0:16:47.641,0:16:52.045 但是僅僅使用簡單普通的影片 0:16:52.045,0:16:54.862 去捕捉現實世界中的真實物體, 0:16:54.862,0:16:57.045 仍然有很大的潛力。 0:16:58.410,0:17:03.314 這裏有許多傑出的人[br]與我共同研究這些計劃。 0:17:04.057,0:17:09.653 (掌聲) 0:17:12.819,0:17:15.876 我今天展示給你們看的只是個開始。 0:17:15.876,0:17:17.989 我們僅僅開始挖出表面的一部分, 0:17:17.989,0:17:20.961 看看這樣的成像技術能做到什麼事。 0:17:20.961,0:17:23.247 因為它給了我們一個新的方法 0:17:23.342,0:17:28.066 透過平常可得到的技術去捕捉周圍的東西。 0:17:28.066,0:17:29.995 所以展望未來, 0:17:29.995,0:17:32.032 探索這個技術[br]可以告訴我們關於這個世界 0:17:32.032,0:17:33.888 會變得格外激動人心。 0:17:34.381,0:17:35.585 謝謝。 0:17:35.610,0:17:41.717 (掌聲)