Kebanyakan kita menganggap gerakan adalah hal yang bisa terlihat. Jika saya berjalan di atas panggung atau menggerakkan tangan sambil berbicara, gerakan ini tentu bisa Anda lihat. Akan tetapi banyak sekali gerakan yang terlalu halus untuk dilihat mata manusia, dan selama beberapa tahun terakhir, kami menemukan bahwa kamera seringkali dapat melihat gerakan, bahkan yang tidak bisa dilihat mata manusia. Mari saya tunjukkan. Di kiri, Anda melihat video rekaman pergelangan tangan seseorang, dan di kanan, Anda melihat video seorang bayi yang sedang tidur, tapi kalau saya tidak menyampaikan bahwa keduanya adalah video, Anda mungkin berpikir bahwa yang Anda lihat hanyalah gambar, karena gambar pada kedua video ini terlihat hampir tak bergerak. Tapi sebenarnya ada banyak gerakan halus yang sedang terjadi, dan jika Anda menyentuh pergelangan tangan yang ada di kiri, Anda akan merasakan denyut nadi, dan jika Anda menyentuh bayi di video sebelah kanan, Anda akan merasakan gerakan naik turun dadanya ketika bayi ini bernafas. Dan gerakan ini memiliki makna yang sangat banyak, tapi biasanya terlalu halus untuk bisa kita lihat, sehingga kita bisa mengetahui perbedaannya hanya melalui kontak langsung, melalui sentuhan. Tapi beberapa tahun lalu, rekan-rekan saya di MIT mengembangkan alat yang mereka sebut mikroskop gerakan, yaitu sebuah piranti lunak untuk menemukan gerakan halus seperti ini pada video dan memperbesarnya sehingga dapat kita lihat. Jika piranti lunak ini kita gunakan pada video yang kiri, kita akan bisa melihat gerakan nadi di pergelangan tangan, dan jika kita menghitungnya, kita bisa menentukan detak jantungnya. Dan jika kita gunakan pada video di sebelah kiri, kita bisa melihat tiap tarikan nafas bayi ini, dan kita bisa menggunakannya untuk memonitor nafas bayi dari jarak jauh. Jadi, teknologi ini sangat bermanfaat karena bisa menangkap kejadian yang biasanya hanya dapat kita amati lewat sentuhan tapi kini bisa kita pantau secara visual dan tanpa sentuhan. Beberapa tahun lalu, saya mulai bekerja sama dengan pencipta piranti lunak ini, dan kami memutuskan untuk mencapai sesuatu yang lebih gila lagi. Kami pikir, keren juga kalau kita bisa menggunakan piranti ini untuk memperlihatkan gerakan halus seperti ini, alat ini seakan menjadi perpanjangan indra peraba kita. Tapi bagaimana jika kita bisa melakukan hal yang sama untuk memperpanjang indra pendengaran kita? Bagaimana jika kita menggunakan video untuk menangkap getaran suara, yang mana juga merupakan satu bentuk gerakan, dan mengubah apa pun yang bisa kita lihat menjadi mikrofon? Ini ide yang agak aneh, izinkan saya menjelaskannya untuk Anda. Mikrofon tradisional bekerja dengan mengubah gerakan dari diafragma yang ada di dalamnya menjadi sinyal listrik, yang mana diafragma itu dirancang untuk bergerak jika ada suara masuk sehingga gerakan tersebut dapat direkam dan diterjemahkan menjadi suara. Tapi, gelombang suara membuat semua benda bergetar. Getaran tersebut biasanya terlalu halus dan terlalu cepat untuk bisa kita lihat. Bagaimana jika kita merekamnya dengan kamera berkecepatan tinggi, lalu menggunakan piranti lunak ini untuk memperbesar getaran halus dari video berkecepatan tinggi itu, kemudian menganalisanya untuk mencari tahu suara apa yang menimbulkan getaran itu? Ini bisa mengubah semua objek yang bisa dilihat menjadi mikrofon jarak jauh. Jadi kami mencobanya, dan ini adalah salah satu percobaan kami, Kami menggunakan tanaman yang Anda lihat di sebelah kanan yang kami rekam dengan kamera kecepatan tinggi ketika sebuah speaker didekatnya memainkan nada ini. [Video berkecepatan tinggi] (Musik yang diputar dalam ruangan: "Mary Had a Little Lamb") Dan inilah video yang kami rekam dengan kecepatan ribuan frame per detik, tapi seberapa pun dekatnya Anda melihatnya, yang Anda lihat hanyalah dedaunan yang cuma diam saja, karena suara tadi hanya menggerakkan daun sekitar satu mikrometer. Itu artinya satu per sepuluh ribu dari satu sentimeter, atau hanya berkisar antara seperseratus sampai seperseribu dari satu pixel dalam gambar ini. Anda boleh memicingkan mata semau anda, tapi gerakan sekecil itu memang relatif tidak terlihat. Ternyata sesuatu yang relatif tidak terlihat tetap signifikan secara matematis, karena dengan algoritma yang tepat, kita bisa menggunakan video yang kelihatannya diam ini untuk mendapatkan suaranya lagi. (Musik yang didapat dari video: "Mary Had a Little Lamb") (Tepuk tangan) Bagaimana mungkin? Bagaimana kita bisa mendapat begitu banyak informasi dari gerakan yang begitu halus? Katakanlah bahwa daun itu bergerak sejauh satu mikrometer, yang berarti gambar kita bergeser seperseribu pixel. Kelihatannya memang tidak besar, tapi satu gambar dalam video bisa memiliki ratusan ribu pixel di dalamnya, dan jika kita menggabungkan seluruh gerakan kecil yang kita lihat dari seluruh gambar, maka seperseribu dari satu pixel bisa jadi cukup penting ketika semuanya dikumpulkan. Bagi saya pribadi, kami cukup tercengang ketika kami berhasil melakukannya. (Tertawa) Tapi bahkan dengan algoritma yang tepat pun, ada bagian penting dari teka-teki ini yang masih hilang. Begini, ada banyak sekali faktor yang mempengaruhi kapan dan bagaimana teknik ini bisa berhasil. Seperti objek itu sendiri serta jaraknya; jenis kamera dan lensa yang digunakan; tingkat pencahayaan dan besar volume suaranya. Dan bahkan dengan algoritma yang tepat pun, kami masih harus sangat berhati-hati di awal percobaan kami, karena jika ada satu faktor saja yang salah, akan sulit menentukan letak permasalahannya. Kami hanya akan mendapatkan suara bising. Jadi banyak percobaan awal kami berjalan seperti ini. Ini saya, dan di kiri bawah, bisa Anda lihat kamera kecepatan tinggi kami, yang mengarah ke sekantung keripik, dan semuanya diterangi oleh lampu-lampu terang ini. Dan seperti yang saya sampaikan, kami harus berhati-hati sekali dalam percobaan, jadi inilah yang terjadi. (Video) Abe Davis: Tiga, dua, satu, mulai. Mary punya kambing kecil! Kambing kecil! Kambing kecil! (Tertawa) AD: Jadi percobaan ini betul betul terlihat konyol. (Tertawa) Saya berteriak pada sekantung keripik -- (Tertawa) dan cahaya yang kami gunakan begitu kuat, hingga kantung keripik pertama kami meleleh. (Tertawa) Tapi walaupun percobaan ini terlihat konyol, tapi sebenarnya sangat penting, karena kami berhasil mendapatkan kembali suaranya. (Audio) Mary punya kambing kecil! Kambing kecil! Kambing kecil! (Tepuk tangan) AD: Dan ini sangat penting, karena inilah pertama kali kami berhasil mendapatkan suara manusia yang dapat dipahami dari sebuah video diam. Percobaan ini memberi kami titik referensi, dan secara bertahap kami dapat mengembangkan percobaan berikutnya, dengan menggunakan objek berbeda atau dengan menambah jarak kamera, dengan cahaya yang lebih redup atau suara yang lebih halus. Dan kami menganalisa semua percobaan yang kami lakukan sampai kami mendapatkan batasan yang dapat dicapai teknik ini, karena jika kita tahu batasannya, kita bisa tahu bagaimana mendorong batasan itu lebih jauh lagi. Sehingga sampai pada percobaan seperti ini, dimana sekali lagi, saya berteriak pada sekantung keripik, tapi kali ini kami memposisikan kamera 4,5 meter dari keripik, di luar ruangan, di balik jendela kedap suara dan kami hanya menggunakan cahaya alami dari sinar matahari. Dan inilah video yang kami dapatkan. Dan inilah yang terdengar di dalam ruangan, dekat kantung keripik. (Audio) Mary punya domba kecil, bulunya seputih salju, dan kemanapun Mary pergi, sang domba pasti mengikuti. AD: Dan inilah yang kami dapatkan dari video bisu tersebut yang diambil dari balik jendela. (Audio) Mary punya domba kecil, bulunya seputih salju, dan kemanapun Mary pergi, sang domba pasti mengikuti. (Tepuk tangan) AD: Dan ada cara lain untuk meningkatkan batasan teknik ini. Ini percobaan dengan suara yang lebih halus dimana kami merekam beberapa earphone yang terpasang pada laptop, tujuannya adalah mendapatkan musik yang sedang diputar di laptop melalui rekaman video diam dua earphone plastik ini, dan kami berhasil melakukannya dengan sangat baik bahkan aplikasi Shazam pun bisa mengenali musiknya. (Tertawa) (Musik yang didapat dari video: "Under Pressure" oleh Queen) (Tepuk tangan) Kita juga bisa meningkatkan batasannya dengan mengganti piranti keras yang digunakan. Karena percobaan yang sudah saya tunjukkan sejauh ini direkam dengan kamera kecepatan tinggi, yang bisa merekam video 100 kali lebih cepat dari kamera ponsel biasa, tapi kami menemukan cara untuk menerapkan teknik ini menggunakan kamera biasa, dengan memanfaatkan fitur yang disebut rana putar. Kebanyakan kamera merekam gambar per baris, jadi jika objeknya bergerak saat gambar diambil, ada penundaan waktu rekam antara setiap baris rekaman, yang akan menimbulkan sedikit kesalahan gambar yang akan terekam pada setiap frame video. Kami menemukan bahwa, dengan menganalisa kesalahan gambar ini, kami bisa mendapatkan kembali suaranya, dengan memodifikasi algoritmanya. Dan inilah percobaan yang kami lakukan. Kami merekam sekantung permen di samping sebuah speaker yang memainkan musik yang sama, "Mary had a Little Lamb." Tapi kali ini, kami memakai kamera biasa yang bisa dibeli di toko. Sebentar lagi saya akan memutar suara yang kami dapatkan, suaranya agak jelek kali ini, tapi coba dengar, apa Anda masih mengenali musiknya. (Audio yang didapat dari video: "Mary had a Little Lamb") [Kiri: Video diam dari kamera SLR biasa] [Kanan: Suara yang terekam dari kantung permen] Jadi, memang suaranya agak jelek, tapi hebatnya adalah, kita bisa menerapkan aplikasi ini dengan alat yang bisa dengan mudah Anda dapatkan di toko elektronik. Jadi sampai disini, banyak orang melihat percobaan ini dan langsung berpikir tentang pengintaian. Dan jujur saja, tidak sulit membayangkan alat ini bisa digunakan untuk memata matai. Tapi ingatlah, sudah banyak teknologi siap pakai saat ini untuk pengintaian. Bahkan, masyarakat sudah lazim memakai sinar laser untuk menguping dari jarak jauh. Tapi hal yang baru disini, yang benar-benar berbeda, adalah kita sekarang mampu menggambarkan getaran dari sebuah objek, yang memberi kita lensa baru untuk memandang dunia, dan kita bisa menggunakannya untuk mempelajari tidak saja berbagai gaya seperti suara yang dapat membuat benda bergetar, tapi juga tentang objek itu sendiri. Saya sedikit mundur ke belakang dan memikirkan bagaimana ini bisa mengubah cara kita menggunakan video. Kalau sebelumnya kita menggunakan video untuk melihat objek, kini kita bisa menggunakannya untuk mendengarkan sesuatu. Tapi satu cara lain untuk belajar tentang dunia: yaitu dengan berinteraksi dengannya. Kita bisa menarik, menekan, mencolek dan mendorong benda. Kita menggoyang benda dan melihat apa yang terjadi. Tapi kita masih belum bisa melakukannya melalui video, setidaknya secara tradisional. Saya ingin menunjukkan percobaan baru kami, yang idenya saya dapat beberapa bulan yang lalu, dan ini adalah pertama kalinya saya menunjukkannya pada umum. Ide dasarnya adalah untuk menggunakan getaran dalam satu video untuk menangkap objek sedemikian rupa sehingga kita bisa berinteraksi dengannya dan melihat reaksinya. Ini adalah sebuah objek, sebuah patung kawat berbentuk manusia, yang kami rekam dengan kamera biasa. Kamera ini tidak istimewa. Bahkan, saya pernah melakukannya dengan kamera HP saya. Tapi kita butuh objek ini bergetar. Untuk itu, kita pukul sedikit permukaan meja dimana ia terletak, sambil kita merekam videonya. Itu saja. Lima detik rekaman video biasa, sambil kita mengetuk meja, dan kita akan menggunakan getaran dari video tersebut untuk mempelajari sifat struktural dan material objek ini. Lalu informasi tersebut akan digunakan untuk membuat sesuatu yang baru dan interaktif. Inilah yang kami buat. Terlihat seperti gambar biasa, tapi ini bukan gambar, juga bukan video, karena jika saya gerakkan mouse saya, dan berinteraksi dengan objek ini. Yang Anda lihat disini adalah simulasi bagaimana objek ini akan bereaksi terhadap daya baru, yang belum pernah kita lihat sebelumnya, dan kami membuatnya hanya dari video biasa berdurasi 5 detik. (Tepuk tangan) Ini cara hebat untuk melihat dunia, karena kita bisa memprediksi reaksi objek dalam situasi baru, dan bisa Anda bayangkan, contohnya, jika kita melihat jembatan tua lalu kita bayangkan apa yang akan terjadi, mampukah jembatan ini bertahan jika mobil saya melintas di atasnya. Dan Anda mungkin akan ingin mendapat jawabannya sebelum Anda melintasinya juga. Tentu saja, teknik ini memiliki batasan, sama seperti pada mikrofon visual, tapi kami menemukan bahwa teknik ini bekerja baik dalam banyak situasi yang tidak disangka, apalagi jika videonya berdurasi lebih panjang. Ini contohnya, ini adalah video rekaman semak-semak di luar apartemen saya, saya tidak melakukan apa-apa terhadap semak-semak ini, tapi dengan merekamnya selama satu menit, hebusan angin sepoi-sepoi menggetarkan semak-semak sehingga kami bisa membuat simulasi berikut. (Tepuk tangan) Bisa Anda bayangkan jika kita memberikannya ke sutradara, dia bisa mengendalikan kekuatan dan arah angin dalam suatu adegan setelah adegannya selesai direkam. Atau, dalam hal ini, kami arahkan kamera ke sebuah tirai yang tergantung, Anda bahkan tidak melihat gerakan apa pun dalam video ini, tapi dengan merekamnya selama dua menit, aliran udara alami dalam ruangan ini menimbulkan getaran yang halus dan tak terlihat yang memungkinkan kami untuk membuat simulasi ini. Tapi ironisnya, kita sudah terbiasa dengan interaksi semacam ini dalam dunia virtual, terutama dalam video game ataupun model 3D lainnya, tapi dengan memperoleh informasi ini dari objek nyata dengan menggunakan video biasa dan sederhana, adalah satu hal baru yang punya banyak potensi. Ini adalah para rekan yang bekerja dengan saya dalam proyek ini. (Tepuk tangan) Yang saya tunjukkan hari ini hanyalah permulaan. Kami baru mengetahui kulitnya saja dari apa yang bisa kita lakukan dengan pencitraan seperti ini, karena teknik ini memberi kita cara baru untuk mengamati lingkungan kita dengan perangkat yang lazim dan terjangkau. Jadi ke depan, akan sangat menarik untuk menggali apa yang bisa diajarkan teknik ini tentang dunia. Terima kasih. (Tepuk tangan)