Większość z nas postrzega ruch, jako coś bardzo wizualnego. Jeśli przejdę się po scenie albo wykonam gest rękami kiedy mówię będziecie mogli zaobserwować ten ruch. Ale istnieje mnóstwo ważnych ruchów, które są zbyt drobne dla ludzkiego oka, a w ostatnich latach odkryliśmy, że kamery potrafią dostrzec ruch, którego nie widzi ludzkie oko. Zobrazuję wam to. Po lewej mamy film, na którym widać nadgarstek, a po prawej film ze śpiącym niemowlakiem. Gdybym nie powiedział wam, że to filmy moglibyście pomyśleć, że macie przed sobą zwykłe zdjęcia, bo na obu filmach pozornie nie ma żadnego ruchu. W rzeczywistości jest na nich całe mnóstwo subtelnych ruchów. Gdybyście dotknęli nadgarstek po lewej wyczulibyście puls, a gdybyście wzięli niemowlę na ręce poczulibyście jak z każdym oddechem podnosi się jego pierś. Ruchy te mają duże znaczenie, ale zwykle są zbyt subtelne, żebyśmy mogli je zobaczyć. Możemy je wyczuć jedynie przez dotyk. Kilka lat temu moi koledzy z Instytutu Technologicznego w Massachusetts stworzyli mikroskop ruchu, czyli oprogramowanie wykrywające drobne ruchy i wzmacniające je tak, żebyśmy mogli je zobaczyć. Jeśli zastosujemy go na filmie po lewej, zobaczymy puls w nadgarstku. Gdybyśmy go zmierzyli, moglibyśmy wyliczyć tętno tej osoby. Jeśli zastosujemy go na filmie po prawej, zobaczymy każdy oddech niemowlaka, dzięki czemu możemy monitorować jego oddech na odległość. Taka technologia bardzo dużo daje, gdyż pozwala zaobserwować zjawiska, które normalnie możemy doświadczyć przez dotyk, i zarejestrować je wizualnie i nieinwazyjnie. Kilka lat temu nawiązałem współpracę z twórcami tej technologii i postanowiliśmy zrealizować szalony pomysł. To fajnie, że możemy dzięki temu oprogramowaniu wizualizować drobne ruchy prawie jakbyśmy ulepszyli zmysł dotyku. Ale czy dałoby się w podobny sposób usprawnić nasz słuch? Co jeśli udałoby się wykryć na filmie drgania dźwiękowe, które są formą ruchu, i każdą rzecz zamienić w mikrofon? To trochę dziwny pomysł, więc pozwólcie, że wyjaśnię zasadę jego działania. Tradycyjne mikrofony zamieniają drgania umieszczonej wewnątrz membrany na sygnał elektryczny. Membrana drga pod wpływem fal dźwiękowych, więc jej ruch może zostać zamieniony na dźwięk. Ale wszystkie przedmioty wibrują pod wpływem dźwięku, tyle że zbyt subtelnie i szybko, żebyśmy mogli to dostrzec. A gdyby sfilmować je szybką kamerą, a potem wykorzystać oprogramowanie do wyodrębnienia drobnych ruchów żeby przeanalizować, jakie dźwięki je wywołały? Moglibyśmy w ten sposób przekształcić przedmioty w wizualne mikrofony. Spróbowaliśmy tego, a oto jeden z naszych eksperymentów, w którym sfilmowaliśmy doniczkową roślinę za pomocą szybkiej kamery, podczas gdy obok stała kolumna głośnikowa grająca tę melodię. [Dźwięk odtwarzany z głośnika] Oto film, który zarejestrowaliśmy z prędkością kilku tysięcy klatek na sekundę. Nawet jeśli się przyjrzycie nie dostrzeżecie żadnego ruchu liści. Liście wydają się nieruchome, bo fale dźwiękowe poruszały nimi zaledwie o mikrometr. To jedna dziesięciotysięczna centymetra, czyli coś pomiędzy jedną setną a jedną tysięczną piksela na tym obrazie. Możecie się więc wpatrywać ile chcecie, ale ruch jest tak mały, że praktycznie niedostrzegalny. Ale okazuje się, że coś może być niedostrzegalne przez zmysły, a mimo to mieć znaczenie, bo przy użyciu właściwych algorytmów możemy wyodrębnić z tego niemego, pozornie nieruchomego filmu ten dźwięk. [Dźwięk uzyskany z filmu] (Brawa) Jak to możliwe? Jak możemy uzyskać tyle informacji z tak niewielkiego ruchu? Powiedzmy, że liście poruszają się o mikrometr, co oznacza ruch jednej tysięcznej piksela. Może to niewiele, ale jedna klatka filmu zawiera setki tysięcy pikseli. Jeśli połączymy wszystkie te drobne ruchy z całego obrazu okaże się, że jedna tysięczna piksela jest częścią znaczącej całości. Między nami mówiąc, szczęki nam opadły, kiedy to odkryliśmy. (Śmiech) Ale nawet mając właściwe algorytmy czegoś jeszcze nam brakowało. Widzicie, istnieje wiele czynników, które wpływają na to, czy ta technika zadziała. Wszystko zależy od obiektu i od tego, jak daleko jest umieszczony. Od kamery i obiektywu. Od tego ile światła oświetla obiekt i jak głośny jest dźwięk. Nawet mając właściwy algorytm przy wczesnych eksperymentach musieliśmy bardzo uważać, bo jeśli któryś z czynników zawiódł nie można było odnaleźć źródła problemu. Słyszeliśmy tylko szumy. Nasze wczesne eksperymenty wyglądały tak. Siedzę tutaj, w lewym dolnym rogu widać naszą szybką kamerę wycelowaną w torbę chipsów, a wszystko oświetlają silne lampy. Jak wspomniałem, musieliśmy bardzo uważać, więc eksperyment wyglądał tak. Trzy, dwa, jeden, start. Mary had a little lamb! Little lamb! Little lamb! (Śmiech) Eksperyment wyglądał absurdalnie. (Śmiech) Wrzeszczałem na torbę chipsów... (Śmiech) Światło było tak jasne, że pierwsza torba dosłownie się stopiła. Ale choć wyglądało to absurdalnie okazało się skuteczne, bo udało nam się uzyskać ten dźwięk. Mary had a little lamb! Little lamb! Little lamb! (Brawa) Jest to o tyle znaczące, że po raz pierwszy udało nam się wydobyć zrozumiałą, ludzką mowę z niemego filmu przedstawiającego przedmiot. Mieliśmy punkt wyjścia, dzięki czemu mogliśmy stopniowo modyfikować eksperyment używając różnych obiektów, odsuwając je, stosując mniejsze natężenie światła lub dźwięku. Analizowaliśmy te eksperymenty, aż poznaliśmy granice naszej techniki, a kiedy je poznaliśmy mogliśmy je przesunąć. Doszliśmy do takich eksperymentów, jak ten w którym znowu mówię do paczki chipsów, ale tym razem kamerę postawiliśmy około 4,5 metra dalej, za dźwiękoszczelną szybą, a całość oświetla jedynie światło słoneczne. Oto, co zarejestrowaliśmy. Tak słychać było w środku, obok paczki chipsów. [Dźwięk zarejestrowany w środku] [Dźwięk zarejestrowany w środku] A to uzyskaliśmy z niemego filmu nakręconego kamerą zza tej szyby. [Uzyskane zza dźwiękoszczelnej szyby] [Uzyskane zza dźwiękoszczelnej szyby] (Brawa) Przesuwaliśmy granicę na inne sposoby. To cichszy eksperyment. Sfilmowaliśmy parę słuchawek podłączonych do laptopa. Chcieliśmy wydobyć muzykę odtwarzaną z laptopa za sprawą filmu przedstawiającego te małe, plastikowe słuchawki. Sam byłem pod wrażeniem, że poszło nam tak dobrze. (Śmiech) [Dźwięk ze sfilmowanych słuchawek] (Brawa) Eksperymentowaliśmy także z naszym sprzętem. Dotychczasowe eksperymenty wykonywaliśmy za pomocą kamery rejestrującej obraz około 100 razy szybciej niż większość telefonów komórkowych. Ale znaleźliśmy sposób jak użyć tej techniki przy pomocy zwykłych kamer. Wykorzystaliśmy do tego zjawisko, które nazywa się „rolling shutter”. Większość kamer rejestruje obraz linia po linii, jeśli więc obiekt się porusza poszczególne linie rejestrowane są z pewnym opóźnieniem, co powoduje drobne przesunięcie w każdej klatce filmu. Doszliśmy do wniosku, że analizując te przesunięcia możemy odczytać dźwięk po modyfikacji naszego algorytmu. Oto eksperyment, w którym sfilmowaliśmy torbę cukierków umieszczoną obok głośnika grającego tę samą melodię "Mary Had a Little Lamb". Ale tym razem użyliśmy zwykłej kamery. Za chwilę odtworzę wam to, co uzyskaliśmy. Tym razem dźwięk będzie zniekształcony, ale spróbujcie wychwycić melodię. [Dźwięk uzyskany z filmu] Jak mówiłem, dźwięk jest zniekształcony, ale niesamowite, że udało nam się osiągnąć taki efekt za pomocą sprzętu, który możecie kupić w pierwszym, lepszym sklepie. Wiele osób widząc to pomyśli o szpiegostwie. Szczerze mówiąc, nietrudno sobie wyobrazić zastosowanie tej techniki w celach szpiegowskich. Pamiętajcie jednak, że istnieje wiele zaawansowanych technologii szpiegowskich, od dziesięcioleci stosuje się lasery żeby podsłuchiwać z daleka. To, co jest nowe, co wyróżnia tę technikę, to możliwość ukazania wibracji obiektu, co pozwala nam spojrzeć na świat na nowo. Możemy wykorzystać to narzędzie nie tylko żeby poznać dźwięki, które wprawiają obiekt w wibracje, ale też właściwości samego obiektu. Chciałbym, żebyśmy się zastanowili do czego jeszcze można wykorzystać tę technologię. Zwykle dzięki filmom oglądamy przedmioty. Przed chwilą pokazałem, jak możemy słuchać przedmiotów. Ale jest jeszcze jeden ważny sposób poznawania świata: interakcja. Popychamy, ciągniemy, szturchamy i trącamy rzeczy. Trzęsiemy nimi, żeby zobaczyć, co się stanie. Film nam na to nie pozwala. Przynajmniej nie w tradycyjnym sensie. Chcę wam pokazać nowy eksperyment, oparty na pomyśle sprzed kilku miesięcy. Pierwszy raz dzielę się nim publicznie. Chodzi o to, żeby wykorzystać wibracje w celu interakcji z przedmiotami z filmu i sprawdzenia ich reakcji. Oto przedmiot, jest nim druciana postać. Sfilmujemy ją za pomocą zwykłej kamery. Nie ma w niej nic niezwykłego. Wcześniej użyłem do tego celu mojego telefonu. Chcemy wprawić obiekt w wibracje, więc w tym celu uderzymy kilka razy w podłoże i to sfilmujemy. To wszystko: 5 sekund filmu, w którym walimy w podłoże. Wykorzystamy wibracje zarejestrowane na filmie, żeby poznać strukturalne i materialne właściwości przedmiotu. Wiedzę tę wykorzystamy do stworzenia czegoś nowego i interaktywnego. Oto, co udało nam się osiągnąć. Wygląda jak zwykłe zdjęcie, ale to nie jest zdjęcie ani film, bo za pomocą myszy mogę wejść w interakcję z przedmiotem. To, co widzicie to symulacja tego, jak przedmiot odpowiedziałby na siły, których wcześniej nie stosowaliśmy. Wszystko to na podstawie 5-sekundowego filmu. (Brawa) Technika ta ma wiele zastosowań w życiu codziennym, bo pozwala nam przewidzieć, jak przedmioty zareagują na nowe sytuacje. Wyobraźmy sobie, że mamy przed sobą stary most i zastanawiamy się, czy by wytrzymał gdybym wjechał na niego samochodem. Wolelibyśmy znać odpowiedź na to pytanie zanim wjedziemy na most. Oczywiście, ta technika ma swoje ograniczenia, tak jak wizualny mikrofon, ale działa w wielu sytuacjach, w których byśmy się tego nie spodziewali, zwłaszcza przy dłuższych filmach. Podam kolejny przykład: oto krzak przed moim mieszkaniem. Nic z nim nie robiłem tylko nagrałem minutowy film, podczas gdy lekki wiatr wprawił go w wibracje, które wystarczyły, żeby stworzyć tę symulację. (Brawa) Technikę tę mógłby wykorzystać reżyser filmowy, pozwalałaby mu kontrolować siłę i kierunek wiatru już po nagraniu ujęcia. W tym przypadku wycelowaliśmy kamerę w zasłonę. Nie widać żadnego ruchu, ale w 2-minutowym filmie wystarczyła naturalna cyrkulacja powietrza w pomieszczeniu, żeby wywołać delikatne, nieuchwytne wibracje, dzięki którym mogliśmy stworzyć tę symulację. Jak na ironię znamy tego typu interakcję z wirtualnej rzeczywistości, z gier komputerowych i modeli 3-D, ale uzyskanie takich informacji z prawdziwych przedmiotów zarejestrowanych za pomocą prostych kamer to coś nowego, co ma potencjał. Oto niezwykli ludzie, którzy pracowali ze mną nad tymi projektami. (Brawa) To, co wam dzisiaj pokazałem to dopiero początek. To dopiero wierzchołek góry lodowej tego, co można zrobić za pomocą tej techniki, bo daje nam ona nowe możliwości postrzegania otoczenia za pomocą codziennej technologii. Przed nami ekscytująca przyszłość, w której będziemy mogli eksplorować świat i dowiadywać się o nim nowych rzeczy. Dziękuję. (Brawa)