Többségünk úgy gondol a mozgásra,
mint egy nagyon vizuális dologra.
Ha keresztülsétálok ezen a színpadon,
vagy beszéd közben gesztikulálok,
az egy olyan mozgás, amit látnak.
De van egy világ, tele olyan mozgásokkal,
amelyek túl finomak az emberi szemnek,
és az elmúlt pár év során
kezdtünk rájönni, hogy a kamerák
gyakran látják ezt a mozgást,
még ha az emberek nem is.
Hadd mutassam be, mire gondolok!
Bal oldalt láthatnak egy videót
egy ember csuklójáról
és jobb oldalt egy videót
egy alvó csecsemőről,
de ha nem mondanám el önöknek,
hogy ezek videók,
azt feltételezhetnék,
hogy két hagyományos képet látnak,
mert mindkét esetben
a videók teljes mértékben
mozdulatlannak tűnnek.
De valójában rengeteg finom mozgás
van folyamatban itt,
és ha megérinthetnék
a csuklót bal oldalt,
éreznék a pulzust,
vagy ha karjukban tartanák
a jobb oldali csecsemőt,
éreznék, ahogy a mellkasa
emelkedik és süllyed
minden lélegzetvételénél.
És ezek a mozgások
hatalmas jelentőséggel bírnak,
de általában túl finomak ahhoz,
hogy észrevegyük őket,
ezért inkább közvetlen kapcsolattal,
azaz érintéssel tudjuk megfigyelni őket.
De néhány éve
MIT-s kollégáim kifejlesztettek
egy úgy nevezett mozgásmikroszkópot,
egy olyan szoftvert, ami képes megtalálni
ezeket a finom mozgásokat egy videóban
és felerősíteni őket annyira,
hogy mi is láthassuk.
Így tehát ha használjuk a szoftvert
a bal oldali videón,
láthatóvá teszi számunkra a pulzust
és ha megszámolnánk a lüktetéseket,
még ki is számolhatnánk
az illető szívverését.
És ha ugyanezt a szoftvert alkalmazzuk
a jobb oldali videón,
láthatóvá válik minden lélegzet,
amit a csecsemő vesz
és ezt használhatjuk légzésének
kontaktusmentes monitorozásra.
Tehát ez a technológia nagyon erőteljes,
mert lehetővé teszi,
hogy ezeket az általában érintéssel
megtapasztalt jelenségeket
vizuálisan, nem-invazív módon
ragadjuk meg.
Szóval, pár éve elkezdtem dolgozni
a szoftver készítőivel,
és egy őrült ötlet
megvalósítására adtuk a fejünket.
Arra gondoltunk, menő,
hogy a szoftver használatával
vizualizálhatunk ilyen apró mozgásokat,
és szinte felfoghatjuk ezt
a tapintás érzékünk kiterjesztéseként.
De mi lenne, ha meg tudnánk tenni
ugyanezt a hallásunkkal is?
Mi lenne, ha a videó segítségével
megragadhatnánk a hang rezgéseit,
ami csupán egy másik fajta mozgás,
és így mindent, amit látunk
mikrofonná változtathatnánk?
Nos, ez egy kicsit furcsa ötlet,
hadd próbáljam meg hát
perspektívába helyezni.
A hagyományos mikrofonok
azon az elven működnek,
hogy egy belső membrán mozgását
elektromos jellé konvertálják,
és ez a membrán úgy van tervezve,
hogy a hangra könnyen rezdüljön,
így a mozgása felvehető
és hangként lefordítható lesz.
De a hang minden tárgyat
rezgésbe hoz.
Ezek a rezgések általában túl finomak
és túl gyorsak, hogy láthassuk őket.
Szóval, mi lenne, ha felvennénk őket
egy nagysebességű kamerával
és aztán a szoftvert használnánk,
hogy kivonjuk az apró mozgásokat
a nagysebességű videónkból,
és elemezzük azokat a mozgásokat,
hogy kiderüljön, milyen hang okozta őket?
Így a látható tárgyakat távoli
vizuális mikrofonokká változtathatnánk.
Szóval kipróbáltuk ezt a dolgot,
és íme az egyik kísérletünk,
ahol fogtuk ezt a cserepes növényt,
amit a jobb oldalon látnak
és egy nagysebességű kamerával filmeztük,
miközben egy közeli hangszóró
ezt a hangot játszotta.
[A szobában hangszórón játszott hang]
(Zene: "Mary Had a Little Lamb")
És íme a videó, amit felvettünk,
és ugyan másodpercenként
több ezer képkockát rögzítettünk,
még ha nagyon közelről vizsgálják,
akkor is csupán néhány levél látható,
amik lényegében csak úgy vannak,
és nem csinálnak semmit,
mert a hang ezeket a leveleket
alig pár mikrométernyit mozdította meg.
Ez egy centiméter egy-tízezrede,
ami nagyjából akkora kiterjedésű,
mint egy pixel százada vagy ezrede
ezen a képen.
Szóval hunyoroghatnak, amennyit akarnak,
de egy ilyen kis mértékű mozgás
lényegében érzékszervileg láthatatlan.
De kiderült, hogy valami lehet
érzékszervileg láthatatlan
és mégis jelentős számtanilag,
mert a megfelelő algoritmusokat használva
foghatjuk és ebből a néma,
mozdulatlannak tűnő videóból
visszanyerhetjük ezt a hangot.
(Zene: "Mary Had a Little Lamb")
(Taps)
Szóval hogyan is lehetséges ez?
Hogyan szerezhetünk ilyen sok információt,
ilyen kicsi mozgásból?
Nos, mondjuk, hogy azok a levelek
csupán egyetlen mikrométernyit mozdulnak,
és mondjuk, hogy ez a képünket
csak egy pixel ezredével mozdítja el.
Ez talán nem tűnik soknak,
de egyetlen képkocka
több százezer pixelt foglalhat magába
és ha össze tudjuk rakni
az összes ilyen kis mozgást, amit látunk
az egész kép területéről,
akkor hirtelen egy pixel ezrede
elkezdhet összeadódni
valami egészen jelentőssé.
Hadd áruljam el, hogy eléggé bezsongtunk,
amikor rájöttünk minderre.
(Nevetés)
De még a megfelelő algoritmussal is
hiányzott egy elég fontos darabja
a kirakósnak.
Ugyanis rengeteg tényező befolyásolja,
mikor és mennyire jól fog
ez a technika működni.
Ott van a tárgy és hogy milyen messze van;
ott a kamera és a lencsék,
amiket használunk;
mennyi fény éri a tárgyat
és milyen hangos a hang.
És még a megfelelő algoritmussal is
nagyon óvatosnak kellett lennünk
a korai kísérleteinkben,
mert ha ezen tényezők
akármelyikét elhibáztuk,
esélytelen volt megmondani,
hogy mi is a probléma.
Csak zajt nyertünk vissza.
Ezért aztán rengeteg korai kísérletünk
festett valahogy így.
Íme, itt vagyok én,
és valamelyest látni a bal alsó sarokban
a nagysebességű kameránkat,
ami egy zacskó chipsre szegeződik,
és mindez ezekkel a ragyogó lámpákkal
van bevilágítva.
Mint mondtam, az ilyen korai kísérleteknél
nagyon óvatosnak kellett lennünk,
ezért így festett a dolog.
(Videó) Abe Davis: Három, kettő, egy, és!
Mary had a little lamb!
Little lamb! Little lamb!
(Nevetés)
AD: Szóval ez a kísérlet
teljes mértékben röhejesen fest.
(Nevetés)
Úgy értem, egy zacskó chipsnek kiabálok...
(Nevetés)
...amire annyi fényt nyomtunk,
hogy az első zacskót, amin kipróbáltuk,
szó szerint megolvasztottuk. (Nevetés)
De bármilyen röhejesnek
tűnik is ez a kísérlet,
valójában nagyon fontos volt,
mert sikerült visszanyernünk
ezt a hangot.
(Hang) Mary had a little lamb!
Little lamb! Little lamb!
(Taps)
AD: És ennek nagy jelentősége volt,
mert ez volt az első, hogy
kivehető emberi hangot nyertünk vissza
egy tárgyról készült néma videóból.
Ez adott nekünk egy viszonyítási pontot,
és fokozatosan elkezdhettük
módosítani a kísérletet
különböző tárgyakat használtunk,
vagy messzebbre helyeztük őket,
kevesebbet fényt vagy
halkabb hangot használtunk.
És elemeztük az összes ilyen kísérletet,
amíg valóban megértettük
a technikánk korlátait;
mert amint megismertük
ezeket a korlátokat,
kitalálhattuk, hogyan lehetne
feszegetni őket.
És ez vezetett az olyan kísérletekhez,
mint ez is,
ahol ismét beszélni fogok
egy zacskó chipshez,
de ezúttal a kamerát úgy
öt méterrel távolabb helyeztük el,
kívül, egy hangszigetelt üvegen túl,
és az egész csak természetes napfénnyel
volt megvilágítva.
Íme a videó, amit felvettünk.
És így hangzott a dolog belül,
a zacskó chips mellett.
(Hang) Mary had a little lamb
whose fleece was white as snow,
and everywhere that Mary went,
that lamb was sure to go.
AD: És ezt sikerült visszanyernünk
a néma videóból,
amit kintről,
az üvegen túlról vettünk fel.
(Hang) Mary had a little lamb
whose fleece was white as snow,
and everywhere that Mary went,
that lamb was sure to go.
(Taps)
AD: Vannak más módjai is annak,
hogy ezeket a határokat feszegessük.
Itt van ez a csendesebb kísérlet,
ahol egy laptophoz csatlakoztatott
füldugót filmeztünk le,
és ebben az esetben, a laptopon játszott
zenét akartuk visszanyerni
csupán egy néma videóból
erről a két kis műanyag fülhallgatóról,
és ez annyira jól sikerült,
hogy az eredményre még
a Shazamon is rá tudtam keresni.
(Nevetés)
[Videóból visszanyert hang]
(Zene: "Under Pressure" a Queentől)
(Taps)
Próbálkozhatunk azzal is, hogy
más eszközöket használunk a felvételhez.
Mert azok a kísérletek,
amiket eddig mutattam,
mind nagy sebességű kamerával készültek
ami nagyjából százszor
gyorsabban tud felvenni,
mint a legtöbb mobiltelefon,
de arra is találtunk módot,
hogy ezt a technikát
közönségesebb kamerákkal használjuk.
Tettük ezt úgy, hogy kihasználtuk
az úgy nevezett gördülő zárat.
Ugyanis a legtöbb kamera
soronként rögzíti a képeket,
így, ha egy tárgy elmozdul
egyetlen kép rögzítése közben,
van egy kis időeltolódás
minden sor között,
ez apró kis torzulásokat okoz,
amik a videó minden képkockáján
kódolásra kerülnek.
Arra jöttünk rá, hogy ezeket
a torzulásokat elemezve
képesek vagyunk visszanyerni a hangot,
az algoritmusunk módosított verziójával.
Tehát, itt az egyik kísérletünk,
ahol egy zacskó cukrot filmeztünk,
miközben egy közeli hangszóró
ugyanazt a "Mary Had a Little Lamb"
zenét játszotta korábbról,
de ezúttal, csak egy általános,
boltban kapható kamerát használtunk,
és máris lejátszom önöknek
a hangot, amit visszanyertünk,
ezúttal egy kicsit
torzítottan fog hangzani,
de hallgassák, hogy még
fel tudják-e ismerni a zenét.
(Hang: "Mary Had a Little Lamb")
[A zacskó cukorkából visszanyert hang]
És igen, ez a hang ugyan torzított,
de ami igazán lenyűgöző,
hogy képesek voltunk ezt elérni,
egy olyan eszközzel,
amit könnyen beszerezhetnek,
ha átugranak a Best Buy-ba.
Szóval ezen a ponton,
rengeteg ember, aki látja ezt a munkát
rögtön a megfigyelésre gondol.
Hogy őszinte legyek,
nem nehéz elképzelni, hogy lehetne
ezt a technológiát kémkedésre használni.
De tartsuk észben, hogy rengeteg
kiforrott technológia létezik már
a megfigyelésre.
Valójában az emberek évtizedek óta
lézerek használatával hallgatnak le
tárgyakat a távolban.
De ami igazán új itt,
ami igazán különböző,
hogy most már van egy módszerünk,
hogy elképzeljük egy tárgy rezgéseit,
ami egy új szempontot kínál,
ahonnan a világot szemlélhetjük,
és ez nem csak arra jó,
hogy megismerjük a hanghoz hasonló erőket,
ami egy tárgy rezgését okozza,
de magát a tárgyat is jobban megismerjük.
Ezért tennék most egy lépést hátra
és szeretnék elgondolkozni,
hogy változtat ez a videózás használatán,
mert a videót általában arra használjuk,
hogy nézzük a dolgokat,
ám épp most mutattam meg,
hogy használható arra,
hogy hallgassuk a dolgokat.
De van még egy fontos módszer,
ami által a világról tanulunk:
ha interakcióba lépünk vele.
Húzzuk és vonjuk a dolgokat,
böködjük és szurkáljuk.
Megrázzuk őket és figyeljük,
hogy mi történik.
És ez olyasmi, amit a videó
még nem enged nekünk megtenni,
legalábbis hagyományosan nem.
Ezért mutatnék egy új munkát önöknek,
ami egy pár hónappal ezelőtti
ötletemen alapul,
szóval igazából ez az első alkalom,
hogy megmutatom a nagyközönségnek.
Az alapvető ötlet, hogy felhasználjuk
a videón rögzített rezgéseket arra,
hogy a tárgyakat oly módon örökítsük meg,
ami lehetővé teszi velük az interkaciót
és megmutatja, hogyan reagálnak ránk.
Szóval itt van egy tárgy,
ez éppen egy ember alakú drótfigura,
és fel fogjuk venni ezt a tárgyat
egy átlagos kamerával.
Tehát a kamerában
nincsen semmi különleges.
Sőt, én már csináltam ilyet
a mobilommal is korábban.
De szeretnénk látni,
ahogy a tárgy rezeg,
és hogy ezt elérjük,
egy kicsit megütögetjük a felületet,
amin helyet foglal,
miközben felvesszük ezt a videót.
Szóval ennyi: csak öt másodperc
átlagos videó,
miközben ütögetjük a felületet,
a videóban lévő rezgéseket
arra fogjuk használni,
hogy többet tudjunk meg a tárgyunk
szerkezeti és anyagi tulajdonságairól,
ennek az információnak a segítségével majd
valami újat és interaktívat hozunk létre.
Íme, amit létrehoztunk.
Úgy néz ki, mint egy közönséges kép,
de ez nem egy kép,
és nem is egy videó,
mert most foghatom az egeremet
és elkezdhetek kapcsolatot teremteni
a tárggyal.
És amit most itt látnak,
az egy szimulációja annak,
ahogy a tárgy reagálna új erőkre,
amiket még sosem láttunk,
és ezt csak egy öt másodperces
egyszerű videóból készítettük.
(Taps)
Ez egy nagyon hatásos módja annak,
ahogy a világot szemléljük,
mert általa megjósolhatjuk,
hogyan fognak a tárgyak reagálni
egy új helyzetre,
és elképzelhetjük például,
ahogy nézünk egy régi hídra,
és azon gondolkozunk, mi történne,
hogyan tartana ki a híd,
ha áthajtanánk rajta az autónkkal.
Ez egy olyan kérdés,
amire jó lenne tudni a választ,
mielőtt elkezdünk áthajtani
azon a hídon.
És természetesen lesznek korlátai
ennek a technikának,
mint ahogy voltak
a vizuális mikrofonnak is,
de azt vettük észre,
hogy sok helyzetben működik,
amiben talán nem is várnák,
különösen,
ha hosszabb videókkal dolgozunk.
Szóval például itt egy videó,
amit felvettem,
egy bokorról a lakásom előtt.
Nem csináltam semmit a bokorral,
de míg felvettem egy egyperces videót,
egy kis szellő elég rezgést okozott,
hogy eleget megtudjunk a bokorról,
és így létrehozhassuk ezt a szimulációt.
(Taps)
El tudják képzelni,
ahogy egy fimrendező kezébe adjuk ezt,
hogy így kontrollálhassa, mondjuk
a szél erejét és irányát
egy jelenetben, miután felvették azt.
Vagy, ebben az esetben, a kameránkat
egy felakasztott függönyre szegeztük.
Nem látnak semmi mozgást
ezen a videón,
de egy kétperces videó felvételével,
a szobában lévő
természetes légmozgások
elegendő finom, alig érzékelhető
mozgást és rezgést okoztak,
hogy eleget tudjunk
a szimuláció elkészítéséhez.
Ironikus módon,
eléggé hozzá vagyunk szokva
az ilyen fajta interaktivitáshoz,
ha virtuális tárgyakról van szó,
videó játékokról és 3D modellekről,
de a képesség, hogy ezt az információt
a valóság valós tárgyairól is megszerezzük
csupán egyszerű,
hagyományos videót használva,
ez valami új,
ami nagyon sok lehetőséget rejt.
Szóval íme a lenyűgöző emberek,
akikkel ezeken a projekteken dolgoztam.
(Taps)
És amit ma megmutattam önöknek,
az csak a kezdet.
Épp csak karcolgatjuk a felszínét annak,
amit ezzel a képalkotással
megtehetünk,
mert egy új módszert biztosít arra,
hogy megörökítsük a környezetünket,
mindennapi, hozzáférhető technológiával.
Szóval a jövőbe nézve,
nagyon izgalmas lesz felfedezni,
mit árulhat el ez nekünk a világról.
Köszönöm!
(Taps)