De flesta tänker på rörelse
som en visuell sak.
Om jag går över scenen
eller gestikulerar medan jag talar,
är det rörelser som du kan se.
Men det finns en hel värld av rörelser
som är för små för det mänskliga ögat,
och de senaste åren har vi
upptäckt att kameror
ofta kan se sådana rörelser
som människor inte kan.
Låt mig visa vad jag menar.
Till vänster ser du en film på en handled,
och till höger ser du
en film på en sovande bebis,
men om jag inte hade sagt
att det var filmer,
hade du kunnat tro att
det var stillbilder du såg,
för i båda fallen
verkar filmerna nästan helt stilla.
Men det pågår en hel del små rörelser,
och hade du känt på
handleden till vänster,
hade du känt en puls,
och hade du hållit i bebisen till höger,
hade du känt hennes bröstkorg
röra sig när hon andades.
Dessa rörelser har stor betydelse,
men är oftast för små för att synas.
så vi måste uppfatta dem genom beröring.
Men för några år sedan utvecklade MIT
ett så kallat rörelsemikroskop.
Det är en mjukvara som hittar
dessa små rörelser på film
och förstorar dem så att vi kan se dem.
Så om vi använder mjukvaran
på den vänstra filmen,
kan vi se pulsen i handleden,
och om vi skulle räkna pulsslagen,
skulle vi veta hjärtfrekvensen.
Och om mjukvaran används
på den högra filmen,
låter den oss se varje andetag
som bebisen tar.
Det kan användas för att beröringsfritt
övervaka andningen.
Denna teknik är mycket kraftfull
för den tar dessa fenomen
som vi brukar behöva
uppleva genom beröring
och fångar dem visuellt utan att inkräkta.
För ett par år sedan började jag arbeta
med dem som gjorde mjukvaran,
och vi beslöt att prova en galen idé.
Det var fantastiskt att använda mjukvaran
för att synliggöra pyttesmå rörelser,
och man kan nästan se det som
ett sätt att förlänga känseln.
Men tänk om man kunde göra
på samma sätt med hörseln!
Tänk om vi kunde använda video
för att fånga ljudets vibrationer,
som också är en sorts rörelser,
och använda allt vi kan se
som mikrofon.
Det här är en märklig idé,
låt mig sätta den i perspektiv.
Vanliga mikrofoner överför rörelsen
hos ett inbyggt membran
till en elektrisk signal,
och det membranet är konstruerat
för att enkelt röra sig med ljudet
så att dess rörelse kan tolkas som ljud.
Men ljud får alla saker att röra sig.
Det är bara det att vibrationerna är
för små och snabba för oss att se.
Men tänk om vi filmar dem med
en höghastighetskamera
och använder mjukvara för att ta fram
pyttesmå rörelser från filmen,
och analyserar rörelserna för att räkna ut
vilka ljud som åstadkom dem.
Då skulle synliga föremål bli
visuella mikrofoner på avstånd.
Så vi provade detta,
och här är ett av våra experiment.
Vi tog en krukväxt, till höger,
och filmade med höghastighetskamera,
medan en högtalare i närheten
spelade detta ljud.
(Musik: Mary had a little lamb)
Här är filmen som vi spelade in, med
tusentals bilder per sekund,
men även om du tittar riktigt nära,
ser du bara några blad
som inte verkar göra något särskilt.
För ljudet får bladen att röra sig
bara ungefär en mikrometer.
En tiotusendels centimeter.
Mellan en hundradels och
en tusendels pixel i bilden.
Hur mycket du än kisar,
så kan du inte uppfatta så små rörelser.
Men det visar sig att det som är
omöjligt att uppfatta
ändå kan vara numeriskt signifikant.
Med de rätta algoritmerna kan vi ta
denna tysta, till synes stilla film-
-och återskapa detta ljud.
(Musik: Mary had a little lamb)
(Applåder)
Hur är det möjligt?
Hur kan vi få så mycket information
från så lite rörelse?
Jo, låt oss säga att bladen rör sig
en enda mikrometer,
och att det förskjuter bilden
en tusendels pixel.
Det låter inte mycket, men en enda
bildruta består av hundratusentals pixlar,
och om vi kombinerar alla
pyttesmå rörelser från hela bilden,
kan en tusendels pixel läggas ihop
till något ganska märkbart.
Jag måste tillstå att vi blev
rätt häpna när vi upptäckte det.
(Skratt)
Men även med rätt algoritm
saknades en viktig bit av pusslet.
Många faktorer påverkar när och hur bra
den här metoden fungerar.
Dels föremålet och hur långt bort det är.
Dels kameran och objektivet.
Dels ljuset på föremålet
och hur starkt ljudet är.
Och även med rätt algoritm var det noga
vid våra första experiment,
för om en av dessa faktorer var fel
gick det inte att säga
vad som var problemet.
Vi fick bara brus.
Därför såg många av våra
tidiga experiment ut så här.
Här är jag,
och nere till vänster skymtar
höghastighetskameran
som är riktad mot en chipspåse
som belyses med starka lampor.
Som sagt måste vi vara mycket noggranna
vid dessa tidiga experiment.
Så här gick det till.
(Film) Tre, två, ett...
Mary had a little lamb!
Little lamb! Little lamb!
(Skratt)
Det här experimentet verkar störtlöjligt.
(Skratt)
Jag skriker åt en chipspåse...
(Skratt)
... och vi brassar på med så mycket ljus-
att den första chipspåsen
bokstavligen smälte. (Skratt)
Men, löjligt eller inte,
det var ett viktigt experiment.
För vi kunde återskapa detta ljud.
(Ljud) Mary had a little lamb!
Little lamb! Little lamb!
(Applåder)
Och detta var betydelsefullt,
för det var den första gången
som vi återskapade mänskligt tal
från ljudlös film av ett föremål.
Så vi fick en referenspunkt,
och successivt kunde vi
förändra experimentet,
med olika föremål, olika långt borta,
mindre ljus, tystare ljud.
Vi analyserade alla experiment
tills vi kände till
metodens begränsningar,
för när vi kände gränserna,
kunde vi räkna ut hur vi skulle tänja dem.
Det ledde till sådana här experiment.
Återigen pratar jag med en chipspåse,
men nu har vi flyttat kameran fem meter,
utomhus, bakom ett ljudisolerat fönster,
och ljuset är naturligt solljus.
Här är filmen som vi spelade in.
Så här lät det inomhus, intill chipspåsen.
(Ljud) Mary had a little lamb
whose fleece was white as snow
and everywhere that Mary went,
that lamb was sure to go.
Och detta lyckades vi återskapa
från den ljudlösa filmen
tagen utomhus bakom fönstret.
(Ljud) Mary had a little lamb
whose fleece was white as snow
and everywhere that Mary went,
that lamb was sure to go.
(Applåder)
Och det finns andra sätt som vi kan
tänja gränserna på.
Här är ett tystare experiment
där vi filmade ett par hörlurar,
inkopplade i en dator.
Här var målet att återskapa musiken
som spelades på datorn
utifrån ljudlös film
på dessa små hörlurar.
Vi lyckades så bra
att Shazam kände igen resultatet.
(Skratt)
(Musik: "Under Pressure" av Queen)
(Applåder)
Och vi kan tänja gränser
genom att ändra utrustningen.
För alla experiment
som jag har visat hittills
gjordes med höghastighetskamera,
som kan spela in runt 100 gånger snabbare
än de flesta mobiler.
Men vi hittade ett sätt att
använda metoden med vanliga kameror,
genom att utnyttja så kallade
rullande slutare.
De flesta kameror spelar in
filmens bilder en pixelrad åt gången,
och om ett föremål rör sig
medan en enda bild spelas in
gör den lilla fördröjningen
mellan varje rad
att det blir små artefakter
som syns i varje bild i filmen.
Vi upptäckte att genom att
analysera dessa artefakter,
kan vi återskapa ljud med en
ändrad version av vår algoritm.
Här är ett experiment där vi filmade
en godispåse medan en högtalare spelade
samma "Mary had a little lamb" som innan
men nu med en helt vanlig kamera.
Nu ska jag spela upp
ljudet vi återskapade,
och det kommer att låta förvrängt nu,
men lyssna och hör om ni kan
känna igen musiken.
(Ljud: "Mary had a little lamb")
Som sagt, ljudet är förvrängt,
men det fantastiska är att
vi fick detta resultat
med utrustning som man kan
köpa på Elgiganten.
Många som ser det här
tänker genast på övervakning.
Och i ärlighetens namn
är det lätt att föreställa sig
hur tekniken kan användas
till att spionera.
Men kom ihåg att det redan finns
gott om mogen teknik för att spionera.
Man har använt laser för att tjuvlyssna
via föremål på avstånd i decennier.
Det nya nu är att vi kan
avbilda vibrationer hos ett föremål,
vilket ger oss en ny lins som
vi kan betrakta världen genom.
Och vi kan använda denna lins
för att lära oss inte bara om krafter,
som ljud, som orsakar vibrationer,
utan även om föremålet självt.
Låt oss backa ett steg och fundera hur
det kan ändra sättet vi använder film på.
Vi brukar använda film för att
betrakta föremål,
och jag har nyss visat hur det
kan användas för att lyssna på saker.
Men det finns ett annat viktigt sätt
att undersöka omvärlden:
Genom att interagera med den.
Vi trycker och drar och petar på saker.
Vi skakar dem och ser vad som händer.
Det är något som vi inte
kan göra med en film.
Åtminstone inte hittills.
Jag vill visa vårt senaste arbete, en idé
som jag fick för bara några månader sedan.
Det här är första gången jag
visar det för allmänheten.
Idén är att vi ska använda
vibrationerna i en film
för att spela in föremål på ett sätt
så att vi kan interagera med dem,
och se hur de reagerar på oss.
Här är ett föremål,
i detta fall en trådskulptur
av en människa,
och vi filmar den med en vanlig kamera.
Det är inget särskilt med kameran,
vi har faktiskt använt min mobil förut.
Men vi vill att föremålet ska vibrera.
Så vi slår lätt på ytan det står på,
medan vi spelar in denna film.
Det är allt: Fem sekunder vanlig film,
medan vi slår på ytan,
och vi använder vibrationerna från filmen
för att lära oss konstruktionen
och materialens egenskaper i föremålet,
och vi använder den informationen
för att skapa något nytt, interaktivt.
Här är resultatet.
Det ser ut som en vanlig stillbild.
Men det är ingen stillbild,
och det är ingen film.
För nu kan jag ta musen
och börja interagera med föremålet.
Vad ni ser är en simulering av
hur föremålet
skulle reagera på krafter
som vi aldrig sett förut.
Och vi skapade den utifrån
bara fem sekunder vanlig film.
(Applåder)
Så detta är ett kraftfullt sätt
att se på omvärlden,
för det låter oss förutse hur föremål
kommer reagera på nya situationer,
och man kan tänka sig, exempelvis,
att man tittar på en gammal bro
och undrar om den kommer hålla
om jag skulle köra bil över den.
Det är en fråga som du förmodligen
vill besvara innan du kör över bron.
Självklart finns det
begränsningar i tekniken,
precis som med den visuella mikrofonen,
men vi upptäckte att det fungerar
i många oväntade situationer,
i synnerhet om du använder längre filmer.
Exempelvis denna film
på en buske utanför mitt hus,
och jag gjorde inget med busken,
förutom att filma den i en minut.
En lätt vind gav nog med vibrationer
för att ge oss information
till den här simuleringen.
(Applåder)
Tänk dig detta i händerna
på en filmregissör,
som kan kontrollera, till exempel,
styrkan och riktningen på en vind
i en tagning efter att den blivit filmad.
Eller, som här, när vi riktade kameran
mot ett hängande skynke,
man kan inte se några rörelser i filmen,
men genom att filma i två minuter,
gav naturliga luftströmmar upphov till
nog med omärkliga rörelser och vibrationer
för att möjliggöra denna simulering.
Ironiskt nog är vi vana vid interaktivitet
när det gäller virtuella föremål.
Videospel och 3D-modeller.
Men att kunna fånga den här informationen
från verkliga föremål i omvärlden,
med bara vanlig videoupptagning,
är nytt och har stor potential.
Här är de fantastiska människor
som arbetat med mig.
(Applåder)
Vad jag visat idag är bara början.
Vi har bara skrapat på ytan av vad man kan
göra med denna typ av avbildning,
för den ger nya sätt att fånga vår
omgivning med vanlig, tillgänglig teknik.
Framtiden är spännande,
när vi utforskar vad detta
kan lära oss om världen.
Tack!
(Applåder)