WEBVTT
00:00:01.373 --> 00:00:04.722
De flesta tänker på rörelse
som en visuell sak.
00:00:05.889 --> 00:00:10.807
Om jag går över scenen
eller gestikulerar medan jag talar,
00:00:10.807 --> 00:00:13.238
är det rörelser som du kan se.
00:00:14.255 --> 00:00:19.737
Men det finns en hel värld av rörelser
som är för små för det mänskliga ögat,
00:00:19.737 --> 00:00:23.598
och de senaste åren har vi
upptäckt att kameror
00:00:23.775 --> 00:00:27.185
ofta kan se sådana rörelser
som människor inte kan.
NOTE Paragraph
00:00:28.305 --> 00:00:30.066
Låt mig visa vad jag menar.
00:00:30.437 --> 00:00:33.609
Till vänster ser du en film på en handled,
00:00:34.059 --> 00:00:37.486
och till höger ser du
en film på en sovande bebis,
00:00:37.486 --> 00:00:40.422
men om jag inte hade sagt
att det var filmer,
00:00:40.422 --> 00:00:44.043
hade du kunnat tro att
det var stillbilder du såg,
00:00:44.043 --> 00:00:49.805
för i båda fallen
verkar filmerna nästan helt stilla.
00:00:50.175 --> 00:00:53.580
Men det pågår en hel del små rörelser,
00:00:53.850 --> 00:00:56.232
och hade du känt på
handleden till vänster,
00:00:56.232 --> 00:00:58.248
hade du känt en puls,
00:00:58.248 --> 00:01:00.933
och hade du hållit i bebisen till höger,
00:01:00.933 --> 00:01:05.224
hade du känt hennes bröstkorg
röra sig när hon andades.
00:01:05.592 --> 00:01:12.048
Dessa rörelser har stor betydelse,
men är oftast för små för att synas.
00:01:12.441 --> 00:01:17.927
så vi måste uppfatta dem genom beröring.
NOTE Paragraph
00:01:18.952 --> 00:01:24.667
Men för några år sedan utvecklade MIT
ett så kallat rörelsemikroskop.
00:01:24.667 --> 00:01:28.861
Det är en mjukvara som hittar
dessa små rörelser på film
00:01:28.861 --> 00:01:32.613
och förstorar dem så att vi kan se dem.
00:01:33.416 --> 00:01:36.389
Så om vi använder mjukvaran
på den vänstra filmen,
00:01:36.899 --> 00:01:39.889
kan vi se pulsen i handleden,
00:01:39.889 --> 00:01:44.604
och om vi skulle räkna pulsslagen,
skulle vi veta hjärtfrekvensen.
00:01:45.034 --> 00:01:47.880
Och om mjukvaran används
på den högra filmen,
00:01:47.880 --> 00:01:51.387
låter den oss se varje andetag
som bebisen tar.
00:01:51.387 --> 00:01:55.524
Det kan användas för att beröringsfritt
övervaka andningen.
NOTE Paragraph
00:01:56.684 --> 00:02:01.652
Denna teknik är mycket kraftfull
för den tar dessa fenomen
00:02:01.652 --> 00:02:04.369
som vi brukar behöva
uppleva genom beröring
00:02:04.369 --> 00:02:07.556
och fångar dem visuellt utan att inkräkta.
NOTE Paragraph
00:02:08.854 --> 00:02:13.315
För ett par år sedan började jag arbeta
med dem som gjorde mjukvaran,
00:02:13.315 --> 00:02:16.602
och vi beslöt att prova en galen idé.
00:02:16.602 --> 00:02:19.415
Det var fantastiskt att använda mjukvaran
00:02:19.415 --> 00:02:22.170
för att synliggöra pyttesmå rörelser,
00:02:22.170 --> 00:02:26.338
och man kan nästan se det som
ett sätt att förlänga känseln.
00:02:26.978 --> 00:02:31.227
Men tänk om man kunde göra
på samma sätt med hörseln!
00:02:32.298 --> 00:02:36.573
Tänk om vi kunde använda video
för att fånga ljudets vibrationer,
00:02:37.173 --> 00:02:39.520
som också är en sorts rörelser,
00:02:40.000 --> 00:02:43.346
och använda allt vi kan se
som mikrofon.
NOTE Paragraph
00:02:44.236 --> 00:02:48.507
Det här är en märklig idé,
låt mig sätta den i perspektiv.
00:02:49.523 --> 00:02:52.771
Vanliga mikrofoner överför rörelsen
00:02:52.771 --> 00:02:55.990
hos ett inbyggt membran
till en elektrisk signal,
00:02:56.450 --> 00:03:00.598
och det membranet är konstruerat
för att enkelt röra sig med ljudet
00:03:00.598 --> 00:03:04.805
så att dess rörelse kan tolkas som ljud.
00:03:05.445 --> 00:03:08.923
Men ljud får alla saker att röra sig.
00:03:09.163 --> 00:03:14.303
Det är bara det att vibrationerna är
för små och snabba för oss att se.
NOTE Paragraph
00:03:14.703 --> 00:03:18.421
Men tänk om vi filmar dem med
en höghastighetskamera
00:03:18.421 --> 00:03:23.567
och använder mjukvara för att ta fram
pyttesmå rörelser från filmen,
00:03:24.037 --> 00:03:28.561
och analyserar rörelserna för att räkna ut
vilka ljud som åstadkom dem.
00:03:29.659 --> 00:03:35.308
Då skulle synliga föremål bli
visuella mikrofoner på avstånd.
00:03:37.080 --> 00:03:40.700
Så vi provade detta,
och här är ett av våra experiment.
00:03:40.700 --> 00:03:46.347
Vi tog en krukväxt, till höger,
och filmade med höghastighetskamera,
00:03:46.347 --> 00:03:50.106
medan en högtalare i närheten
spelade detta ljud.
00:03:50.446 --> 00:03:53.430
(Musik: Mary had a little lamb)
NOTE Paragraph
00:03:59.680 --> 00:04:06.264
Här är filmen som vi spelade in, med
tusentals bilder per sekund,
00:04:06.264 --> 00:04:10.491
men även om du tittar riktigt nära,
ser du bara några blad
00:04:10.491 --> 00:04:13.906
som inte verkar göra något särskilt.
00:04:13.906 --> 00:04:18.712
För ljudet får bladen att röra sig
bara ungefär en mikrometer.
00:04:19.103 --> 00:04:22.869
En tiotusendels centimeter.
00:04:23.189 --> 00:04:29.485
Mellan en hundradels och
en tusendels pixel i bilden.
00:04:29.881 --> 00:04:36.248
Hur mycket du än kisar,
så kan du inte uppfatta så små rörelser.
00:04:37.407 --> 00:04:41.824
Men det visar sig att det som är
omöjligt att uppfatta
00:04:41.824 --> 00:04:44.453
ändå kan vara numeriskt signifikant.
00:04:44.453 --> 00:04:49.625
Med de rätta algoritmerna kan vi ta
denna tysta, till synes stilla film-
00:04:50.082 --> 00:04:51.849
-och återskapa detta ljud.
NOTE Paragraph
00:04:52.690 --> 00:04:55.674
(Musik: Mary had a little lamb)
NOTE Paragraph
00:04:59.374 --> 00:05:02.352
(Applåder)
NOTE Paragraph
00:05:09.988 --> 00:05:11.777
Hur är det möjligt?
00:05:11.777 --> 00:05:16.341
Hur kan vi få så mycket information
från så lite rörelse?
00:05:16.341 --> 00:05:21.702
Jo, låt oss säga att bladen rör sig
en enda mikrometer,
00:05:21.702 --> 00:05:26.010
och att det förskjuter bilden
en tusendels pixel.
00:05:27.269 --> 00:05:33.891
Det låter inte mycket, men en enda
bildruta består av hundratusentals pixlar,
00:05:34.894 --> 00:05:40.468
och om vi kombinerar alla
pyttesmå rörelser från hela bilden,
00:05:40.846 --> 00:05:46.269
kan en tusendels pixel läggas ihop
till något ganska märkbart.
NOTE Paragraph
00:05:46.870 --> 00:05:50.505
Jag måste tillstå att vi blev
rätt häpna när vi upptäckte det.
00:05:50.505 --> 00:05:52.825
(Skratt)
00:05:54.185 --> 00:05:58.858
Men även med rätt algoritm
saknades en viktig bit av pusslet.
00:05:59.695 --> 00:06:05.059
Många faktorer påverkar när och hur bra
den här metoden fungerar.
00:06:05.296 --> 00:06:08.280
Dels föremålet och hur långt bort det är.
00:06:08.280 --> 00:06:10.894
Dels kameran och objektivet.
00:06:10.894 --> 00:06:14.985
Dels ljuset på föremålet
och hur starkt ljudet är.
00:06:15.945 --> 00:06:22.010
Och även med rätt algoritm var det noga
vid våra första experiment,
00:06:22.460 --> 00:06:25.102
för om en av dessa faktorer var fel
00:06:25.102 --> 00:06:27.470
gick det inte att säga
vad som var problemet.
00:06:27.470 --> 00:06:29.867
Vi fick bara brus.
00:06:29.867 --> 00:06:33.437
Därför såg många av våra
tidiga experiment ut så här.
00:06:33.437 --> 00:06:35.643
Här är jag,
00:06:35.643 --> 00:06:39.403
och nere till vänster skymtar
höghastighetskameran
00:06:39.403 --> 00:06:41.626
som är riktad mot en chipspåse
00:06:41.626 --> 00:06:44.815
som belyses med starka lampor.
00:06:44.815 --> 00:06:49.180
Som sagt måste vi vara mycket noggranna
vid dessa tidiga experiment.
00:06:49.180 --> 00:06:51.688
Så här gick det till.
NOTE Paragraph
00:06:51.688 --> 00:06:55.449
(Film) Tre, två, ett...
00:06:55.449 --> 00:07:00.836
Mary had a little lamb!
Little lamb! Little lamb!
NOTE Paragraph
00:07:00.836 --> 00:07:03.816
(Skratt)
NOTE Paragraph
00:07:05.336 --> 00:07:08.150
Det här experimentet verkar störtlöjligt.
00:07:08.150 --> 00:07:09.938
(Skratt)
00:07:09.938 --> 00:07:12.283
Jag skriker åt en chipspåse...
00:07:12.283 --> 00:07:13.834
(Skratt)
00:07:13.834 --> 00:07:15.951
... och vi brassar på med så mycket ljus-
00:07:15.951 --> 00:07:20.430
att den första chipspåsen
bokstavligen smälte. (Skratt)
00:07:20.525 --> 00:07:25.357
Men, löjligt eller inte,
det var ett viktigt experiment.
00:07:25.357 --> 00:07:28.513
För vi kunde återskapa detta ljud.
NOTE Paragraph
00:07:28.513 --> 00:07:33.225
(Ljud) Mary had a little lamb!
Little lamb! Little lamb!
NOTE Paragraph
00:07:33.225 --> 00:07:36.223
(Applåder)
NOTE Paragraph
00:07:37.163 --> 00:07:39.014
Och detta var betydelsefullt,
00:07:39.014 --> 00:07:43.313
för det var den första gången
som vi återskapade mänskligt tal
00:07:43.424 --> 00:07:45.765
från ljudlös film av ett föremål.
00:07:45.765 --> 00:07:48.156
Så vi fick en referenspunkt,
00:07:48.156 --> 00:07:52.026
och successivt kunde vi
förändra experimentet,
00:07:52.026 --> 00:07:55.661
med olika föremål, olika långt borta,
00:07:55.661 --> 00:07:58.681
mindre ljus, tystare ljud.
00:07:59.797 --> 00:08:02.761
Vi analyserade alla experiment
00:08:02.761 --> 00:08:05.913
tills vi kände till
metodens begränsningar,
00:08:06.173 --> 00:08:10.443
för när vi kände gränserna,
kunde vi räkna ut hur vi skulle tänja dem.
NOTE Paragraph
00:08:10.579 --> 00:08:13.570
Det ledde till sådana här experiment.
00:08:13.570 --> 00:08:16.499
Återigen pratar jag med en chipspåse,
00:08:16.499 --> 00:08:21.199
men nu har vi flyttat kameran fem meter,
00:08:21.199 --> 00:08:24.262
utomhus, bakom ett ljudisolerat fönster,
00:08:24.262 --> 00:08:27.065
och ljuset är naturligt solljus.
00:08:28.409 --> 00:08:30.684
Här är filmen som vi spelade in.
00:08:32.330 --> 00:08:36.599
Så här lät det inomhus, intill chipspåsen.
NOTE Paragraph
00:08:37.009 --> 00:08:41.717
(Ljud) Mary had a little lamb
whose fleece was white as snow
00:08:41.717 --> 00:08:47.026
and everywhere that Mary went,
that lamb was sure to go.
NOTE Paragraph
00:08:47.666 --> 00:08:51.103
Och detta lyckades vi återskapa
från den ljudlösa filmen
00:08:51.103 --> 00:08:53.808
tagen utomhus bakom fönstret.
NOTE Paragraph
00:08:53.808 --> 00:08:58.253
(Ljud) Mary had a little lamb
whose fleece was white as snow
00:08:58.253 --> 00:09:03.920
and everywhere that Mary went,
that lamb was sure to go.
NOTE Paragraph
00:09:03.920 --> 00:09:06.901
(Applåder)
NOTE Paragraph
00:09:10.151 --> 00:09:13.593
Och det finns andra sätt som vi kan
tänja gränserna på.
00:09:13.593 --> 00:09:17.681
Här är ett tystare experiment
där vi filmade ett par hörlurar,
00:09:17.681 --> 00:09:19.731
inkopplade i en dator.
00:09:19.731 --> 00:09:23.981
Här var målet att återskapa musiken
som spelades på datorn
00:09:23.981 --> 00:09:28.250
utifrån ljudlös film
på dessa små hörlurar.
00:09:28.627 --> 00:09:30.970
Vi lyckades så bra
00:09:30.970 --> 00:09:33.431
att Shazam kände igen resultatet.
00:09:33.431 --> 00:09:35.842
(Skratt)
NOTE Paragraph
00:09:37.191 --> 00:09:40.185
(Musik: "Under Pressure" av Queen)
NOTE Paragraph
00:09:49.615 --> 00:09:52.594
(Applåder)
NOTE Paragraph
00:09:54.584 --> 00:09:59.135
Och vi kan tänja gränser
genom att ändra utrustningen.
00:09:59.135 --> 00:10:01.596
För alla experiment
som jag har visat hittills
00:10:01.596 --> 00:10:03.918
gjordes med höghastighetskamera,
00:10:03.918 --> 00:10:08.377
som kan spela in runt 100 gånger snabbare
än de flesta mobiler.
00:10:08.724 --> 00:10:13.603
Men vi hittade ett sätt att
använda metoden med vanliga kameror,
00:10:13.603 --> 00:10:17.832
genom att utnyttja så kallade
rullande slutare.
00:10:17.832 --> 00:10:22.630
De flesta kameror spelar in
filmens bilder en pixelrad åt gången,
00:10:22.630 --> 00:10:28.332
och om ett föremål rör sig
medan en enda bild spelas in
00:10:28.344 --> 00:10:31.061
gör den lilla fördröjningen
mellan varje rad
00:10:31.061 --> 00:10:37.188
att det blir små artefakter
som syns i varje bild i filmen.
00:10:37.701 --> 00:10:41.507
Vi upptäckte att genom att
analysera dessa artefakter,
00:10:41.507 --> 00:10:46.122
kan vi återskapa ljud med en
ändrad version av vår algoritm.
00:10:46.122 --> 00:10:51.224
Här är ett experiment där vi filmade
en godispåse medan en högtalare spelade
00:10:51.470 --> 00:10:54.442
samma "Mary had a little lamb" som innan
00:10:54.442 --> 00:10:58.645
men nu med en helt vanlig kamera.
00:10:58.645 --> 00:11:01.089
Nu ska jag spela upp
ljudet vi återskapade,
00:11:01.089 --> 00:11:03.669
och det kommer att låta förvrängt nu,
00:11:03.669 --> 00:11:06.705
men lyssna och hör om ni kan
känna igen musiken.
NOTE Paragraph
00:11:07.723 --> 00:11:10.716
(Ljud: "Mary had a little lamb")
NOTE Paragraph
00:11:25.527 --> 00:11:28.992
Som sagt, ljudet är förvrängt,
00:11:28.992 --> 00:11:33.378
men det fantastiska är att
vi fick detta resultat
00:11:33.378 --> 00:11:37.724
med utrustning som man kan
köpa på Elgiganten.
NOTE Paragraph
00:11:39.122 --> 00:11:44.725
Många som ser det här
tänker genast på övervakning.
00:11:45.542 --> 00:11:49.137
Och i ärlighetens namn
är det lätt att föreställa sig
00:11:49.217 --> 00:11:52.060
hur tekniken kan användas
till att spionera.
00:11:52.060 --> 00:11:57.657
Men kom ihåg att det redan finns
gott om mogen teknik för att spionera.
00:11:57.946 --> 00:12:03.046
Man har använt laser för att tjuvlyssna
via föremål på avstånd i decennier.
00:12:04.083 --> 00:12:11.248
Det nya nu är att vi kan
avbilda vibrationer hos ett föremål,
00:12:11.548 --> 00:12:14.911
vilket ger oss en ny lins som
vi kan betrakta världen genom.
00:12:14.911 --> 00:12:16.661
Och vi kan använda denna lins
00:12:16.661 --> 00:12:21.560
för att lära oss inte bara om krafter,
som ljud, som orsakar vibrationer,
00:12:21.560 --> 00:12:23.848
utan även om föremålet självt.
NOTE Paragraph
00:12:24.968 --> 00:12:30.697
Låt oss backa ett steg och fundera hur
det kan ändra sättet vi använder film på.
00:12:30.697 --> 00:12:34.270
Vi brukar använda film för att
betrakta föremål,
00:12:34.270 --> 00:12:38.092
och jag har nyss visat hur det
kan användas för att lyssna på saker.
00:12:38.459 --> 00:12:42.420
Men det finns ett annat viktigt sätt
att undersöka omvärlden:
00:12:42.420 --> 00:12:44.675
Genom att interagera med den.
00:12:44.675 --> 00:12:47.836
Vi trycker och drar och petar på saker.
00:12:47.836 --> 00:12:51.047
Vi skakar dem och ser vad som händer.
00:12:51.047 --> 00:12:55.190
Det är något som vi inte
kan göra med en film.
00:12:55.190 --> 00:12:57.596
Åtminstone inte hittills.
00:12:57.686 --> 00:13:02.213
Jag vill visa vårt senaste arbete, en idé
som jag fick för bara några månader sedan.
00:13:02.213 --> 00:13:05.514
Det här är första gången jag
visar det för allmänheten.
00:13:05.514 --> 00:13:10.877
Idén är att vi ska använda
vibrationerna i en film
00:13:10.877 --> 00:13:15.358
för att spela in föremål på ett sätt
så att vi kan interagera med dem,
00:13:15.358 --> 00:13:17.332
och se hur de reagerar på oss.
NOTE Paragraph
00:13:19.120 --> 00:13:20.754
Här är ett föremål,
00:13:20.754 --> 00:13:24.506
i detta fall en trådskulptur
av en människa,
00:13:24.506 --> 00:13:27.634
och vi filmar den med en vanlig kamera.
00:13:27.634 --> 00:13:32.108
Det är inget särskilt med kameran,
vi har faktiskt använt min mobil förut.
00:13:32.689 --> 00:13:35.194
Men vi vill att föremålet ska vibrera.
00:13:35.194 --> 00:13:40.720
Så vi slår lätt på ytan det står på,
medan vi spelar in denna film.
NOTE Paragraph
00:13:47.138 --> 00:13:52.879
Det är allt: Fem sekunder vanlig film,
medan vi slår på ytan,
00:13:53.085 --> 00:13:56.558
och vi använder vibrationerna från filmen
00:13:56.558 --> 00:14:01.052
för att lära oss konstruktionen
och materialens egenskaper i föremålet,
00:14:01.052 --> 00:14:06.096
och vi använder den informationen
för att skapa något nytt, interaktivt.
00:14:12.866 --> 00:14:17.559
Här är resultatet.
Det ser ut som en vanlig stillbild.
00:14:17.748 --> 00:14:20.859
Men det är ingen stillbild,
och det är ingen film.
00:14:20.859 --> 00:14:25.987
För nu kan jag ta musen
och börja interagera med föremålet.
00:14:32.936 --> 00:14:37.523
Vad ni ser är en simulering av
hur föremålet
00:14:37.615 --> 00:14:41.873
skulle reagera på krafter
som vi aldrig sett förut.
00:14:41.873 --> 00:14:45.706
Och vi skapade den utifrån
bara fem sekunder vanlig film.
NOTE Paragraph
00:14:47.249 --> 00:14:50.234
(Applåder)
NOTE Paragraph
00:14:57.421 --> 00:15:00.458
Så detta är ett kraftfullt sätt
att se på omvärlden,
00:15:00.458 --> 00:15:05.220
för det låter oss förutse hur föremål
kommer reagera på nya situationer,
00:15:05.443 --> 00:15:08.916
och man kan tänka sig, exempelvis,
att man tittar på en gammal bro
00:15:08.916 --> 00:15:14.883
och undrar om den kommer hålla
om jag skulle köra bil över den.
00:15:15.276 --> 00:15:20.700
Det är en fråga som du förmodligen
vill besvara innan du kör över bron.
00:15:21.858 --> 00:15:25.040
Självklart finns det
begränsningar i tekniken,
00:15:25.040 --> 00:15:27.462
precis som med den visuella mikrofonen,
00:15:27.462 --> 00:15:32.383
men vi upptäckte att det fungerar
i många oväntade situationer,
00:15:32.698 --> 00:15:35.326
i synnerhet om du använder längre filmer.
NOTE Paragraph
00:15:35.326 --> 00:15:39.934
Exempelvis denna film
på en buske utanför mitt hus,
00:15:40.233 --> 00:15:45.691
och jag gjorde inget med busken,
förutom att filma den i en minut.
00:15:46.146 --> 00:15:49.284
En lätt vind gav nog med vibrationer
00:15:49.284 --> 00:15:53.111
för att ge oss information
till den här simuleringen.
00:15:55.270 --> 00:15:58.242
(Applåder)
00:16:01.412 --> 00:16:04.224
Tänk dig detta i händerna
på en filmregissör,
00:16:04.224 --> 00:16:06.103
som kan kontrollera, till exempel,
00:16:06.103 --> 00:16:11.025
styrkan och riktningen på en vind
i en tagning efter att den blivit filmad.
00:16:12.810 --> 00:16:17.215
Eller, som här, när vi riktade kameran
mot ett hängande skynke,
00:16:17.215 --> 00:16:23.854
man kan inte se några rörelser i filmen,
men genom att filma i två minuter,
00:16:24.179 --> 00:16:30.857
gav naturliga luftströmmar upphov till
nog med omärkliga rörelser och vibrationer
00:16:31.257 --> 00:16:33.814
för att möjliggöra denna simulering.
NOTE Paragraph
00:16:36.243 --> 00:16:43.859
Ironiskt nog är vi vana vid interaktivitet
när det gäller virtuella föremål.
00:16:44.344 --> 00:16:47.531
Videospel och 3D-modeller.
00:16:47.531 --> 00:16:52.045
Men att kunna fånga den här informationen
från verkliga föremål i omvärlden,
00:16:52.045 --> 00:16:54.652
med bara vanlig videoupptagning,
00:16:54.652 --> 00:16:57.045
är nytt och har stor potential.
NOTE Paragraph
00:16:58.410 --> 00:17:03.314
Här är de fantastiska människor
som arbetat med mig.
00:17:04.057 --> 00:17:07.043
(Applåder)
NOTE Paragraph
00:17:12.819 --> 00:17:15.626
Vad jag visat idag är bara början.
00:17:15.626 --> 00:17:20.389
Vi har bara skrapat på ytan av vad man kan
göra med denna typ av avbildning,
00:17:20.792 --> 00:17:28.066
för den ger nya sätt att fånga vår
omgivning med vanlig, tillgänglig teknik.
00:17:28.066 --> 00:17:30.585
Framtiden är spännande,
00:17:30.595 --> 00:17:33.888
när vi utforskar vad detta
kan lära oss om världen.
NOTE Paragraph
00:17:34.381 --> 00:17:35.585
Tack!
NOTE Paragraph
00:17:35.610 --> 00:17:38.587
(Applåder)