WEBVTT 00:00:01.373 --> 00:00:04.722 De flesta tänker på rörelse som en visuell sak. 00:00:05.889 --> 00:00:10.807 Om jag går över scenen eller gestikulerar medan jag talar, 00:00:10.807 --> 00:00:13.238 är det rörelser som du kan se. 00:00:14.255 --> 00:00:19.737 Men det finns en hel värld av rörelser som är för små för det mänskliga ögat, 00:00:19.737 --> 00:00:23.598 och de senaste åren har vi upptäckt att kameror 00:00:23.775 --> 00:00:27.185 ofta kan se sådana rörelser som människor inte kan. NOTE Paragraph 00:00:28.305 --> 00:00:30.066 Låt mig visa vad jag menar. 00:00:30.437 --> 00:00:33.609 Till vänster ser du en film på en handled, 00:00:34.059 --> 00:00:37.486 och till höger ser du en film på en sovande bebis, 00:00:37.486 --> 00:00:40.422 men om jag inte hade sagt att det var filmer, 00:00:40.422 --> 00:00:44.043 hade du kunnat tro att det var stillbilder du såg, 00:00:44.043 --> 00:00:49.805 för i båda fallen verkar filmerna nästan helt stilla. 00:00:50.175 --> 00:00:53.580 Men det pågår en hel del små rörelser, 00:00:53.850 --> 00:00:56.232 och hade du känt på handleden till vänster, 00:00:56.232 --> 00:00:58.248 hade du känt en puls, 00:00:58.248 --> 00:01:00.933 och hade du hållit i bebisen till höger, 00:01:00.933 --> 00:01:05.224 hade du känt hennes bröstkorg röra sig när hon andades. 00:01:05.592 --> 00:01:12.048 Dessa rörelser har stor betydelse, men är oftast för små för att synas. 00:01:12.441 --> 00:01:17.927 så vi måste uppfatta dem genom beröring. NOTE Paragraph 00:01:18.952 --> 00:01:24.667 Men för några år sedan utvecklade MIT ett så kallat rörelsemikroskop. 00:01:24.667 --> 00:01:28.861 Det är en mjukvara som hittar dessa små rörelser på film 00:01:28.861 --> 00:01:32.613 och förstorar dem så att vi kan se dem. 00:01:33.416 --> 00:01:36.389 Så om vi använder mjukvaran på den vänstra filmen, 00:01:36.899 --> 00:01:39.889 kan vi se pulsen i handleden, 00:01:39.889 --> 00:01:44.604 och om vi skulle räkna pulsslagen, skulle vi veta hjärtfrekvensen. 00:01:45.034 --> 00:01:47.880 Och om mjukvaran används på den högra filmen, 00:01:47.880 --> 00:01:51.387 låter den oss se varje andetag som bebisen tar. 00:01:51.387 --> 00:01:55.524 Det kan användas för att beröringsfritt övervaka andningen. NOTE Paragraph 00:01:56.684 --> 00:02:01.652 Denna teknik är mycket kraftfull för den tar dessa fenomen 00:02:01.652 --> 00:02:04.369 som vi brukar behöva uppleva genom beröring 00:02:04.369 --> 00:02:07.556 och fångar dem visuellt utan att inkräkta. NOTE Paragraph 00:02:08.854 --> 00:02:13.315 För ett par år sedan började jag arbeta med dem som gjorde mjukvaran, 00:02:13.315 --> 00:02:16.602 och vi beslöt att prova en galen idé. 00:02:16.602 --> 00:02:19.415 Det var fantastiskt att använda mjukvaran 00:02:19.415 --> 00:02:22.170 för att synliggöra pyttesmå rörelser, 00:02:22.170 --> 00:02:26.338 och man kan nästan se det som ett sätt att förlänga känseln. 00:02:26.978 --> 00:02:31.227 Men tänk om man kunde göra på samma sätt med hörseln! 00:02:32.298 --> 00:02:36.573 Tänk om vi kunde använda video för att fånga ljudets vibrationer, 00:02:37.173 --> 00:02:39.520 som också är en sorts rörelser, 00:02:40.000 --> 00:02:43.346 och använda allt vi kan se som mikrofon. NOTE Paragraph 00:02:44.236 --> 00:02:48.507 Det här är en märklig idé, låt mig sätta den i perspektiv. 00:02:49.523 --> 00:02:52.771 Vanliga mikrofoner överför rörelsen 00:02:52.771 --> 00:02:55.990 hos ett inbyggt membran till en elektrisk signal, 00:02:56.450 --> 00:03:00.598 och det membranet är konstruerat för att enkelt röra sig med ljudet 00:03:00.598 --> 00:03:04.805 så att dess rörelse kan tolkas som ljud. 00:03:05.445 --> 00:03:08.923 Men ljud får alla saker att röra sig. 00:03:09.163 --> 00:03:14.303 Det är bara det att vibrationerna är för små och snabba för oss att se. NOTE Paragraph 00:03:14.703 --> 00:03:18.421 Men tänk om vi filmar dem med en höghastighetskamera 00:03:18.421 --> 00:03:23.567 och använder mjukvara för att ta fram pyttesmå rörelser från filmen, 00:03:24.037 --> 00:03:28.561 och analyserar rörelserna för att räkna ut vilka ljud som åstadkom dem. 00:03:29.659 --> 00:03:35.308 Då skulle synliga föremål bli visuella mikrofoner på avstånd. 00:03:37.080 --> 00:03:40.700 Så vi provade detta, och här är ett av våra experiment. 00:03:40.700 --> 00:03:46.347 Vi tog en krukväxt, till höger, och filmade med höghastighetskamera, 00:03:46.347 --> 00:03:50.106 medan en högtalare i närheten spelade detta ljud. 00:03:50.446 --> 00:03:53.430 (Musik: Mary had a little lamb) NOTE Paragraph 00:03:59.680 --> 00:04:06.264 Här är filmen som vi spelade in, med tusentals bilder per sekund, 00:04:06.264 --> 00:04:10.491 men även om du tittar riktigt nära, ser du bara några blad 00:04:10.491 --> 00:04:13.906 som inte verkar göra något särskilt. 00:04:13.906 --> 00:04:18.712 För ljudet får bladen att röra sig bara ungefär en mikrometer. 00:04:19.103 --> 00:04:22.869 En tiotusendels centimeter. 00:04:23.189 --> 00:04:29.485 Mellan en hundradels och en tusendels pixel i bilden. 00:04:29.881 --> 00:04:36.248 Hur mycket du än kisar, så kan du inte uppfatta så små rörelser. 00:04:37.407 --> 00:04:41.824 Men det visar sig att det som är omöjligt att uppfatta 00:04:41.824 --> 00:04:44.453 ändå kan vara numeriskt signifikant. 00:04:44.453 --> 00:04:49.625 Med de rätta algoritmerna kan vi ta denna tysta, till synes stilla film- 00:04:50.082 --> 00:04:51.849 -och återskapa detta ljud. NOTE Paragraph 00:04:52.690 --> 00:04:55.674 (Musik: Mary had a little lamb) NOTE Paragraph 00:04:59.374 --> 00:05:02.352 (Applåder) NOTE Paragraph 00:05:09.988 --> 00:05:11.777 Hur är det möjligt? 00:05:11.777 --> 00:05:16.341 Hur kan vi få så mycket information från så lite rörelse? 00:05:16.341 --> 00:05:21.702 Jo, låt oss säga att bladen rör sig en enda mikrometer, 00:05:21.702 --> 00:05:26.010 och att det förskjuter bilden en tusendels pixel. 00:05:27.269 --> 00:05:33.891 Det låter inte mycket, men en enda bildruta består av hundratusentals pixlar, 00:05:34.894 --> 00:05:40.468 och om vi kombinerar alla pyttesmå rörelser från hela bilden, 00:05:40.846 --> 00:05:46.269 kan en tusendels pixel läggas ihop till något ganska märkbart. NOTE Paragraph 00:05:46.870 --> 00:05:50.505 Jag måste tillstå att vi blev rätt häpna när vi upptäckte det. 00:05:50.505 --> 00:05:52.825 (Skratt) 00:05:54.185 --> 00:05:58.858 Men även med rätt algoritm saknades en viktig bit av pusslet. 00:05:59.695 --> 00:06:05.059 Många faktorer påverkar när och hur bra den här metoden fungerar. 00:06:05.296 --> 00:06:08.280 Dels föremålet och hur långt bort det är. 00:06:08.280 --> 00:06:10.894 Dels kameran och objektivet. 00:06:10.894 --> 00:06:14.985 Dels ljuset på föremålet och hur starkt ljudet är. 00:06:15.945 --> 00:06:22.010 Och även med rätt algoritm var det noga vid våra första experiment, 00:06:22.460 --> 00:06:25.102 för om en av dessa faktorer var fel 00:06:25.102 --> 00:06:27.470 gick det inte att säga vad som var problemet. 00:06:27.470 --> 00:06:29.867 Vi fick bara brus. 00:06:29.867 --> 00:06:33.437 Därför såg många av våra tidiga experiment ut så här. 00:06:33.437 --> 00:06:35.643 Här är jag, 00:06:35.643 --> 00:06:39.403 och nere till vänster skymtar höghastighetskameran 00:06:39.403 --> 00:06:41.626 som är riktad mot en chipspåse 00:06:41.626 --> 00:06:44.815 som belyses med starka lampor. 00:06:44.815 --> 00:06:49.180 Som sagt måste vi vara mycket noggranna vid dessa tidiga experiment. 00:06:49.180 --> 00:06:51.688 Så här gick det till. NOTE Paragraph 00:06:51.688 --> 00:06:55.449 (Film) Tre, två, ett... 00:06:55.449 --> 00:07:00.836 Mary had a little lamb! Little lamb! Little lamb! NOTE Paragraph 00:07:00.836 --> 00:07:03.816 (Skratt) NOTE Paragraph 00:07:05.336 --> 00:07:08.150 Det här experimentet verkar störtlöjligt. 00:07:08.150 --> 00:07:09.938 (Skratt) 00:07:09.938 --> 00:07:12.283 Jag skriker åt en chipspåse... 00:07:12.283 --> 00:07:13.834 (Skratt) 00:07:13.834 --> 00:07:15.951 ... och vi brassar på med så mycket ljus- 00:07:15.951 --> 00:07:20.430 att den första chipspåsen bokstavligen smälte. (Skratt) 00:07:20.525 --> 00:07:25.357 Men, löjligt eller inte, det var ett viktigt experiment. 00:07:25.357 --> 00:07:28.513 För vi kunde återskapa detta ljud. NOTE Paragraph 00:07:28.513 --> 00:07:33.225 (Ljud) Mary had a little lamb! Little lamb! Little lamb! NOTE Paragraph 00:07:33.225 --> 00:07:36.223 (Applåder) NOTE Paragraph 00:07:37.163 --> 00:07:39.014 Och detta var betydelsefullt, 00:07:39.014 --> 00:07:43.313 för det var den första gången som vi återskapade mänskligt tal 00:07:43.424 --> 00:07:45.765 från ljudlös film av ett föremål. 00:07:45.765 --> 00:07:48.156 Så vi fick en referenspunkt, 00:07:48.156 --> 00:07:52.026 och successivt kunde vi förändra experimentet, 00:07:52.026 --> 00:07:55.661 med olika föremål, olika långt borta, 00:07:55.661 --> 00:07:58.681 mindre ljus, tystare ljud. 00:07:59.797 --> 00:08:02.761 Vi analyserade alla experiment 00:08:02.761 --> 00:08:05.913 tills vi kände till metodens begränsningar, 00:08:06.173 --> 00:08:10.443 för när vi kände gränserna, kunde vi räkna ut hur vi skulle tänja dem. NOTE Paragraph 00:08:10.579 --> 00:08:13.570 Det ledde till sådana här experiment. 00:08:13.570 --> 00:08:16.499 Återigen pratar jag med en chipspåse, 00:08:16.499 --> 00:08:21.199 men nu har vi flyttat kameran fem meter, 00:08:21.199 --> 00:08:24.262 utomhus, bakom ett ljudisolerat fönster, 00:08:24.262 --> 00:08:27.065 och ljuset är naturligt solljus. 00:08:28.409 --> 00:08:30.684 Här är filmen som vi spelade in. 00:08:32.330 --> 00:08:36.599 Så här lät det inomhus, intill chipspåsen. NOTE Paragraph 00:08:37.009 --> 00:08:41.717 (Ljud) Mary had a little lamb whose fleece was white as snow 00:08:41.717 --> 00:08:47.026 and everywhere that Mary went, that lamb was sure to go. NOTE Paragraph 00:08:47.666 --> 00:08:51.103 Och detta lyckades vi återskapa från den ljudlösa filmen 00:08:51.103 --> 00:08:53.808 tagen utomhus bakom fönstret. NOTE Paragraph 00:08:53.808 --> 00:08:58.253 (Ljud) Mary had a little lamb whose fleece was white as snow 00:08:58.253 --> 00:09:03.920 and everywhere that Mary went, that lamb was sure to go. NOTE Paragraph 00:09:03.920 --> 00:09:06.901 (Applåder) NOTE Paragraph 00:09:10.151 --> 00:09:13.593 Och det finns andra sätt som vi kan tänja gränserna på. 00:09:13.593 --> 00:09:17.681 Här är ett tystare experiment där vi filmade ett par hörlurar, 00:09:17.681 --> 00:09:19.731 inkopplade i en dator. 00:09:19.731 --> 00:09:23.981 Här var målet att återskapa musiken som spelades på datorn 00:09:23.981 --> 00:09:28.250 utifrån ljudlös film på dessa små hörlurar. 00:09:28.627 --> 00:09:30.970 Vi lyckades så bra 00:09:30.970 --> 00:09:33.431 att Shazam kände igen resultatet. 00:09:33.431 --> 00:09:35.842 (Skratt) NOTE Paragraph 00:09:37.191 --> 00:09:40.185 (Musik: "Under Pressure" av Queen) NOTE Paragraph 00:09:49.615 --> 00:09:52.594 (Applåder) NOTE Paragraph 00:09:54.584 --> 00:09:59.135 Och vi kan tänja gränser genom att ändra utrustningen. 00:09:59.135 --> 00:10:01.596 För alla experiment som jag har visat hittills 00:10:01.596 --> 00:10:03.918 gjordes med höghastighetskamera, 00:10:03.918 --> 00:10:08.377 som kan spela in runt 100 gånger snabbare än de flesta mobiler. 00:10:08.724 --> 00:10:13.603 Men vi hittade ett sätt att använda metoden med vanliga kameror, 00:10:13.603 --> 00:10:17.832 genom att utnyttja så kallade rullande slutare. 00:10:17.832 --> 00:10:22.630 De flesta kameror spelar in filmens bilder en pixelrad åt gången, 00:10:22.630 --> 00:10:28.332 och om ett föremål rör sig medan en enda bild spelas in 00:10:28.344 --> 00:10:31.061 gör den lilla fördröjningen mellan varje rad 00:10:31.061 --> 00:10:37.188 att det blir små artefakter som syns i varje bild i filmen. 00:10:37.701 --> 00:10:41.507 Vi upptäckte att genom att analysera dessa artefakter, 00:10:41.507 --> 00:10:46.122 kan vi återskapa ljud med en ändrad version av vår algoritm. 00:10:46.122 --> 00:10:51.224 Här är ett experiment där vi filmade en godispåse medan en högtalare spelade 00:10:51.470 --> 00:10:54.442 samma "Mary had a little lamb" som innan 00:10:54.442 --> 00:10:58.645 men nu med en helt vanlig kamera. 00:10:58.645 --> 00:11:01.089 Nu ska jag spela upp ljudet vi återskapade, 00:11:01.089 --> 00:11:03.669 och det kommer att låta förvrängt nu, 00:11:03.669 --> 00:11:06.705 men lyssna och hör om ni kan känna igen musiken. NOTE Paragraph 00:11:07.723 --> 00:11:10.716 (Ljud: "Mary had a little lamb") NOTE Paragraph 00:11:25.527 --> 00:11:28.992 Som sagt, ljudet är förvrängt, 00:11:28.992 --> 00:11:33.378 men det fantastiska är att vi fick detta resultat 00:11:33.378 --> 00:11:37.724 med utrustning som man kan köpa på Elgiganten. NOTE Paragraph 00:11:39.122 --> 00:11:44.725 Många som ser det här tänker genast på övervakning. 00:11:45.542 --> 00:11:49.137 Och i ärlighetens namn är det lätt att föreställa sig 00:11:49.217 --> 00:11:52.060 hur tekniken kan användas till att spionera. 00:11:52.060 --> 00:11:57.657 Men kom ihåg att det redan finns gott om mogen teknik för att spionera. 00:11:57.946 --> 00:12:03.046 Man har använt laser för att tjuvlyssna via föremål på avstånd i decennier. 00:12:04.083 --> 00:12:11.248 Det nya nu är att vi kan avbilda vibrationer hos ett föremål, 00:12:11.548 --> 00:12:14.911 vilket ger oss en ny lins som vi kan betrakta världen genom. 00:12:14.911 --> 00:12:16.661 Och vi kan använda denna lins 00:12:16.661 --> 00:12:21.560 för att lära oss inte bara om krafter, som ljud, som orsakar vibrationer, 00:12:21.560 --> 00:12:23.848 utan även om föremålet självt. NOTE Paragraph 00:12:24.968 --> 00:12:30.697 Låt oss backa ett steg och fundera hur det kan ändra sättet vi använder film på. 00:12:30.697 --> 00:12:34.270 Vi brukar använda film för att betrakta föremål, 00:12:34.270 --> 00:12:38.092 och jag har nyss visat hur det kan användas för att lyssna på saker. 00:12:38.459 --> 00:12:42.420 Men det finns ett annat viktigt sätt att undersöka omvärlden: 00:12:42.420 --> 00:12:44.675 Genom att interagera med den. 00:12:44.675 --> 00:12:47.836 Vi trycker och drar och petar på saker. 00:12:47.836 --> 00:12:51.047 Vi skakar dem och ser vad som händer. 00:12:51.047 --> 00:12:55.190 Det är något som vi inte kan göra med en film. 00:12:55.190 --> 00:12:57.596 Åtminstone inte hittills. 00:12:57.686 --> 00:13:02.213 Jag vill visa vårt senaste arbete, en idé som jag fick för bara några månader sedan. 00:13:02.213 --> 00:13:05.514 Det här är första gången jag visar det för allmänheten. 00:13:05.514 --> 00:13:10.877 Idén är att vi ska använda vibrationerna i en film 00:13:10.877 --> 00:13:15.358 för att spela in föremål på ett sätt så att vi kan interagera med dem, 00:13:15.358 --> 00:13:17.332 och se hur de reagerar på oss. NOTE Paragraph 00:13:19.120 --> 00:13:20.754 Här är ett föremål, 00:13:20.754 --> 00:13:24.506 i detta fall en trådskulptur av en människa, 00:13:24.506 --> 00:13:27.634 och vi filmar den med en vanlig kamera. 00:13:27.634 --> 00:13:32.108 Det är inget särskilt med kameran, vi har faktiskt använt min mobil förut. 00:13:32.689 --> 00:13:35.194 Men vi vill att föremålet ska vibrera. 00:13:35.194 --> 00:13:40.720 Så vi slår lätt på ytan det står på, medan vi spelar in denna film. NOTE Paragraph 00:13:47.138 --> 00:13:52.879 Det är allt: Fem sekunder vanlig film, medan vi slår på ytan, 00:13:53.085 --> 00:13:56.558 och vi använder vibrationerna från filmen 00:13:56.558 --> 00:14:01.052 för att lära oss konstruktionen och materialens egenskaper i föremålet, 00:14:01.052 --> 00:14:06.096 och vi använder den informationen för att skapa något nytt, interaktivt. 00:14:12.866 --> 00:14:17.559 Här är resultatet. Det ser ut som en vanlig stillbild. 00:14:17.748 --> 00:14:20.859 Men det är ingen stillbild, och det är ingen film. 00:14:20.859 --> 00:14:25.987 För nu kan jag ta musen och börja interagera med föremålet. 00:14:32.936 --> 00:14:37.523 Vad ni ser är en simulering av hur föremålet 00:14:37.615 --> 00:14:41.873 skulle reagera på krafter som vi aldrig sett förut. 00:14:41.873 --> 00:14:45.706 Och vi skapade den utifrån bara fem sekunder vanlig film. NOTE Paragraph 00:14:47.249 --> 00:14:50.234 (Applåder) NOTE Paragraph 00:14:57.421 --> 00:15:00.458 Så detta är ett kraftfullt sätt att se på omvärlden, 00:15:00.458 --> 00:15:05.220 för det låter oss förutse hur föremål kommer reagera på nya situationer, 00:15:05.443 --> 00:15:08.916 och man kan tänka sig, exempelvis, att man tittar på en gammal bro 00:15:08.916 --> 00:15:14.883 och undrar om den kommer hålla om jag skulle köra bil över den. 00:15:15.276 --> 00:15:20.700 Det är en fråga som du förmodligen vill besvara innan du kör över bron. 00:15:21.858 --> 00:15:25.040 Självklart finns det begränsningar i tekniken, 00:15:25.040 --> 00:15:27.462 precis som med den visuella mikrofonen, 00:15:27.462 --> 00:15:32.383 men vi upptäckte att det fungerar i många oväntade situationer, 00:15:32.698 --> 00:15:35.326 i synnerhet om du använder längre filmer. NOTE Paragraph 00:15:35.326 --> 00:15:39.934 Exempelvis denna film på en buske utanför mitt hus, 00:15:40.233 --> 00:15:45.691 och jag gjorde inget med busken, förutom att filma den i en minut. 00:15:46.146 --> 00:15:49.284 En lätt vind gav nog med vibrationer 00:15:49.284 --> 00:15:53.111 för att ge oss information till den här simuleringen. 00:15:55.270 --> 00:15:58.242 (Applåder) 00:16:01.412 --> 00:16:04.224 Tänk dig detta i händerna på en filmregissör, 00:16:04.224 --> 00:16:06.103 som kan kontrollera, till exempel, 00:16:06.103 --> 00:16:11.025 styrkan och riktningen på en vind i en tagning efter att den blivit filmad. 00:16:12.810 --> 00:16:17.215 Eller, som här, när vi riktade kameran mot ett hängande skynke, 00:16:17.215 --> 00:16:23.854 man kan inte se några rörelser i filmen, men genom att filma i två minuter, 00:16:24.179 --> 00:16:30.857 gav naturliga luftströmmar upphov till nog med omärkliga rörelser och vibrationer 00:16:31.257 --> 00:16:33.814 för att möjliggöra denna simulering. NOTE Paragraph 00:16:36.243 --> 00:16:43.859 Ironiskt nog är vi vana vid interaktivitet när det gäller virtuella föremål. 00:16:44.344 --> 00:16:47.531 Videospel och 3D-modeller. 00:16:47.531 --> 00:16:52.045 Men att kunna fånga den här informationen från verkliga föremål i omvärlden, 00:16:52.045 --> 00:16:54.652 med bara vanlig videoupptagning, 00:16:54.652 --> 00:16:57.045 är nytt och har stor potential. NOTE Paragraph 00:16:58.410 --> 00:17:03.314 Här är de fantastiska människor som arbetat med mig. 00:17:04.057 --> 00:17:07.043 (Applåder) NOTE Paragraph 00:17:12.819 --> 00:17:15.626 Vad jag visat idag är bara början. 00:17:15.626 --> 00:17:20.389 Vi har bara skrapat på ytan av vad man kan göra med denna typ av avbildning, 00:17:20.792 --> 00:17:28.066 för den ger nya sätt att fånga vår omgivning med vanlig, tillgänglig teknik. 00:17:28.066 --> 00:17:30.585 Framtiden är spännande, 00:17:30.595 --> 00:17:33.888 när vi utforskar vad detta kan lära oss om världen. NOTE Paragraph 00:17:34.381 --> 00:17:35.585 Tack! NOTE Paragraph 00:17:35.610 --> 00:17:38.587 (Applåder)