1 00:00:01,373 --> 00:00:04,722 De flesta tänker på rörelse som en visuell sak. 2 00:00:05,889 --> 00:00:10,807 Om jag går över scenen eller gestikulerar medan jag talar, 3 00:00:10,807 --> 00:00:13,238 är det rörelser som du kan se. 4 00:00:14,255 --> 00:00:19,737 Men det finns en hel värld av rörelser som är för små för det mänskliga ögat, 5 00:00:19,737 --> 00:00:23,598 och de senaste åren har vi upptäckt att kameror 6 00:00:23,775 --> 00:00:27,185 ofta kan se sådana rörelser som människor inte kan. 7 00:00:28,305 --> 00:00:30,066 Låt mig visa vad jag menar. 8 00:00:30,437 --> 00:00:33,609 Till vänster ser du en film på en handled, 9 00:00:34,059 --> 00:00:37,486 och till höger ser du en film på en sovande bebis, 10 00:00:37,486 --> 00:00:40,422 men om jag inte hade sagt att det var filmer, 11 00:00:40,422 --> 00:00:44,043 hade du kunnat tro att det var stillbilder du såg, 12 00:00:44,043 --> 00:00:49,805 för i båda fallen verkar filmerna nästan helt stilla. 13 00:00:50,175 --> 00:00:53,580 Men det pågår en hel del små rörelser, 14 00:00:53,850 --> 00:00:56,232 och hade du känt på handleden till vänster, 15 00:00:56,232 --> 00:00:58,248 hade du känt en puls, 16 00:00:58,248 --> 00:01:00,933 och hade du hållit i bebisen till höger, 17 00:01:00,933 --> 00:01:05,224 hade du känt hennes bröstkorg röra sig när hon andades. 18 00:01:05,592 --> 00:01:12,048 Dessa rörelser har stor betydelse, men är oftast för små för att synas. 19 00:01:12,441 --> 00:01:17,927 så vi måste uppfatta dem genom beröring. 20 00:01:18,952 --> 00:01:24,667 Men för några år sedan utvecklade MIT ett så kallat rörelsemikroskop. 21 00:01:24,667 --> 00:01:28,861 Det är en mjukvara som hittar dessa små rörelser på film 22 00:01:28,861 --> 00:01:32,613 och förstorar dem så att vi kan se dem. 23 00:01:33,416 --> 00:01:36,389 Så om vi använder mjukvaran på den vänstra filmen, 24 00:01:36,899 --> 00:01:39,889 kan vi se pulsen i handleden, 25 00:01:39,889 --> 00:01:44,604 och om vi skulle räkna pulsslagen, skulle vi veta hjärtfrekvensen. 26 00:01:45,034 --> 00:01:47,880 Och om mjukvaran används på den högra filmen, 27 00:01:47,880 --> 00:01:51,387 låter den oss se varje andetag som bebisen tar. 28 00:01:51,387 --> 00:01:55,524 Det kan användas för att beröringsfritt övervaka andningen. 29 00:01:56,684 --> 00:02:01,652 Denna teknik är mycket kraftfull för den tar dessa fenomen 30 00:02:01,652 --> 00:02:04,369 som vi brukar behöva uppleva genom beröring 31 00:02:04,369 --> 00:02:07,556 och fångar dem visuellt utan att inkräkta. 32 00:02:08,854 --> 00:02:13,315 För ett par år sedan började jag arbeta med dem som gjorde mjukvaran, 33 00:02:13,315 --> 00:02:16,602 och vi beslöt att prova en galen idé. 34 00:02:16,602 --> 00:02:19,415 Det var fantastiskt att använda mjukvaran 35 00:02:19,415 --> 00:02:22,170 för att synliggöra pyttesmå rörelser, 36 00:02:22,170 --> 00:02:26,338 och man kan nästan se det som ett sätt att förlänga känseln. 37 00:02:26,978 --> 00:02:31,227 Men tänk om man kunde göra på samma sätt med hörseln! 38 00:02:32,298 --> 00:02:36,573 Tänk om vi kunde använda video för att fånga ljudets vibrationer, 39 00:02:37,173 --> 00:02:39,520 som också är en sorts rörelser, 40 00:02:40,000 --> 00:02:43,346 och använda allt vi kan se som mikrofon. 41 00:02:44,236 --> 00:02:48,507 Det här är en märklig idé, låt mig sätta den i perspektiv. 42 00:02:49,523 --> 00:02:52,771 Vanliga mikrofoner överför rörelsen 43 00:02:52,771 --> 00:02:55,990 hos ett inbyggt membran till en elektrisk signal, 44 00:02:56,450 --> 00:03:00,598 och det membranet är konstruerat för att enkelt röra sig med ljudet 45 00:03:00,598 --> 00:03:04,805 så att dess rörelse kan tolkas som ljud. 46 00:03:05,445 --> 00:03:08,923 Men ljud får alla saker att röra sig. 47 00:03:09,163 --> 00:03:14,303 Det är bara det att vibrationerna är för små och snabba för oss att se. 48 00:03:14,703 --> 00:03:18,421 Men tänk om vi filmar dem med en höghastighetskamera 49 00:03:18,421 --> 00:03:23,567 och använder mjukvara för att ta fram pyttesmå rörelser från filmen, 50 00:03:24,037 --> 00:03:28,561 och analyserar rörelserna för att räkna ut vilka ljud som åstadkom dem. 51 00:03:29,659 --> 00:03:35,308 Då skulle synliga föremål bli visuella mikrofoner på avstånd. 52 00:03:37,080 --> 00:03:40,700 Så vi provade detta, och här är ett av våra experiment. 53 00:03:40,700 --> 00:03:46,347 Vi tog en krukväxt, till höger, och filmade med höghastighetskamera, 54 00:03:46,347 --> 00:03:50,106 medan en högtalare i närheten spelade detta ljud. 55 00:03:50,446 --> 00:03:53,430 (Musik: Mary had a little lamb) 56 00:03:59,680 --> 00:04:06,264 Här är filmen som vi spelade in, med tusentals bilder per sekund, 57 00:04:06,264 --> 00:04:10,491 men även om du tittar riktigt nära, ser du bara några blad 58 00:04:10,491 --> 00:04:13,906 som inte verkar göra något särskilt. 59 00:04:13,906 --> 00:04:18,712 För ljudet får bladen att röra sig bara ungefär en mikrometer. 60 00:04:19,103 --> 00:04:22,869 En tiotusendels centimeter. 61 00:04:23,189 --> 00:04:29,485 Mellan en hundradels och en tusendels pixel i bilden. 62 00:04:29,881 --> 00:04:36,248 Hur mycket du än kisar, så kan du inte uppfatta så små rörelser. 63 00:04:37,407 --> 00:04:41,824 Men det visar sig att det som är omöjligt att uppfatta 64 00:04:41,824 --> 00:04:44,453 ändå kan vara numeriskt signifikant. 65 00:04:44,453 --> 00:04:49,625 Med de rätta algoritmerna kan vi ta denna tysta, till synes stilla film- 66 00:04:50,082 --> 00:04:51,849 -och återskapa detta ljud. 67 00:04:52,690 --> 00:04:55,674 (Musik: Mary had a little lamb) 68 00:04:59,374 --> 00:05:02,352 (Applåder) 69 00:05:09,988 --> 00:05:11,777 Hur är det möjligt? 70 00:05:11,777 --> 00:05:16,341 Hur kan vi få så mycket information från så lite rörelse? 71 00:05:16,341 --> 00:05:21,702 Jo, låt oss säga att bladen rör sig en enda mikrometer, 72 00:05:21,702 --> 00:05:26,010 och att det förskjuter bilden en tusendels pixel. 73 00:05:27,269 --> 00:05:33,891 Det låter inte mycket, men en enda bildruta består av hundratusentals pixlar, 74 00:05:34,894 --> 00:05:40,468 och om vi kombinerar alla pyttesmå rörelser från hela bilden, 75 00:05:40,846 --> 00:05:46,269 kan en tusendels pixel läggas ihop till något ganska märkbart. 76 00:05:46,870 --> 00:05:50,505 Jag måste tillstå att vi blev rätt häpna när vi upptäckte det. 77 00:05:50,505 --> 00:05:52,825 (Skratt) 78 00:05:54,185 --> 00:05:58,858 Men även med rätt algoritm saknades en viktig bit av pusslet. 79 00:05:59,695 --> 00:06:05,059 Många faktorer påverkar när och hur bra den här metoden fungerar. 80 00:06:05,296 --> 00:06:08,280 Dels föremålet och hur långt bort det är. 81 00:06:08,280 --> 00:06:10,894 Dels kameran och objektivet. 82 00:06:10,894 --> 00:06:14,985 Dels ljuset på föremålet och hur starkt ljudet är. 83 00:06:15,945 --> 00:06:22,010 Och även med rätt algoritm var det noga vid våra första experiment, 84 00:06:22,460 --> 00:06:25,102 för om en av dessa faktorer var fel 85 00:06:25,102 --> 00:06:27,470 gick det inte att säga vad som var problemet. 86 00:06:27,470 --> 00:06:29,867 Vi fick bara brus. 87 00:06:29,867 --> 00:06:33,437 Därför såg många av våra tidiga experiment ut så här. 88 00:06:33,437 --> 00:06:35,643 Här är jag, 89 00:06:35,643 --> 00:06:39,403 och nere till vänster skymtar höghastighetskameran 90 00:06:39,403 --> 00:06:41,626 som är riktad mot en chipspåse 91 00:06:41,626 --> 00:06:44,815 som belyses med starka lampor. 92 00:06:44,815 --> 00:06:49,180 Som sagt måste vi vara mycket noggranna vid dessa tidiga experiment. 93 00:06:49,180 --> 00:06:51,688 Så här gick det till. 94 00:06:51,688 --> 00:06:55,449 (Film) Tre, två, ett... 95 00:06:55,449 --> 00:07:00,836 Mary had a little lamb! Little lamb! Little lamb! 96 00:07:00,836 --> 00:07:03,816 (Skratt) 97 00:07:05,336 --> 00:07:08,150 Det här experimentet verkar störtlöjligt. 98 00:07:08,150 --> 00:07:09,938 (Skratt) 99 00:07:09,938 --> 00:07:12,283 Jag skriker åt en chipspåse... 100 00:07:12,283 --> 00:07:13,834 (Skratt) 101 00:07:13,834 --> 00:07:15,951 ... och vi brassar på med så mycket ljus- 102 00:07:15,951 --> 00:07:20,430 att den första chipspåsen bokstavligen smälte. (Skratt) 103 00:07:20,525 --> 00:07:25,357 Men, löjligt eller inte, det var ett viktigt experiment. 104 00:07:25,357 --> 00:07:28,513 För vi kunde återskapa detta ljud. 105 00:07:28,513 --> 00:07:33,225 (Ljud) Mary had a little lamb! Little lamb! Little lamb! 106 00:07:33,225 --> 00:07:36,223 (Applåder) 107 00:07:37,163 --> 00:07:39,014 Och detta var betydelsefullt, 108 00:07:39,014 --> 00:07:43,313 för det var den första gången som vi återskapade mänskligt tal 109 00:07:43,424 --> 00:07:45,765 från ljudlös film av ett föremål. 110 00:07:45,765 --> 00:07:48,156 Så vi fick en referenspunkt, 111 00:07:48,156 --> 00:07:52,026 och successivt kunde vi förändra experimentet, 112 00:07:52,026 --> 00:07:55,661 med olika föremål, olika långt borta, 113 00:07:55,661 --> 00:07:58,681 mindre ljus, tystare ljud. 114 00:07:59,797 --> 00:08:02,761 Vi analyserade alla experiment 115 00:08:02,761 --> 00:08:05,913 tills vi kände till metodens begränsningar, 116 00:08:06,173 --> 00:08:10,443 för när vi kände gränserna, kunde vi räkna ut hur vi skulle tänja dem. 117 00:08:10,579 --> 00:08:13,570 Det ledde till sådana här experiment. 118 00:08:13,570 --> 00:08:16,499 Återigen pratar jag med en chipspåse, 119 00:08:16,499 --> 00:08:21,199 men nu har vi flyttat kameran fem meter, 120 00:08:21,199 --> 00:08:24,262 utomhus, bakom ett ljudisolerat fönster, 121 00:08:24,262 --> 00:08:27,065 och ljuset är naturligt solljus. 122 00:08:28,409 --> 00:08:30,684 Här är filmen som vi spelade in. 123 00:08:32,330 --> 00:08:36,599 Så här lät det inomhus, intill chipspåsen. 124 00:08:37,009 --> 00:08:41,717 (Ljud) Mary had a little lamb whose fleece was white as snow 125 00:08:41,717 --> 00:08:47,026 and everywhere that Mary went, that lamb was sure to go. 126 00:08:47,666 --> 00:08:51,103 Och detta lyckades vi återskapa från den ljudlösa filmen 127 00:08:51,103 --> 00:08:53,808 tagen utomhus bakom fönstret. 128 00:08:53,808 --> 00:08:58,253 (Ljud) Mary had a little lamb whose fleece was white as snow 129 00:08:58,253 --> 00:09:03,920 and everywhere that Mary went, that lamb was sure to go. 130 00:09:03,920 --> 00:09:06,901 (Applåder) 131 00:09:10,151 --> 00:09:13,593 Och det finns andra sätt som vi kan tänja gränserna på. 132 00:09:13,593 --> 00:09:17,681 Här är ett tystare experiment där vi filmade ett par hörlurar, 133 00:09:17,681 --> 00:09:19,731 inkopplade i en dator. 134 00:09:19,731 --> 00:09:23,981 Här var målet att återskapa musiken som spelades på datorn 135 00:09:23,981 --> 00:09:28,250 utifrån ljudlös film på dessa små hörlurar. 136 00:09:28,627 --> 00:09:30,970 Vi lyckades så bra 137 00:09:30,970 --> 00:09:33,431 att Shazam kände igen resultatet. 138 00:09:33,431 --> 00:09:35,842 (Skratt) 139 00:09:37,191 --> 00:09:40,185 (Musik: "Under Pressure" av Queen) 140 00:09:49,615 --> 00:09:52,594 (Applåder) 141 00:09:54,584 --> 00:09:59,135 Och vi kan tänja gränser genom att ändra utrustningen. 142 00:09:59,135 --> 00:10:01,596 För alla experiment som jag har visat hittills 143 00:10:01,596 --> 00:10:03,918 gjordes med höghastighetskamera, 144 00:10:03,918 --> 00:10:08,377 som kan spela in runt 100 gånger snabbare än de flesta mobiler. 145 00:10:08,724 --> 00:10:13,603 Men vi hittade ett sätt att använda metoden med vanliga kameror, 146 00:10:13,603 --> 00:10:17,832 genom att utnyttja så kallade rullande slutare. 147 00:10:17,832 --> 00:10:22,630 De flesta kameror spelar in filmens bilder en pixelrad åt gången, 148 00:10:22,630 --> 00:10:28,332 och om ett föremål rör sig medan en enda bild spelas in 149 00:10:28,344 --> 00:10:31,061 gör den lilla fördröjningen mellan varje rad 150 00:10:31,061 --> 00:10:37,188 att det blir små artefakter som syns i varje bild i filmen. 151 00:10:37,701 --> 00:10:41,507 Vi upptäckte att genom att analysera dessa artefakter, 152 00:10:41,507 --> 00:10:46,122 kan vi återskapa ljud med en ändrad version av vår algoritm. 153 00:10:46,122 --> 00:10:51,224 Här är ett experiment där vi filmade en godispåse medan en högtalare spelade 154 00:10:51,470 --> 00:10:54,442 samma "Mary had a little lamb" som innan 155 00:10:54,442 --> 00:10:58,645 men nu med en helt vanlig kamera. 156 00:10:58,645 --> 00:11:01,089 Nu ska jag spela upp ljudet vi återskapade, 157 00:11:01,089 --> 00:11:03,669 och det kommer att låta förvrängt nu, 158 00:11:03,669 --> 00:11:06,705 men lyssna och hör om ni kan känna igen musiken. 159 00:11:07,723 --> 00:11:10,716 (Ljud: "Mary had a little lamb") 160 00:11:25,527 --> 00:11:28,992 Som sagt, ljudet är förvrängt, 161 00:11:28,992 --> 00:11:33,378 men det fantastiska är att vi fick detta resultat 162 00:11:33,378 --> 00:11:37,724 med utrustning som man kan köpa på Elgiganten. 163 00:11:39,122 --> 00:11:44,725 Många som ser det här tänker genast på övervakning. 164 00:11:45,542 --> 00:11:49,137 Och i ärlighetens namn är det lätt att föreställa sig 165 00:11:49,217 --> 00:11:52,060 hur tekniken kan användas till att spionera. 166 00:11:52,060 --> 00:11:57,657 Men kom ihåg att det redan finns gott om mogen teknik för att spionera. 167 00:11:57,946 --> 00:12:03,046 Man har använt laser för att tjuvlyssna via föremål på avstånd i decennier. 168 00:12:04,083 --> 00:12:11,248 Det nya nu är att vi kan avbilda vibrationer hos ett föremål, 169 00:12:11,548 --> 00:12:14,911 vilket ger oss en ny lins som vi kan betrakta världen genom. 170 00:12:14,911 --> 00:12:16,661 Och vi kan använda denna lins 171 00:12:16,661 --> 00:12:21,560 för att lära oss inte bara om krafter, som ljud, som orsakar vibrationer, 172 00:12:21,560 --> 00:12:23,848 utan även om föremålet självt. 173 00:12:24,968 --> 00:12:30,697 Låt oss backa ett steg och fundera hur det kan ändra sättet vi använder film på. 174 00:12:30,697 --> 00:12:34,270 Vi brukar använda film för att betrakta föremål, 175 00:12:34,270 --> 00:12:38,092 och jag har nyss visat hur det kan användas för att lyssna på saker. 176 00:12:38,459 --> 00:12:42,420 Men det finns ett annat viktigt sätt att undersöka omvärlden: 177 00:12:42,420 --> 00:12:44,675 Genom att interagera med den. 178 00:12:44,675 --> 00:12:47,836 Vi trycker och drar och petar på saker. 179 00:12:47,836 --> 00:12:51,047 Vi skakar dem och ser vad som händer. 180 00:12:51,047 --> 00:12:55,190 Det är något som vi inte kan göra med en film. 181 00:12:55,190 --> 00:12:57,596 Åtminstone inte hittills. 182 00:12:57,686 --> 00:13:02,213 Jag vill visa vårt senaste arbete, en idé som jag fick för bara några månader sedan. 183 00:13:02,213 --> 00:13:05,514 Det här är första gången jag visar det för allmänheten. 184 00:13:05,514 --> 00:13:10,877 Idén är att vi ska använda vibrationerna i en film 185 00:13:10,877 --> 00:13:15,358 för att spela in föremål på ett sätt så att vi kan interagera med dem, 186 00:13:15,358 --> 00:13:17,332 och se hur de reagerar på oss. 187 00:13:19,120 --> 00:13:20,754 Här är ett föremål, 188 00:13:20,754 --> 00:13:24,506 i detta fall en trådskulptur av en människa, 189 00:13:24,506 --> 00:13:27,634 och vi filmar den med en vanlig kamera. 190 00:13:27,634 --> 00:13:32,108 Det är inget särskilt med kameran, vi har faktiskt använt min mobil förut. 191 00:13:32,689 --> 00:13:35,194 Men vi vill att föremålet ska vibrera. 192 00:13:35,194 --> 00:13:40,720 Så vi slår lätt på ytan det står på, medan vi spelar in denna film. 193 00:13:47,138 --> 00:13:52,879 Det är allt: Fem sekunder vanlig film, medan vi slår på ytan, 194 00:13:53,085 --> 00:13:56,558 och vi använder vibrationerna från filmen 195 00:13:56,558 --> 00:14:01,052 för att lära oss konstruktionen och materialens egenskaper i föremålet, 196 00:14:01,052 --> 00:14:06,096 och vi använder den informationen för att skapa något nytt, interaktivt. 197 00:14:12,866 --> 00:14:17,559 Här är resultatet. Det ser ut som en vanlig stillbild. 198 00:14:17,748 --> 00:14:20,859 Men det är ingen stillbild, och det är ingen film. 199 00:14:20,859 --> 00:14:25,987 För nu kan jag ta musen och börja interagera med föremålet. 200 00:14:32,936 --> 00:14:37,523 Vad ni ser är en simulering av hur föremålet 201 00:14:37,615 --> 00:14:41,873 skulle reagera på krafter som vi aldrig sett förut. 202 00:14:41,873 --> 00:14:45,706 Och vi skapade den utifrån bara fem sekunder vanlig film. 203 00:14:47,249 --> 00:14:50,234 (Applåder) 204 00:14:57,421 --> 00:15:00,458 Så detta är ett kraftfullt sätt att se på omvärlden, 205 00:15:00,458 --> 00:15:05,220 för det låter oss förutse hur föremål kommer reagera på nya situationer, 206 00:15:05,443 --> 00:15:08,916 och man kan tänka sig, exempelvis, att man tittar på en gammal bro 207 00:15:08,916 --> 00:15:14,883 och undrar om den kommer hålla om jag skulle köra bil över den. 208 00:15:15,276 --> 00:15:20,700 Det är en fråga som du förmodligen vill besvara innan du kör över bron. 209 00:15:21,858 --> 00:15:25,040 Självklart finns det begränsningar i tekniken, 210 00:15:25,040 --> 00:15:27,462 precis som med den visuella mikrofonen, 211 00:15:27,462 --> 00:15:32,383 men vi upptäckte att det fungerar i många oväntade situationer, 212 00:15:32,698 --> 00:15:35,326 i synnerhet om du använder längre filmer. 213 00:15:35,326 --> 00:15:39,934 Exempelvis denna film på en buske utanför mitt hus, 214 00:15:40,233 --> 00:15:45,691 och jag gjorde inget med busken, förutom att filma den i en minut. 215 00:15:46,146 --> 00:15:49,284 En lätt vind gav nog med vibrationer 216 00:15:49,284 --> 00:15:53,111 för att ge oss information till den här simuleringen. 217 00:15:55,270 --> 00:15:58,242 (Applåder) 218 00:16:01,412 --> 00:16:04,224 Tänk dig detta i händerna på en filmregissör, 219 00:16:04,224 --> 00:16:06,103 som kan kontrollera, till exempel, 220 00:16:06,103 --> 00:16:11,025 styrkan och riktningen på en vind i en tagning efter att den blivit filmad. 221 00:16:12,810 --> 00:16:17,215 Eller, som här, när vi riktade kameran mot ett hängande skynke, 222 00:16:17,215 --> 00:16:23,854 man kan inte se några rörelser i filmen, men genom att filma i två minuter, 223 00:16:24,179 --> 00:16:30,857 gav naturliga luftströmmar upphov till nog med omärkliga rörelser och vibrationer 224 00:16:31,257 --> 00:16:33,814 för att möjliggöra denna simulering. 225 00:16:36,243 --> 00:16:43,859 Ironiskt nog är vi vana vid interaktivitet när det gäller virtuella föremål. 226 00:16:44,344 --> 00:16:47,531 Videospel och 3D-modeller. 227 00:16:47,531 --> 00:16:52,045 Men att kunna fånga den här informationen från verkliga föremål i omvärlden, 228 00:16:52,045 --> 00:16:54,652 med bara vanlig videoupptagning, 229 00:16:54,652 --> 00:16:57,045 är nytt och har stor potential. 230 00:16:58,410 --> 00:17:03,314 Här är de fantastiska människor som arbetat med mig. 231 00:17:04,057 --> 00:17:07,043 (Applåder) 232 00:17:12,819 --> 00:17:15,626 Vad jag visat idag är bara början. 233 00:17:15,626 --> 00:17:20,389 Vi har bara skrapat på ytan av vad man kan göra med denna typ av avbildning, 234 00:17:20,792 --> 00:17:28,066 för den ger nya sätt att fånga vår omgivning med vanlig, tillgänglig teknik. 235 00:17:28,066 --> 00:17:30,585 Framtiden är spännande, 236 00:17:30,595 --> 00:17:33,888 när vi utforskar vad detta kan lära oss om världen. 237 00:17:34,381 --> 00:17:35,585 Tack! 238 00:17:35,610 --> 00:17:38,587 (Applåder)