1
00:00:01,373 --> 00:00:04,722
De flesta tänker på rörelse
som en visuell sak.
2
00:00:05,889 --> 00:00:10,807
Om jag går över scenen
eller gestikulerar medan jag talar,
3
00:00:10,807 --> 00:00:13,238
är det rörelser som du kan se.
4
00:00:14,255 --> 00:00:19,737
Men det finns en hel värld av rörelser
som är för små för det mänskliga ögat,
5
00:00:19,737 --> 00:00:23,598
och de senaste åren har vi
upptäckt att kameror
6
00:00:23,775 --> 00:00:27,185
ofta kan se sådana rörelser
som människor inte kan.
7
00:00:28,305 --> 00:00:30,066
Låt mig visa vad jag menar.
8
00:00:30,437 --> 00:00:33,609
Till vänster ser du en film på en handled,
9
00:00:34,059 --> 00:00:37,486
och till höger ser du
en film på en sovande bebis,
10
00:00:37,486 --> 00:00:40,422
men om jag inte hade sagt
att det var filmer,
11
00:00:40,422 --> 00:00:44,043
hade du kunnat tro att
det var stillbilder du såg,
12
00:00:44,043 --> 00:00:49,805
för i båda fallen
verkar filmerna nästan helt stilla.
13
00:00:50,175 --> 00:00:53,580
Men det pågår en hel del små rörelser,
14
00:00:53,850 --> 00:00:56,232
och hade du känt på
handleden till vänster,
15
00:00:56,232 --> 00:00:58,248
hade du känt en puls,
16
00:00:58,248 --> 00:01:00,933
och hade du hållit i bebisen till höger,
17
00:01:00,933 --> 00:01:05,224
hade du känt hennes bröstkorg
röra sig när hon andades.
18
00:01:05,592 --> 00:01:12,048
Dessa rörelser har stor betydelse,
men är oftast för små för att synas.
19
00:01:12,441 --> 00:01:17,927
så vi måste uppfatta dem genom beröring.
20
00:01:18,952 --> 00:01:24,667
Men för några år sedan utvecklade MIT
ett så kallat rörelsemikroskop.
21
00:01:24,667 --> 00:01:28,861
Det är en mjukvara som hittar
dessa små rörelser på film
22
00:01:28,861 --> 00:01:32,613
och förstorar dem så att vi kan se dem.
23
00:01:33,416 --> 00:01:36,389
Så om vi använder mjukvaran
på den vänstra filmen,
24
00:01:36,899 --> 00:01:39,889
kan vi se pulsen i handleden,
25
00:01:39,889 --> 00:01:44,604
och om vi skulle räkna pulsslagen,
skulle vi veta hjärtfrekvensen.
26
00:01:45,034 --> 00:01:47,880
Och om mjukvaran används
på den högra filmen,
27
00:01:47,880 --> 00:01:51,387
låter den oss se varje andetag
som bebisen tar.
28
00:01:51,387 --> 00:01:55,524
Det kan användas för att beröringsfritt
övervaka andningen.
29
00:01:56,684 --> 00:02:01,652
Denna teknik är mycket kraftfull
för den tar dessa fenomen
30
00:02:01,652 --> 00:02:04,369
som vi brukar behöva
uppleva genom beröring
31
00:02:04,369 --> 00:02:07,556
och fångar dem visuellt utan att inkräkta.
32
00:02:08,854 --> 00:02:13,315
För ett par år sedan började jag arbeta
med dem som gjorde mjukvaran,
33
00:02:13,315 --> 00:02:16,602
och vi beslöt att prova en galen idé.
34
00:02:16,602 --> 00:02:19,415
Det var fantastiskt att använda mjukvaran
35
00:02:19,415 --> 00:02:22,170
för att synliggöra pyttesmå rörelser,
36
00:02:22,170 --> 00:02:26,338
och man kan nästan se det som
ett sätt att förlänga känseln.
37
00:02:26,978 --> 00:02:31,227
Men tänk om man kunde göra
på samma sätt med hörseln!
38
00:02:32,298 --> 00:02:36,573
Tänk om vi kunde använda video
för att fånga ljudets vibrationer,
39
00:02:37,173 --> 00:02:39,520
som också är en sorts rörelser,
40
00:02:40,000 --> 00:02:43,346
och använda allt vi kan se
som mikrofon.
41
00:02:44,236 --> 00:02:48,507
Det här är en märklig idé,
låt mig sätta den i perspektiv.
42
00:02:49,523 --> 00:02:52,771
Vanliga mikrofoner överför rörelsen
43
00:02:52,771 --> 00:02:55,990
hos ett inbyggt membran
till en elektrisk signal,
44
00:02:56,450 --> 00:03:00,598
och det membranet är konstruerat
för att enkelt röra sig med ljudet
45
00:03:00,598 --> 00:03:04,805
så att dess rörelse kan tolkas som ljud.
46
00:03:05,445 --> 00:03:08,923
Men ljud får alla saker att röra sig.
47
00:03:09,163 --> 00:03:14,303
Det är bara det att vibrationerna är
för små och snabba för oss att se.
48
00:03:14,703 --> 00:03:18,421
Men tänk om vi filmar dem med
en höghastighetskamera
49
00:03:18,421 --> 00:03:23,567
och använder mjukvara för att ta fram
pyttesmå rörelser från filmen,
50
00:03:24,037 --> 00:03:28,561
och analyserar rörelserna för att räkna ut
vilka ljud som åstadkom dem.
51
00:03:29,659 --> 00:03:35,308
Då skulle synliga föremål bli
visuella mikrofoner på avstånd.
52
00:03:37,080 --> 00:03:40,700
Så vi provade detta,
och här är ett av våra experiment.
53
00:03:40,700 --> 00:03:46,347
Vi tog en krukväxt, till höger,
och filmade med höghastighetskamera,
54
00:03:46,347 --> 00:03:50,106
medan en högtalare i närheten
spelade detta ljud.
55
00:03:50,446 --> 00:03:53,430
(Musik: Mary had a little lamb)
56
00:03:59,680 --> 00:04:06,264
Här är filmen som vi spelade in, med
tusentals bilder per sekund,
57
00:04:06,264 --> 00:04:10,491
men även om du tittar riktigt nära,
ser du bara några blad
58
00:04:10,491 --> 00:04:13,906
som inte verkar göra något särskilt.
59
00:04:13,906 --> 00:04:18,712
För ljudet får bladen att röra sig
bara ungefär en mikrometer.
60
00:04:19,103 --> 00:04:22,869
En tiotusendels centimeter.
61
00:04:23,189 --> 00:04:29,485
Mellan en hundradels och
en tusendels pixel i bilden.
62
00:04:29,881 --> 00:04:36,248
Hur mycket du än kisar,
så kan du inte uppfatta så små rörelser.
63
00:04:37,407 --> 00:04:41,824
Men det visar sig att det som är
omöjligt att uppfatta
64
00:04:41,824 --> 00:04:44,453
ändå kan vara numeriskt signifikant.
65
00:04:44,453 --> 00:04:49,625
Med de rätta algoritmerna kan vi ta
denna tysta, till synes stilla film-
66
00:04:50,082 --> 00:04:51,849
-och återskapa detta ljud.
67
00:04:52,690 --> 00:04:55,674
(Musik: Mary had a little lamb)
68
00:04:59,374 --> 00:05:02,352
(Applåder)
69
00:05:09,988 --> 00:05:11,777
Hur är det möjligt?
70
00:05:11,777 --> 00:05:16,341
Hur kan vi få så mycket information
från så lite rörelse?
71
00:05:16,341 --> 00:05:21,702
Jo, låt oss säga att bladen rör sig
en enda mikrometer,
72
00:05:21,702 --> 00:05:26,010
och att det förskjuter bilden
en tusendels pixel.
73
00:05:27,269 --> 00:05:33,891
Det låter inte mycket, men en enda
bildruta består av hundratusentals pixlar,
74
00:05:34,894 --> 00:05:40,468
och om vi kombinerar alla
pyttesmå rörelser från hela bilden,
75
00:05:40,846 --> 00:05:46,269
kan en tusendels pixel läggas ihop
till något ganska märkbart.
76
00:05:46,870 --> 00:05:50,505
Jag måste tillstå att vi blev
rätt häpna när vi upptäckte det.
77
00:05:50,505 --> 00:05:52,825
(Skratt)
78
00:05:54,185 --> 00:05:58,858
Men även med rätt algoritm
saknades en viktig bit av pusslet.
79
00:05:59,695 --> 00:06:05,059
Många faktorer påverkar när och hur bra
den här metoden fungerar.
80
00:06:05,296 --> 00:06:08,280
Dels föremålet och hur långt bort det är.
81
00:06:08,280 --> 00:06:10,894
Dels kameran och objektivet.
82
00:06:10,894 --> 00:06:14,985
Dels ljuset på föremålet
och hur starkt ljudet är.
83
00:06:15,945 --> 00:06:22,010
Och även med rätt algoritm var det noga
vid våra första experiment,
84
00:06:22,460 --> 00:06:25,102
för om en av dessa faktorer var fel
85
00:06:25,102 --> 00:06:27,470
gick det inte att säga
vad som var problemet.
86
00:06:27,470 --> 00:06:29,867
Vi fick bara brus.
87
00:06:29,867 --> 00:06:33,437
Därför såg många av våra
tidiga experiment ut så här.
88
00:06:33,437 --> 00:06:35,643
Här är jag,
89
00:06:35,643 --> 00:06:39,403
och nere till vänster skymtar
höghastighetskameran
90
00:06:39,403 --> 00:06:41,626
som är riktad mot en chipspåse
91
00:06:41,626 --> 00:06:44,815
som belyses med starka lampor.
92
00:06:44,815 --> 00:06:49,180
Som sagt måste vi vara mycket noggranna
vid dessa tidiga experiment.
93
00:06:49,180 --> 00:06:51,688
Så här gick det till.
94
00:06:51,688 --> 00:06:55,449
(Film) Tre, två, ett...
95
00:06:55,449 --> 00:07:00,836
Mary had a little lamb!
Little lamb! Little lamb!
96
00:07:00,836 --> 00:07:03,816
(Skratt)
97
00:07:05,336 --> 00:07:08,150
Det här experimentet verkar störtlöjligt.
98
00:07:08,150 --> 00:07:09,938
(Skratt)
99
00:07:09,938 --> 00:07:12,283
Jag skriker åt en chipspåse...
100
00:07:12,283 --> 00:07:13,834
(Skratt)
101
00:07:13,834 --> 00:07:15,951
... och vi brassar på med så mycket ljus-
102
00:07:15,951 --> 00:07:20,430
att den första chipspåsen
bokstavligen smälte. (Skratt)
103
00:07:20,525 --> 00:07:25,357
Men, löjligt eller inte,
det var ett viktigt experiment.
104
00:07:25,357 --> 00:07:28,513
För vi kunde återskapa detta ljud.
105
00:07:28,513 --> 00:07:33,225
(Ljud) Mary had a little lamb!
Little lamb! Little lamb!
106
00:07:33,225 --> 00:07:36,223
(Applåder)
107
00:07:37,163 --> 00:07:39,014
Och detta var betydelsefullt,
108
00:07:39,014 --> 00:07:43,313
för det var den första gången
som vi återskapade mänskligt tal
109
00:07:43,424 --> 00:07:45,765
från ljudlös film av ett föremål.
110
00:07:45,765 --> 00:07:48,156
Så vi fick en referenspunkt,
111
00:07:48,156 --> 00:07:52,026
och successivt kunde vi
förändra experimentet,
112
00:07:52,026 --> 00:07:55,661
med olika föremål, olika långt borta,
113
00:07:55,661 --> 00:07:58,681
mindre ljus, tystare ljud.
114
00:07:59,797 --> 00:08:02,761
Vi analyserade alla experiment
115
00:08:02,761 --> 00:08:05,913
tills vi kände till
metodens begränsningar,
116
00:08:06,173 --> 00:08:10,443
för när vi kände gränserna,
kunde vi räkna ut hur vi skulle tänja dem.
117
00:08:10,579 --> 00:08:13,570
Det ledde till sådana här experiment.
118
00:08:13,570 --> 00:08:16,499
Återigen pratar jag med en chipspåse,
119
00:08:16,499 --> 00:08:21,199
men nu har vi flyttat kameran fem meter,
120
00:08:21,199 --> 00:08:24,262
utomhus, bakom ett ljudisolerat fönster,
121
00:08:24,262 --> 00:08:27,065
och ljuset är naturligt solljus.
122
00:08:28,409 --> 00:08:30,684
Här är filmen som vi spelade in.
123
00:08:32,330 --> 00:08:36,599
Så här lät det inomhus, intill chipspåsen.
124
00:08:37,009 --> 00:08:41,717
(Ljud) Mary had a little lamb
whose fleece was white as snow
125
00:08:41,717 --> 00:08:47,026
and everywhere that Mary went,
that lamb was sure to go.
126
00:08:47,666 --> 00:08:51,103
Och detta lyckades vi återskapa
från den ljudlösa filmen
127
00:08:51,103 --> 00:08:53,808
tagen utomhus bakom fönstret.
128
00:08:53,808 --> 00:08:58,253
(Ljud) Mary had a little lamb
whose fleece was white as snow
129
00:08:58,253 --> 00:09:03,920
and everywhere that Mary went,
that lamb was sure to go.
130
00:09:03,920 --> 00:09:06,901
(Applåder)
131
00:09:10,151 --> 00:09:13,593
Och det finns andra sätt som vi kan
tänja gränserna på.
132
00:09:13,593 --> 00:09:17,681
Här är ett tystare experiment
där vi filmade ett par hörlurar,
133
00:09:17,681 --> 00:09:19,731
inkopplade i en dator.
134
00:09:19,731 --> 00:09:23,981
Här var målet att återskapa musiken
som spelades på datorn
135
00:09:23,981 --> 00:09:28,250
utifrån ljudlös film
på dessa små hörlurar.
136
00:09:28,627 --> 00:09:30,970
Vi lyckades så bra
137
00:09:30,970 --> 00:09:33,431
att Shazam kände igen resultatet.
138
00:09:33,431 --> 00:09:35,842
(Skratt)
139
00:09:37,191 --> 00:09:40,185
(Musik: "Under Pressure" av Queen)
140
00:09:49,615 --> 00:09:52,594
(Applåder)
141
00:09:54,584 --> 00:09:59,135
Och vi kan tänja gränser
genom att ändra utrustningen.
142
00:09:59,135 --> 00:10:01,596
För alla experiment
som jag har visat hittills
143
00:10:01,596 --> 00:10:03,918
gjordes med höghastighetskamera,
144
00:10:03,918 --> 00:10:08,377
som kan spela in runt 100 gånger snabbare
än de flesta mobiler.
145
00:10:08,724 --> 00:10:13,603
Men vi hittade ett sätt att
använda metoden med vanliga kameror,
146
00:10:13,603 --> 00:10:17,832
genom att utnyttja så kallade
rullande slutare.
147
00:10:17,832 --> 00:10:22,630
De flesta kameror spelar in
filmens bilder en pixelrad åt gången,
148
00:10:22,630 --> 00:10:28,332
och om ett föremål rör sig
medan en enda bild spelas in
149
00:10:28,344 --> 00:10:31,061
gör den lilla fördröjningen
mellan varje rad
150
00:10:31,061 --> 00:10:37,188
att det blir små artefakter
som syns i varje bild i filmen.
151
00:10:37,701 --> 00:10:41,507
Vi upptäckte att genom att
analysera dessa artefakter,
152
00:10:41,507 --> 00:10:46,122
kan vi återskapa ljud med en
ändrad version av vår algoritm.
153
00:10:46,122 --> 00:10:51,224
Här är ett experiment där vi filmade
en godispåse medan en högtalare spelade
154
00:10:51,470 --> 00:10:54,442
samma "Mary had a little lamb" som innan
155
00:10:54,442 --> 00:10:58,645
men nu med en helt vanlig kamera.
156
00:10:58,645 --> 00:11:01,089
Nu ska jag spela upp
ljudet vi återskapade,
157
00:11:01,089 --> 00:11:03,669
och det kommer att låta förvrängt nu,
158
00:11:03,669 --> 00:11:06,705
men lyssna och hör om ni kan
känna igen musiken.
159
00:11:07,723 --> 00:11:10,716
(Ljud: "Mary had a little lamb")
160
00:11:25,527 --> 00:11:28,992
Som sagt, ljudet är förvrängt,
161
00:11:28,992 --> 00:11:33,378
men det fantastiska är att
vi fick detta resultat
162
00:11:33,378 --> 00:11:37,724
med utrustning som man kan
köpa på Elgiganten.
163
00:11:39,122 --> 00:11:44,725
Många som ser det här
tänker genast på övervakning.
164
00:11:45,542 --> 00:11:49,137
Och i ärlighetens namn
är det lätt att föreställa sig
165
00:11:49,217 --> 00:11:52,060
hur tekniken kan användas
till att spionera.
166
00:11:52,060 --> 00:11:57,657
Men kom ihåg att det redan finns
gott om mogen teknik för att spionera.
167
00:11:57,946 --> 00:12:03,046
Man har använt laser för att tjuvlyssna
via föremål på avstånd i decennier.
168
00:12:04,083 --> 00:12:11,248
Det nya nu är att vi kan
avbilda vibrationer hos ett föremål,
169
00:12:11,548 --> 00:12:14,911
vilket ger oss en ny lins som
vi kan betrakta världen genom.
170
00:12:14,911 --> 00:12:16,661
Och vi kan använda denna lins
171
00:12:16,661 --> 00:12:21,560
för att lära oss inte bara om krafter,
som ljud, som orsakar vibrationer,
172
00:12:21,560 --> 00:12:23,848
utan även om föremålet självt.
173
00:12:24,968 --> 00:12:30,697
Låt oss backa ett steg och fundera hur
det kan ändra sättet vi använder film på.
174
00:12:30,697 --> 00:12:34,270
Vi brukar använda film för att
betrakta föremål,
175
00:12:34,270 --> 00:12:38,092
och jag har nyss visat hur det
kan användas för att lyssna på saker.
176
00:12:38,459 --> 00:12:42,420
Men det finns ett annat viktigt sätt
att undersöka omvärlden:
177
00:12:42,420 --> 00:12:44,675
Genom att interagera med den.
178
00:12:44,675 --> 00:12:47,836
Vi trycker och drar och petar på saker.
179
00:12:47,836 --> 00:12:51,047
Vi skakar dem och ser vad som händer.
180
00:12:51,047 --> 00:12:55,190
Det är något som vi inte
kan göra med en film.
181
00:12:55,190 --> 00:12:57,596
Åtminstone inte hittills.
182
00:12:57,686 --> 00:13:02,213
Jag vill visa vårt senaste arbete, en idé
som jag fick för bara några månader sedan.
183
00:13:02,213 --> 00:13:05,514
Det här är första gången jag
visar det för allmänheten.
184
00:13:05,514 --> 00:13:10,877
Idén är att vi ska använda
vibrationerna i en film
185
00:13:10,877 --> 00:13:15,358
för att spela in föremål på ett sätt
så att vi kan interagera med dem,
186
00:13:15,358 --> 00:13:17,332
och se hur de reagerar på oss.
187
00:13:19,120 --> 00:13:20,754
Här är ett föremål,
188
00:13:20,754 --> 00:13:24,506
i detta fall en trådskulptur
av en människa,
189
00:13:24,506 --> 00:13:27,634
och vi filmar den med en vanlig kamera.
190
00:13:27,634 --> 00:13:32,108
Det är inget särskilt med kameran,
vi har faktiskt använt min mobil förut.
191
00:13:32,689 --> 00:13:35,194
Men vi vill att föremålet ska vibrera.
192
00:13:35,194 --> 00:13:40,720
Så vi slår lätt på ytan det står på,
medan vi spelar in denna film.
193
00:13:47,138 --> 00:13:52,879
Det är allt: Fem sekunder vanlig film,
medan vi slår på ytan,
194
00:13:53,085 --> 00:13:56,558
och vi använder vibrationerna från filmen
195
00:13:56,558 --> 00:14:01,052
för att lära oss konstruktionen
och materialens egenskaper i föremålet,
196
00:14:01,052 --> 00:14:06,096
och vi använder den informationen
för att skapa något nytt, interaktivt.
197
00:14:12,866 --> 00:14:17,559
Här är resultatet.
Det ser ut som en vanlig stillbild.
198
00:14:17,748 --> 00:14:20,859
Men det är ingen stillbild,
och det är ingen film.
199
00:14:20,859 --> 00:14:25,987
För nu kan jag ta musen
och börja interagera med föremålet.
200
00:14:32,936 --> 00:14:37,523
Vad ni ser är en simulering av
hur föremålet
201
00:14:37,615 --> 00:14:41,873
skulle reagera på krafter
som vi aldrig sett förut.
202
00:14:41,873 --> 00:14:45,706
Och vi skapade den utifrån
bara fem sekunder vanlig film.
203
00:14:47,249 --> 00:14:50,234
(Applåder)
204
00:14:57,421 --> 00:15:00,458
Så detta är ett kraftfullt sätt
att se på omvärlden,
205
00:15:00,458 --> 00:15:05,220
för det låter oss förutse hur föremål
kommer reagera på nya situationer,
206
00:15:05,443 --> 00:15:08,916
och man kan tänka sig, exempelvis,
att man tittar på en gammal bro
207
00:15:08,916 --> 00:15:14,883
och undrar om den kommer hålla
om jag skulle köra bil över den.
208
00:15:15,276 --> 00:15:20,700
Det är en fråga som du förmodligen
vill besvara innan du kör över bron.
209
00:15:21,858 --> 00:15:25,040
Självklart finns det
begränsningar i tekniken,
210
00:15:25,040 --> 00:15:27,462
precis som med den visuella mikrofonen,
211
00:15:27,462 --> 00:15:32,383
men vi upptäckte att det fungerar
i många oväntade situationer,
212
00:15:32,698 --> 00:15:35,326
i synnerhet om du använder längre filmer.
213
00:15:35,326 --> 00:15:39,934
Exempelvis denna film
på en buske utanför mitt hus,
214
00:15:40,233 --> 00:15:45,691
och jag gjorde inget med busken,
förutom att filma den i en minut.
215
00:15:46,146 --> 00:15:49,284
En lätt vind gav nog med vibrationer
216
00:15:49,284 --> 00:15:53,111
för att ge oss information
till den här simuleringen.
217
00:15:55,270 --> 00:15:58,242
(Applåder)
218
00:16:01,412 --> 00:16:04,224
Tänk dig detta i händerna
på en filmregissör,
219
00:16:04,224 --> 00:16:06,103
som kan kontrollera, till exempel,
220
00:16:06,103 --> 00:16:11,025
styrkan och riktningen på en vind
i en tagning efter att den blivit filmad.
221
00:16:12,810 --> 00:16:17,215
Eller, som här, när vi riktade kameran
mot ett hängande skynke,
222
00:16:17,215 --> 00:16:23,854
man kan inte se några rörelser i filmen,
men genom att filma i två minuter,
223
00:16:24,179 --> 00:16:30,857
gav naturliga luftströmmar upphov till
nog med omärkliga rörelser och vibrationer
224
00:16:31,257 --> 00:16:33,814
för att möjliggöra denna simulering.
225
00:16:36,243 --> 00:16:43,859
Ironiskt nog är vi vana vid interaktivitet
när det gäller virtuella föremål.
226
00:16:44,344 --> 00:16:47,531
Videospel och 3D-modeller.
227
00:16:47,531 --> 00:16:52,045
Men att kunna fånga den här informationen
från verkliga föremål i omvärlden,
228
00:16:52,045 --> 00:16:54,652
med bara vanlig videoupptagning,
229
00:16:54,652 --> 00:16:57,045
är nytt och har stor potential.
230
00:16:58,410 --> 00:17:03,314
Här är de fantastiska människor
som arbetat med mig.
231
00:17:04,057 --> 00:17:07,043
(Applåder)
232
00:17:12,819 --> 00:17:15,626
Vad jag visat idag är bara början.
233
00:17:15,626 --> 00:17:20,389
Vi har bara skrapat på ytan av vad man kan
göra med denna typ av avbildning,
234
00:17:20,792 --> 00:17:28,066
för den ger nya sätt att fånga vår
omgivning med vanlig, tillgänglig teknik.
235
00:17:28,066 --> 00:17:30,585
Framtiden är spännande,
236
00:17:30,595 --> 00:17:33,888
när vi utforskar vad detta
kan lära oss om världen.
237
00:17:34,381 --> 00:17:35,585
Tack!
238
00:17:35,610 --> 00:17:38,587
(Applåder)