Quase todos nós pensamos no movimento 
como uma coisa muito visual.

Se eu passear por este palco, 
ou gesticular enquanto falo,

esses movimentos são uma coisa 
que vocês veem.

Mas há um mundo de movimentos importantes

que são demasiado subtis 
para os olhos humanos.

Nos últimos anos,

começámos a descobrir que as câmaras

veem esses movimentos 
que os nossos olhos não conseguem ver.

Vou mostrar-vos o que quero dizer.

Aqui à esquerda, veem um vídeo 
do pulso duma pessoa

e à direita, veem um vídeo 
de um bebé a dormir.

Se eu não vos tivesse dito 
que isto eram vídeos,

vocês podiam julgar que estavam a olhar
para duas fotos normais

porque, em ambos os casos,

estes vídeos parecem estar 
totalmente imóveis.

Na realidade, há aqui 
muito movimento subtil.

Se tocassem neste pulso à esquerda,

sentiriam a pulsação,

se agarrassem no bebé da direita,

sentiriam o erguer e descer do peito dele

quando respira.

Esses movimentos têm muito significado

mas normalmente são demasiado subtis 
para os podermos ver.

Em vez disso, temos que os observar

através de contacto direto, 
através do tato.

Mas há uns anos,

os meus colegas no MIT 
desenvolveram uma coisa

a que chamaram um microscópio do movimento

que é um "software" que encontra 
esses movimentos subtis no vídeo

e os amplifica até eles ficarem 
suficientemente grandes para os vermos.

Assim, se eu usar esse "software" 
no vídeo da esquerda,

passamos a ver a pulsação deste pulso,

e se contarmos a pulsação

podemos deduzir
o ritmo cardíaco desta pessoa.

Se eu usar o mesmo "software" 
no vídeo da direita,

passamos a ver cada inspiração 
que o bebé faz

e podemos usar isso 
como uma forma isenta de contacto

para vigiar a sua respiração.

Esta tecnologia é muito poderosa
porque agarra nestes fenómenos

que normalmente só conseguimos
perceber através do tato

e faz com que passemos a visualizá-los 
de forma não invasiva.

Há uns anos, comecei a trabalhar 
com as pessoas que criaram este "software"

e decidimos avançar com uma ideia maluca.

Pensámos que era fixe 
poder usar um "software"

para visualizar pequenos movimentos 
como estes,

e até podíamos pensar nisso como uma forma
de expandir o nosso sentido do tato.

E se pudéssemos fazer o mesmo 
com a nossa capacidade para ouvir?

E se usássemos o vídeo para captar 
as vibrações dos sons,

que afinal são um outro tipo de movimento,

e transformar tudo o que vemos 
num microfone?

Esta é uma ideia um pouco extravagante

por isso vou tentar pô-la em perspetiva.

Os microfones tradicionais funcionam 
transformando o movimento

de um diafragma interior 
num sinal elétrico,

e esse diafragma está concebido 
para se mover prontamente com os sons

de forma a que os movimentos podem ser 
gravados e interpretados como áudio.

Ma o som faz com que
todos os objetos vibrem.

Mas essas vibrações são normalmente 
demasiado subtis e demasiado rápidas

para nós as podermos ver.

E se as gravássemos 
com uma câmara de alta velocidade

e depois usássemos o "software" 
para extrair pequenos movimentos

do nosso vídeo de alta velocidade,

e analisássemos esses movimentos 
para ver que sons os tinham criado?

Isso permitir-nos-ia 
transformar objetos visíveis

em microfones visuais à distância.

Então, foi o que tentámos fazer.

Esta é uma das nossas experiências,

em que agarrámos neste vaso 
com uma planta que estão a ver à direita

e filmámos com uma câmara 
de alta velocidade

enquanto um altifalante ali ao pé 
transmitia este som.

(Música: "Maria tinha um cordeirinho")

E este é o vídeo que gravámos.

Gravámos a uma velocidade 
de milhares de imagens por segundo.

Mas, mesmo que observemos muito de perto,

só vemos algumas folhas

que estão ali paradas sem fazer nada,

porque o nosso som limitou-se a fazer 
mover estas folhas apenas um micrómetro,

ou seja uma décima milésima 
de um centímetro,

o que corresponde mais ou menos 
entre um centésimo e um milésimo

de um pixel nesta imagem.

Por isso, podem piscar os olhos 
quanto quiserem,

mas um movimento tão pequeno 
é praticamente invisível.

Mas acontece que uma coisa 
pode ser invisível à nossa perceção

e mesmo assim ser
numericamente significativo,

porque com os algoritmos adequados

podemos agarrar neste vídeo silencioso, 
aparentemente parado,

e podemos recuperar esse som.

(Música: "Maria tinha um cordeirinho")

(Aplausos)

Como é que isto é possível?

Como é que podemos obter tantas informações
a partir de tão pouco movimento?

Digamos que estas folhas 
se movem apenas um micrómetro,

e digamos que movimenta a nossa imagem 
apenas numa milésima de pixel

Pode não parecer muito,

mas uma única imagem do vídeo

pode conter centenas de milhares de pixéis.

Por isso, se combinarmos 
todos os pequenos movimentos

que vemos em toda a imagem,

um milésimo de um pixel

pode, de repente, tornar-se 
numa coisa significativa.

Aqui para nós, ficámos malucos 
quando descobrimos isto.

(Risos)

Mas, mesmo com o algoritmo adequado,

ainda nos faltava uma peça 
muito importante do "puzzle".

Há muitos fatores que afetam 
quando e como funciona esta técnica.

Há o objeto e a distância a que ele está.

Há a câmara e as lentes que usamos.

A quantidade de luz que incide no objeto
e a intensidade do som.

E, mesmo com o algoritmo adequado,

tivemos que ter muito cuidado 
com as nossas primeiras experiências,

porque, se considerássemos erradamente 
qualquer destes fatores,

não tínhamos forma de saber 
qual era o problema.

Só obtínhamos ruído.

Portanto, muitas das nossas 
primeiras experiências foram assim.

Aqui estou eu.

Em baixo à esquerda, podem ver 
a nossa câmara de alta velocidade,

que está apontada 
para um pacote de batatas fritas.

Está tudo iluminado 
por aquelas lâmpadas brilhantes.

Como já disse, temos que ter muito cuidado
nestas primeiras experiências,

por isso, foi assim 
que as coisas se passaram.

(Vídeo): Três, dois, um... Começar.

(Aos gritos): Mary tinha um carneirinho!

Carneirinho! Carneirinho!

(Risos)

Esta experiência parece mesmo ridícula.

(Risos)

Estou para aqui a gritar 
para um pacote de batatas...

(Risos)

... e está tudo iluminado com tanta luz

que literalmente derretemos o primeiro 
pacote de batatas nesta experiência.

(Risos)

Mas, por mais ridícula 
que esta experiência pareça,

foi de facto muito importante,

porque pudemos recuperar este som.

(Áudio) Mary tinha um cordeirinho!
Cordeirinho! Cordeirinho!

(Aplausos)

Isto foi muito significativo

porque foi a primeira vez 
que recuperámos fala humana inteligível

a partir do vídeo silencioso de um objeto.

Isso deu-nos este ponto de referência

e a pouco e pouco pudemos 
começar a modificar a experiência,

usando objetos diferentes, 
ou afastando mais o objeto,

usando menos luz ou sons mais abafados.

Analisámos todas essas experiências

até percebermos bem 
os limites da nossa técnica,

porque, depois de
percebermos esses limites,

podíamos pensar em como alargá-los.

Isso levou-nos a experiências como esta,

em que, de novo, eu vou falar
para um pacote de batatas

mas, desta vez, afastámos a câmara 
cerca de 5 metros,

atrás duma vidraça à prova de som,

e está tudo iluminado 
apenas por luz natural.

Este é o vídeo do que captámos.

Isto é como as coisas soaram, no interior,
junto do pacote de batatas.

(Áudio) Mary tinha um carneirinho!
Branco como a neve.

Sempre que a Maria vai,
o carneirinho vai também.

Isto foi o que conseguimos recuperar 
a partir do nosso vídeo silencioso

captado no exterior 
por detrás daquele vidro.

(Áudio) Mary tinha um carneirinho!
Branco como a neve.

Sempre que a Maria vai,
o carneirinho vai também.

(Aplausos)

Também há outras formas 
de podermos alargar estes limites.

Esta é uma experiência mais tranquila

em que filmámos uns auscultadores 
ligados a um computador portátil.

Neste caso, o nosso objetivo
era recuperar a música

que estava a tocar nesse computador

a partir de um vídeo silencioso

destes dois pequenos 
auscultadores de plástico.

Conseguimos fazer isto tão bem feito

que até pude dizer Shazam aos resultados.

(Risos)

(Áudio): (Música: 
"Under Pressure" dos Queen)

(Aplausos)

Também podemos ir mais longe, 
mudando o "hardware" que usamos.

As experiências que vos mostrei até aqui

foram feitas com uma câmara 
de alta velocidade,

que pode registar um vídeo 
cerca de 100 vezes mais depressa

do que a maior parte dos telemóveis.

Mas também arranjámos forma 
de usar esta técnica

com câmaras mais vulgares.

Fazemos isso tirando partido
do que se chama "rolling shutter".

A maior parte das câmaras regista 
imagens seguidas, uma a uma.

Por isso, se um objeto se move 
durante a gravação duma mesma imagem,

há um pequeno compasso de atraso
entre cada imagem,

o que causa pequenas distorções

que ficam registadas 
em cada imagem do vídeo.

Descobrimos que, 
analisando essas distorções,

podemos recuperar o som, usando 
uma versão modificada do nosso algoritmo.

Esta foi uma experiência que fizemos

em que filmámos um pacote de rebuçados

junto dum altifalante que tocava

a mesma "Maria tinha um carneirinho"

mas, desta vez, usámos uma câmara vulgar 
comprada no supermercado.

Vou passar já o som que recuperámos.

Desta vez, vai soar distorcido,

mas oiçam com atenção
e vejam se reconhecem a música.

(Áudio): (Música: 
Mary tinha um cordeirinho.)

De novo, esse som distorcido,

mas o que é deveras espantoso nisto 
é que conseguimos fazê-lo

com uma coisa que vocês podem usar

e comprar numa Loja de Audiovisuais.

Nesta altura, há muitas pessoas 
que olham para isto

e pensam logo na vigilância.

(Risos)

Realmente,

não é difícil imaginar como é que podemos
usar esta tecnologia para espiar alguém.

Mas lembrem-se que já há 
imensa tecnologia muito sofisticada

para a vigilância.

Na verdade, há décadas 
que se usam os raios "laser"

para escutar objetos à distância.

O que isto tem de novo

o que é mesmo diferente,

é que agora temos uma forma de representar
as vibrações dum objeto,

que nos dá novas lentes 
através das quais vemos o mundo,

e podemos usar essas lentes

para ver as forças, como o som, 
que fazem vibrar um objeto,

mas também o próprio objeto.

Vou recuar um pouco

e pensar como é que podíamos 
alterar a forma de usar o vídeo,

porque habitualmente usamos 
o vídeo para observar as coisas

e eu acabei de mostrar como podemos usá-lo

para escutar as coisas.

Mas há outra importante forma 
de conhecermos o mundo:

é interagindo com ele.

Nós pressionamos, empurramos 
e espicaçamos as coisas.

Abanamos as coisas e vemos o que acontece.

É uma coisa que o vídeo 
ainda não nos deixa fazer,

pelo menos habitualmente.

Vou mostrar-vos um trabalho novo

baseado numa ideia 
que eu tive há uns meses.

É a primeira vez 
que mostro isto em público.

A ideia básica é que vamos usar 
as vibrações num vídeo

para captar objetos duma forma 
que nos permite interagir com eles

e ver como é que eles reagem.

Isto é um objeto.

Neste caso, é um boneco de arame 
com a forma dum ser humano.

Vamos filmar este objeto 
com uma câmara normal.

Esta câmara não tem nada de especial.

Na verdade, já fiz isto 
com o meu telemóvel.

Mas queremos ver o objeto a vibrar,

portanto, para que isso aconteça,

vamos bater na superfície 
onde ele está poisado

enquanto gravamos este vídeo.

Já está: são cinco segundos 
de gravação normal,

enquanto batemos na superfície.

Vamos usar as vibrações deste vídeo

para conhecer as propriedades 
estruturais e materiais do nosso objeto.

Vamos usar essas informações 
para criar uma coisa nova e interativa.

Isto é o que criámos.

Parece uma imagem normal,

mas isto não é uma imagem, nem é um vídeo

porque agora eu posso agarrar no rato

e posso começar a interagir com o objeto.

O que estão a ver aqui

é uma simulação de como 
este objeto responde a novas forças

que nunca tínhamos visto.

Criámos isto a partir de apenas 
cinco segundos dum vídeo normal.

(Aplausos)

Isto é de facto uma forma muito poderosa
de olhar para o mundo

porque nos permite prever

como o objetos reagem a novas situações.

Podemos imaginar, por exemplo, 
olhar para uma ponte antiga

e pensar o que pode acontecer,

se essa ponte aguentará
o peso do meu carro a atravessá-la.

Isso é uma pergunta que provavelmente
todos querem ver respondida

antes de começar a atravessar essa ponte.

Claro que há limitações para esta técnica,

tal como havia para o microfone visual,

mas verificámos que funciona 
em muitas situações

em que não estávamos à espera,

especialmente se obtivermos
vídeos mais longos.

Por exemplo, este é um vídeo que eu gravei

de um arbusto à porta do meu apartamento.

Não fiz nada a este arbusto,

mas gravei um vídeo 
com a duração de um minuto.

Uma leve brisa provocou 
vibrações suficientes

para eu poder criar esta simulação.

(Aplausos)

Podemos imaginar dar este vídeo 
a um realizador de cinema

e ele poder controlar, por exemplo,

a força e a direção do vento numa cena, 
depois de ela ter sido gravada.

Ou, neste caso, apontámos 
a câmara para uma cortina pendurada.

Não conseguimos ver 
qualquer movimento neste vídeo

mas, gravando o vídeo 
com a duração de dois minutos,

as correntes de ar naturais nesta sala

criaram movimentos 
e vibrações subtis, impercetíveis,

suficientes para sabermos 
criar esta simulação.

Ironicamente,

estamos fartos de ter 
este tipo de interatividade

no que refere a objetos virtuais,

no que respeita a videojogos 
e modelos a 3D,

mas ser capaz de captar estas informações
a partir de objetos reais do mundo real

usando apenas um vídeo simples, normal,

é uma coisa totalmente nova 
que tem imenso potencial.

Estas são as pessoas espantosas 
que trabalharam comigo nestes projetos.

(Aplausos)

O que vos mostrei hoje é apenas o início.

Só começámos a arranhar a superfície

do que podemos fazer 
com este tipo de imagens

porque nos dão uma nova forma

de captar o nosso meio envolvente 
com uma tecnologia comum, acessível.

Olhando para o futuro,

vai ser uma coisa excitante para explorar

o que isto nos pode revelar sobre o mundo.

Obrigado.

(Aplausos)