Quase todos nós pensamos no movimento como uma coisa muito visual. Se eu passear por este palco, ou gesticular enquanto falo, esses movimentos são uma coisa que vocês veem. Mas há um mundo de movimentos importantes que são demasiado subtis para os olhos humanos. Nos últimos anos, começámos a descobrir que as câmaras veem esses movimentos que os nossos olhos não conseguem ver. Vou mostrar-vos o que quero dizer. Aqui à esquerda, veem um vídeo do pulso duma pessoa e à direita, veem um vídeo de um bebé a dormir. Se eu não vos tivesse dito que isto eram vídeos, vocês podiam julgar que estavam a olhar para duas fotos normais porque, em ambos os casos, estes vídeos parecem estar totalmente imóveis. Na realidade, há aqui muito movimento subtil. Se tocassem neste pulso à esquerda, sentiriam a pulsação, se agarrassem no bebé da direita, sentiriam o erguer e descer do peito dele quando respira. Esses movimentos têm muito significado mas normalmente são demasiado subtis para os podermos ver. Em vez disso, temos que os observar através de contacto direto, através do tato. Mas há uns anos, os meus colegas no MIT desenvolveram uma coisa a que chamaram um microscópio do movimento que é um "software" que encontra esses movimentos subtis no vídeo e os amplifica até eles ficarem suficientemente grandes para os vermos. Assim, se eu usar esse "software" no vídeo da esquerda, passamos a ver a pulsação deste pulso, e se contarmos a pulsação podemos deduzir o ritmo cardíaco desta pessoa. Se eu usar o mesmo "software" no vídeo da direita, passamos a ver cada inspiração que o bebé faz e podemos usar isso como uma forma isenta de contacto para vigiar a sua respiração. Esta tecnologia é muito poderosa porque agarra nestes fenómenos que normalmente só conseguimos perceber através do tato e faz com que passemos a visualizá-los de forma não invasiva. Há uns anos, comecei a trabalhar com as pessoas que criaram este "software" e decidimos avançar com uma ideia maluca. Pensámos que era fixe poder usar um "software" para visualizar pequenos movimentos como estes, e até podíamos pensar nisso como uma forma de expandir o nosso sentido do tato. E se pudéssemos fazer o mesmo com a nossa capacidade para ouvir? E se usássemos o vídeo para captar as vibrações dos sons, que afinal são um outro tipo de movimento, e transformar tudo o que vemos num microfone? Esta é uma ideia um pouco extravagante por isso vou tentar pô-la em perspetiva. Os microfones tradicionais funcionam transformando o movimento de um diafragma interior num sinal elétrico, e esse diafragma está concebido para se mover prontamente com os sons de forma a que os movimentos podem ser gravados e interpretados como áudio. Ma o som faz com que todos os objetos vibrem. Mas essas vibrações são normalmente demasiado subtis e demasiado rápidas para nós as podermos ver. E se as gravássemos com uma câmara de alta velocidade e depois usássemos o "software" para extrair pequenos movimentos do nosso vídeo de alta velocidade, e analisássemos esses movimentos para ver que sons os tinham criado? Isso permitir-nos-ia transformar objetos visíveis em microfones visuais à distância. Então, foi o que tentámos fazer. Esta é uma das nossas experiências, em que agarrámos neste vaso com uma planta que estão a ver à direita e filmámos com uma câmara de alta velocidade enquanto um altifalante ali ao pé transmitia este som. (Música: "Maria tinha um cordeirinho") E este é o vídeo que gravámos. Gravámos a uma velocidade de milhares de imagens por segundo. Mas, mesmo que observemos muito de perto, só vemos algumas folhas que estão ali paradas sem fazer nada, porque o nosso som limitou-se a fazer mover estas folhas apenas um micrómetro, ou seja uma décima milésima de um centímetro, o que corresponde mais ou menos entre um centésimo e um milésimo de um pixel nesta imagem. Por isso, podem piscar os olhos quanto quiserem, mas um movimento tão pequeno é praticamente invisível. Mas acontece que uma coisa pode ser invisível à nossa perceção e mesmo assim ser numericamente significativo, porque com os algoritmos adequados podemos agarrar neste vídeo silencioso, aparentemente parado, e podemos recuperar esse som. (Música: "Maria tinha um cordeirinho") (Aplausos) Como é que isto é possível? Como é que podemos obter tantas informações a partir de tão pouco movimento? Digamos que estas folhas se movem apenas um micrómetro, e digamos que movimenta a nossa imagem apenas numa milésima de pixel Pode não parecer muito, mas uma única imagem do vídeo pode conter centenas de milhares de pixéis. Por isso, se combinarmos todos os pequenos movimentos que vemos em toda a imagem, um milésimo de um pixel pode, de repente, tornar-se numa coisa significativa. Aqui para nós, ficámos malucos quando descobrimos isto. (Risos) Mas, mesmo com o algoritmo adequado, ainda nos faltava uma peça muito importante do "puzzle". Há muitos fatores que afetam quando e como funciona esta técnica. Há o objeto e a distância a que ele está. Há a câmara e as lentes que usamos. A quantidade de luz que incide no objeto e a intensidade do som. E, mesmo com o algoritmo adequado, tivemos que ter muito cuidado com as nossas primeiras experiências, porque, se considerássemos erradamente qualquer destes fatores, não tínhamos forma de saber qual era o problema. Só obtínhamos ruído. Portanto, muitas das nossas primeiras experiências foram assim. Aqui estou eu. Em baixo à esquerda, podem ver a nossa câmara de alta velocidade, que está apontada para um pacote de batatas fritas. Está tudo iluminado por aquelas lâmpadas brilhantes. Como já disse, temos que ter muito cuidado nestas primeiras experiências, por isso, foi assim que as coisas se passaram. (Vídeo): Três, dois, um... Começar. (Aos gritos): Mary tinha um carneirinho! Carneirinho! Carneirinho! (Risos) Esta experiência parece mesmo ridícula. (Risos) Estou para aqui a gritar para um pacote de batatas... (Risos) ... e está tudo iluminado com tanta luz que literalmente derretemos o primeiro pacote de batatas nesta experiência. (Risos) Mas, por mais ridícula que esta experiência pareça, foi de facto muito importante, porque pudemos recuperar este som. (Áudio) Mary tinha um cordeirinho! Cordeirinho! Cordeirinho! (Aplausos) Isto foi muito significativo porque foi a primeira vez que recuperámos fala humana inteligível a partir do vídeo silencioso de um objeto. Isso deu-nos este ponto de referência e a pouco e pouco pudemos começar a modificar a experiência, usando objetos diferentes, ou afastando mais o objeto, usando menos luz ou sons mais abafados. Analisámos todas essas experiências até percebermos bem os limites da nossa técnica, porque, depois de percebermos esses limites, podíamos pensar em como alargá-los. Isso levou-nos a experiências como esta, em que, de novo, eu vou falar para um pacote de batatas mas, desta vez, afastámos a câmara cerca de 5 metros, atrás duma vidraça à prova de som, e está tudo iluminado apenas por luz natural. Este é o vídeo do que captámos. Isto é como as coisas soaram, no interior, junto do pacote de batatas. (Áudio) Mary tinha um carneirinho! Branco como a neve. Sempre que a Maria vai, o carneirinho vai também. Isto foi o que conseguimos recuperar a partir do nosso vídeo silencioso captado no exterior por detrás daquele vidro. (Áudio) Mary tinha um carneirinho! Branco como a neve. Sempre que a Maria vai, o carneirinho vai também. (Aplausos) Também há outras formas de podermos alargar estes limites. Esta é uma experiência mais tranquila em que filmámos uns auscultadores ligados a um computador portátil. Neste caso, o nosso objetivo era recuperar a música que estava a tocar nesse computador a partir de um vídeo silencioso destes dois pequenos auscultadores de plástico. Conseguimos fazer isto tão bem feito que até pude dizer Shazam aos resultados. (Risos) (Áudio): (Música: "Under Pressure" dos Queen) (Aplausos) Também podemos ir mais longe, mudando o "hardware" que usamos. As experiências que vos mostrei até aqui foram feitas com uma câmara de alta velocidade, que pode registar um vídeo cerca de 100 vezes mais depressa do que a maior parte dos telemóveis. Mas também arranjámos forma de usar esta técnica com câmaras mais vulgares. Fazemos isso tirando partido do que se chama "rolling shutter". A maior parte das câmaras regista imagens seguidas, uma a uma. Por isso, se um objeto se move durante a gravação duma mesma imagem, há um pequeno compasso de atraso entre cada imagem, o que causa pequenas distorções que ficam registadas em cada imagem do vídeo. Descobrimos que, analisando essas distorções, podemos recuperar o som, usando uma versão modificada do nosso algoritmo. Esta foi uma experiência que fizemos em que filmámos um pacote de rebuçados junto dum altifalante que tocava a mesma "Maria tinha um carneirinho" mas, desta vez, usámos uma câmara vulgar comprada no supermercado. Vou passar já o som que recuperámos. Desta vez, vai soar distorcido, mas oiçam com atenção e vejam se reconhecem a música. (Áudio): (Música: Mary tinha um cordeirinho.) De novo, esse som distorcido, mas o que é deveras espantoso nisto é que conseguimos fazê-lo com uma coisa que vocês podem usar e comprar numa Loja de Audiovisuais. Nesta altura, há muitas pessoas que olham para isto e pensam logo na vigilância. (Risos) Realmente, não é difícil imaginar como é que podemos usar esta tecnologia para espiar alguém. Mas lembrem-se que já há imensa tecnologia muito sofisticada para a vigilância. Na verdade, há décadas que se usam os raios "laser" para escutar objetos à distância. O que isto tem de novo o que é mesmo diferente, é que agora temos uma forma de representar as vibrações dum objeto, que nos dá novas lentes através das quais vemos o mundo, e podemos usar essas lentes para ver as forças, como o som, que fazem vibrar um objeto, mas também o próprio objeto. Vou recuar um pouco e pensar como é que podíamos alterar a forma de usar o vídeo, porque habitualmente usamos o vídeo para observar as coisas e eu acabei de mostrar como podemos usá-lo para escutar as coisas. Mas há outra importante forma de conhecermos o mundo: é interagindo com ele. Nós pressionamos, empurramos e espicaçamos as coisas. Abanamos as coisas e vemos o que acontece. É uma coisa que o vídeo ainda não nos deixa fazer, pelo menos habitualmente. Vou mostrar-vos um trabalho novo baseado numa ideia que eu tive há uns meses. É a primeira vez que mostro isto em público. A ideia básica é que vamos usar as vibrações num vídeo para captar objetos duma forma que nos permite interagir com eles e ver como é que eles reagem. Isto é um objeto. Neste caso, é um boneco de arame com a forma dum ser humano. Vamos filmar este objeto com uma câmara normal. Esta câmara não tem nada de especial. Na verdade, já fiz isto com o meu telemóvel. Mas queremos ver o objeto a vibrar, portanto, para que isso aconteça, vamos bater na superfície onde ele está poisado enquanto gravamos este vídeo. Já está: são cinco segundos de gravação normal, enquanto batemos na superfície. Vamos usar as vibrações deste vídeo para conhecer as propriedades estruturais e materiais do nosso objeto. Vamos usar essas informações para criar uma coisa nova e interativa. Isto é o que criámos. Parece uma imagem normal, mas isto não é uma imagem, nem é um vídeo porque agora eu posso agarrar no rato e posso começar a interagir com o objeto. O que estão a ver aqui é uma simulação de como este objeto responde a novas forças que nunca tínhamos visto. Criámos isto a partir de apenas cinco segundos dum vídeo normal. (Aplausos) Isto é de facto uma forma muito poderosa de olhar para o mundo porque nos permite prever como o objetos reagem a novas situações. Podemos imaginar, por exemplo, olhar para uma ponte antiga e pensar o que pode acontecer, se essa ponte aguentará o peso do meu carro a atravessá-la. Isso é uma pergunta que provavelmente todos querem ver respondida antes de começar a atravessar essa ponte. Claro que há limitações para esta técnica, tal como havia para o microfone visual, mas verificámos que funciona em muitas situações em que não estávamos à espera, especialmente se obtivermos vídeos mais longos. Por exemplo, este é um vídeo que eu gravei de um arbusto à porta do meu apartamento. Não fiz nada a este arbusto, mas gravei um vídeo com a duração de um minuto. Uma leve brisa provocou vibrações suficientes para eu poder criar esta simulação. (Aplausos) Podemos imaginar dar este vídeo a um realizador de cinema e ele poder controlar, por exemplo, a força e a direção do vento numa cena, depois de ela ter sido gravada. Ou, neste caso, apontámos a câmara para uma cortina pendurada. Não conseguimos ver qualquer movimento neste vídeo mas, gravando o vídeo com a duração de dois minutos, as correntes de ar naturais nesta sala criaram movimentos e vibrações subtis, impercetíveis, suficientes para sabermos criar esta simulação. Ironicamente, estamos fartos de ter este tipo de interatividade no que refere a objetos virtuais, no que respeita a videojogos e modelos a 3D, mas ser capaz de captar estas informações a partir de objetos reais do mundo real usando apenas um vídeo simples, normal, é uma coisa totalmente nova que tem imenso potencial. Estas são as pessoas espantosas que trabalharam comigo nestes projetos. (Aplausos) O que vos mostrei hoje é apenas o início. Só começámos a arranhar a superfície do que podemos fazer com este tipo de imagens porque nos dão uma nova forma de captar o nosso meio envolvente com uma tecnologia comum, acessível. Olhando para o futuro, vai ser uma coisa excitante para explorar o que isto nos pode revelar sobre o mundo. Obrigado. (Aplausos)