La plupart d'entre nous associe le mouvement au visuel. Si je traverse cette scène ou bouge mes mains alors que je parle, ce mouvement est quelque chose que vous pouvez observer. Mais il y a un monde de gestes importants qui sont imperceptibles à l’œil humain, et au cours de ces dernières années, on s'est rendu compte que les cameras peuvent détecter ces mouvements même quand l’être humain en est incapable. Laissez-moi donc vous montrer. Sur la gauche, vous voyez la vidéo du poignet d'une personne, et à droite, vous voyez la vidéo d'un bébé endormi. Mais si je ne vous avais pas dit qu'il s'agissait de vidéos, vous auriez pu penser que vous regardiez deux images tout à fait normales. Car dans les deux cas, ces vidéos semblent presque complètement immobiles. Mais il y a en fait beaucoup de mouvement imperceptibles. Et si vous touchiez le poignet sur la gauche, vous sentiriez un pouls et si vous teniez le bébé sur l'image de droite, vous sentiriez la montée et la descente de sa poitrine à chacune de ses respirations. Et ces mouvements sont lourds de sens mais ils sont souvent trop subtils pour que nous les voyions. Donc à la place, nous devons les observer au travers d'un contact direct, au travers du toucher. Il y a quelques années, mes collègues du MIT ont développé un microscope amplificateur de mouvement. C'est en fait un logiciel qui repère ces mouvements imperceptibles en vidéo et les amplifie de manière à les grossir suffisamment pour qu'on puisse les voir. Si bien que, si l'on utilise ce logiciel sur la vidéo de gauche, ça nous permet de voir le pouls à l’intérieur du poignet. Si nous devions compter ce pouls, nous pourrions même obtenir le rythme cardiaque de la personne. Si nous utilisons le même logiciel sur la vidéo de droite, nous pouvons voir chacune des respirations de ce bébé, et l'utiliser comme un moyen sans contact pour surveiller sa respiration. Et donc cette technologie est réellement puissante puisqu'elle repère ces phénomènes que nous ne pouvons sentir qu'avec le toucher, et elle les enregistre visuellement de façon non invasive. Il y a deux ans, j'ai rejoint l'équipe qui a créé ce logiciel et nous avons décidé de poursuivre une idée folle. On s'est dit, c'est génial d'utiliser un logiciel pour visualiser ainsi de tout petits mouvements et on peut presque le voir comme un moyen d’améliorer notre sens du toucher. Mais qu'en serait-il si on pouvait en faire de même avec notre audition? Et si on pouvait utiliser la vidéo pour capturer les vibrations sonores, un autre type de mouvements en fait, et faire passer ce que l'on voit dans un microphone? C'est une idée un peu étrange. Laissez-moi donc mettre cela en perspective pour vous. Un microphone traditionnel fonctionne en convertissant le mouvement d'un diaphragme interne en un signal électrique, et ce diaphragme est conçu pour bouger facilement avec le son, pour que ce mouvement puisse être enregistré et interprété comme de l'audio. Mais le son fait vibrer tous les objets ! Ces vibrations sont trop subtiles, trop rapides pour qu'on puisse les voir. Et si on les enregistrait avec une caméra haute vitesse, on pourrait utiliser un logiciel pour extraire les tout petits mouvements de notre vidéo en ralenti, et analyser ces mouvements pour comprendre quel son les a créés. On pourrait alors transformer les objets visibles en microphones visuels à distance. On a donc essayé, et voici une de nos expériences. Ici nous avons pris cette plante que vous voyez sur la droite, et l'avons filmée avec une caméra haute vitesse, pendant qu'un caisson de basse jouait ce son à côté. (Musique: « Mary had a little lamb ») Et voilà la vidéo que nous avons enregistrée. Nous l'avons enregistrée à des milliers d'images par seconde. Même si vous y regardez de très près, vous ne pouvez voir que des feuilles qui ne bougent presque pas. Car en effet, notre son a fait bouger ces feuilles d’à peine un micromètre. C'est un dix-millième de centimètre, ce qui place cela quelque part entre un centième et un millième de pixel dans cette image. Donc vous pouvez loucher autant que vous voulez, un mouvement si petit est quasiment invisible. Mais en fait, un mouvement invisible à l'oeil peut avoir du sens numériquement parlant. Parce qu'avec les bons algorithmes, on peut utiliser cette vidéo silencieuse et apparemment immobile pour en extraire le son. (Musique: «Mary had a little lamb.» (Applaudissements) Comment est-ce possible ? Comment retirons-nous tant d'informations à partir de mouvements si infimes ? Disons que ces feuilles bougent d'un seul micromètre, et que ça modifie notre image d'un millième de pixel. Ça peut paraître peu, mais un seul plan dans une vidéo contient des centaines de milliers de pixels. En combinant tous ces infimes mouvements sur une image entière, un millième de pixel finit par former quelque chose d'important. Sur le plan personnel, réaliser ça nous a tous bouleversés ! (Rires) Mais même avec le bon algorithme, il nous manquait une pièce importante du puzzle. Vous voyez, il y a beaucoup de facteurs qui influencent comment et quand cette technique fonctionne. L'objet lui-même et la distance, la caméra, et l'objectif que vous utilisez, la lumière sur l'objet et le volume du son. Même avec le bon algorithme, il nous a fallu être prudents dans nos premières expériences parce qu'il était impossible de dire ce qui n'allait pas, si un seul de ces facteurs était biaisé. Le résultat était du bruit. Beaucoup de nos premières expériences ressemblent à ceci. Me voilà, et en bas à gauche, on devine la caméra haute vitesse, qui cadre un paquet de chips. Deux spots illuminent toute la scène. Nous devions donc être très prudents durant ces premières expériences. Voici leur déroulement : (Vidéo) Abe Davis: un, deux, trois, go ! Mary had a little lamb ! Little lamb ! Little lamb ! (Rires) AD : Ça a l'air complètement ridicule ! (Rires) Après tout, je suis en train de crier sur un paquet de chips. (Rires) Et il y a tant de spots que les premiers sachets ont littéralement fondu sous la chaleur. Mais aussi ridicule que ça puisse avoir l'air, c'était très important. Parce que nous avons pu récupérer le son. (Audio) Mary had a little lamb ! Little lamb ! Little lamb ! (Applaudissements) AD : Ce fut une expérience-clef, parce que ce fut la première restitution d'un discours intelligible, à partir d'une vidéo muette d'un objet. Ça nous a permis de créer une référence. On a pu progressivement modifier les paramètres : utiliser des objets différents, les éloigner, utiliser des éclairages moins puissants, ou réduire le volume du son. On a analysé toutes ces expériences, jusqu'à ce que nous ayons compris les limites de notre technologie. Parce qu'une fois ses limites déterminées, on a pu trouver des moyens de les repousser. Par exemple, à travers cette expérience, où je vais encore parler au paquet de chips. Mais cette fois, la caméra est à 5 mètres, à l'extérieur, derrière une fenêtre insonorisée, avec la seule lumière naturelle. Voilà la vidéo. Voilà la bande-son à l'intérieur, à côté du paquet de chips. (Audio) Marie avait un petit agneau, à la laine blanche comme de la neige, partout où Marie se rendait, l'agneau sûrement l'accompagnait. AD : Et voici ce que nous avons récupéré de notre vidéo muette, prise à travers cette fenêtre. (Audio) Marie avait un petit agneau, à la laine blanche comme de la neige, partout où Marie se rendait, l'agneau sûrement l'accompagnait. (Applaudissements) AD : Nous pouvons repousser les frontières d'autres manières. Voici une expérience plus calme. On a filmé des écouteurs connectés à un portable. Ici, notre objectif est de récupérer la musique de l'ordinateur, à partir de la vidéo muette de ces deux petits écouteurs en plastique. Les résultats furent si concluants, qu'on a même pu les vérifier sur Shazam. (Rires) (Musique: « Under Pressure », Queen) (Rires) (Applaudissements) On peut aussi repousser les limites en changeant de matériel. Toutes ces expériences ont été réalisées avec une caméra haute vitesse, qui enregistre 100 fois plus d'images qu'un smartphone normal. On a donc aussi développé une technique qui permet d'utiliser des caméras normales. On y arrive en utilisant l'obturateur automatique. En fait, la plupart des caméras enregistrent les images de haut en bas. Si l'objet bouge pendant l'enregistrement d'une seule image, il y a un léger délai entre chaque ligne d'enregistrement. Ça provoque d'imperceptibles artéfacts qui sont encodés dans chaque plan de la vidéo. En analysant ces artéfacts, on peut récupérer le son en utilisant une version modifiée de notre algorithme. Voici une autre expérience. Nous avons filmé un sachet de bonbons, à côté d'un ampli qui joue la même chanson : « Mary Had a Little Lamb » Mais cette fois-ci, nous avons utilisé une caméra ordinaire. Je vais vous laisser écouter le son que nous avons récupéré. Le son sera un peu distordu, mais essayez quand même de voir si vous pouvez reconnaître la musique. (Audio: « Mary Had a Little Lamb ») Certes, le son est déformé. Mais ce qui est extraordinaire, c'est que nous avons pu réaliser cela avec un appareil disponible en grande surface et utiliser facilement. À ce stade, les gens qui découvrent notre travail, pensent souvent à la surveillance. En étant honnête, ce n'est pas difficile d'imaginer comment utiliser cette technologie pour espionner autrui. Mais il y a déjà sur le marché beaucoup de technologies matures dans le domaine de la surveillance. On utilise des lasers pour intercepter des conversations via des objets, depuis des décennies. Ce qui est fondamentalement nouveau ici, et qui distingue notre technologie, c'est notre capacité à percevoir les vibrations des objets. Ça nous donne un nouvel objectif pour observer le monde. Et on peut l'utiliser pour étudier les forces comme le son qui causent des vibrations sur un objet, mais on peut aussi étudier l'objet lui-même. Je vais prendre un peu de recul pour réfléchir en quoi ça peut modifier les manières dont nous utilisons la vidéo. En général, on utilise la vidéo pour regarder des choses. Mais je viens de vous montrer comment l'utiliser pour écouter des choses. Il y a une autre manière importante d'étudier le monde : en interagissant avec lui. On appuie, on tire, ou donne des petits coups sur les objets. On peut les secouer et voir ce qui se passe. La vidéo ne nous permet pas encore de faire tout ça. En tout cas, de manière traditionnelle. Je vous montre mes nouveaux travaux. Ils reposent sur une idée que j'ai eue il y a quelques mois. C'est la première fois que je les dévoile en public. L'idée de base est d'utiliser les vibrations dans la vidéo pour saisir des objets de manière à interagir avec eux, et voir comment ils réagissent. Voilà un objet. C'est une statue en fil de fer, qui a la forme d'un humain. On va la filmer avec une caméra normale. La caméra n'a rien de spécial. J'ai même essayé avec la caméra de mon smartphone. Nous voulons observer les vibrations de l'objet. Et pour cela, on va donner des petits coups sur la surface où elle est déposée, pendant l'enregistrement. C'est tout. 5 secondes de vidéo normale, on donne des coups sur le plan, et on va utiliser les vibrations enregistrées par la vidéo pour étudier les propriétés structurelles et matérielles de l'objet. On va ensuite les utiliser pour créer quelque chose de neuf et interactif. En voici le résultat. On dirait une image normale. Mais ce n'est pas le cas. Ce n'est pas non plus une vidéo, parce que maintenant, je peux prendre ma souris, et interagir avec l'objet. Ce que vous voyez ici, c'est une simulation des réactions de cet objet lorsqu'il subit des forces qu'on n'a pas encore vues. Nous avons créé cela à partir d'une vidéo de 5 secondes. (Applaudissements) C'est un moyen puissant d'observer le monde, parce qu'il nous permet de prédire comment les objets vont réagir dans des situations nouvelles. On pourrait imaginer, par exemple, regarder un vieux pont, en se demandant ce qui va se passer, quand je vais le traverser en voiture. Le pont va-t-il supporter ce poids ? Et vous vous poseriez cette question, sans doute, avant de devoir traverser un tel vieux pont. Bien entendu, la technologie a ses limites, tout comme celle avec le microphone visuel. Mais nous avons constaté que ça fonctionne dans beaucoup de cas, même des cas inattendus, surtout si on utilise des vidéos plus longues. Par exemple, voici une de mes vidéos. C'est un arbuste à côté de mon appartement. Je n'ai pas touché à l'arbuste. J'ai pris une vidéo d'une minute. Un vent léger a provoqué suffisamment de vibrations pour nous permettre de développer cette simulation. (Applaudissements) On pourrait aussi imaginer qu'un réalisateur utilise cette technique pour contrôler, par exemple, la force ou la direction du vent après avoir tourné la scène. Dans ce cas-ci, on a filmé une tenture. Il n'y a aucun mouvement perceptible dans cette vidéo. Mais un enregistrement de deux minutes, a permis d'analyser suffisamment de mouvements imperceptibles causés par des courants d'air naturels dans la pièce pour créer cette simulation. Paradoxalement, on est habitué à ce genre d'interactions avec des objets virtuels, dans les jeux vidéo ou les modèles 3D. Mais pouvoir capter des informations sur des objets réels, dans le monde réel en utilisant une vidéo normale, est quelque chose de tout à fait innovant, avec un grand potentiel. Voici les membres formidables qui ont contribué à ces projets. (Applaudissements) Ce que je vous ai montré aujourd'hui n'est que le début. On vient juste de commencer à découvrir ce qui est possible de réaliser avec ce genre d'images. Ça nous donne de nouvelles méthodes pour filmer notre environnement avec des technologies accessibles. À l'avenir, ces technologies pourront nous enseigner des choses fascinantes sur le monde. Merci. (Applaudissements)