La plupart d'entre nous associe
le mouvement au visuel.
Si je traverse cette scène
ou bouge mes mains alors que je parle,
ce mouvement est quelque chose
que vous pouvez observer.
Mais il y a un monde de gestes importants
qui sont imperceptibles à l’œil humain,
et au cours de ces dernières années,
on s'est rendu compte que les cameras
peuvent détecter ces mouvements
même quand l’être humain en est incapable.
Laissez-moi donc vous montrer.
Sur la gauche, vous voyez la vidéo
du poignet d'une personne,
et à droite, vous voyez la vidéo
d'un bébé endormi.
Mais si je ne vous avais pas dit
qu'il s'agissait de vidéos,
vous auriez pu penser que vous regardiez
deux images tout à fait normales.
Car dans les deux cas,
ces vidéos semblent
presque complètement immobiles.
Mais il y a en fait beaucoup
de mouvement imperceptibles.
Et si vous touchiez
le poignet sur la gauche,
vous sentiriez un pouls
et si vous teniez
le bébé sur l'image de droite,
vous sentiriez la montée
et la descente de sa poitrine
à chacune de ses respirations.
Et ces mouvements sont lourds de sens
mais ils sont souvent
trop subtils pour que nous les voyions.
Donc à la place, nous devons les observer
au travers d'un contact direct,
au travers du toucher.
Il y a quelques années,
mes collègues du MIT ont développé
un microscope amplificateur de mouvement.
C'est en fait un logiciel qui repère
ces mouvements imperceptibles en vidéo
et les amplifie de manière à les grossir
suffisamment pour qu'on puisse les voir.
Si bien que, si l'on utilise ce logiciel
sur la vidéo de gauche,
ça nous permet de voir le pouls
à l’intérieur du poignet.
Si nous devions compter ce pouls,
nous pourrions même obtenir
le rythme cardiaque de la personne.
Si nous utilisons le même logiciel
sur la vidéo de droite,
nous pouvons voir chacune
des respirations de ce bébé,
et l'utiliser comme un moyen sans contact
pour surveiller sa respiration.
Et donc cette technologie
est réellement puissante
puisqu'elle repère ces phénomènes
que nous ne pouvons
sentir qu'avec le toucher,
et elle les enregistre
visuellement de façon non invasive.
Il y a deux ans, j'ai rejoint l'équipe
qui a créé ce logiciel
et nous avons décidé de poursuivre
une idée folle.
On s'est dit, c'est génial
d'utiliser un logiciel
pour visualiser ainsi
de tout petits mouvements
et on peut presque le voir comme un
moyen d’améliorer notre sens du toucher.
Mais qu'en serait-il si on pouvait en
faire de même avec notre audition?
Et si on pouvait utiliser la vidéo
pour capturer les vibrations sonores,
un autre type de mouvements en fait,
et faire passer ce que l'on voit
dans un microphone?
C'est une idée un peu étrange.
Laissez-moi donc mettre cela
en perspective pour vous.
Un microphone traditionnel fonctionne
en convertissant le mouvement
d'un diaphragme interne
en un signal électrique,
et ce diaphragme est conçu
pour bouger facilement avec le son,
pour que ce mouvement puisse être
enregistré et interprété comme de l'audio.
Mais le son fait vibrer tous les objets !
Ces vibrations sont trop subtiles,
trop rapides pour qu'on puisse les voir.
Et si on les enregistrait
avec une caméra haute vitesse,
on pourrait utiliser un logiciel
pour extraire les tout petits mouvements
de notre vidéo en ralenti,
et analyser ces mouvements
pour comprendre quel son les a créés.
On pourrait alors transformer
les objets visibles
en microphones visuels à distance.
On a donc essayé,
et voici une de nos expériences.
Ici nous avons pris cette plante
que vous voyez sur la droite,
et l'avons filmée
avec une caméra haute vitesse,
pendant qu'un caisson de basse
jouait ce son à côté.
(Musique: « Mary had a little lamb »)
Et voilà la vidéo
que nous avons enregistrée.
Nous l'avons enregistrée
à des milliers d'images par seconde.
Même si vous y regardez de très près,
vous ne pouvez voir que des feuilles
qui ne bougent presque pas.
Car en effet, notre son a fait bouger
ces feuilles d’à peine un micromètre.
C'est un dix-millième de centimètre,
ce qui place cela quelque part entre
un centième et un millième
de pixel dans cette image.
Donc vous pouvez loucher
autant que vous voulez,
un mouvement si petit
est quasiment invisible.
Mais en fait, un mouvement
invisible à l'oeil
peut avoir du sens numériquement parlant.
Parce qu'avec les bons algorithmes,
on peut utiliser cette vidéo
silencieuse et apparemment immobile
pour en extraire le son.
(Musique: «Mary had a little lamb.»
(Applaudissements)
Comment est-ce possible ?
Comment retirons-nous tant d'informations
à partir de mouvements si infimes ?
Disons que ces feuilles bougent
d'un seul micromètre,
et que ça modifie notre image
d'un millième de pixel.
Ça peut paraître peu,
mais un seul plan dans une vidéo
contient des centaines
de milliers de pixels.
En combinant tous ces infimes mouvements
sur une image entière,
un millième de pixel
finit par former
quelque chose d'important.
Sur le plan personnel, réaliser ça
nous a tous bouleversés !
(Rires)
Mais même avec le bon algorithme,
il nous manquait
une pièce importante du puzzle.
Vous voyez, il y a beaucoup de facteurs
qui influencent comment
et quand cette technique fonctionne.
L'objet lui-même et la distance,
la caméra, et l'objectif
que vous utilisez,
la lumière sur l'objet
et le volume du son.
Même avec le bon algorithme,
il nous a fallu être prudents
dans nos premières expériences
parce qu'il était impossible
de dire ce qui n'allait pas,
si un seul de ces facteurs était biaisé.
Le résultat était du bruit.
Beaucoup de nos premières expériences
ressemblent à ceci.
Me voilà,
et en bas à gauche, on devine
la caméra haute vitesse,
qui cadre un paquet de chips.
Deux spots illuminent toute la scène.
Nous devions donc être très prudents
durant ces premières expériences.
Voici leur déroulement :
(Vidéo) Abe Davis: un, deux, trois, go !
Mary had a little lamb !
Little lamb ! Little lamb !
(Rires)
AD : Ça a l'air complètement ridicule !
(Rires)
Après tout, je suis en train de crier
sur un paquet de chips.
(Rires)
Et il y a tant de spots
que les premiers sachets ont
littéralement fondu sous la chaleur.
Mais aussi ridicule
que ça puisse avoir l'air,
c'était très important.
Parce que nous avons pu récupérer le son.
(Audio) Mary had a little lamb !
Little lamb ! Little lamb !
(Applaudissements)
AD : Ce fut une expérience-clef,
parce que ce fut la première restitution
d'un discours intelligible,
à partir d'une vidéo muette d'un objet.
Ça nous a permis de créer une référence.
On a pu progressivement
modifier les paramètres :
utiliser des objets différents,
les éloigner,
utiliser des éclairages moins puissants,
ou réduire le volume du son.
On a analysé toutes ces expériences,
jusqu'à ce que nous ayons compris
les limites de notre technologie.
Parce qu'une fois
ses limites déterminées,
on a pu trouver des moyens
de les repousser.
Par exemple, à travers cette expérience,
où je vais encore parler
au paquet de chips.
Mais cette fois, la caméra est à 5 mètres,
à l'extérieur,
derrière une fenêtre insonorisée,
avec la seule lumière naturelle.
Voilà la vidéo.
Voilà la bande-son à l'intérieur,
à côté du paquet de chips.
(Audio) Marie avait un petit agneau,
à la laine blanche comme de la neige,
partout où Marie se rendait,
l'agneau sûrement l'accompagnait.
AD : Et voici ce que nous avons récupéré
de notre vidéo muette,
prise à travers cette fenêtre.
(Audio) Marie avait un petit agneau,
à la laine blanche comme de la neige,
partout où Marie se rendait,
l'agneau sûrement l'accompagnait.
(Applaudissements)
AD : Nous pouvons repousser les frontières
d'autres manières.
Voici une expérience plus calme.
On a filmé des écouteurs
connectés à un portable.
Ici, notre objectif est de récupérer
la musique de l'ordinateur,
à partir de la vidéo muette
de ces deux petits écouteurs en plastique.
Les résultats furent si concluants,
qu'on a même pu les vérifier sur Shazam.
(Rires)
(Musique: « Under Pressure », Queen)
(Rires) (Applaudissements)
On peut aussi repousser les limites
en changeant de matériel.
Toutes ces expériences ont été réalisées
avec une caméra haute vitesse,
qui enregistre 100 fois plus d'images
qu'un smartphone normal.
On a donc aussi développé une technique
qui permet d'utiliser
des caméras normales.
On y arrive en utilisant
l'obturateur automatique.
En fait, la plupart des caméras
enregistrent les images de haut en bas.
Si l'objet bouge pendant l'enregistrement
d'une seule image,
il y a un léger délai
entre chaque ligne d'enregistrement.
Ça provoque d'imperceptibles artéfacts
qui sont encodés
dans chaque plan de la vidéo.
En analysant ces artéfacts,
on peut récupérer le son en utilisant
une version modifiée de notre algorithme.
Voici une autre expérience.
Nous avons filmé un sachet de bonbons,
à côté d'un ampli
qui joue la même chanson :
« Mary Had a Little Lamb »
Mais cette fois-ci, nous avons utilisé
une caméra ordinaire.
Je vais vous laisser écouter le son
que nous avons récupéré.
Le son sera un peu distordu,
mais essayez quand même de voir
si vous pouvez reconnaître la musique.
(Audio: « Mary Had a Little Lamb »)
Certes, le son est déformé.
Mais ce qui est extraordinaire,
c'est que nous avons pu réaliser cela
avec un appareil disponible
en grande surface
et utiliser facilement.
À ce stade,
les gens qui découvrent notre travail,
pensent souvent à la surveillance.
En étant honnête,
ce n'est pas difficile d'imaginer
comment utiliser cette technologie
pour espionner autrui.
Mais il y a déjà sur le marché
beaucoup de technologies matures
dans le domaine de la surveillance.
On utilise des lasers
pour intercepter des conversations
via des objets, depuis des décennies.
Ce qui est fondamentalement nouveau ici,
et qui distingue notre technologie,
c'est notre capacité à percevoir
les vibrations des objets.
Ça nous donne un nouvel objectif
pour observer le monde.
Et on peut l'utiliser
pour étudier les forces comme le son
qui causent des vibrations sur un objet,
mais on peut aussi
étudier l'objet lui-même.
Je vais prendre un peu de recul
pour réfléchir en quoi ça peut modifier
les manières dont nous utilisons la vidéo.
En général, on utilise la vidéo
pour regarder des choses.
Mais je viens de vous montrer
comment l'utiliser
pour écouter des choses.
Il y a une autre manière importante
d'étudier le monde :
en interagissant avec lui.
On appuie, on tire,
ou donne des petits coups sur les objets.
On peut les secouer
et voir ce qui se passe.
La vidéo ne nous permet pas encore
de faire tout ça.
En tout cas, de manière traditionnelle.
Je vous montre mes nouveaux travaux.
Ils reposent sur une idée que j'ai eue
il y a quelques mois.
C'est la première fois
que je les dévoile en public.
L'idée de base est d'utiliser
les vibrations dans la vidéo
pour saisir des objets
de manière à interagir avec eux,
et voir comment ils réagissent.
Voilà un objet.
C'est une statue en fil de fer,
qui a la forme d'un humain.
On va la filmer avec une caméra normale.
La caméra n'a rien de spécial.
J'ai même essayé avec la caméra
de mon smartphone.
Nous voulons observer
les vibrations de l'objet.
Et pour cela,
on va donner des petits coups
sur la surface où elle est déposée,
pendant l'enregistrement.
C'est tout. 5 secondes de vidéo normale,
on donne des coups sur le plan,
et on va utiliser les vibrations
enregistrées par la vidéo
pour étudier les propriétés
structurelles et matérielles de l'objet.
On va ensuite les utiliser pour créer
quelque chose de neuf et interactif.
En voici le résultat.
On dirait une image normale.
Mais ce n'est pas le cas.
Ce n'est pas non plus une vidéo,
parce que maintenant,
je peux prendre ma souris,
et interagir avec l'objet.
Ce que vous voyez ici,
c'est une simulation
des réactions de cet objet
lorsqu'il subit des forces
qu'on n'a pas encore vues.
Nous avons créé cela
à partir d'une vidéo de 5 secondes.
(Applaudissements)
C'est un moyen puissant
d'observer le monde,
parce qu'il nous permet de prédire
comment les objets vont réagir
dans des situations nouvelles.
On pourrait imaginer, par exemple,
regarder un vieux pont,
en se demandant ce qui va se passer,
quand je vais le traverser en voiture.
Le pont va-t-il supporter ce poids ?
Et vous vous poseriez cette question,
sans doute,
avant de devoir traverser
un tel vieux pont.
Bien entendu,
la technologie a ses limites,
tout comme celle
avec le microphone visuel.
Mais nous avons constaté
que ça fonctionne dans beaucoup de cas,
même des cas inattendus,
surtout si on utilise
des vidéos plus longues.
Par exemple,
voici une de mes vidéos.
C'est un arbuste
à côté de mon appartement.
Je n'ai pas touché à l'arbuste.
J'ai pris une vidéo d'une minute.
Un vent léger a provoqué
suffisamment de vibrations
pour nous permettre
de développer cette simulation.
(Applaudissements)
On pourrait aussi imaginer
qu'un réalisateur
utilise cette technique pour contrôler,
par exemple,
la force ou la direction du vent
après avoir tourné la scène.
Dans ce cas-ci,
on a filmé une tenture.
Il n'y a aucun mouvement perceptible
dans cette vidéo.
Mais un enregistrement de deux minutes,
a permis d'analyser suffisamment
de mouvements imperceptibles
causés par des courants d'air
naturels dans la pièce
pour créer cette simulation.
Paradoxalement,
on est habitué à ce genre d'interactions
avec des objets virtuels,
dans les jeux vidéo ou les modèles 3D.
Mais pouvoir capter des informations
sur des objets réels, dans le monde réel
en utilisant une vidéo normale,
est quelque chose de tout à fait innovant,
avec un grand potentiel.
Voici les membres formidables
qui ont contribué à ces projets.
(Applaudissements)
Ce que je vous ai montré aujourd'hui
n'est que le début.
On vient juste de commencer
à découvrir ce qui est possible
de réaliser avec ce genre d'images.
Ça nous donne de nouvelles méthodes
pour filmer notre environnement
avec des technologies accessibles.
À l'avenir,
ces technologies pourront nous enseigner
des choses fascinantes sur le monde.
Merci.
(Applaudissements)