Comment apprendre aux ordinateurs à comprendre des images
-
0:02 - 0:06Je vais vous montrer quelque chose.
-
0:06 - 0:10(Enfant) C'est un chat assis sur un lit.
-
0:10 - 0:14Le garçon caresse l'éléphant.
-
0:14 - 0:19Des gens montent dans un avion.
-
0:19 - 0:21C'est un gros avion.
-
0:21 - 0:24(Fei-Fei Li) C'est une enfant de 3 ans
-
0:24 - 0:27qui décrit ce qu'elle voit sur des photos.
-
0:27 - 0:30Elle a peut-être encore
beaucoup à apprendre, -
0:30 - 0:35mais elle est déjà experte
dans un domaine très important : -
0:35 - 0:38comprendre ce qu'elle voit.
-
0:38 - 0:42Notre société est technologiquement
plus avancée que jamais. -
0:42 - 0:46On envoie des gens sur la Lune,
on fait des téléphones qui nous parlent, -
0:46 - 0:51on a des stations de radio
qui ne passent que ce qu'on aime. -
0:51 - 0:55Pourtant, les machines et les ordinateurs
les plus avancés -
0:55 - 0:58ont toujours du mal à faire ça.
-
0:58 - 1:01Alors aujourd'hui je vais vous expliquer
où nous en sommes, -
1:01 - 1:05nos dernières recherches
sur la vision par ordinateur, -
1:05 - 1:10l'une des technologies les plus novatrices
et potentiellement révolutionnaires -
1:10 - 1:13en informatique.
-
1:13 - 1:17Oui, nous avons des prototypes de voitures
qui conduisent toutes seules, -
1:17 - 1:21mais sans la vision intelligente,
elles ne font pas la différence -
1:21 - 1:25entre un sac de papier roulé en boule,
que l'on peut écraser, -
1:25 - 1:29et une pierre qu'il faut éviter.
-
1:29 - 1:33Nous fabriquons des appareils photo
à mégapixels incroyables, -
1:33 - 1:36mais nous n'avons pas donné
la vue aux aveugles. -
1:36 - 1:40Les drones peuvent parcourir
de grandes distances -
1:40 - 1:42mais la technologie
n'est pas assez avancée -
1:42 - 1:45pour suivre l'évolution
des forêts tropicales. -
1:45 - 1:48Il y a des caméras de sécurité partout,
-
1:48 - 1:53mais elles ne savent pas nous alerter
quand un enfant se noie dans une piscine. -
1:54 - 2:00La photo et la vidéo
font partie de notre vie. -
2:00 - 2:04Elles sont générées tellement vite
qu'aucun humain -
2:04 - 2:07ou groupe d'humains ne peut tout voir,
-
2:07 - 2:11Vous et moi, nous y contribuons,
avec cette conférence TED. -
2:11 - 2:16Pourtant nos programmes les plus avancés
ont du mal à comprendre -
2:16 - 2:20et à gérer cet énorme contenu.
-
2:20 - 2:25En d'autres termes, nous, la société,
-
2:25 - 2:27sommes vraiment aveugles,
-
2:27 - 2:30parce que nos plus intelligentes
machines sont encore aveugles. -
2:32 - 2:34« Pourquoi est-ce si difficile ? »,
pourriez-vous demander. -
2:34 - 2:37Un appareil peut prendre une photo
comme celle-ci, -
2:37 - 2:41il convertit la lumière
en tableaux bidimensionnels -
2:41 - 2:43que l'on nomme pixels,
-
2:43 - 2:45mais ce ne sont que des nombres sans vie.
-
2:45 - 2:48Par eux-mêmes, ils ne signifient rien.
-
2:48 - 2:52Tout comme entendre
n'est pas la même chose qu'écouter, -
2:52 - 2:57prendre une photo,
ce n'est pas comme voir, -
2:57 - 3:00et par « voir », entendez « comprendre ».
-
3:01 - 3:07En fait, Mère Nature a travaillé dur
540 millions d'années -
3:07 - 3:09pour accomplir cette tâche,
-
3:09 - 3:11et le plus gros de cet effort a été
-
3:11 - 3:17le développement de l'appareil
qui produit la vision dans notre cerveau, -
3:17 - 3:19pas les yeux.
-
3:19 - 3:22La vision commence avec les yeux,
-
3:22 - 3:26mais tout se passe en fait dans le cerveau.
-
3:26 - 3:31Depuis maintenant 15 ans, d'abord en thèse à Caltech
-
3:31 - 3:34puis à la tête du Vision Lab à Stanford,
-
3:34 - 3:39je travaille avec mes mentors,
collaborateurs et étudiants -
3:39 - 3:42pour apprendre la vision aux ordinateurs.
-
3:43 - 3:46Il s'agit de vision par ordinateur et
d'apprentissage machine. -
3:46 - 3:50C'est un pan de la recherche sur
l'intelligence artificielle. -
3:51 - 3:56Le but est d'enseigner aux machines
à voir comme nous : -
3:56 - 4:02nommer des objets, identifier des gens,
déduire des formes géométriques 3D, -
4:02 - 4:08comprendre les relations, les émotions,
les actions et les intentions. -
4:08 - 4:14Nous tissons constamment des histoires
de gens, d'endroits, de choses -
4:14 - 4:16dès que nous posons les yeux dessus.
-
4:17 - 4:23Le premier pas est d'apprendre
à l'ordinateur à voir des objets, -
4:23 - 4:26c'est l'élément de base du monde visuel.
-
4:26 - 4:30Pour parler simplement, imaginez
que ce processus d'apprentissage -
4:30 - 4:33consiste à montrer à l'ordinateur
-
4:33 - 4:37des images d'un certain objet,
par exemple des chats, -
4:37 - 4:41puis concevoir un modèle
qui puisse apprendre avec ces images. -
4:41 - 4:43Ça ne doit pas être bien difficile !
-
4:43 - 4:47Après tout, un chat est un ensemble
de formes et de couleurs. -
4:47 - 4:52Au début de la modélisation objet,
c'est ce que nous avons fait. -
4:52 - 4:55On rentrait un algorithme
en langage mathématique -
4:55 - 4:59pour dire que le chat a un visage rond,
un corps un peu dodu, -
4:59 - 5:01deux oreilles pointues et une longue queue
-
5:01 - 5:02et tout allait bien.
-
5:03 - 5:05Mais que fait-on pour celui-ci ?
-
5:05 - 5:06(Rires)
-
5:06 - 5:08Il est tout retourné.
-
5:08 - 5:12Alors il faut ajouter d'autres formes
et points de vue au modèle objet. -
5:12 - 5:14Et si le chat est caché ?
-
5:15 - 5:17Et ces drôles de chats-là ?
-
5:19 - 5:22Vous voyez ce que je veux dire.
-
5:22 - 5:25Quelque chose d'aussi simple
qu'un animal domestique -
5:25 - 5:29présente une infinité de variations
du modèle objet. -
5:29 - 5:32Et ça n'est qu'un seul objet.
-
5:33 - 5:35Il y a environ 8 ans,
-
5:35 - 5:40une réflexion toute simple mais profonde
a changé ma manière de penser. -
5:41 - 5:44Personne ne dit à un enfant comment voir,
-
5:44 - 5:46surtout dans les premières années.
-
5:46 - 5:51Il apprend par l'expérience,
par des exemples quotidiens. -
5:51 - 5:54Pensez aux yeux d'un enfant
-
5:54 - 5:57comme à deux appareils photo biologiques
-
5:57 - 6:01qui prennent une photo
chaque 200 millisecondes, -
6:01 - 6:04la durée moyenne du mouvement de l’œil.
-
6:04 - 6:10A 3 ans, un enfant a vu
des centaines de millions de photos -
6:10 - 6:11du monde réel.
-
6:11 - 6:14Ça nous fait beaucoup d'exemples.
-
6:14 - 6:20Alors plutôt que se concentrer
sur l'amélioration des algorithmes, -
6:20 - 6:26mon idée a été de former les algorithmes
avec le genre de données -
6:26 - 6:29qu'un enfant reçoit par l'expérience
-
6:29 - 6:33tant en quantité qu'en qualité
-
6:33 - 6:35Une fois que nous avons compris ça,
-
6:35 - 6:38nous savions qu'il fallait collecter
un ensemble de données -
6:38 - 6:42qui contienne bien plus d'images
que jamais auparavant, -
6:42 - 6:45peut-être des milliers de fois plus.
-
6:45 - 6:49Avec le professeur Kai Li
de l'Université de Princeton, -
6:49 - 6:54nous avons donc lancé
le projet ImageNet en 2007. -
6:54 - 6:57Heureusement, ce n'était pas la peine
de se mettre une caméra sur la tête -
6:57 - 6:59et d'attendre plusieurs années.
-
6:59 - 7:01Nous sommes allés sur Internet,
-
7:01 - 7:05la plus grande mine de photos
que l'humain ait jamais créée. -
7:05 - 7:08Nous avons téléchargé
près d'un milliard d'images. -
7:08 - 7:14Des technologies de crowdsourcing
comme le Turc Mécanique d'Amazon -
7:14 - 7:16nous ont aidés à cataloguer les images.
-
7:16 - 7:21A son plus haut, ImageNet a été
l'un des plus gros employeurs -
7:21 - 7:24du Turc Mécanique d'Amazon :
-
7:24 - 7:28près de 50 000 employés
-
7:28 - 7:32dans 167 pays
-
7:32 - 7:36nous ont aidés
à nettoyer, trier, étiqueter -
7:36 - 7:40presque un milliard d'images.
-
7:41 - 7:43C'est vous dire l'effort entrepris
-
7:43 - 7:47pour capturer une fraction des images
-
7:47 - 7:51qu'un enfant stocke
pendant ses premières années. -
7:52 - 7:56Aujourd'hui, cette idée
d'utiliser ces masses de données -
7:56 - 8:01pour construire des algorithmes
peut paraître évidente, -
8:01 - 8:05mais pas en 2007.
-
8:05 - 8:09Pendant longtemps, nous étions bien seuls.
-
8:09 - 8:14Des collègues me conseillaient de trouver
autre chose pour devenir titulaire, -
8:14 - 8:18et c'était une bataille constante
pour trouver des crédits de recherche. -
8:18 - 8:20Je disais en plaisantant à mes étudiants
-
8:20 - 8:24que je pourrais reprendre ma laverie
pour financer ImageNet. -
8:24 - 8:29Après tout, j'avais financé mes études
grâce à elle. -
8:29 - 8:31Mais nous avons continué.
-
8:31 - 8:35En 2009, le projet ImageNet avait
-
8:35 - 8:39une base de données
de 15 millions d'images, -
8:39 - 8:4422 000 classes d'objets et de choses
-
8:44 - 8:47organisées avec des mots d'anglais
du quotidien. -
8:47 - 8:50Tant en quantité qu'en qualité,
-
8:50 - 8:53une telle échelle de grandeur
était une première. -
8:53 - 8:56Par exemple, les chats,
-
8:56 - 8:59nous avons plus de 62 000 chats,
-
8:59 - 9:03toutes sortes d'apparences et de poses,
-
9:03 - 9:08toutes les espèces,
domestiques et sauvages. -
9:08 - 9:12C'était formidable d'avoir bâti ImageNet,
-
9:12 - 9:16et nous voulions en faire profiter
le monde de la recherche. -
9:16 - 9:20Alors, à la manière de TED,
nous avons donné l'accès aux données -
9:20 - 9:23à la recherche, gratuitement
et dans le monde entier. -
9:24 - 9:29(Applaudissements)
-
9:29 - 9:34Maintenant que nous avons les données
pour nourrir notre cerveau informatique, -
9:34 - 9:38nous pouvons revenir sur les algorithmes.
-
9:38 - 9:43Il se trouve que la manne d'informations
désormais dans ImageNet -
9:43 - 9:48allait parfaitement avec
un certain type d'algorithmes, -
9:48 - 9:50le réseau de neurones à convolution,
-
9:50 - 9:55développé par Kunihiko Fukushima,
Geoff Hinton et Yann LeCun -
9:55 - 9:59dans les années 1970 et 80.
-
9:59 - 10:05Tout comme le cerveau est composé
de milliards de neurones connectés, -
10:05 - 10:08l'unité de base d'un réseau neuronal
-
10:08 - 10:11est le nœud de type neurone.
-
10:11 - 10:13Il reçoit des informations d'autres nœuds
-
10:13 - 10:16et en envoie à d'autres.
-
10:16 - 10:21De plus, ces centaines de milliers
voire millions de nœuds -
10:21 - 10:24sont organisés en couches hiérarchiques,
-
10:24 - 10:27similaires au cerveau.
-
10:27 - 10:31Dans le réseau neuronal classique
que nous utilisons, -
10:31 - 10:35il y a 24 millions de nœuds,
-
10:35 - 10:38140 millions de paramètres,
-
10:38 - 10:41et 15 milliards de connexions.
-
10:41 - 10:43C'est un modèle énorme.
-
10:43 - 10:47Avec la puissance des données d'ImageNet
-
10:47 - 10:52et les processeurs modernes
pour traiter cet énorme modèle, -
10:52 - 10:55le réseau de neurones à convolution
-
10:55 - 10:58s'est transformé de manière inattendue.
-
10:58 - 11:01Il est devenu l'architecture idéale
-
11:01 - 11:06pour générer des résultats fabuleux
en reconnaissance d'objets. -
11:06 - 11:09Ceci est un ordinateur qui nous dit
-
11:09 - 11:11que la photo contient un chat
-
11:11 - 11:13et où est ce chat.
-
11:13 - 11:15Bien sûr, il y a
autre chose que des chats. -
11:15 - 11:18Ici un algorithme nous dit
-
11:18 - 11:21que la photo contient un garçon
et un ours en peluche, -
11:21 - 11:25un chien, une personne,
et un cerf-volant en arrière-plan. -
11:25 - 11:28Ici, beaucoup d'activités
-
11:28 - 11:33avec un homme, un skateboard, une rampe,
un lampadaire, etc. -
11:33 - 11:38Parfois l'ordinateur n'est pas trop sûr,
-
11:39 - 11:42nous lui avons appris à être
assez intelligent -
11:42 - 11:46pour donner une réponse sûre,
sans trop s'engager, -
11:46 - 11:48c'est ce que nous ferions.
-
11:48 - 11:53D'autres fois, l'algorithme
a la capacité incroyable -
11:53 - 11:55de nous dire exactement
ce qu'est l'objet : -
11:55 - 11:59marque, modèle, année d'une voiture.
-
11:59 - 12:04Nous avons utilisé cet algorithme sur
des millions d'images Google Street View, -
12:04 - 12:07dans des centaines de villes américaines,
-
12:07 - 12:10et nous avons découvert
quelque chose de très intéressant. -
12:10 - 12:14D'abord, il a été confirmé
-
12:14 - 12:17que le prix des voitures
-
12:17 - 12:19et le revenu des foyers sont liés.
-
12:19 - 12:23Mais, étonnamment, le prix des voitures
-
12:23 - 12:26et le taux de crimes dans les villes
sont également liés, -
12:27 - 12:31même chose avec la répartition
géographique des votes. -
12:32 - 12:34Attendez un peu... c'est tout ?
-
12:34 - 12:39Est-ce que l'ordinateur atteint,
voire surpasse, les capacités humaines ? -
12:39 - 12:42Pas si vite.
-
12:42 - 12:46Jusque là, nous avons appris
aux ordinateurs à voir des objets, -
12:46 - 12:51comme un jeune enfant apprend
à prononcer quelques noms. -
12:51 - 12:54C'est déjà incroyable,
-
12:54 - 12:56mais ce n'est que la première étape.
-
12:56 - 13:00Bientôt, nous atteindrons un autre niveau,
-
13:00 - 13:03l'enfant commence à faire des phrases.
-
13:03 - 13:08Au lieu de dire que
c'est un chat sur la photo, -
13:08 - 13:13comme nous l'a dit la petite fille
tout à l'heure. -
13:13 - 13:18Pour apprendre à l'ordinateur à générer
des phrases à partir d'une photo, -
13:18 - 13:22le mariage entre les données
et l'algorithme d'apprentissage -
13:22 - 13:25doit franchir une autre étape.
-
13:25 - 13:29L'ordinateur doit apprendre
à partir des photos, -
13:29 - 13:32en utilisant des phrases
en langage naturel -
13:32 - 13:35générée par l'être humain.
-
13:35 - 13:39Tout comme le cerveau
combine vision et langage, -
13:39 - 13:44notre modèle connecte
les parties de choses visuelles, -
13:44 - 13:46des petits bouts visuels,
-
13:46 - 13:50avec des mots ou groupes de mots,
pour en faire des phrases. -
13:50 - 13:53Il y a environ 4 mois,
-
13:53 - 13:56nous avons enfin réussi
-
13:56 - 13:59à créer l'un des premiers
modèles de vision artificielle -
13:59 - 14:03capagle de générer une phrase
comme un être humain -
14:03 - 14:07qui découvre une image.
-
14:07 - 14:12Aujourd'hui, je suis prête à vous montrer
ce que dit l'ordinateur -
14:12 - 14:14quand il voit la photo
-
14:14 - 14:17que la petite fille voyait tout à l'heure.
-
14:20 - 14:23(Vidéo) L'ordinateur :
Un homme est debout à coté d'un éléphant. -
14:24 - 14:28Un grand avion est assis
sur une piste d'aéroport. -
14:29 - 14:33FFL : Bien sûr, il y a encore
beaucoup de travail sur les algorithmes, -
14:33 - 14:36l'ordinateur a encore
beaucoup à apprendre, -
14:36 - 14:38(Applaudissements)
-
14:40 - 14:43et il fait encore des erreurs.
-
14:43 - 14:46(Vidéo) Ordinateur : un chat est couché
sur un lit dans une couverture. -
14:46 - 14:49FFL : Bien sûr, s'il voit trop de chats,
-
14:49 - 14:52il pense que tout
est peut-être un chat. -
14:53 - 14:56(Vidéo) Ordinateur : un garçon
tient une batte de base-ball. -
14:56 - 14:58(Rires)
-
14:58 - 15:03FFL : Ou alors, s'il n'a jamais vu
de brosse à dents, elle devient une batte. -
15:03 - 15:07(Vidéo) Ordinateur : Un homme se promène
à cheval près d'un bâtiment. -
15:07 - 15:09(Rires)
-
15:09 - 15:12Nous n'avons pas enseigné
l'histoire de l'art à l'ordinateur. -
15:14 - 15:17(Vidéo) L'ordinateur : Un zèbre
se trouve dans un pré. -
15:17 - 15:20FFL : Et il ne sait pas apprécier
la beauté de la nature -
15:20 - 15:22comme vous et moi.
-
15:22 - 15:25Ça a donc été un long voyage.
-
15:25 - 15:30Aller de 0 à 3 ans a été difficile.
-
15:30 - 15:35Le vrai défi est d'aller de 3 à 13
et bien au-delà. -
15:35 - 15:39Revoici l'image du garçon avec le gâteau.
-
15:39 - 15:44Jusque là, nous avons appris
à l'ordinateur à voir des objets -
15:44 - 15:48ou à créer une petite histoire
d'après une photo. -
15:48 - 15:52(Vidéo) L'ordinateur : Une personne
assise à une table avec un gâteau. -
15:52 - 15:54FFL : Mais il y a beaucoup plus
-
15:54 - 15:56qu'une personne et un gâteau.
-
15:56 - 16:01Ce que l'ordinateur ne voit pas
est que c'est un gâteau italien spécial -
16:01 - 16:04servi uniquement à Pâques.
-
16:04 - 16:07Le garçon porte son t-shirt préféré,
-
16:07 - 16:11celui que lui a offert son père
après un voyage à Sydney, -
16:11 - 16:15et vous et moi voyons bien
à quel point il est heureux -
16:15 - 16:18et ce qu'il pense à ce moment.
-
16:19 - 16:22C'est mon fils Léo.
-
16:22 - 16:25Au cours de ma quête
de l'intelligence visuelle, -
16:25 - 16:27Léo était constamment dans mes pensées
-
16:27 - 16:30ainsi que le monde dans lequel il vivra.
-
16:30 - 16:32Quand les machines pourront voir,
-
16:32 - 16:37les médecins et infirmières auront
une paire d'yeux infatigables en plus -
16:37 - 16:41pour les aider au diagnostic
et au soin des patients. -
16:41 - 16:45Les voitures seront plus intelligentes
et plus sûres. -
16:45 - 16:48Des robots, pas seulement des humains,
-
16:48 - 16:53nous aideront à sauver des vies
dans des zones sinistrées. -
16:54 - 16:58Nous découvrirons de nouvelles espèces,
de meilleurs matériaux, -
16:58 - 17:02nous explorerons d'autres frontières,
avec l'aide des machines. -
17:03 - 17:07Petit à petit, nous donnons la vue
aux machines. -
17:07 - 17:10D'abord nous leur apprenons à voir.
-
17:10 - 17:13Puis c'est elles
qui nous aident à mieux voir. -
17:13 - 17:17Pour la première fois, les yeux humains
ne seront pas les seuls -
17:17 - 17:20à questionner et explorer notre monde.
-
17:20 - 17:23En plus d'utiliser les machines
pour leur intelligence, -
17:23 - 17:30nous collaborerons avec elles
de manière inédite. -
17:30 - 17:32C'est ma quête :
-
17:32 - 17:34donner aux ordinateurs
l'intelligence visuelle -
17:34 - 17:40et créer un meilleur avenir
pour Léo et pour le monde. -
17:40 - 17:41Merci.
-
17:41 - 17:45(Applaudissements)
- Title:
- Comment apprendre aux ordinateurs à comprendre des images
- Speaker:
- Fei-Fei Li
- Description:
-
Quand un tout jeune enfant regarde une photo, il peut identifier des éléments simples : un chat, un livre, une chaise. Aujourd'hui, les ordinateurs sont assez intelligents pour faire la même chose.
Et après ? Dans cette passionnante conférence, la spécialiste en vision par ordinateur Fei-Fei Li décrit où nous en sommes : la base de données de 15 millions de photos mise en place par son équipe pour « enseigner » à un ordinateur à comprendre des photos, et un aperçu de ce qui reste encore à faire.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
eric vautier approved French subtitles for How we're teaching computers to understand pictures | ||
eric vautier edited French subtitles for How we're teaching computers to understand pictures | ||
eric vautier edited French subtitles for How we're teaching computers to understand pictures | ||
eric vautier edited French subtitles for How we're teaching computers to understand pictures | ||
Rania Nakhli accepted French subtitles for How we're teaching computers to understand pictures | ||
Rania Nakhli edited French subtitles for How we're teaching computers to understand pictures | ||
Rania Nakhli edited French subtitles for How we're teaching computers to understand pictures | ||
eric vautier rejected French subtitles for How we're teaching computers to understand pictures |