Comment apprendre aux ordinateurs à comprendre des images

0:02 - 0:06

Je vais vous montrer quelque chose.
0:06 - 0:10

(Enfant) C'est un chat assis sur un lit.
0:10 - 0:14

Le garçon caresse l'éléphant.
0:14 - 0:19

Des gens montent dans un avion.
0:19 - 0:21

C'est un gros avion.
0:21 - 0:24

(Fei-Fei Li) C'est une enfant de 3 ans
0:24 - 0:27

qui décrit ce qu'elle voit sur des photos.
0:27 - 0:30

Elle a peut-être encore
beaucoup à apprendre,
0:30 - 0:35

mais elle est déjà experte
dans un domaine très important :
0:35 - 0:38

comprendre ce qu'elle voit.
0:38 - 0:42

Notre société est technologiquement
plus avancée que jamais.
0:42 - 0:46

On envoie des gens sur la Lune,
on fait des téléphones qui nous parlent,
0:46 - 0:51

on a des stations de radio
qui ne passent que ce qu'on aime.
0:51 - 0:55

Pourtant, les machines et les ordinateurs
les plus avancés
0:55 - 0:58

ont toujours du mal à faire ça.
0:58 - 1:01

Alors aujourd'hui je vais vous expliquer
où nous en sommes,
1:01 - 1:05

nos dernières recherches
sur la vision par ordinateur,
1:05 - 1:10

l'une des technologies les plus novatrices
et potentiellement révolutionnaires
1:10 - 1:13

en informatique.
1:13 - 1:17

Oui, nous avons des prototypes de voitures
qui conduisent toutes seules,
1:17 - 1:21

mais sans la vision intelligente,
elles ne font pas la différence
1:21 - 1:25

entre un sac de papier roulé en boule,
que l'on peut écraser,
1:25 - 1:29

et une pierre qu'il faut éviter.
1:29 - 1:33

Nous fabriquons des appareils photo
à mégapixels incroyables,
1:33 - 1:36

mais nous n'avons pas donné
la vue aux aveugles.
1:36 - 1:40

Les drones peuvent parcourir
de grandes distances
1:40 - 1:42

mais la technologie
n'est pas assez avancée
1:42 - 1:45

pour suivre l'évolution
des forêts tropicales.
1:45 - 1:48

Il y a des caméras de sécurité partout,
1:48 - 1:53

mais elles ne savent pas nous alerter
quand un enfant se noie dans une piscine.
1:54 - 2:00

La photo et la vidéo
font partie de notre vie.
2:00 - 2:04

Elles sont générées tellement vite
qu'aucun humain
2:04 - 2:07

ou groupe d'humains ne peut tout voir,
2:07 - 2:11

Vous et moi, nous y contribuons,
avec cette conférence TED.
2:11 - 2:16

Pourtant nos programmes les plus avancés
ont du mal à comprendre
2:16 - 2:20

et à gérer cet énorme contenu.
2:20 - 2:25

En d'autres termes, nous, la société,
2:25 - 2:27

sommes vraiment aveugles,
2:27 - 2:30

parce que nos plus intelligentes
machines sont encore aveugles.
2:32 - 2:34

« Pourquoi est-ce si difficile ? »,
pourriez-vous demander.
2:34 - 2:37

Un appareil peut prendre une photo
comme celle-ci,
2:37 - 2:41

il convertit la lumière
en tableaux bidimensionnels
2:41 - 2:43

que l'on nomme pixels,
2:43 - 2:45

mais ce ne sont que des nombres sans vie.
2:45 - 2:48

Par eux-mêmes, ils ne signifient rien.
2:48 - 2:52

Tout comme entendre
n'est pas la même chose qu'écouter,
2:52 - 2:57

prendre une photo,
ce n'est pas comme voir,
2:57 - 3:00

et par « voir », entendez « comprendre ».
3:01 - 3:07

En fait, Mère Nature a travaillé dur
540 millions d'années
3:07 - 3:09

pour accomplir cette tâche,
3:09 - 3:11

et le plus gros de cet effort a été
3:11 - 3:17

le développement de l'appareil
qui produit la vision dans notre cerveau,
3:17 - 3:19

pas les yeux.
3:19 - 3:22

La vision commence avec les yeux,
3:22 - 3:26

mais tout se passe en fait dans le cerveau.
3:26 - 3:31

Depuis maintenant 15 ans, d'abord en thèse à Caltech
3:31 - 3:34

puis à la tête du Vision Lab à Stanford,
3:34 - 3:39

je travaille avec mes mentors,
collaborateurs et étudiants
3:39 - 3:42

pour apprendre la vision aux ordinateurs.
3:43 - 3:46

Il s'agit de vision par ordinateur et
d'apprentissage machine.
3:46 - 3:50

C'est un pan de la recherche sur
l'intelligence artificielle.
3:51 - 3:56

Le but est d'enseigner aux machines
à voir comme nous :
3:56 - 4:02

nommer des objets, identifier des gens,
déduire des formes géométriques 3D,
4:02 - 4:08

comprendre les relations, les émotions,
les actions et les intentions.
4:08 - 4:14

Nous tissons constamment des histoires
de gens, d'endroits, de choses
4:14 - 4:16

dès que nous posons les yeux dessus.
4:17 - 4:23

Le premier pas est d'apprendre
à l'ordinateur à voir des objets,
4:23 - 4:26

c'est l'élément de base du monde visuel.
4:26 - 4:30

Pour parler simplement, imaginez
que ce processus d'apprentissage
4:30 - 4:33

consiste à montrer à l'ordinateur
4:33 - 4:37

des images d'un certain objet,
par exemple des chats,
4:37 - 4:41

puis concevoir un modèle
qui puisse apprendre avec ces images.
4:41 - 4:43

Ça ne doit pas être bien difficile !
4:43 - 4:47

Après tout, un chat est un ensemble
de formes et de couleurs.
4:47 - 4:52

Au début de la modélisation objet,
c'est ce que nous avons fait.
4:52 - 4:55

On rentrait un algorithme
en langage mathématique
4:55 - 4:59

pour dire que le chat a un visage rond,
un corps un peu dodu,
4:59 - 5:01

deux oreilles pointues et une longue queue
5:01 - 5:02

et tout allait bien.
5:03 - 5:05

Mais que fait-on pour celui-ci ?
5:05 - 5:06

(Rires)
5:06 - 5:08

Il est tout retourné.
5:08 - 5:12

Alors il faut ajouter d'autres formes
et points de vue au modèle objet.
5:12 - 5:14

Et si le chat est caché ?
5:15 - 5:17

Et ces drôles de chats-là ?
5:19 - 5:22

Vous voyez ce que je veux dire.
5:22 - 5:25

Quelque chose d'aussi simple
qu'un animal domestique
5:25 - 5:29

présente une infinité de variations
du modèle objet.
5:29 - 5:32

Et ça n'est qu'un seul objet.
5:33 - 5:35

Il y a environ 8 ans,
5:35 - 5:40

une réflexion toute simple mais profonde
a changé ma manière de penser.
5:41 - 5:44

Personne ne dit à un enfant comment voir,
5:44 - 5:46

surtout dans les premières années.
5:46 - 5:51

Il apprend par l'expérience,
par des exemples quotidiens.
5:51 - 5:54

Pensez aux yeux d'un enfant
5:54 - 5:57

comme à deux appareils photo biologiques
5:57 - 6:01

qui prennent une photo
chaque 200 millisecondes,
6:01 - 6:04

la durée moyenne du mouvement de l’œil.
6:04 - 6:10

A 3 ans, un enfant a vu
des centaines de millions de photos
6:10 - 6:11

du monde réel.
6:11 - 6:14

Ça nous fait beaucoup d'exemples.
6:14 - 6:20

Alors plutôt que se concentrer
sur l'amélioration des algorithmes,
6:20 - 6:26

mon idée a été de former les algorithmes
avec le genre de données
6:26 - 6:29

qu'un enfant reçoit par l'expérience
6:29 - 6:33

tant en quantité qu'en qualité
6:33 - 6:35

Une fois que nous avons compris ça,
6:35 - 6:38

nous savions qu'il fallait collecter
un ensemble de données
6:38 - 6:42

qui contienne bien plus d'images
que jamais auparavant,
6:42 - 6:45

peut-être des milliers de fois plus.
6:45 - 6:49

Avec le professeur Kai Li
de l'Université de Princeton,
6:49 - 6:54

nous avons donc lancé
le projet ImageNet en 2007.
6:54 - 6:57

Heureusement, ce n'était pas la peine
de se mettre une caméra sur la tête
6:57 - 6:59

et d'attendre plusieurs années.
6:59 - 7:01

Nous sommes allés sur Internet,
7:01 - 7:05

la plus grande mine de photos
que l'humain ait jamais créée.
7:05 - 7:08

Nous avons téléchargé
près d'un milliard d'images.
7:08 - 7:14

Des technologies de crowdsourcing
comme le Turc Mécanique d'Amazon
7:14 - 7:16

nous ont aidés à cataloguer les images.
7:16 - 7:21

A son plus haut, ImageNet a été
l'un des plus gros employeurs
7:21 - 7:24

du Turc Mécanique d'Amazon :
7:24 - 7:28

près de 50 000 employés
7:28 - 7:32

dans 167 pays
7:32 - 7:36

nous ont aidés
à nettoyer, trier, étiqueter
7:36 - 7:40

presque un milliard d'images.
7:41 - 7:43

C'est vous dire l'effort entrepris
7:43 - 7:47

pour capturer une fraction des images
7:47 - 7:51

qu'un enfant stocke
pendant ses premières années.
7:52 - 7:56

Aujourd'hui, cette idée
d'utiliser ces masses de données
7:56 - 8:01

pour construire des algorithmes
peut paraître évidente,
8:01 - 8:05

mais pas en 2007.
8:05 - 8:09

Pendant longtemps, nous étions bien seuls.
8:09 - 8:14

Des collègues me conseillaient de trouver
autre chose pour devenir titulaire,
8:14 - 8:18

et c'était une bataille constante
pour trouver des crédits de recherche.
8:18 - 8:20

Je disais en plaisantant à mes étudiants
8:20 - 8:24

que je pourrais reprendre ma laverie
pour financer ImageNet.
8:24 - 8:29

Après tout, j'avais financé mes études
grâce à elle.
8:29 - 8:31

Mais nous avons continué.
8:31 - 8:35

En 2009, le projet ImageNet avait
8:35 - 8:39

une base de données
de 15 millions d'images,
8:39 - 8:44

22 000 classes d'objets et de choses
8:44 - 8:47

organisées avec des mots d'anglais
du quotidien.
8:47 - 8:50

Tant en quantité qu'en qualité,
8:50 - 8:53

une telle échelle de grandeur
était une première.
8:53 - 8:56

Par exemple, les chats,
8:56 - 8:59

nous avons plus de 62 000 chats,
8:59 - 9:03

toutes sortes d'apparences et de poses,
9:03 - 9:08

toutes les espèces,
domestiques et sauvages.
9:08 - 9:12

C'était formidable d'avoir bâti ImageNet,
9:12 - 9:16

et nous voulions en faire profiter
le monde de la recherche.
9:16 - 9:20

Alors, à la manière de TED,
nous avons donné l'accès aux données
9:20 - 9:23

à la recherche, gratuitement
et dans le monde entier.
9:24 - 9:29

(Applaudissements)
9:29 - 9:34

Maintenant que nous avons les données
pour nourrir notre cerveau informatique,
9:34 - 9:38

nous pouvons revenir sur les algorithmes.
9:38 - 9:43

Il se trouve que la manne d'informations
désormais dans ImageNet
9:43 - 9:48

allait parfaitement avec
un certain type d'algorithmes,
9:48 - 9:50

le réseau de neurones à convolution,
9:50 - 9:55

développé par Kunihiko Fukushima,
Geoff Hinton et Yann LeCun
9:55 - 9:59

dans les années 1970 et 80.
9:59 - 10:05

Tout comme le cerveau est composé
de milliards de neurones connectés,
10:05 - 10:08

l'unité de base d'un réseau neuronal
10:08 - 10:11

est le nœud de type neurone.
10:11 - 10:13

Il reçoit des informations d'autres nœuds
10:13 - 10:16

et en envoie à d'autres.
10:16 - 10:21

De plus, ces centaines de milliers
voire millions de nœuds
10:21 - 10:24

sont organisés en couches hiérarchiques,
10:24 - 10:27

similaires au cerveau.
10:27 - 10:31

Dans le réseau neuronal classique
que nous utilisons,
10:31 - 10:35

il y a 24 millions de nœuds,
10:35 - 10:38

140 millions de paramètres,
10:38 - 10:41

et 15 milliards de connexions.
10:41 - 10:43

C'est un modèle énorme.
10:43 - 10:47

Avec la puissance des données d'ImageNet
10:47 - 10:52

et les processeurs modernes
pour traiter cet énorme modèle,
10:52 - 10:55

le réseau de neurones à convolution
10:55 - 10:58

s'est transformé de manière inattendue.
10:58 - 11:01

Il est devenu l'architecture idéale
11:01 - 11:06

pour générer des résultats fabuleux
en reconnaissance d'objets.
11:06 - 11:09

Ceci est un ordinateur qui nous dit
11:09 - 11:11

que la photo contient un chat
11:11 - 11:13

et où est ce chat.
11:13 - 11:15

Bien sûr, il y a
autre chose que des chats.
11:15 - 11:18

Ici un algorithme nous dit
11:18 - 11:21

que la photo contient un garçon
et un ours en peluche,
11:21 - 11:25

un chien, une personne,
et un cerf-volant en arrière-plan.
11:25 - 11:28

Ici, beaucoup d'activités
11:28 - 11:33

avec un homme, un skateboard, une rampe,
un lampadaire, etc.
11:33 - 11:38

Parfois l'ordinateur n'est pas trop sûr,
11:39 - 11:42

nous lui avons appris à être
assez intelligent
11:42 - 11:46

pour donner une réponse sûre,
sans trop s'engager,
11:46 - 11:48

c'est ce que nous ferions.
11:48 - 11:53

D'autres fois, l'algorithme
a la capacité incroyable
11:53 - 11:55

de nous dire exactement
ce qu'est l'objet :
11:55 - 11:59

marque, modèle, année d'une voiture.
11:59 - 12:04

Nous avons utilisé cet algorithme sur
des millions d'images Google Street View,
12:04 - 12:07

dans des centaines de villes américaines,
12:07 - 12:10

et nous avons découvert
quelque chose de très intéressant.
12:10 - 12:14

D'abord, il a été confirmé
12:14 - 12:17

que le prix des voitures
12:17 - 12:19

et le revenu des foyers sont liés.
12:19 - 12:23

Mais, étonnamment, le prix des voitures
12:23 - 12:26

et le taux de crimes dans les villes
sont également liés,
12:27 - 12:31

même chose avec la répartition
géographique des votes.
12:32 - 12:34

Attendez un peu... c'est tout ?
12:34 - 12:39

Est-ce que l'ordinateur atteint,
voire surpasse, les capacités humaines ?
12:39 - 12:42

Pas si vite.
12:42 - 12:46

Jusque là, nous avons appris
aux ordinateurs à voir des objets,
12:46 - 12:51

comme un jeune enfant apprend
à prononcer quelques noms.
12:51 - 12:54

C'est déjà incroyable,
12:54 - 12:56

mais ce n'est que la première étape.
12:56 - 13:00

Bientôt, nous atteindrons un autre niveau,
13:00 - 13:03

l'enfant commence à faire des phrases.
13:03 - 13:08

Au lieu de dire que
c'est un chat sur la photo,
13:08 - 13:13

comme nous l'a dit la petite fille
tout à l'heure.
13:13 - 13:18

Pour apprendre à l'ordinateur à générer
des phrases à partir d'une photo,
13:18 - 13:22

le mariage entre les données
et l'algorithme d'apprentissage
13:22 - 13:25

doit franchir une autre étape.
13:25 - 13:29

L'ordinateur doit apprendre
à partir des photos,
13:29 - 13:32

en utilisant des phrases
en langage naturel
13:32 - 13:35

générée par l'être humain.
13:35 - 13:39

Tout comme le cerveau
combine vision et langage,
13:39 - 13:44

notre modèle connecte
les parties de choses visuelles,
13:44 - 13:46

des petits bouts visuels,
13:46 - 13:50

avec des mots ou groupes de mots,
pour en faire des phrases.
13:50 - 13:53

Il y a environ 4 mois,
13:53 - 13:56

nous avons enfin réussi
13:56 - 13:59

à créer l'un des premiers
modèles de vision artificielle
13:59 - 14:03

capagle de générer une phrase
comme un être humain
14:03 - 14:07

qui découvre une image.
14:07 - 14:12

Aujourd'hui, je suis prête à vous montrer
ce que dit l'ordinateur
14:12 - 14:14

quand il voit la photo
14:14 - 14:17

que la petite fille voyait tout à l'heure.
14:20 - 14:23

(Vidéo) L'ordinateur :
Un homme est debout à coté d'un éléphant.
14:24 - 14:28

Un grand avion est assis
sur une piste d'aéroport.
14:29 - 14:33

FFL : Bien sûr, il y a encore
beaucoup de travail sur les algorithmes,
14:33 - 14:36

l'ordinateur a encore
beaucoup à apprendre,
14:36 - 14:38

(Applaudissements)
14:40 - 14:43

et il fait encore des erreurs.
14:43 - 14:46

(Vidéo) Ordinateur : un chat est couché
sur un lit dans une couverture.
14:46 - 14:49

FFL : Bien sûr, s'il voit trop de chats,
14:49 - 14:52

il pense que tout
est peut-être un chat.
14:53 - 14:56

(Vidéo) Ordinateur : un garçon
tient une batte de base-ball.
14:56 - 14:58

(Rires)
14:58 - 15:03

FFL : Ou alors, s'il n'a jamais vu
de brosse à dents, elle devient une batte.
15:03 - 15:07

(Vidéo) Ordinateur : Un homme se promène
à cheval près d'un bâtiment.
15:07 - 15:09

(Rires)
15:09 - 15:12

Nous n'avons pas enseigné
l'histoire de l'art à l'ordinateur.
15:14 - 15:17

(Vidéo) L'ordinateur : Un zèbre
se trouve dans un pré.
15:17 - 15:20

FFL : Et il ne sait pas apprécier
la beauté de la nature
15:20 - 15:22

comme vous et moi.
15:22 - 15:25

Ça a donc été un long voyage.
15:25 - 15:30

Aller de 0 à 3 ans a été difficile.
15:30 - 15:35

Le vrai défi est d'aller de 3 à 13
et bien au-delà.
15:35 - 15:39

Revoici l'image du garçon avec le gâteau.
15:39 - 15:44

Jusque là, nous avons appris
à l'ordinateur à voir des objets
15:44 - 15:48

ou à créer une petite histoire
d'après une photo.
15:48 - 15:52

(Vidéo) L'ordinateur : Une personne
assise à une table avec un gâteau.
15:52 - 15:54

FFL : Mais il y a beaucoup plus
15:54 - 15:56

qu'une personne et un gâteau.
15:56 - 16:01

Ce que l'ordinateur ne voit pas
est que c'est un gâteau italien spécial
16:01 - 16:04

servi uniquement à Pâques.
16:04 - 16:07

Le garçon porte son t-shirt préféré,
16:07 - 16:11

celui que lui a offert son père
après un voyage à Sydney,
16:11 - 16:15

et vous et moi voyons bien
à quel point il est heureux
16:15 - 16:18

et ce qu'il pense à ce moment.
16:19 - 16:22

C'est mon fils Léo.
16:22 - 16:25

Au cours de ma quête
de l'intelligence visuelle,
16:25 - 16:27

Léo était constamment dans mes pensées
16:27 - 16:30

ainsi que le monde dans lequel il vivra.
16:30 - 16:32

Quand les machines pourront voir,
16:32 - 16:37

les médecins et infirmières auront
une paire d'yeux infatigables en plus
16:37 - 16:41

pour les aider au diagnostic
et au soin des patients.
16:41 - 16:45

Les voitures seront plus intelligentes
et plus sûres.
16:45 - 16:48

Des robots, pas seulement des humains,
16:48 - 16:53

nous aideront à sauver des vies
dans des zones sinistrées.
16:54 - 16:58

Nous découvrirons de nouvelles espèces,
de meilleurs matériaux,
16:58 - 17:02

nous explorerons d'autres frontières,
avec l'aide des machines.
17:03 - 17:07

Petit à petit, nous donnons la vue
aux machines.
17:07 - 17:10

D'abord nous leur apprenons à voir.
17:10 - 17:13

Puis c'est elles
qui nous aident à mieux voir.
17:13 - 17:17

Pour la première fois, les yeux humains
ne seront pas les seuls
17:17 - 17:20

à questionner et explorer notre monde.
17:20 - 17:23

En plus d'utiliser les machines
pour leur intelligence,
17:23 - 17:30

nous collaborerons avec elles
de manière inédite.
17:30 - 17:32

C'est ma quête :
17:32 - 17:34

donner aux ordinateurs
l'intelligence visuelle
17:34 - 17:40

et créer un meilleur avenir
pour Léo et pour le monde.
17:40 - 17:41

Merci.
17:41 - 17:45

(Applaudissements)

Title:: Comment apprendre aux ordinateurs à comprendre des images
Speaker:: Fei-Fei Li
Description:: Quand un tout jeune enfant regarde une photo, il peut identifier des éléments simples : un chat, un livre, une chaise. Aujourd'hui, les ordinateurs sont assez intelligents pour faire la même chose.

Et après ? Dans cette passionnante conférence, la spécialiste en vision par ordinateur Fei-Fei Li décrit où nous en sommes : la base de données de 15 millions de photos mise en place par son équipe pour « enseigner » à un ordinateur à comprendre des photos, et un aperçu de ce qui reste encore à faire.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	eric vautier approved French subtitles for How we're teaching computers to understand pictures
	eric vautier edited French subtitles for How we're teaching computers to understand pictures
	eric vautier edited French subtitles for How we're teaching computers to understand pictures
	eric vautier edited French subtitles for How we're teaching computers to understand pictures
	Rania Nakhli accepted French subtitles for How we're teaching computers to understand pictures
	Rania Nakhli edited French subtitles for How we're teaching computers to understand pictures
	Rania Nakhli edited French subtitles for How we're teaching computers to understand pictures
	eric vautier rejected French subtitles for How we're teaching computers to understand pictures

Show all

French subtitles

Revisions

Revision 51 Edited

eric vautier

Comment apprendre aux ordinateurs à comprendre des images

Revisions

Our website uses cookies

Operating cookies (Required)