1
00:00:00,480 --> 00:00:04,245
Chez Google, l'équipe que je dirige
travaille sur l'intelligence artificielle,

2
00:00:04,269 --> 00:00:08,620
c'est-à-dire à créer
des ordinateurs et des appareils

3
00:00:08,644 --> 00:00:11,502
capables de faire une partie
de ce que fait le cerveau.

4
00:00:11,526 --> 00:00:14,461
Nous sommes donc très intéressés
par les vrais cerveaux

5
00:00:14,485 --> 00:00:15,785
ainsi que la neuroscience,

6
00:00:15,809 --> 00:00:20,128
en particulier les choses
que nos cerveaux font

7
00:00:20,152 --> 00:00:25,200
avec une performance bien supérieure
à celle des ordinateurs.

8
00:00:25,224 --> 00:00:28,730
Historiquement, un de ces domaines
est la perception,

9
00:00:28,754 --> 00:00:31,761
le processus permettant
aux choses du monde,

10
00:00:31,785 --> 00:00:33,339
les sons et les images,

11
00:00:33,363 --> 00:00:36,296
de devenir des concepts dans notre esprit.

12
00:00:36,320 --> 00:00:38,925
C'est essentiel pour nos propres cerveaux

13
00:00:38,949 --> 00:00:41,509
et est très utile pour un ordinateur.

14
00:00:41,533 --> 00:00:44,772
Les algorithmes de perception
des machines, comme ceux de mon équipe,

15
00:00:44,796 --> 00:00:48,898
nous permettent de rechercher
des images sur Google

16
00:00:48,922 --> 00:00:51,733
selon ce qu'elles représentent.

17
00:00:51,757 --> 00:00:55,225
Le revers de la perception
est la créativité :

18
00:00:55,249 --> 00:00:58,371
transformer un concept
en un objet du monde extérieur.

19
00:00:58,395 --> 00:01:01,734
Au cours de l'année, notre travail
sur la perception des machines

20
00:01:01,758 --> 00:01:06,608
a été lié, de façon inattendue,
au monde de la créativité des machines

21
00:01:06,632 --> 00:01:08,746
et de l'art des machines.

22
00:01:08,770 --> 00:01:11,957
Je pense que Michel-Ange
avait une vision perspicace

23
00:01:11,981 --> 00:01:16,147
de cette double relation
entre la perception et la créativité.

24
00:01:16,171 --> 00:01:18,454
Voici une de ses citations connue :

25
00:01:18,478 --> 00:01:22,005
« Chaque bloc de pierre
renferme une statue

26
00:01:22,029 --> 00:01:26,245
et c'est le rôle du sculpteur
de la découvrir. »

27
00:01:26,269 --> 00:01:29,431
Je pense que ce que Michel-Ange
voulait exprimer

28
00:01:29,455 --> 00:01:32,458
c'est que nous créons
ce que nous perçevons

29
00:01:32,482 --> 00:01:35,744
et que cette perception est elle-même
un acte d'imagination

30
00:01:35,768 --> 00:01:38,756
et est le produit de la créativité.

31
00:01:38,780 --> 00:01:42,700
L'organe qui pense et perçoit et imagine

32
00:01:42,724 --> 00:01:45,249
est, bien-sûr, le cerveau.

33
00:01:45,273 --> 00:01:47,579
Et j'aimerais commencer
avec une brève histoire

34
00:01:47,603 --> 00:01:50,475
de ce que nous savons sur le cerveau.

35
00:01:50,499 --> 00:01:53,120
Car, contrairement au cœur
ou aux intestins,

36
00:01:53,144 --> 00:01:56,189
on ne peut pas dire grand chose
sur le cerveau en le regardant,

37
00:01:56,213 --> 00:01:58,101
tout du moins pas à l’œil nu.

38
00:01:58,125 --> 00:02:00,458
Les premiers anatomistes
qui ont étudié le cerveau

39
00:02:00,482 --> 00:02:04,248
ont donné aux structures superficielles
des tas de jolis noms

40
00:02:04,272 --> 00:02:06,708
tels que l'hippocampe,
soit « petit champignon ».

41
00:02:06,732 --> 00:02:08,884
Bien-sûr, ce genre de choses
ne nous dit pas

42
00:02:08,908 --> 00:02:12,691
ce qu'il se passe à l'intérieur.

43
00:02:12,715 --> 00:02:16,410
La première personne qui, à mon avis,
s'est fait une idée

44
00:02:16,434 --> 00:02:18,389
de ce qu'il se passait dans le cerveau

45
00:02:18,413 --> 00:02:22,352
était le neuroanatomiste espagnol,
Santiago Ramón y Cajal,

46
00:02:22,376 --> 00:02:23,891
au 19ème siècle.

47
00:02:23,915 --> 00:02:27,686
Il a utilisé la microscopie
et des colorants spéciaux

48
00:02:27,710 --> 00:02:31,677
qui pouvaient colorer
ou créer un fort contraste

49
00:02:31,701 --> 00:02:34,232
dans les différentes cellules du cerveau

50
00:02:34,256 --> 00:02:37,380
afin de commencer
à comprendre leur morphologie.

51
00:02:37,404 --> 00:02:40,850
Il a fait ce genre de dessins
représentant les neurones

52
00:02:40,874 --> 00:02:42,042
au 19ème siècle.

53
00:02:42,066 --> 00:02:44,000
Ceci est un cerveau d'oiseau.

54
00:02:44,024 --> 00:02:46,869
Vous voyez cette incroyable diversité
de type de cellules,

55
00:02:46,893 --> 00:02:50,564
même la théorie cellulaire
était relativement nouvelle à l'époque.

56
00:02:50,588 --> 00:02:51,876
Ces structures,

57
00:02:51,900 --> 00:02:54,160
ces cellules avec ces arborisations,

58
00:02:54,184 --> 00:02:56,518
ces branches parcourant
de très grandes distances,

59
00:02:56,542 --> 00:02:58,830
tout cela était nouveau à l'époque.

60
00:02:58,854 --> 00:03:01,938
Elles nous rappellent des câbles.

61
00:03:01,962 --> 00:03:05,491
Au 19ème siècle, cela semblait
peut-être évident à certains :

62
00:03:05,516 --> 00:03:09,825
la révolution du câblage électrique
venait de commencer.

63
00:03:09,850 --> 00:03:11,100
Mais de bien des façons,

64
00:03:11,124 --> 00:03:14,715
ces dessins micro-anatomiques
de Ramón y Cajal, comme celui-ci,

65
00:03:14,739 --> 00:03:17,065
n'ont toujours pas été surpassés.

66
00:03:17,089 --> 00:03:18,392
Plus d'un siècle plus tard,

67
00:03:18,416 --> 00:03:21,684
nous essayons toujours de finir
le travail entamé par Ramón y Cajal.

68
00:03:21,709 --> 00:03:24,381
Voici des données brutes
venant de nos collaborateurs

69
00:03:24,405 --> 00:03:28,216
à l'Institut de Neuroscience Max Planck.

70
00:03:28,240 --> 00:03:31,688
Nos collaborateurs ont imagé

71
00:03:31,712 --> 00:03:34,798
de petits morceaux de tissu cérébral.

72
00:03:34,822 --> 00:03:37,983
L'échantillon fait environ
un millimètre cube

73
00:03:38,007 --> 00:03:40,494
et je vous en montre
un très petite portion.

74
00:03:40,518 --> 00:03:42,706
Le trait sur la gauche
fait environ un micron.

75
00:03:42,731 --> 00:03:45,282
Les structures que vous voyez
sont des mitochondries

76
00:03:45,306 --> 00:03:47,364
faisant la taille d'une bactérie.

77
00:03:47,388 --> 00:03:49,205
Voici des coupes consécutives

78
00:03:49,229 --> 00:03:52,480
de ce très petit bloc de tissu.

79
00:03:52,504 --> 00:03:54,563
Si vous voulez comparer,

80
00:03:54,587 --> 00:03:58,637
le diamètre moyen d'un cheveu
est d'environ 100 microns.

81
00:03:58,661 --> 00:04:01,729
Nous regardons quelque chose
de beaucoup plus petit qu'un cheveu.

82
00:04:01,753 --> 00:04:06,216
Avec ce genre de coupes séquentielles
en microscopie électronique,

83
00:04:06,240 --> 00:04:11,474
nous pouvons en faire des reconstructions
en 3D des neurones comme celle-ci.

84
00:04:11,498 --> 00:04:14,328
Cela ressemble à ce qu'a fait
Ramón y Cajal.

85
00:04:14,352 --> 00:04:18,807
Seuls quelques neurones s'allument,
sinon nous n'y verrions rien,

86
00:04:18,831 --> 00:04:19,992
Cela serait trop dense,

87
00:04:20,016 --> 00:04:21,880
trop rempli structures,

88
00:04:21,904 --> 00:04:25,473
de câbles connectant
les neurones entre eux.

89
00:04:25,497 --> 00:04:28,328
Ramón y Cajal était en avance
pour son époque

90
00:04:28,352 --> 00:04:30,888
et les progrès faits
dans la compréhension du cerveau

91
00:04:30,913 --> 00:04:33,443
ont avancé lentement
au cours des décades suivantes.

92
00:04:33,467 --> 00:04:36,353
Mais nous savions que les neurones
utilisaient l'électricité

93
00:04:36,377 --> 00:04:39,177
et, en 1945,
notre technologie était assez avancée

94
00:04:39,201 --> 00:04:42,106
pour entamer de vraies
expériences électrique sur des neurones

95
00:04:42,130 --> 00:04:44,879
pour mieux comprendre leur fonctionnement.

96
00:04:44,903 --> 00:04:49,164
C'est au même moment
que les ordinateurs furent inventés,

97
00:04:49,188 --> 00:04:52,279
dans l'idée de modéliser le cerveau ;

98
00:04:52,303 --> 00:04:55,173
une « machine intelligente »,
comme disait Alan Turing,

99
00:04:55,197 --> 00:04:57,937
un des pères de l'informatique.

100
00:04:57,961 --> 00:05:02,631
Warren McCulloch et Walter Pitts
ont regardé les dessins que Ramón y Cajal

101
00:05:02,655 --> 00:05:04,030
avait fait du cortex visuel

102
00:05:04,054 --> 00:05:06,008
et qui sont présentés ici.

103
00:05:06,032 --> 00:05:10,422
C'est le cortex qui traite
les images venant de l’œil.

104
00:05:10,446 --> 00:05:14,525
Pour eux, cela ressemblait
à un schéma électrique.

105
00:05:14,549 --> 00:05:18,245
Il y a de nombreux détails
dans leur schéma électrique

106
00:05:18,269 --> 00:05:19,551
qui ne sont pas exacts.

107
00:05:19,575 --> 00:05:22,347
Mais l'idée de base
selon laquelle le cortex visuel

108
00:05:22,371 --> 00:05:25,094
fonctionne comme une série
de composants électroniques

109
00:05:25,118 --> 00:05:27,419
relayant l'information
à la cascade suivante

110
00:05:27,443 --> 00:05:29,603
est globalement correcte.

111
00:05:29,627 --> 00:05:32,468
Considérons un instant

112
00:05:32,492 --> 00:05:36,077
ce qu'un modèle de traitement
d'information visuelle ferait.

113
00:05:36,101 --> 00:05:39,011
La tâche basique de perception

114
00:05:39,035 --> 00:05:42,915
est de prendre une image
comme celle-ci et de dire :

115
00:05:42,939 --> 00:05:44,473
« c'est un oiseau »,

116
00:05:44,497 --> 00:05:47,829
ce qui est, pour nous, très simple à faire
grâce à nos cerveaux.

117
00:05:47,838 --> 00:05:50,798
Mais vous devriez tous comprendre
que pour un ordinateur

118
00:05:50,822 --> 00:05:53,896
c'était quelque chose d'impossible
il y a quelques années.

119
00:05:53,920 --> 00:05:55,946
Le paradigme classique de l'informatique

120
00:05:55,970 --> 00:05:59,299
ne permet pas d'accomplir
cette tâche simplement.

121
00:05:59,323 --> 00:06:01,994
Ce qu'il se passe entre les pixels,

122
00:06:02,018 --> 00:06:05,964
entre l'image de l'oiseau
et le mot « oiseau »,

123
00:06:05,988 --> 00:06:08,506
c'est un ensemble
de neurones connectés entre eux

124
00:06:08,530 --> 00:06:11,083
à travers un réseau neuronal,
comme représenté ici.

125
00:06:11,107 --> 00:06:14,492
Ce réseau neuronal peut être biologique,
comme dans nos cortex visuels

126
00:06:14,516 --> 00:06:16,625
ou, de nos jours, nous avons la capacité

127
00:06:16,649 --> 00:06:19,951
de modéliser des réseaux neuronaux
en informatique.

128
00:06:19,975 --> 00:06:22,414
Je vais vous montrer
ce à quoi cela ressemble.

129
00:06:22,438 --> 00:06:25,778
Vous pouvez voir les pixels
comme la première couche de neurones,

130
00:06:25,802 --> 00:06:27,706
c'est ainsi que l’œil fonctionne :

131
00:06:27,730 --> 00:06:29,727
ce sont les neurones dans la rétine.

132
00:06:29,751 --> 00:06:31,806
Ils transmettent l'information

133
00:06:31,830 --> 00:06:34,542
couche après couche de neurones,

134
00:06:34,566 --> 00:06:37,500
tous connectés par des synapses
de différents poids.

135
00:06:37,524 --> 00:06:39,138
Le comportement de ce réseau

136
00:06:39,162 --> 00:06:42,470
est caractérisé par les forces
de toutes ces synapses.

137
00:06:42,494 --> 00:06:45,469
Elles caractérisent les propriétés
informatiques de ce réseau.

138
00:06:45,493 --> 00:06:46,862
Finalement,

139
00:06:46,886 --> 00:06:49,562
vous avez un neurone
ou un petit groupe de neurones

140
00:06:49,586 --> 00:06:51,715
qui s'allument et disent « oiseau ».

141
00:06:51,739 --> 00:06:54,939
Je vais représenter ces trois choses :

142
00:06:54,963 --> 00:06:59,482
les pixels en entrée et les synapses
du réseau neuronal,

143
00:06:59,506 --> 00:07:01,230
et l'oiseau, la sortie,

144
00:07:01,254 --> 00:07:04,715
avec trois variables : x, w et y.

145
00:07:04,739 --> 00:07:06,668
Il y a peut-être un million de x :

146
00:07:06,692 --> 00:07:08,604
un million de pixels par image.

147
00:07:08,628 --> 00:07:11,083
Il y a des milliards ou des billions de w

148
00:07:11,107 --> 00:07:14,398
qui représentent le poids de toutes
ces synapses du réseau neuronal.

149
00:07:14,422 --> 00:07:16,398
Et il y a très peu de y,

150
00:07:16,422 --> 00:07:18,467
de sorties présentes dans le réseau.

151
00:07:18,491 --> 00:07:21,143
« Oiseau » n'a que six lettres.

152
00:07:21,167 --> 00:07:24,496
Prétendons que la formule est simple :

153
00:07:24,520 --> 00:07:26,696
x « fois » w = y.

154
00:07:26,720 --> 00:07:28,690
Je mets fois entre guillements

155
00:07:28,714 --> 00:07:30,907
car ce qu'il se passe vraiment
est bien-sûr

156
00:07:30,931 --> 00:07:35,071
une série complexe
d'opérations mathématiques.

157
00:07:35,095 --> 00:07:36,412
C'est une équation.

158
00:07:36,436 --> 00:07:38,181
Il y a trois variables.

159
00:07:38,205 --> 00:07:41,092
Nous savons tous qu'avec une équation,

160
00:07:41,116 --> 00:07:45,115
vous pouvez trouver une variable
si vous connaissez les deux autres.

161
00:07:45,139 --> 00:07:48,134
Le problème de l'inférence,

162
00:07:48,159 --> 00:07:51,334
c'est-à-dire trouver
que la photo de l'oiseau est un oiseau,

163
00:07:51,359 --> 00:07:52,900
est le suivant :

164
00:07:52,925 --> 00:07:56,043
y est l'inconnue et w et x sont connus.

165
00:07:56,068 --> 00:07:58,451
Vous connaissez
le réseau neuronal et les pixels.

166
00:07:58,476 --> 00:08:01,620
Comme vous le voyez, c'est un problème
plutôt simple à résoudre.

167
00:08:01,644 --> 00:08:04,767
Vous multipliez deux par trois
et vous avez fini.

168
00:08:04,791 --> 00:08:07,073
Je vais vous montrer un réseau neuronal

169
00:08:07,097 --> 00:08:09,503
que nous avons créé récemment
et qui fait cela.

170
00:08:09,527 --> 00:08:12,984
Il tourne en temps réel
sur un téléphone portable,

171
00:08:13,008 --> 00:08:15,849
bien-sur, c'est génial en soi

172
00:08:15,873 --> 00:08:17,671
que les portables puissent faire

173
00:08:17,695 --> 00:08:20,668
des milliards et billions d'opérations
par seconde.

174
00:08:20,692 --> 00:08:22,357
Vous regardez un téléphone

175
00:08:22,381 --> 00:08:25,641
considérant à la suite
plusieurs images d'oiseaux

176
00:08:25,665 --> 00:08:28,648
et ne disant pas seulement
que c'est un oiseau

177
00:08:28,672 --> 00:08:32,940
mais identifiant l'espèce d'oiseau
avec un réseau de ce genre.

178
00:08:32,964 --> 00:08:34,738
Dans cette image,

179
00:08:34,761 --> 00:08:38,524
le x et le w sont connus
et le y est l'inconnue.

180
00:08:38,548 --> 00:08:41,013
Je fais abstraction
de la partie complexe, bien-sûr,

181
00:08:41,037 --> 00:08:44,935
qui est : comment trouver le w,

182
00:08:44,959 --> 00:08:47,154
le cerveau est-il capable
d'une telle chose ?

183
00:08:47,178 --> 00:08:49,619
Comment apprendre un tel modèle ?

184
00:08:49,643 --> 00:08:52,432
Ce processus d'apprentissage,
de recherche du w,

185
00:08:52,456 --> 00:08:55,065
si nous le faisons avec la simple équation

186
00:08:55,089 --> 00:08:57,102
dans laquelle nous utilisons des nombres,

187
00:08:57,126 --> 00:09:00,076
nous savons comment procéder : 6 = 2 x w,

188
00:09:00,100 --> 00:09:03,968
il suffit de diviser par 2 et c'est fini.

189
00:09:03,992 --> 00:09:06,650
Le problème est l'opérateur :

190
00:09:06,675 --> 00:09:07,919
la division.

191
00:09:07,944 --> 00:09:10,998
Nous utilisons la division
qui est l'inverse de la multiplication

192
00:09:11,023 --> 00:09:12,388
mais, comme je l'ai dit,

193
00:09:12,412 --> 00:09:15,122
nous ne faisons pas vraiment
une multiplication.

194
00:09:15,146 --> 00:09:18,426
C'est une opération très, très compliquée
et non-linéaire ;

195
00:09:18,450 --> 00:09:20,105
elle n'a pas d'inverse.

196
00:09:20,129 --> 00:09:23,128
Nous devons donc trouver un moyen
de résoudre l'équation

197
00:09:23,152 --> 00:09:25,153
sans opérateur de division.

198
00:09:25,177 --> 00:09:27,441
La méthode pour cela est assez simple :

199
00:09:27,465 --> 00:09:30,320
nous utilisons une ruse algébrique

200
00:09:30,344 --> 00:09:33,196
et déplaçons le six
de l'autre côté de l'équation.

201
00:09:33,220 --> 00:09:35,517
Il y a toujours une multiplication.

202
00:09:35,541 --> 00:09:39,205
Et ce zéro, voyons-le comme une erreur.

203
00:09:39,229 --> 00:09:41,712
En d'autres mots,
si nous résolvons bien w,

204
00:09:41,736 --> 00:09:43,329
l'erreur sera nulle.

205
00:09:43,354 --> 00:09:46,932
Si nous n'avons pas totalement raison,
l'erreur sera plus grande que zéro.

206
00:09:46,957 --> 00:09:50,398
Nous pouvons maintenant faire
des suppositions et minimiser l'erreur,

207
00:09:50,423 --> 00:09:52,744
ce que les ordinateurs
savent très bien faire.

208
00:09:52,768 --> 00:09:54,085
On fait une supposition :

209
00:09:54,110 --> 00:09:56,085
et si w = 0 ? Alors, l'erreur est de 6.

210
00:09:56,109 --> 00:09:58,699
Si w = 1 ? L'erreur est de 4.

211
00:09:58,723 --> 00:10:00,929
L'ordinateur peut alors
joueur à Marco Polo

212
00:10:00,953 --> 00:10:03,621
et atteindre une erreur proche de zéro.

213
00:10:03,645 --> 00:10:06,927
Il fait cela par des approximations
successives de w.

214
00:10:06,951 --> 00:10:10,728
Typiquement, il ne l'atteint jamais,
mais après une douzaine d'étapes,

215
00:10:10,752 --> 00:10:16,227
nous avons w = 2,999,
ce qui est assez proche.

216
00:10:16,251 --> 00:10:18,352
Voilà le processus d'apprentissage.

217
00:10:18,376 --> 00:10:21,006
Souvenez-vous que ce que nous avons fait

218
00:10:21,030 --> 00:10:25,187
c'est de prendre beaucoup
de x et de y connus

219
00:10:25,211 --> 00:10:28,758
et de cherche le w au milieu
via un procédé itératif.

220
00:10:28,782 --> 00:10:32,225
C'est exactement la même méthode que celle
par laquelle nous apprenons.

221
00:10:32,249 --> 00:10:34,523
Bébés, nous voyons de nombreuses images

222
00:10:34,547 --> 00:10:37,684
et on nous dit : « C'est un oiseau ;
ce n'en est pas un ».

223
00:10:37,708 --> 00:10:39,756
Avec le temps, grâce aux itérations,

224
00:10:39,780 --> 00:10:44,504
nous trouvons w,
nous résolvons ces connexions neuronales.

225
00:10:44,528 --> 00:10:47,469
Nous avons fixés x et w et recherché y ;

226
00:10:47,494 --> 00:10:49,458
c'est de la perception rapide, normale.

227
00:10:49,482 --> 00:10:51,224
Nous avons réussi à trouver w :

228
00:10:51,248 --> 00:10:53,228
c'est de l'apprentissage, plus complexe

229
00:10:53,253 --> 00:10:56,558
car nous devons minimiser l'erreur
en pratiquant beaucoup d'exemple.

230
00:10:56,583 --> 00:11:00,003
Il y a environ un an,
Alex Mordvintsev, de notre équipe,

231
00:11:00,027 --> 00:11:03,643
a décidé d'essayer de voir
ce qu'il se passe si nous cherchons x

232
00:11:03,667 --> 00:11:06,026
avec pour données un w et un y connus.

233
00:11:06,050 --> 00:11:08,784
En d'autres mots,
vous savez que c'est un oiseau

234
00:11:08,808 --> 00:11:11,997
et avez entraîné votre réseau neuronal
sur les oiseaux,

235
00:11:12,021 --> 00:11:15,067
mais qu'est-ce qu'une image d'oiseau ?

236
00:11:15,091 --> 00:11:19,808
Il s'avère qu'en utilisant la même
procédure de minimisation de l'erreur,

237
00:11:19,832 --> 00:11:23,109
cela est possible avec le réseau
entraîné à reconnaître les oiseaux

238
00:11:23,133 --> 00:11:26,966
et le résultat s'avère être :

239
00:11:30,276 --> 00:11:32,881
une image d'oiseaux.

240
00:11:32,905 --> 00:11:36,449
C'est une image d'oiseaux
entièrement générée par un réseau neuronal

241
00:11:36,473 --> 00:11:38,470
entraîné à reconnaître les oiseaux,

242
00:11:38,494 --> 00:11:42,004
simplement en cherchant x plutôt que y

243
00:11:42,028 --> 00:11:43,848
et ce par itérations.

244
00:11:43,872 --> 00:11:45,735
Un autre exemple amusant :

245
00:11:45,759 --> 00:11:49,166
ce travail a été fait
par Mike Tyka, de notre groupe,

246
00:11:49,190 --> 00:11:51,417
et il l'a appelé « Parade Animale ».

247
00:11:51,441 --> 00:11:54,314
Cela me rappelle un peu
les œuvres de William Kentridge

248
00:11:54,338 --> 00:11:56,515
où il fait des croquis, les efface,

249
00:11:56,540 --> 00:11:59,081
fait des croquis, les efface
et crée un film ainsi.

250
00:11:59,105 --> 00:12:04,719
Dans ce cas, Mike fait varier y
sur différents animaux dans un réseau créé

251
00:12:04,743 --> 00:12:07,363
pour reconnaître et distinguer
divers animaux entre eux.

252
00:12:07,387 --> 00:12:11,574
Vous obtenez cette métamorphose étrange,
à la Escher, d'un animal à un autre.

253
00:12:14,056 --> 00:12:18,660
Ici, lui et Alex ont essayé de réduire

254
00:12:18,684 --> 00:12:21,816
l'espace des y à seulement
deux dimensions,

255
00:12:21,840 --> 00:12:25,103
créant ainsi une carte
de l'espace de toutes les choses

256
00:12:25,127 --> 00:12:26,732
reconnues par le réseau.

257
00:12:26,756 --> 00:12:29,711
En faisant ce genre de synthèse
ou génération d'images

258
00:12:29,735 --> 00:12:30,938
sur toute cette surface,

259
00:12:30,962 --> 00:12:33,854
en faisant varier y sur la surface,
vous créez une carte,

260
00:12:33,878 --> 00:12:37,009
une carte visuelle de toutes les choses
que le réseau reconnaît.

261
00:12:37,033 --> 00:12:40,801
Les animaux sont tous là :
le tatou est juste là.

262
00:12:40,825 --> 00:12:43,156
Vous pouvez aussi le faire
avec d'autres réseaux.

263
00:12:43,180 --> 00:12:46,272
Voici un réseau créé
pour reconnaître les visages,

264
00:12:46,296 --> 00:12:48,444
pour distinguer différents visages.

265
00:12:48,468 --> 00:12:51,782
Nous lui donnons un y : moi,

266
00:12:51,806 --> 00:12:53,358
les paramètres de mon visage.

267
00:12:53,382 --> 00:12:55,153
Quand il cherche x,

268
00:12:55,177 --> 00:12:56,597
il génère cette image de moi

269
00:12:56,621 --> 00:13:01,903
assez folle, cubiste,
surréelle et psychédélique

270
00:13:01,927 --> 00:13:03,525
avec plusieurs points de vue.

271
00:13:03,549 --> 00:13:06,262
La raison pour laquelle
il y a plusieurs points de vue

272
00:13:06,287 --> 00:13:10,324
est que le réseau est conçu
pour se débarrasser de l'ambiguïté

273
00:13:10,348 --> 00:13:12,819
d'un visage pris
de tel ou tel point de vue,

274
00:13:12,843 --> 00:13:16,323
regardé avec tel ou tel éclairage.

275
00:13:16,347 --> 00:13:17,991
En faisant cette reconstruction,

276
00:13:18,015 --> 00:13:22,463
si vous n'utilisez pas d'image
ou de statistiques directrices,

277
00:13:22,487 --> 00:13:25,753
vous obtenez une confusion
de plusieurs points de vue

278
00:13:25,777 --> 00:13:27,884
car c'est ambiguë.

279
00:13:27,908 --> 00:13:32,021
Voici ce qu'il se passe si Alex
utilise son visage comme ligne directrice

280
00:13:32,045 --> 00:13:36,488
durant le processus d'optimisation
de la reconstruction de mon visage.

281
00:13:36,512 --> 00:13:38,479
Vous voyez que ce n'est pas parfait.

282
00:13:38,503 --> 00:13:40,158
Il y a encore beaucoup de travail

283
00:13:40,183 --> 00:13:42,970
pour optimiser
ce processus d'optimisation.

284
00:13:42,995 --> 00:13:45,940
Mais vous obtenez un visage plus cohérent

285
00:13:45,964 --> 00:13:48,801
en utilisant mon propre visage
comme guide.

286
00:13:48,825 --> 00:13:50,996
Pas besoin de commencer
avec une toile vierge

287
00:13:51,021 --> 00:13:52,345
ou avec du bruit blanc.

288
00:13:52,369 --> 00:13:53,685
Quand vous cherchez x,

289
00:13:53,710 --> 00:13:57,853
vous pouvez commencer avec un x
qui est lui-même une autre image.

290
00:13:57,877 --> 00:14:00,426
C'est le cas dans cette démonstration.

291
00:14:00,450 --> 00:14:04,503
C'est un réseau conçu pour catégoriser

292
00:14:04,527 --> 00:14:07,429
toutes sortes d'objets : structures
artificielles, animaux...

293
00:14:07,453 --> 00:14:10,279
Nous commençons avec une image de nuages

294
00:14:10,303 --> 00:14:11,864
et, en optimisant,

295
00:14:11,888 --> 00:14:16,995
ce réseau détermine
ce qu'il voit dans les nuages.

296
00:14:17,019 --> 00:14:19,413
Et plus vous y passez de temps,

297
00:14:19,437 --> 00:14:22,887
plus vous verrez de choses
dans les nuages.

298
00:14:22,911 --> 00:14:26,514
Vous pouvez utiliser le réseau entraîné
aux visages pour halluciner dessus

299
00:14:26,538 --> 00:14:28,223
et obtenir un truc assez fou.

300
00:14:28,247 --> 00:14:30,580
(Rires)

301
00:14:30,604 --> 00:14:33,060
Sinon, Mike a fait des expériences

302
00:14:33,084 --> 00:14:37,053
où il prend cette image de nuage,

303
00:14:37,077 --> 00:14:40,427
hallucine, zoome, hallucine,
zoome, hallucine, zoome.

304
00:14:40,451 --> 00:14:41,627
De cette façon,

305
00:14:41,651 --> 00:14:45,721
vous obtenez une fugue dissociative
du réseau, je suppose,

306
00:14:45,745 --> 00:14:49,155
ou une sorte d'association libre,

307
00:14:49,179 --> 00:14:51,682
dans laquelle le réseau se mord la queue.

308
00:14:51,706 --> 00:14:54,772
Chaque image est à la base de :

309
00:14:54,796 --> 00:14:56,336
« Que vois-je ensuite ?

310
00:14:56,360 --> 00:14:59,114
Que vois-je ensuite ?
Que vois-je ensuite ? »

311
00:14:59,138 --> 00:15:02,417
J'ai présenté cette image
pour la première fois

312
00:15:02,441 --> 00:15:07,922
à un groupe lors d'une conférence
à Seattle : « Enseignement Supérieur »,

313
00:15:07,946 --> 00:15:10,701
juste après la légalisation
de la marijuana.

314
00:15:10,725 --> 00:15:14,772
(Rires)

315
00:15:14,796 --> 00:15:18,449
J'aimerais finir en faisant remarquer

316
00:15:18,473 --> 00:15:21,138
que cette technologie n'est pas limitée.

317
00:15:21,162 --> 00:15:24,782
Je vous ai montré des exemples purement
visuels car ils sont amusants à voir.

318
00:15:24,806 --> 00:15:26,951
Cette technologie n'est pas
purement visuelle.

319
00:15:26,976 --> 00:15:29,220
Notre collaborateur artistique,
Ross Goodwin,

320
00:15:29,244 --> 00:15:32,680
a fait des expériences incluant
un appareil photo prenant une photo,

321
00:15:32,704 --> 00:15:34,875
puis un ordinateur dans son sac à dos

322
00:15:34,899 --> 00:15:37,221
écrit un poème
grâce aux réseaux de neurones,

323
00:15:37,245 --> 00:15:39,691
en se basant sur le contenu de l'image.

324
00:15:39,715 --> 00:15:41,887
Ce réseau neuronal poétique a été entraîné

325
00:15:41,911 --> 00:15:44,317
sur un large corpus
de poésie du 20ème siècle.

326
00:15:44,341 --> 00:15:47,735
Et la poésie est,
je crois, pas trop mauvaise.

327
00:15:47,759 --> 00:15:49,236
(Rires)

328
00:15:49,260 --> 00:15:50,446
Pour finir,

329
00:15:50,470 --> 00:15:53,520
je pense que Michel-Ange avait raison :

330
00:15:53,544 --> 00:15:57,379
la perception et la créativité
sont intimement liées.

331
00:15:57,403 --> 00:16:00,462
Nous avons vu des réseaux neuronaux

332
00:16:00,486 --> 00:16:03,293
entraînés à discriminer ou à reconnaître

333
00:16:03,317 --> 00:16:04,907
différentes choses du monde

334
00:16:04,931 --> 00:16:07,914
et capable de fonctionner à l'envers,
de générer.

335
00:16:07,938 --> 00:16:09,776
Une des choses qui me laissent penser

336
00:16:09,800 --> 00:16:12,318
que Michel-Ange n'a pas seulement vu

337
00:16:12,342 --> 00:16:14,679
la sculpture dans le bloc de pierre

338
00:16:14,703 --> 00:16:18,356
mais aussi que toute créature,
tout être, tout extraterreste

339
00:16:18,380 --> 00:16:22,032
qui est capable de faire
de telles actions perceptives

340
00:16:22,056 --> 00:16:23,685
est aussi capable de créer

341
00:16:23,709 --> 00:16:27,005
puisque c'est le même mécanisme
qui est utilisé dans les deux cas.

342
00:16:27,029 --> 00:16:31,208
Je pense aussi que la perception
et la créativité ne sont aucunement

343
00:16:31,232 --> 00:16:32,582
propres à l'humain.

344
00:16:32,606 --> 00:16:35,946
Des modèles informatiques
capables de ces mêmes choses apparaissent.

345
00:16:35,971 --> 00:16:39,438
Et cela ne sera pas une surprise :
le cerveau est un modèle informatique.

346
00:16:39,462 --> 00:16:41,198
Et finalement,

347
00:16:41,222 --> 00:16:43,751
l'informatique a commencé
comme un exercice

348
00:16:43,775 --> 00:16:46,023
pour créer une machine intelligente.

349
00:16:46,047 --> 00:16:48,078
Elle a été modélisée selon l'idée

350
00:16:48,102 --> 00:16:51,712
que nous pouvions rendre
des machines intelligentes.

351
00:16:51,736 --> 00:16:54,074
Aujourd'hui, nous commençons
enfin à accomplir

352
00:16:54,098 --> 00:16:56,271
certaines des promesses de ces pionniers :

353
00:16:56,296 --> 00:16:58,577
de Turing à von Neumann

354
00:16:58,601 --> 00:17:00,230
et McCulloch et Pitts.

355
00:17:00,254 --> 00:17:04,282
Et je crois que l'informatique
n'est pas simplement compter

356
00:17:04,307 --> 00:17:06,387
ou jouer à Candy Crush et autres.

357
00:17:06,412 --> 00:17:09,031
Dès le début, nous l'avons modélisée
selon nos cerveaux.

358
00:17:09,056 --> 00:17:12,303
Et elle nous donne la capacité
de mieux comprendre nos cerveaux

359
00:17:12,327 --> 00:17:14,615
et de les étendre.

360
00:17:14,638 --> 00:17:15,990
Merci beaucoup.

361
00:17:16,015 --> 00:17:20,993
(Applaudissements)