1
00:00:00,800 --> 00:00:03,924
Я возглавляю команду в Google, 
работающую над машинным интеллектом,

2
00:00:03,948 --> 00:00:08,598
другими словами, занимающуюся инженерией, 
созданием компьютеров и устройств,

3
00:00:08,622 --> 00:00:11,041
способных делать то, что делает наш мозг.

4
00:00:11,439 --> 00:00:14,538
Мы не можем не интересоваться
настоящей мозговой деятельностью,

5
00:00:14,562 --> 00:00:15,851
а также неврологией.

6
00:00:15,875 --> 00:00:20,047
И особенно нас интересуют действия
нашего мозга,

7
00:00:20,071 --> 00:00:24,113
в которых он до сих пор превосходит
возможности компьютеров.

8
00:00:25,209 --> 00:00:28,818
Исторически одной из этих областей 
было восприятие —

9
00:00:28,842 --> 00:00:31,881
процесс, благодаря которому всё в мире,

10
00:00:31,905 --> 00:00:33,489
все звуки и изображения

11
00:00:33,513 --> 00:00:35,691
в нашем сознании превращаются в понятия.

12
00:00:36,235 --> 00:00:38,752
Это совершенно необходимо
для нашего разума,

13
00:00:38,776 --> 00:00:41,240
однако полезно и для компьютера.

14
00:00:41,636 --> 00:00:44,986
Например, наша команда создаёт 
машинные алгоритмы восприятия,

15
00:00:45,010 --> 00:00:48,884
которые позволяют вам находить
картинки на Google Photos по тому,

16
00:00:48,908 --> 00:00:50,305
что на них изображено.

17
00:00:51,594 --> 00:00:55,087
Обратная сторона восприятия — творчество:

18
00:00:55,111 --> 00:00:58,149
превращение задумки во что-то реальное.

19
00:00:58,173 --> 00:01:01,728
Таким образом, за прошедший год
наша работа над компьютерным восприятием

20
00:01:01,752 --> 00:01:06,611
также неожиданно стала связана
с миром компьютерного творчества

21
00:01:06,635 --> 00:01:07,795
и машинного искусства.

22
00:01:08,556 --> 00:01:11,840
Я считаю, что у Микеланджело 
было точное понимание

23
00:01:11,864 --> 00:01:15,520
двойственного отношения 
между восприятием и творчеством.

24
00:01:16,023 --> 00:01:18,029
Вот его известная цитата:

25
00:01:18,053 --> 00:01:21,376
«Внутри каждого камня скрыта статуя,

26
00:01:22,036 --> 00:01:25,038
задача скульптора — её обнаружить».

27
00:01:26,029 --> 00:01:29,245
Я думаю, что Микеланджело говорит о том,

28
00:01:29,269 --> 00:01:32,449
что мы создаём посредством восприятия,

29
00:01:32,473 --> 00:01:35,496
а само восприятие — это акт воображения

30
00:01:35,520 --> 00:01:37,981
и материал для творчества.

31
00:01:38,691 --> 00:01:42,616
Орган, который думает, 
воспринимает и представляет, —

32
00:01:42,640 --> 00:01:44,228
это, конечно же, мозг.

33
00:01:45,089 --> 00:01:47,634
Я хотел бы начать 
с небольшого экскурса в историю

34
00:01:47,658 --> 00:01:49,960
исследования нашего мозга.

35
00:01:50,496 --> 00:01:52,942
Потому что, в отличие
от сердца или кишечника,

36
00:01:52,966 --> 00:01:56,110
нельзя много сказать о мозге,
просто посмотрев на него

37
00:01:56,134 --> 00:01:57,546
невооружённым глазом.

38
00:01:57,983 --> 00:02:00,399
Первые анатомы, которые смотрели на мозги,

39
00:02:00,423 --> 00:02:04,230
давали поверхностной структуре 
этого óргана причудливые имена,

40
00:02:04,254 --> 00:02:06,687
например, гиппокамп, 
что означает «креветка».

41
00:02:06,711 --> 00:02:09,475
Но, конечно, такого рода наблюдения
мало говорят нам

42
00:02:09,499 --> 00:02:11,817
о происходящем внутри мозга.

43
00:02:12,780 --> 00:02:16,393
Первый человек, у которого действительно 
было некоторое понимание того,

44
00:02:16,417 --> 00:02:18,347
что происходит в мозге,

45
00:02:18,371 --> 00:02:22,291
был великий испанский нейрофизиолог 
Сантьяго Рамон-и-Кахаль,

46
00:02:22,315 --> 00:02:23,859
живший в XIX веке.

47
00:02:23,883 --> 00:02:27,638
Он использовал микроскоп 
и специальный краситель,

48
00:02:27,662 --> 00:02:31,832
который мог выборочно заполнить 
отдельные клетки мозга

49
00:02:31,856 --> 00:02:33,864
или придать им контрастность,

50
00:02:33,888 --> 00:02:37,042
чтобы понять их морфологию.

51
00:02:37,972 --> 00:02:40,863
А вот изображения нейронов, 
которые он нарисовал

52
00:02:40,887 --> 00:02:42,096
в XIX веке.

53
00:02:42,120 --> 00:02:44,004
Это нейроны мозга птицы.

54
00:02:44,028 --> 00:02:47,085
Вы видите здесь невероятное разнообразие
различных видов клеток,

55
00:02:47,109 --> 00:02:50,544
даже клеточная теория сама по себе
была в то время довольно нова.

56
00:02:50,568 --> 00:02:51,846
И эти структуры,

57
00:02:51,870 --> 00:02:54,129
эти клетки, которые имеют разветвления

58
00:02:54,153 --> 00:02:56,761
и эти очень длинные ответвления, —

59
00:02:56,785 --> 00:02:58,401
всё это было тогда очень ново.

60
00:02:58,779 --> 00:03:01,682
Они напоминают провода.

61
00:03:01,706 --> 00:03:05,163
Это могло быть очевидным
для некоторых людей в XIX веке:

62
00:03:05,187 --> 00:03:09,501
как раз начиналась электрификация.

63
00:03:09,964 --> 00:03:11,142
Но во многом

64
00:03:11,166 --> 00:03:14,479
такие микроанатомические зарисовки
Рамона-и-Кахаля

65
00:03:14,503 --> 00:03:16,835
всё ещё остаются непревзойдёнными.

66
00:03:16,859 --> 00:03:18,713
Мы до сих пор, более ста лет спустя,

67
00:03:18,737 --> 00:03:21,562
пытаемся закончить работу, 
начатую Рамоном-и-Кахалем.

68
00:03:21,586 --> 00:03:24,720
Это необработанные данные 
от наших коллег

69
00:03:24,744 --> 00:03:27,625
из Института Неврологии Макса Планка.

70
00:03:27,649 --> 00:03:29,439
Наши коллеги

71
00:03:29,463 --> 00:03:34,464
изобразили маленькие кусочки 
ткани головного мозга.

72
00:03:34,488 --> 00:03:37,814
Весь образец составляет примерно 
один кубический миллиметр,

73
00:03:37,838 --> 00:03:40,459
а я показываю вам 
очень маленький его кусочек.

74
00:03:40,483 --> 00:03:42,829
Та риска слева равна одному микрону.

75
00:03:42,853 --> 00:03:45,262
Структуры, которые вы видите, — 
это митохондрии,

76
00:03:45,286 --> 00:03:47,330
они размером с бактерию.

77
00:03:47,354 --> 00:03:48,905
А это последовательные срезы

78
00:03:48,929 --> 00:03:52,077
этого очень маленького кусочка ткани.

79
00:03:52,101 --> 00:03:54,504
Просто для сравнения:

80
00:03:54,528 --> 00:03:58,320
диаметр волоса в среднем составляет 
около 100 микрон.

81
00:03:58,344 --> 00:04:00,618
Мы здесь видим нечто гораздо меньшее,

82
00:04:00,642 --> 00:04:02,040
чем человеческий волос.

83
00:04:02,064 --> 00:04:06,095
Из этой серии микроскопических срезов

84
00:04:06,119 --> 00:04:11,127
можно начать делать 3D реконструкции
нейронов, похожие на эти.

85
00:04:11,151 --> 00:04:14,308
По стилю они похожи 
на рисунки Рамона-и-Кахаля.

86
00:04:14,332 --> 00:04:15,824
Отдельные нейроны подсвечены,

87
00:04:15,848 --> 00:04:18,629
иначе мы бы здесь ничего не увидели.

88
00:04:18,653 --> 00:04:19,965
Тут было бы полно́ всего,

89
00:04:19,989 --> 00:04:21,319
сплошные структуры

90
00:04:21,343 --> 00:04:24,067
и провода, соединяющие
один нейрон с другим.

91
00:04:25,293 --> 00:04:28,097
Итак, Рамон-и-Кахаль немного опережал 
своё время,

92
00:04:28,121 --> 00:04:30,676
и прогресс в понимании мозга 
продвигался медленно

93
00:04:30,700 --> 00:04:32,971
в течение следующих десятилетий.

94
00:04:33,455 --> 00:04:36,308
Но мы знали, 
что нейроны используют электричество,

95
00:04:36,332 --> 00:04:39,268
и ко Второй мировой войне
технологии были развиты достаточно,

96
00:04:39,292 --> 00:04:42,098
чтобы начать электрические
эксперименты на живых нейронах,

97
00:04:42,122 --> 00:04:44,228
чтобы лучше понимать, как они работают.

98
00:04:44,631 --> 00:04:48,987
Именно тогда изобрели компьютеры,

99
00:04:49,011 --> 00:04:52,111
во многом основанные на идее 
моделирования мозга,

100
00:04:52,135 --> 00:04:55,220
или «искусственного интеллекта», 
как называл его Алан Тьюринг,

101
00:04:55,244 --> 00:04:57,235
один из отцов информатики.

102
00:04:57,923 --> 00:05:02,555
Уоррен Мак-Каллок и Уолтер Питтс
посмотрели на рисунки Рамона-и-Кахаля.

103
00:05:02,579 --> 00:05:03,896
Сейчас я показываю вам

104
00:05:03,920 --> 00:05:05,482
это изображение зрительной коры.

105
00:05:05,506 --> 00:05:09,948
Эта кора головного мозга обрабатывает 
образы, поступающие от органов зрения.

106
00:05:10,424 --> 00:05:13,932
По их мнению это выглядело,
как замкнутая схема.

107
00:05:14,353 --> 00:05:18,188
В схеме Мак-Каллока и Питтса 
многие детали

108
00:05:18,212 --> 00:05:19,564
не совсем точны,

109
00:05:19,588 --> 00:05:20,823
но основная идея,

110
00:05:20,847 --> 00:05:24,839
что зрительная кора работает
как серия вычислительных элементов,

111
00:05:24,863 --> 00:05:27,609
которые каскадом передают 
друг другу информацию,

112
00:05:27,633 --> 00:05:29,235
по сути верна.

113
00:05:29,259 --> 00:05:31,609
Давайте немного поговорим о том,

114
00:05:31,633 --> 00:05:35,665
что должна делать модель обработки
визуальной информации.

115
00:05:36,228 --> 00:05:38,969
Основная задача распознавания —

116
00:05:38,993 --> 00:05:43,187
это взять картинку, 
такую как эта, и сказать:

117
00:05:43,211 --> 00:05:44,387
«Это птица».

118
00:05:44,411 --> 00:05:47,285
Для нашего мозга это простая задача,


119
00:05:47,309 --> 00:05:50,730
но вы должны понимать, 
что для компьютера

120
00:05:50,754 --> 00:05:53,841
всего несколько лет назад
подобное было почти невозможно.

121
00:05:53,865 --> 00:05:55,781
Согласно классической парадигме расчётов,

122
00:05:55,805 --> 00:05:58,312
это не то задание, 
которое можно выполнить легко.

123
00:05:59,366 --> 00:06:01,918
Так что же происходит между пикселями,

124
00:06:01,942 --> 00:06:05,970
между изображением птицы и словом «птица»?

125
00:06:05,994 --> 00:06:08,808
По сути, группа нейронов
связана друг с другом


126
00:06:08,832 --> 00:06:09,987
в нейронной сети,

127
00:06:10,011 --> 00:06:11,234
как я показываю здесь.

128
00:06:11,258 --> 00:06:14,530
Эта нейронная сеть в коре головного мозга
могла быть биологической,

129
00:06:14,554 --> 00:06:16,716
а в наше время мы можем

130
00:06:16,740 --> 00:06:19,194
смоделировать такую нейронную сеть 
на компьютере.

131
00:06:19,834 --> 00:06:22,187
И я вам покажу, как это выглядит.

132
00:06:22,211 --> 00:06:25,627
Поэтому о пикселях можно думать 
как о первом слое нейронов —

133
00:06:25,651 --> 00:06:27,890
именно так происходит в глазу —

134
00:06:27,914 --> 00:06:29,577
это нейроны в сетчатке.

135
00:06:29,601 --> 00:06:31,101
А остальные нейроны

136
00:06:31,125 --> 00:06:34,528
связаны по цепи слой за слоем,

137
00:06:34,552 --> 00:06:37,585
их соединяют между собой 
синапсы различных весов.

138
00:06:37,609 --> 00:06:38,944
Поведение этой сети

139
00:06:38,968 --> 00:06:42,252
характеризуется силой этих синапсов.

140
00:06:42,276 --> 00:06:45,564
Они характеризуют вычислительные 
свойства этой сети.

141
00:06:45,588 --> 00:06:47,058
В конце концов

142
00:06:47,082 --> 00:06:49,529
один или несколько нейронов

143
00:06:49,553 --> 00:06:51,200
загораются, говоря: «птица».

144
00:06:51,824 --> 00:06:54,956
Теперь я собираюсь представить
эти три вещи —

145
00:06:54,980 --> 00:06:59,676
входные пиксели и синапсы
в нейронной сети

146
00:06:59,700 --> 00:07:01,285
и, как результат, птицу

147
00:07:01,309 --> 00:07:04,366
при помощи трёх переменных: Х, W и Y.

148
00:07:04,853 --> 00:07:06,664
Существует миллион или около того X —

149
00:07:06,688 --> 00:07:08,641
миллион пикселей в изображении.

150
00:07:08,665 --> 00:07:11,111
Миллиарды или триллионы W —

151
00:07:11,135 --> 00:07:14,556
представляющих весá всех этих синапсов
в нейронной сети.

152
00:07:14,580 --> 00:07:16,455
И очень маленькое количество Y —

153
00:07:16,479 --> 00:07:18,337
значений на выходе сети.

154
00:07:18,361 --> 00:07:20,110
«Птица» же состоит всего из 5 букв.

155
00:07:21,088 --> 00:07:24,514
Давайте представим, 
что это простая формула:

156
00:07:24,538 --> 00:07:26,701
X «х» W = Y.

157
00:07:26,725 --> 00:07:28,761
Я ставлю умножение в кавычки,

158
00:07:28,785 --> 00:07:31,065
потому что на самом деле 
там просисходит

159
00:07:31,089 --> 00:07:34,135
очень сложная серия 
математических расчётов.

160
00:07:35,172 --> 00:07:36,393
Это одно уравнение

161
00:07:36,417 --> 00:07:38,089
с тремя переменными.

162
00:07:38,113 --> 00:07:40,839
И всем известно, 
что если у нас есть уравнение,

163
00:07:40,863 --> 00:07:44,505
то мы можем найти одну переменную,
зная две другие.

164
00:07:45,158 --> 00:07:48,538
Таким образом, задача

165
00:07:48,562 --> 00:07:51,435
по распознаванию птицы
в изображении птицы

166
00:07:51,459 --> 00:07:52,733
заключается в следующем:

167
00:07:52,757 --> 00:07:56,216
Y неизвестен, 
а W и X известны.

168
00:07:56,240 --> 00:07:58,699
Вы знаете нейронную сеть,
вы знаете пиксели.

169
00:07:58,723 --> 00:08:02,050
И как видите, это относительно 
простая задача.

170
00:08:02,074 --> 00:08:04,260
Вы умножаете два на три, и всё готово.

171
00:08:04,862 --> 00:08:06,985
Я покажу вам искусственную нейронную сеть,

172
00:08:07,009 --> 00:08:09,305
которую мы построили недавно,
делая то же самое.

173
00:08:09,634 --> 00:08:12,494
Она работает в реальном времени
на мобильном телефоне.

174
00:08:12,518 --> 00:08:15,831
Удивительно уже само по себе то,

175
00:08:15,855 --> 00:08:19,323
что мобильные телефоны могут выполнять 
миллиарды и триллионы операций

176
00:08:19,347 --> 00:08:20,595
в секунду.

177
00:08:20,619 --> 00:08:22,234
Мы видим телефон,

178
00:08:22,258 --> 00:08:25,805
который смотрит на изображение птиц
одно за другим

179
00:08:25,829 --> 00:08:28,544
и не только говорит: «Да, это птица»,

180
00:08:28,568 --> 00:08:31,979
но также через такую же сеть
определяет вид этой птицы.

181
00:08:32,890 --> 00:08:34,716
На этой картинке

182
00:08:34,740 --> 00:08:38,542
X и W известны, 
а Y неизвестен.

183
00:08:38,566 --> 00:08:41,074
Я, конечно, пропускаю
самую сложную часть —

184
00:08:41,098 --> 00:08:44,959
то, каким непостижимым образом 
мы находим W —

185
00:08:44,983 --> 00:08:47,170
мозг, который может это сделать.

186
00:08:47,194 --> 00:08:49,028
Сможем ли мы сделать такую модель?

187
00:08:49,418 --> 00:08:52,651
Этот процесс нахождения W,

188
00:08:52,675 --> 00:08:55,322
будь это простым уравнением,

189
00:08:55,346 --> 00:08:57,346
где мы думаем о неизвестных,
как о числах,

190
00:08:57,370 --> 00:09:00,057
мы бы знали, как именно это сделать: 
6 = 2 * W,

191
00:09:00,081 --> 00:09:03,393
делим на 2, и готово.

192
00:09:04,001 --> 00:09:06,221
Но проблема именно в этом преобразовании,

193
00:09:06,823 --> 00:09:07,974
в делении.

194
00:09:07,998 --> 00:09:11,119
Мы использовали его здесь, 
так как оно обратно умножению,

195
00:09:11,143 --> 00:09:12,583
но, как я сказал,

196
00:09:12,607 --> 00:09:15,056
умножение здесь — это фикция.

197
00:09:15,080 --> 00:09:18,406
Это чрезвычайно сложная 
нелинейная операция,

198
00:09:18,430 --> 00:09:20,134
она не имеет обратного действия.

199
00:09:20,158 --> 00:09:23,308
Мы должны найти способ 
решить это уравнение

200
00:09:23,332 --> 00:09:25,356
без деления.

201
00:09:25,380 --> 00:09:27,723
И способ довольно простой.

202
00:09:27,747 --> 00:09:30,418
Давайте проделаем маленький 
математический трюк

203
00:09:30,442 --> 00:09:33,348
и перенесём 6 в правую часть уравнения.

204
00:09:33,372 --> 00:09:35,198
Сейчас мы используем умножение.

205
00:09:35,675 --> 00:09:39,255
И этот ноль, 
давайте примем его за отклонение.

206
00:09:39,279 --> 00:09:41,794
Другими словами, 
если мы посчитаем W правильно,

207
00:09:41,818 --> 00:09:43,474
то отклонение будет равно нулю.

208
00:09:43,498 --> 00:09:45,436
А если мы посчитали неверно,

209
00:09:45,460 --> 00:09:47,209
то отклонение будет больше нуля.

210
00:09:47,233 --> 00:09:50,599
Теперь мы можем подбирать числа, 
чтобы минимизировать отклонение,

211
00:09:50,623 --> 00:09:53,310
а это как раз то, 
в чём компьютеры очень хороши.

212
00:09:53,334 --> 00:09:54,927
Сначала мы предположили:

213
00:09:54,951 --> 00:09:56,107
что если W = 0?

214
00:09:56,131 --> 00:09:57,371
Тогда отклонение равно 6.

215
00:09:57,395 --> 00:09:58,841
Если W = 1, то отклонение — 4.

216
00:09:58,865 --> 00:10:01,232
И потом компьютер начинает играть 
в «угадайку»

217
00:10:01,256 --> 00:10:03,623
и приближает отклонение к нулю.

218
00:10:03,647 --> 00:10:07,021
Так он приближается к верному значению W.

219
00:10:07,045 --> 00:10:10,701
Обычно он не находит точного решения,
но сделав с десяток шагов,

220
00:10:10,725 --> 00:10:15,349
мы приближаемся к W = 2,999,
что достаточно близко к истине.

221
00:10:16,302 --> 00:10:18,116
Это и есть процесс обучения.

222
00:10:18,140 --> 00:10:20,870
Напомню, что именно мы делаем:

223
00:10:20,894 --> 00:10:25,272
мы берём много известных X и Y

224
00:10:25,296 --> 00:10:28,750
и посредством процесса повторения
находим W.

225
00:10:28,774 --> 00:10:32,330
Мы сами учимся точно так же.

226
00:10:32,354 --> 00:10:34,584
В детстве мы встречаем множество образов,

227
00:10:34,608 --> 00:10:37,241
и нам говорят: 
«Это птица, а это не птица».

228
00:10:37,714 --> 00:10:39,812
Со временем через повторение

229
00:10:39,836 --> 00:10:42,764
мы находим W, то есть нейронные связи.

230
00:10:43,460 --> 00:10:47,546
Теперь у нас есть готовые X и W 
для нахождения Y

231
00:10:47,570 --> 00:10:49,417
и быстрого повседневного восприятия.

232
00:10:49,441 --> 00:10:51,204
Мы узнаём, как найти W, —

233
00:10:51,228 --> 00:10:53,131
это обучение, и оно сложно,

234
00:10:53,155 --> 00:10:55,140
так как надо минимизировать погрешности

235
00:10:55,164 --> 00:10:56,851
методом проб и ошибок.

236
00:10:56,875 --> 00:11:00,062
Около года назад Алекс Мордвинцев 
из нашей команды

237
00:11:00,086 --> 00:11:03,636
решил попробовать, что будет,
если попытаться найти X,

238
00:11:03,660 --> 00:11:05,697
зная W и Y.

239
00:11:06,124 --> 00:11:07,275
Другими словами,

240
00:11:07,299 --> 00:11:08,651
вы знаете, что это птица,

241
00:11:08,675 --> 00:11:11,978
и вашей нейронной сети тоже это известно.

242
00:11:12,002 --> 00:11:14,346
Но как же выглядит птица?

243
00:11:15,034 --> 00:11:20,058
Оказывается, что используя ту же самую 
процедуру минимизации погрешностей,

244
00:11:20,082 --> 00:11:23,512
можно проделать это c нейронной сетью,
обученной распознавать птиц,

245
00:11:23,536 --> 00:11:26,924
и в результате получается

246
00:11:30,400 --> 00:11:31,705
изображение птицы.

247
00:11:32,814 --> 00:11:36,551
Это изображение птиц 
создано нейронной сетью,

248
00:11:36,575 --> 00:11:38,401
обученной распознавать птиц,

249
00:11:38,425 --> 00:11:41,963
просто находя X, а не Y,

250
00:11:41,987 --> 00:11:43,275
через множество повторений.

251
00:11:43,732 --> 00:11:45,579
Вот другой интересный пример.

252
00:11:45,603 --> 00:11:49,040
Это работа, сделанная Майком Тайком 
из нашей команды.

253
00:11:49,064 --> 00:11:51,372
Он назвал её «Парад зверей».

254
00:11:51,396 --> 00:11:54,272
Она немного напоминает мне работы 
Уильяма Кентриджа,

255
00:11:54,296 --> 00:11:56,785
в которых он делает эскизы,
потом их стирает,

256
00:11:56,809 --> 00:11:58,269
снова рисует и стирает,

257
00:11:58,293 --> 00:11:59,691
и так создаёт фильм.

258
00:11:59,715 --> 00:12:00,866
В данном случае

259
00:12:00,890 --> 00:12:04,167
Майк меняет Y различных видов животных

260
00:12:04,191 --> 00:12:06,573
в сети, созданной для распознавания

261
00:12:06,597 --> 00:12:08,407
разных видов животных.

262
00:12:08,431 --> 00:12:12,182
Получается парадоксальное, в стиле Эшера,
изображение животных.

263
00:12:14,221 --> 00:12:18,835
Здесь он и Алекс попытались упростить Y

264
00:12:18,859 --> 00:12:21,618
до двухмерного пространства,

265
00:12:21,642 --> 00:12:25,080
тем самым создавая карту 
из пространства всех объектов,

266
00:12:25,104 --> 00:12:26,823
распознаваемых данной сетью.

267
00:12:26,847 --> 00:12:28,870
Выполняя такого рода синтез

268
00:12:28,894 --> 00:12:31,276
или создавая изображения 
на всей поверхности,

269
00:12:31,300 --> 00:12:34,146
изменяя в ней Y,
вы делаете подобие карты —

270
00:12:34,170 --> 00:12:37,311
визуальную карту всех вещей,
которые может распознать сеть.

271
00:12:37,335 --> 00:12:40,200
Здесь есть все животные.
Вот «броненосец».

272
00:12:40,919 --> 00:12:43,398
То же можно проделать с другими 
типами сетей.

273
00:12:43,422 --> 00:12:46,296
Эта сеть создана, чтобы распознавать лица

274
00:12:46,320 --> 00:12:48,320
и отличать одно лицо от другого.

275
00:12:48,344 --> 00:12:51,593
Здесь мы добавляем Y,
который значит «я»,

276
00:12:51,617 --> 00:12:53,192
мои параметры лица.

277
00:12:53,216 --> 00:12:54,922
И когда эта сеть находит X,

278
00:12:54,946 --> 00:12:57,564
то создаёт это довольно сумасшедшее,

279
00:12:57,588 --> 00:13:02,016
кубическое, сюрреалистическое,
психоделическое изображение меня

280
00:13:02,040 --> 00:13:03,846
с разных сторон одновременно.

281
00:13:03,870 --> 00:13:06,604
И причина, по которой изображение 
так выглядит,

282
00:13:06,628 --> 00:13:10,315
в том, что сеть стремится избавиться 
от неопределённости,

283
00:13:10,339 --> 00:13:12,815
возникающей из-за разных положений головы

284
00:13:12,839 --> 00:13:16,215
или разных углов освещения.

285
00:13:16,239 --> 00:13:18,324
При такого рода преобразованиях,

286
00:13:18,348 --> 00:13:20,652
если нет опорного изображения

287
00:13:20,676 --> 00:13:21,887
или опорных данных,

288
00:13:21,911 --> 00:13:25,676
то вы получите мешанину изображений,
сделанных с разных сторон,

289
00:13:25,700 --> 00:13:27,068
из-за неопределённости.

290
00:13:27,786 --> 00:13:32,009
Вот что происходит, если Алекс использует 
своё лицо как опорное изображение

291
00:13:32,033 --> 00:13:35,354
во время оптимизации программы
по воссозданию моего лица.

292
00:13:36,284 --> 00:13:38,612
Как видите, не всё идеально.

293
00:13:38,636 --> 00:13:40,510
Нам предстоит ещё много работы

294
00:13:40,534 --> 00:13:42,987
по оптимизации процесса оптимизации.

295
00:13:43,011 --> 00:13:45,838
Но полученное лицо становится чётче,

296
00:13:45,862 --> 00:13:47,876
при его создании опорным было моё лицо.

297
00:13:48,892 --> 00:13:51,393
Вам не нужно начинать с чистого листа

298
00:13:51,417 --> 00:13:52,573
или белого шума.

299
00:13:52,597 --> 00:13:53,901
Когда вы ищете X,

300
00:13:53,925 --> 00:13:57,814
вы можете начать с X, который сам по себе 
является другим изображением.

301
00:13:57,838 --> 00:14:00,394
Вот о чём эта маленькая демонстрация.

302
00:14:00,418 --> 00:14:04,540
Эта сеть которая разработана, 
чтобы категоризировать

303
00:14:04,564 --> 00:14:07,683
самые различные объекты —
искусственные сооружения, животных...

304
00:14:07,707 --> 00:14:10,300
Здесь мы начинаем 
с простого изображения облаков,

305
00:14:10,324 --> 00:14:11,995
и по мере оптимизации

306
00:14:12,019 --> 00:14:16,505
эта сеть определяет,
что именно она видит в облаках.

307
00:14:16,931 --> 00:14:19,251
И чем дольше вы смотрите,

308
00:14:19,275 --> 00:14:22,028
тем больше сможете увидеть в облаках.

309
00:14:23,004 --> 00:14:26,379
Можно использовать сеть распознавания лиц,
чтобы вызвать галюцинации

310
00:14:26,403 --> 00:14:28,215
и получить довольно сумасшедшие вещи.

311
00:14:28,239 --> 00:14:29,389
(Смех)

312
00:14:30,401 --> 00:14:33,145
Майк провёл и другой эксперимент,

313
00:14:33,169 --> 00:14:37,074
в котором он берёт изображение óблака,

314
00:14:37,098 --> 00:14:40,605
галлюцинирует, приближает, 
галлюцинирует, приближает.

315
00:14:40,629 --> 00:14:41,780
И таким образом

316
00:14:41,804 --> 00:14:45,479
получается что-то типа состояния 
диссоциативной фуги сети

317
00:14:45,503 --> 00:14:49,183
или подобие свободных ассоциаций,

318
00:14:49,207 --> 00:14:51,434
в которых сеть ловит свой хвост.

319
00:14:51,458 --> 00:14:54,879
Каждое изображение становится основой
для ответа на вопрос:

320
00:14:54,903 --> 00:14:56,324
«Что же я увижу дальше?

321
00:14:56,348 --> 00:14:59,151
Что же я увижу дальше?
Что же я увижу дальше?»

322
00:14:59,487 --> 00:15:02,423
Первый раз я показал это группе

323
00:15:02,447 --> 00:15:07,884
в Сиэттле на лекции «Высшее образование».

324
00:15:07,908 --> 00:15:10,345
Это было как раз после
легализации марихуаны.

325
00:15:10,369 --> 00:15:12,784
(Смех)

326
00:15:14,627 --> 00:15:16,731
Я хотел бы быстро подвести итог

327
00:15:16,755 --> 00:15:21,010
и отметить, что возможности 
этой технологии безграничны.

328
00:15:21,034 --> 00:15:24,699
Я показал вам лишь визуальные примеры,
потому что на них интересно смотреть.

329
00:15:24,723 --> 00:15:27,174
Но это не только визуальная технология.

330
00:15:27,198 --> 00:15:29,191
Наш сотрудник, художник Росс Гудвин,

331
00:15:29,215 --> 00:15:32,886
провёл эксперимент с камерой,
на которую делал снимок,

332
00:15:32,910 --> 00:15:37,144
а в рюкзаке у него был компьютер, 
пишущий стихи посредством нейронных сетей,

333
00:15:37,168 --> 00:15:39,112
которые брали за основу фотографию.

334
00:15:39,136 --> 00:15:42,083
И эта поэтическая нейронная сеть 
была «натренирована»

335
00:15:42,107 --> 00:15:44,341
на обширном корпусе поэзии XX века.

336
00:15:44,365 --> 00:15:45,864
И знаете, получившиеся стихи,

337
00:15:45,888 --> 00:15:47,802
по-моему, не не так уж и плохи.

338
00:15:47,826 --> 00:15:49,210
(Смех)

339
00:15:49,234 --> 00:15:50,393
В завершение скажу,

340
00:15:50,417 --> 00:15:52,549
что считаю,

341
00:15:52,573 --> 00:15:53,807
Микаленджело был прав:

342
00:15:53,831 --> 00:15:57,267
восприятие и творчество
очень тесно связаны между собой.

343
00:15:57,611 --> 00:16:00,245
Мы только что увидели нейронные сети,

344
00:16:00,269 --> 00:16:02,572
полностью обученные различать

345
00:16:02,596 --> 00:16:04,838
и распознавать разные физические объекты,

346
00:16:04,862 --> 00:16:08,023
а также работать в обратном направлении, 
воспроизводя их.

347
00:16:08,047 --> 00:16:09,830
На эту мысль меня наводит не то,

348
00:16:09,854 --> 00:16:12,252
что Микеланджело действительно видел

349
00:16:12,276 --> 00:16:14,728
скульптуру в глыбе камня,

350
00:16:14,752 --> 00:16:18,390
а то, что любое существо, 
даже инопланетное,

351
00:16:18,414 --> 00:16:22,071
способное к такому восприятию,

352
00:16:22,095 --> 00:16:23,470
также способно творить,

353
00:16:23,494 --> 00:16:26,718
потому что действия в обоих случаях 
одинаковые.

354
00:16:26,742 --> 00:16:31,274
Кроме того, я думаю, 
что восприятие и творчество присущи

355
00:16:31,298 --> 00:16:32,508
не только человеку.

356
00:16:32,532 --> 00:16:36,240
У нас начинают появляться компьютеры,
которые могут делать то же самое.

357
00:16:36,264 --> 00:16:39,592
И это неудивительно, 
ведь мозг — своего рода компьютер.

358
00:16:39,616 --> 00:16:41,273
И наконец,

359
00:16:41,297 --> 00:16:45,965
информатика зарождалась в попытках 
создания искусственного интеллекта.

360
00:16:45,989 --> 00:16:48,451
Её во многом сформировала концепция о том,

361
00:16:48,475 --> 00:16:51,488
как можно сделать машины умнее.

362
00:16:51,512 --> 00:16:53,674
И сейчас мы начинаем выполнять

363
00:16:53,698 --> 00:16:56,104
некоторые обещания тех первопроходцев,

364
00:16:56,128 --> 00:16:57,841
Тьюринга и фон Неймана,

365
00:16:57,865 --> 00:17:00,130
Мак-Каллока и Питтса.

366
00:17:00,154 --> 00:17:04,252
Я считаю, что компьютеры —
это не только расчёты,

367
00:17:04,276 --> 00:17:06,423
пасьянс «Косынка» или что-то подобное.

368
00:17:06,447 --> 00:17:09,025
Мы изначально делали компьютеры
похожими на свой мозг.

369
00:17:09,049 --> 00:17:12,318
И они дали нам возможность 
лучше понять собственный мозг

370
00:17:12,342 --> 00:17:13,871
и развивать его.

371
00:17:14,627 --> 00:17:15,794
Большое спасибо.

372
00:17:15,818 --> 00:17:21,757
(Аплодисменты)