1
00:00:00,800 --> 00:00:03,924
Я керую групою в Ґуґлі, 
яка працює над машинним інтелектом;

2
00:00:03,948 --> 00:00:08,598
іншими словами, над дисципліною, 
що робить комп'ютери і пристрої

3
00:00:08,622 --> 00:00:11,041
здатними робити деякі речі, 
які робить мозок.

4
00:00:11,439 --> 00:00:14,538
Тому ми цікавимось реальним мозком

5
00:00:14,562 --> 00:00:15,851
і неврологією також,

6
00:00:15,875 --> 00:00:20,047
і зокрема речами, які робить наш мозок,

7
00:00:20,071 --> 00:00:24,113
які досі перевершують
продуктивність комп'ютера.

8
00:00:25,209 --> 00:00:28,818
Історично, одна з таких галузей -
це сприйняття,

9
00:00:28,842 --> 00:00:31,881
процес, який дає змогу перетворити
речі з реального світу --

10
00:00:31,905 --> 00:00:33,489
звуки й зображення --

11
00:00:33,513 --> 00:00:35,691
у концепції в свідомості.

12
00:00:36,235 --> 00:00:38,752
Це важливо для нашого власного мозку

13
00:00:38,776 --> 00:00:41,240
і це також дуже корисно для комп'ютера.

14
00:00:41,636 --> 00:00:44,986
Алгоритми машинного сприйняття,
наприклад, ті, які створює наша група, --

15
00:00:45,010 --> 00:00:48,884
це те, що уможливлює пошук ваших
світлин на Google Photos

16
00:00:48,908 --> 00:00:50,305
за змістом світлин.

17
00:00:51,594 --> 00:00:55,087
Інший бік сприйняття --
це творча здатність:

18
00:00:55,111 --> 00:00:58,149
перетворення концепції у
щось реальне.

19
00:00:58,173 --> 00:01:01,728
Отже, протягом останнього року,
наша робота над машинним сприйняттям

20
00:01:01,752 --> 00:01:06,611
також несподівано пов'язалася
зі світом машинної творчої здібності

21
00:01:06,635 --> 00:01:07,795
і машинного мистецтва.

22
00:01:08,556 --> 00:01:11,840
Я гадаю, Мікеланджело
проник у сутність

23
00:01:11,864 --> 00:01:15,520
взаємовідносин між
сприйняттям і творчою здібністю.

24
00:01:16,023 --> 00:01:18,029
Ось його відома цитата:

25
00:01:18,053 --> 00:01:21,376
"У кожному куску каменя 
схована скульптура,

26
00:01:22,036 --> 00:01:25,038
і завдання скульптора --
її відкрити".

27
00:01:26,029 --> 00:01:29,245
Отже, я гадаю, 
Мікеланджело мав на увазі,

28
00:01:29,269 --> 00:01:32,449
що творчість здійснюється 
через сприйняття,

29
00:01:32,473 --> 00:01:35,496
і що сприйняття само по собі --
це акт уяви,

30
00:01:35,520 --> 00:01:37,981
що є сутністю творчості.

31
00:01:38,691 --> 00:01:42,616
Орган, який думає,
сприймає і уявляє,

32
00:01:42,640 --> 00:01:44,228
це, звичайно, мозок.

33
00:01:45,089 --> 00:01:47,634
І я би хотів почати з короткої історії

34
00:01:47,658 --> 00:01:49,960
того, що ми знаємо про мозок.

35
00:01:50,496 --> 00:01:52,942
Тому що на відміну від,
скажімо, серця чи кишечника,

36
00:01:52,966 --> 00:01:56,110
дуже мало можна сказати про мозок
просто дивлячись на нього,

37
00:01:56,134 --> 00:01:57,546
принаймні неозброєним оком.

38
00:01:57,983 --> 00:02:00,399
Ранні анатомісти, які дивилися на мозок,

39
00:02:00,423 --> 00:02:04,230
давали його поверхневим структурам
різні примхливі імена,

40
00:02:04,254 --> 00:02:06,687
як-от "гіпокамп", що означає
"маленька креветка".

41
00:02:06,711 --> 00:02:09,475
Але, звичайно, ці імена нам 
дуже мало говорять

42
00:02:09,499 --> 00:02:11,817
про те, що відбувається всередині.

43
00:02:12,780 --> 00:02:16,393
Першою людиною, яка, на мою думку, 
справді зазирнула у суть

44
00:02:16,417 --> 00:02:18,347
того, що відбувається в мозку

45
00:02:18,371 --> 00:02:22,291
був великий іспанський нейроанатом
Сантьяґо Рамон-і-Кахаль

46
00:02:22,315 --> 00:02:23,859
у 19-му сторіччі,

47
00:02:23,883 --> 00:02:27,638
який використовував мікроскопію
і спеціальні забарвники,

48
00:02:27,662 --> 00:02:31,832
що могли вибірково заповнювати
чи надавати дуже високого контрасту

49
00:02:31,856 --> 00:02:33,864
індивідуальним клітинам в мозку,

50
00:02:33,888 --> 00:02:37,042
щоб зрозуміти їхню морфологію.

51
00:02:37,972 --> 00:02:40,863
Ось які він зробив малюнки нейронів

52
00:02:40,887 --> 00:02:42,096
у 19-му сторіччі.

53
00:02:42,120 --> 00:02:44,004
Це зроблено з мозку пташки.

54
00:02:44,028 --> 00:02:47,085
І ви бачите величезне розмаїття
різних видів клітин,

55
00:02:47,109 --> 00:02:50,544
навіть сама клітинна теорія
була ще дуже новою.

56
00:02:50,568 --> 00:02:51,846
І ці структури,

57
00:02:51,870 --> 00:02:54,129
ці клітини, що мають ці розгалуження,

58
00:02:54,153 --> 00:02:56,761
ці гілки, що можуть іти
дуже, дуже далеко --

59
00:02:56,785 --> 00:02:58,401
це було дуже новим у той час.

60
00:02:58,779 --> 00:03:01,682
Вони, звичайно, нагадують дроти.

61
00:03:01,706 --> 00:03:05,163
Це, можливо, було очевидним
для декого у 19-му сторіччі;

62
00:03:05,187 --> 00:03:09,501
революція поширення дротів і електрики
якраз починалася.

63
00:03:09,964 --> 00:03:11,142
Але у багатьох змістах,

64
00:03:11,166 --> 00:03:14,479
ці мікроанатомічні малюнки
Рамона-і-Кахаля, як оцей,

65
00:03:14,503 --> 00:03:16,835
досі неперевершені у багатьох речах.

66
00:03:16,859 --> 00:03:18,713
Досі, більш як сторіччя пізніше,

67
00:03:18,737 --> 00:03:21,562
ми намагаємося завершити роботу,
яку почав Рамон-і-Кахаль.

68
00:03:21,586 --> 00:03:24,720
Це - необроблені дані наших колег

69
00:03:24,744 --> 00:03:27,625
з Неврологічного інституту
імені Макса Планка.

70
00:03:27,649 --> 00:03:29,439
Наші колеги створили

71
00:03:29,463 --> 00:03:34,464
зображення малих шматочків
мозкової тканини.

72
00:03:34,488 --> 00:03:37,814
Весь зразок тут завбільшки
в один кубічний міліметр,

73
00:03:37,838 --> 00:03:40,459
і я показую вам тут його
дуже, дуже малу частину.

74
00:03:40,483 --> 00:03:42,829
Ця риска зліва - один мікрон.

75
00:03:42,853 --> 00:03:45,262
Структури, які ви бачите --
це мітохондрії

76
00:03:45,286 --> 00:03:47,330
завбільшки з бактерію.

77
00:03:47,354 --> 00:03:48,905
І це -- послідовні перерізи

78
00:03:48,929 --> 00:03:52,077
цього малесенького 
шматочка тканини.

79
00:03:52,101 --> 00:03:54,504
Лише для порівняння,

80
00:03:54,528 --> 00:03:58,320
діаметр середньої волосини --
приблизно 100 мікронів.

81
00:03:58,344 --> 00:04:00,618
Отже, ми дивимось на щось
набагато менше

82
00:04:00,642 --> 00:04:02,040
ніж переріз однієї волосини.

83
00:04:02,064 --> 00:04:06,095
І з такого ряду електронно-
мікроскопічних перерізів

84
00:04:06,119 --> 00:04:11,127
можна почати відтворювати 
трьохмірні зображення нейронів, як оці.

85
00:04:11,151 --> 00:04:14,308
Ці зображення дуже подібні до 
зображень Рамона-і-Кахаля.

86
00:04:14,332 --> 00:04:15,824
Лише кілька нейронів показано,

87
00:04:15,848 --> 00:04:18,629
тому що інкаше ми би
не змогли побачити нічого.

88
00:04:18,653 --> 00:04:19,965
Було б перенасичення

89
00:04:19,989 --> 00:04:21,319
деталями структури

90
00:04:21,343 --> 00:04:24,067
і зв'язків між нейронами.

91
00:04:25,293 --> 00:04:28,097
Отже, Рамон-і-Кахаль 
дещо випереджав свій час,

92
00:04:28,121 --> 00:04:30,676
і прогрес розуміння мозку

93
00:04:30,700 --> 00:04:32,971
просувався повільно
у наступні десятиліття.

94
00:04:33,455 --> 00:04:36,308
Але ми знали, що нейрони
використовують електрику,

95
00:04:36,332 --> 00:04:39,268
і до Другої світової наша технологія 
просунулася достатньо,

96
00:04:39,292 --> 00:04:42,098
щоб робити електричні
експерименти над живими нейронами

97
00:04:42,122 --> 00:04:44,228
для кращого розуміння, як вони працюють.

98
00:04:44,631 --> 00:04:48,987
Це був той самий час, коли було
винайдено комп'ютери,

99
00:04:49,011 --> 00:04:52,111
здебільшого, на основі ідеї
моделювання мозку --

100
00:04:52,135 --> 00:04:55,220
"інтелектуальної техніки",
як назвав її Алан Тюринґ,

101
00:04:55,244 --> 00:04:57,235
один із засновників комп'ютерної науки.

102
00:04:57,923 --> 00:05:02,555
Воррен МакКалок і Волтер Пітс
подивилися на зроблений Рамоном-і-Кахалєм

103
00:05:02,579 --> 00:05:03,896
малюнок зорової кори,

104
00:05:03,920 --> 00:05:05,482
показаний тут.

105
00:05:05,506 --> 00:05:09,948
Це кора, що обробляє зображення, 
які надходять від очей.

106
00:05:10,424 --> 00:05:13,932
І для них він виглядав як 
електрична схема.

107
00:05:14,353 --> 00:05:18,188
В електричній схемі МакКалока і Пітса
багато деталей,

108
00:05:18,212 --> 00:05:19,564
що не є цілком правильними.

109
00:05:19,588 --> 00:05:20,823
Але основна ідея

110
00:05:20,847 --> 00:05:24,839
що зорова кора працює як ряд
обчислювальних елементів,

111
00:05:24,863 --> 00:05:27,609
які передають інформацію
один до одного каскадом,

112
00:05:27,633 --> 00:05:29,235
є, в принципі, правильною.

113
00:05:29,259 --> 00:05:31,609
Давайте трохи поговоримо про те,

114
00:05:31,633 --> 00:05:35,665
що повинна робити модель для обробки 
візуальної інформації.

115
00:05:36,228 --> 00:05:38,969
Головна задача сприйняття --

116
00:05:38,993 --> 00:05:43,187
це взяти зображення, як оце, і сказати:

117
00:05:43,211 --> 00:05:44,387
"Це птах",

118
00:05:44,411 --> 00:05:47,285
що є дуже просто для нас
з нашим мозком.

119
00:05:47,309 --> 00:05:50,730
Але всім варто розуміти,
що для комп'ютера

120
00:05:50,754 --> 00:05:53,841
це було практично неможливо
лише кілька років тому.

121
00:05:53,865 --> 00:05:55,781
В класичній обчислювальній парадигмі

122
00:05:55,805 --> 00:05:58,312
це завдання нелегко виконати.

123
00:05:59,366 --> 00:06:01,918
Отже, що відбувається між пікселями,

124
00:06:01,942 --> 00:06:05,970
між зображенням птаха,
і словом "птах" --

125
00:06:05,994 --> 00:06:08,808
це, по суті, ряд нейронів пов'язаних 
один з одним

126
00:06:08,832 --> 00:06:09,987
у нейронну мережу,

127
00:06:10,011 --> 00:06:11,234
як на цій діаграмі.

128
00:06:11,258 --> 00:06:14,530
Ця нейронна мережа може бути
біологічною всередині зорової кори,

129
00:06:14,554 --> 00:06:16,716
або ж сьогодні ми 
отримуємо здатність

130
00:06:16,740 --> 00:06:19,194
моделювати ці нейронні мережі
на комп'ютері.

131
00:06:19,834 --> 00:06:22,187
І я зараз покажу, як це
насправді виглядає.

132
00:06:22,211 --> 00:06:25,627
Отже, можна вважати пікселі
першим шаром нейронів,

133
00:06:25,651 --> 00:06:27,890
як це фактично і є в оці --

134
00:06:27,914 --> 00:06:29,577
це нейрони сітківки.

135
00:06:29,601 --> 00:06:31,101
Вони передають інформацію

136
00:06:31,125 --> 00:06:34,528
від шару до шару
і до іншого шару нейронів,

137
00:06:34,552 --> 00:06:37,585
які усі пов'язані синапсами
різної ваги.

138
00:06:37,609 --> 00:06:38,944
Поведінка цієї мережі

139
00:06:38,968 --> 00:06:42,252
характеризується силою усіх цих синапсів.

140
00:06:42,276 --> 00:06:45,564
Вони характеризують обчислювальні
властивості мережі.

141
00:06:45,588 --> 00:06:47,058
Наприкінці,

142
00:06:47,082 --> 00:06:49,529
у вас є нейрон 
або мала група нейронів,

143
00:06:49,553 --> 00:06:51,200
що висвітлюється словом "птах".

144
00:06:51,824 --> 00:06:54,956
Тепер я представлю ці три речі --

145
00:06:54,980 --> 00:06:59,676
пікселі на вході, синапси 
в нейронній мережі,

146
00:06:59,700 --> 00:07:01,285
і птаха, що на виході,

147
00:07:01,309 --> 00:07:04,366
трьома змінними: x, w і y.

148
00:07:04,853 --> 00:07:06,664
Існують, напевно, мільйони x-ів --

149
00:07:06,688 --> 00:07:08,641
у цьому зображенні мільйон пікселів.

150
00:07:08,665 --> 00:07:11,111
Є мільярди чи трильйони w,

151
00:07:11,135 --> 00:07:14,556
що представляють вагу усіх синапсів
в нейронній мережі.

152
00:07:14,580 --> 00:07:16,455
І є мала кількість y,

153
00:07:16,479 --> 00:07:18,337
виходів, що має мережа.

154
00:07:18,361 --> 00:07:20,110
"Птах" має лише чотири літери.

155
00:07:21,088 --> 00:07:24,514
Отже, уявімо просту формулу,

156
00:07:24,538 --> 00:07:26,701
X "x" W = Y.

157
00:07:26,725 --> 00:07:28,761
Я взяв "помножити" в лапки,

158
00:07:28,785 --> 00:07:31,065
тому що те, що тут відбувається,
звичайно,

159
00:07:31,089 --> 00:07:34,135
є дуже складним рядом
математичних операцій.

160
00:07:35,172 --> 00:07:36,393
Це одне рівняння.

161
00:07:36,417 --> 00:07:38,089
Є три змінні.

162
00:07:38,113 --> 00:07:40,839
Ми знаємо, що коли ми 
маємо одне рівняння,

163
00:07:40,863 --> 00:07:44,505
можна знайти одну змінну,
якщо знати дві інші.

164
00:07:45,158 --> 00:07:48,538
Отже, проблема висновку,

165
00:07:48,562 --> 00:07:51,435
тобто, з'ясування, що
зображення птаха - це птах,

166
00:07:51,459 --> 00:07:52,733
полягає ось у чому:

167
00:07:52,757 --> 00:07:56,216
y є невідомим, тоді як
w і x відомі.

168
00:07:56,240 --> 00:07:58,699
Нейронна мережа і пікселі є відомими.

169
00:07:58,723 --> 00:08:02,050
Як бачите, проблема
відносно проста.

170
00:08:02,074 --> 00:08:04,260
Ви помножуєте два на три -- і готово.

171
00:08:04,862 --> 00:08:06,985
Я покажу вам штучну нейронну мережу,

172
00:08:07,009 --> 00:08:09,305
яку ми нещодавно створили
якраз у такий спосіб.

173
00:08:09,634 --> 00:08:12,494
Це працює в реальному часі
на мобільному телефоні,

174
00:08:12,518 --> 00:08:15,831
і це неймовірно само по собі,

175
00:08:15,855 --> 00:08:19,323
що мобільні телефони можуть
здійснювати мільярди і трильйони операцій

176
00:08:19,347 --> 00:08:20,595
за секунду.

177
00:08:20,619 --> 00:08:22,234
Ви бачите телефон,

178
00:08:22,258 --> 00:08:25,805
який дивиться на одне зображення
птаха за іншим

179
00:08:25,829 --> 00:08:28,544
і не лише говорить:
"Так, це птах,"

180
00:08:28,568 --> 00:08:31,979
а й визначає вид птаха
за допомогою цієї мережі.

181
00:08:32,890 --> 00:08:34,716
Отже, в цьому зображенні

182
00:08:34,740 --> 00:08:38,542
x і w відомі,
а y - невідома.

183
00:08:38,566 --> 00:08:41,074
Звичайно, я пропускаю 
дуже складну частину:

184
00:08:41,098 --> 00:08:44,959
яким чином ми визначаємо w,

185
00:08:44,983 --> 00:08:47,170
тобто мозок, що це робить.

186
00:08:47,194 --> 00:08:49,028
Як можна навчитися такій моделі?

187
00:08:49,418 --> 00:08:52,651
Цей процес навчання,
тобто розв'язку по w,

188
00:08:52,675 --> 00:08:55,322
якщо робити це з простим рівнянням,

189
00:08:55,346 --> 00:08:57,346
в якому ми вважаємо ці змінні числами,

190
00:08:57,370 --> 00:09:00,057
ми точно знаємо, як це зробити: 6 = 2 x w,

191
00:09:00,081 --> 00:09:03,393
отже ми ділимо на два -- і все.

192
00:09:04,001 --> 00:09:06,221
Проблема -- з цим оператором.

193
00:09:06,823 --> 00:09:07,974
Отже, ділення --

194
00:09:07,998 --> 00:09:11,119
ми використали ділення,
бо ділення є зворотнім до множення,

195
00:09:11,143 --> 00:09:12,583
але, як я щойно сказав,

196
00:09:12,607 --> 00:09:15,056
"множення" тут трохи брехлива назва.

197
00:09:15,080 --> 00:09:18,406
Це дуже, дуже складна нелінійна операція;

198
00:09:18,430 --> 00:09:20,134
у неї нема зворотньої операції.

199
00:09:20,158 --> 00:09:23,308
Отже, нам треба з'ясувати, як 
розв'язати це рівняння

200
00:09:23,332 --> 00:09:25,356
без оператора ділення.

201
00:09:25,380 --> 00:09:27,723
І це можна зробити досить просто.

202
00:09:27,747 --> 00:09:30,418
Можна сказати:
"давайте зробимо алгебраїчний фокус

203
00:09:30,442 --> 00:09:33,348
і перенесемо шість у правий
бік рівняння".

204
00:09:33,372 --> 00:09:35,198
Ми все ще використовуємо множення.

205
00:09:35,675 --> 00:09:39,255
А цей нуль -- вважаймо його помилкою.

206
00:09:39,279 --> 00:09:41,794
Іншими словами, якщо ми знайдемо
w правильно,

207
00:09:41,818 --> 00:09:43,474
помилка буде нульовою.

208
00:09:43,498 --> 00:09:45,436
А якщо не зовсім правильно,

209
00:09:45,460 --> 00:09:47,209
помилка буде ненульовою.

210
00:09:47,233 --> 00:09:50,599
Отже тепер ми можемо просто 
вгадувати, намагаючись зменшити помилку,

211
00:09:50,623 --> 00:09:53,310
і комп'ютери роблять це чудово.

212
00:09:53,334 --> 00:09:54,927
Ви робите початкову спробу:

213
00:09:54,951 --> 00:09:56,107
що як w = 0?

214
00:09:56,131 --> 00:09:57,371
Тоді помилка - 6.

215
00:09:57,395 --> 00:09:58,841
Що як w = 1?
Тоді помилка - 4.

216
00:09:58,865 --> 00:10:01,232
Тоді комп'ютер грає в Марко Поло,

217
00:10:01,256 --> 00:10:03,623
наближуючи помилку до нуля.

218
00:10:03,647 --> 00:10:07,021
Роблячи це, комп'ютер послідовно
наближається до w.

219
00:10:07,045 --> 00:10:10,701
Зазвичай, він ніколи не доходить до нього,
але після десятка спроб,

220
00:10:10,725 --> 00:10:15,349
ми отримуємо w = 2,999,
що достатньо близько.

221
00:10:16,302 --> 00:10:18,116
Це і є процесом навчання.

222
00:10:18,140 --> 00:10:20,870
Отже, запам'ятайте, що ми тут робили.

223
00:10:20,894 --> 00:10:25,272
Ми брали багато відомих x і відомих y

224
00:10:25,296 --> 00:10:28,750
і розв'язували рівняння по w 
за допомогою ітерацій.

225
00:10:28,774 --> 00:10:32,330
Точно так само ми самі навчаємося.

226
00:10:32,354 --> 00:10:34,584
В дитинстві ми переглядаємо 
багато картинок,

227
00:10:34,608 --> 00:10:37,241
і нам говорять: "Це - птах; це - не птах".

228
00:10:37,714 --> 00:10:39,812
З часом, через ітерації,

229
00:10:39,836 --> 00:10:42,764
ми розв'язуємо w, ми отримуємо
ці нейронні зв'язки.

230
00:10:43,460 --> 00:10:47,546
Отже, тепер ми маємо
відомі x і w, щоб розв'язати y;

231
00:10:47,570 --> 00:10:49,417
це -- щоденне, швидке сприйняття.

232
00:10:49,441 --> 00:10:51,204
Ми знаємо, як визначити w,

233
00:10:51,228 --> 00:10:53,131
тобто навчання, що є набагато складніше,

234
00:10:53,155 --> 00:10:55,140
оскільки ми повинні зменшувати помилку

235
00:10:55,164 --> 00:10:56,851
багатьма навчальними прикладами.

236
00:10:56,875 --> 00:11:00,062
Приблизно рік тому
Алекс Мордвінцев з нашої групи

237
00:11:00,086 --> 00:11:03,636
вирішив подивитися, що станеться, 
якщо спробувати розв'язати по x,

238
00:11:03,660 --> 00:11:05,697
знаючи w і y.

239
00:11:06,124 --> 00:11:07,275
Іншими словами,

240
00:11:07,299 --> 00:11:08,651
ви знаєте, що таке птах,

241
00:11:08,675 --> 00:11:11,978
і у вас уже є нейронна мережа,
натренована на птахів,

242
00:11:12,002 --> 00:11:14,346
але що є зображенням птаха?

243
00:11:15,034 --> 00:11:20,058
Виявляється, за допомогою 
цієї процедури зменшення помилки

244
00:11:20,082 --> 00:11:23,512
можна це зробити з мережею, 
натренованою на розпізнавання птахів,

245
00:11:23,536 --> 00:11:26,924
і результатом буде...

246
00:11:30,400 --> 00:11:31,705
зображення птахів.

247
00:11:32,814 --> 00:11:36,551
Отже, це -- зображення птахів,
цілком створене нейронною мережею,

248
00:11:36,575 --> 00:11:38,401
натренованою на розпізнавання птахів,

249
00:11:38,425 --> 00:11:41,963
просто розв'язанням рівняння по x
замість розв'язання по y,

250
00:11:41,987 --> 00:11:43,275
за допомогою ітерацій.

251
00:11:43,732 --> 00:11:45,579
Ось ще один приклад.

252
00:11:45,603 --> 00:11:49,040
Це робота Майка Тайки з нашої групи,

253
00:11:49,064 --> 00:11:51,372
яку він називає "парадом тварин".

254
00:11:51,396 --> 00:11:54,272
Це трохи нагадує мені мистецтво 
Вільяма Кентріджа,

255
00:11:54,296 --> 00:11:56,785
де він робить нариси, витирає їх,

256
00:11:56,809 --> 00:11:58,269
робить нариси, витирає їх,

257
00:11:58,293 --> 00:11:59,691
і таким чином створює фільм.

258
00:11:59,715 --> 00:12:00,866
У цьому випадку

259
00:12:00,890 --> 00:12:04,167
Майк змінює значення y
у просторі різних тварин

260
00:12:04,191 --> 00:12:06,573
у мережі, натренованій
впізнавати і відрізняти

261
00:12:06,597 --> 00:12:08,407
різних тварин одна від одної.

262
00:12:08,431 --> 00:12:12,182
Виходить таке дивовижне перетворення
однієї тварини в іншу, в стилі Ешера.

263
00:12:14,221 --> 00:12:18,835
Тут він і Алекс разом
спробували обмежити

264
00:12:18,859 --> 00:12:21,618
y до лише двохмірного простору,

265
00:12:21,642 --> 00:12:25,080
таким чином створивши карту
простору всіх речей,

266
00:12:25,104 --> 00:12:26,823
які може розпізнавати мережа.

267
00:12:26,847 --> 00:12:28,870
За допомогою такого синтезу

268
00:12:28,894 --> 00:12:31,276
або створення зображень
на всій площині,

269
00:12:31,300 --> 00:12:34,146
змінюючи y по площині,
створюється своєрідна карта --

270
00:12:34,170 --> 00:12:37,311
візуальна карта усіх речей,
які може розпізнавати мережа.

271
00:12:37,335 --> 00:12:40,200
Тут є всі тварини;
ось тут -- броненосець.

272
00:12:40,919 --> 00:12:43,398
Це можна зробити 
з іншими типами мереж також.

273
00:12:43,422 --> 00:12:46,296
Ось мережа, натренована
розпізнавати обличчя,

274
00:12:46,320 --> 00:12:48,320
розрізняти одне обличчя від іншого.

275
00:12:48,344 --> 00:12:51,593
А тут, ми задаємо y
значення "я",

276
00:12:51,617 --> 00:12:53,192
параметри мого власного обличчя.

277
00:12:53,216 --> 00:12:54,922
І коли мережа розв'язує x,

278
00:12:54,946 --> 00:12:57,564
створюється трохи божевільне,

279
00:12:57,588 --> 00:13:02,016
кубічне, сюрреалістичне, психоделічне
зображення мене

280
00:13:02,040 --> 00:13:03,846
з багатьох точок зору відразу.

281
00:13:03,870 --> 00:13:06,604
З багатьох точок зору відразу,

282
00:13:06,628 --> 00:13:10,315
тому що ця мережа натренована
уникати неоднозначності,

283
00:13:10,339 --> 00:13:12,815
коли обличчя є в одному
чи іншому ракурсі,

284
00:13:12,839 --> 00:13:16,215
в одному чи іншому освітленні.

285
00:13:16,239 --> 00:13:18,324
Коли ви робите таку реконструкцію,

286
00:13:18,348 --> 00:13:20,652
якщо не мати якогось
орієнтовного зображення

287
00:13:20,676 --> 00:13:21,887
або статистики,

288
00:13:21,911 --> 00:13:25,676
то ви отримаєте суміш
різних точок зору,

289
00:13:25,700 --> 00:13:27,068
через невизначеність.

290
00:13:27,786 --> 00:13:32,009
Ось що відбувається, коли Алекс 
використовує власне обличчя як орієнтир

291
00:13:32,033 --> 00:13:35,354
під час процесу оптимізації
для відтворення мого обличчя.

292
00:13:36,284 --> 00:13:38,612
Ви бачите, процес недосконалий.

293
00:13:38,636 --> 00:13:40,510
Ще є багато роботи

294
00:13:40,534 --> 00:13:42,987
з оптимізації цього процесу оптимізації.

295
00:13:43,011 --> 00:13:45,838
Але ми починаємо отримувати 
щось подібне на чітке обличчя,

296
00:13:45,862 --> 00:13:47,876
створене з мого обличчя в якості орієнтира.

297
00:13:48,892 --> 00:13:51,393
Не обов'язково починати з чистого полотна

298
00:13:51,417 --> 00:13:52,573
чи з білого шуму.

299
00:13:52,597 --> 00:13:53,901
Коли ви розв'язуєте по x,

300
00:13:53,925 --> 00:13:57,814
можна починати з x,
що вже має якесь зображення.

301
00:13:57,838 --> 00:14:00,394
Це і робиться в наступній демонстрації.

302
00:14:00,418 --> 00:14:04,540
Це мережа, що класифікує

303
00:14:04,564 --> 00:14:07,683
усілякі предмети --
споруди, тварин ...

304
00:14:07,707 --> 00:14:10,300
Тут ми починаємо
з зображення хмар,

305
00:14:10,324 --> 00:14:11,995
і в міру оптимізації,

306
00:14:12,019 --> 00:14:16,505
по суті, мережа, з'ясовує,
що вона бачить у цих хмарах.

307
00:14:16,931 --> 00:14:19,251
Що більше часу дивитись на це,

308
00:14:19,275 --> 00:14:22,028
то більше речей ви помічаєте
в цих хмарах.

309
00:14:23,004 --> 00:14:26,379
Можна також використовувати мережу
для обличь для цих галюцинацій,

310
00:14:26,403 --> 00:14:28,215
виходять досить навіжені речі.

311
00:14:28,239 --> 00:14:29,389
(Сміх)

312
00:14:30,401 --> 00:14:33,145
Або ж Майк робив інші експерименти,

313
00:14:33,169 --> 00:14:37,074
в яких він брав це зображення хмар,

314
00:14:37,098 --> 00:14:40,605
галюцинував, збільшував, 
галюцинував, збільшував.

315
00:14:40,629 --> 00:14:41,780
І таким чином

316
00:14:41,804 --> 00:14:45,479
виходить мережева маячня, я б сказав,

317
00:14:45,503 --> 00:14:49,183
або такі собі вільні асоціації,

318
00:14:49,207 --> 00:14:51,434
в яких мережа доганяє власний хвіст.

319
00:14:51,458 --> 00:14:54,879
Кожне зображення є основою для

320
00:14:54,903 --> 00:14:56,324
"Що ж я бачу тепер?"

321
00:14:56,348 --> 00:14:59,151
"Що ж я бачу тепер?"
"Що ж я бачу тепер?"

322
00:14:59,487 --> 00:15:02,423
Вперше публічно я це показав

323
00:15:02,447 --> 00:15:07,884
групі на лекції в Сіетлі під назвою
"Вища освіта" --

324
00:15:07,908 --> 00:15:10,345
це було якраз після легалізації маріхуани.

325
00:15:10,369 --> 00:15:12,784
(Сміх)

326
00:15:14,627 --> 00:15:16,731
Хочу швидко закінчити

327
00:15:16,755 --> 00:15:21,010
зауваженням, що ця технологія
необмежена.

328
00:15:21,034 --> 00:15:24,699
Я показав вам чисто візуальні приклади,
тому що на них цікаво дивитися.

329
00:15:24,723 --> 00:15:27,174
Це не лише візуальна технологія.

330
00:15:27,198 --> 00:15:29,191
Наш колега-художник, Рос Ґудвін,

331
00:15:29,215 --> 00:15:32,886
експериментував із камерою,
що знімала зображення,

332
00:15:32,910 --> 00:15:37,144
а потім комп'ютер в його рюкзаку
писав вірш за допомогою нейронних мереж,

333
00:15:37,168 --> 00:15:39,112
на основі змісту зображень.

334
00:15:39,136 --> 00:15:42,083
І ця поетична нейронна мережа
була натренована

335
00:15:42,107 --> 00:15:44,341
на величезній базі поезії 20-го сторіччя.

336
00:15:44,365 --> 00:15:45,864
І поезія, знаєте,

337
00:15:45,888 --> 00:15:47,802
гадаю, вийшла непогана.

338
00:15:47,826 --> 00:15:49,210
(Сміх)

339
00:15:49,234 --> 00:15:50,393
І на закінчення.

340
00:15:50,417 --> 00:15:52,549
Думаю, Мікеланджело

341
00:15:52,573 --> 00:15:53,807
мав рацію;

342
00:15:53,831 --> 00:15:57,267
сприйняття і творчість 
дуже тісно пов'язані.

343
00:15:57,611 --> 00:16:00,245
Ми щойно бачили, як нейронні мережі,

344
00:16:00,269 --> 00:16:02,572
натреновані відрізняти

345
00:16:02,596 --> 00:16:04,838
або впізнавати різні речі,

346
00:16:04,862 --> 00:16:08,023
можуть працювати в зворотньому напрямку
і творити.

347
00:16:08,047 --> 00:16:09,830
Мені видається,

348
00:16:09,854 --> 00:16:12,252
що не лише Мікеланджело
справді бачив

349
00:16:12,276 --> 00:16:14,728
скульптуру в уламку каменя,

350
00:16:14,752 --> 00:16:18,390
але що будь-яка істота,
будь-який інопланетянин,

351
00:16:18,414 --> 00:16:22,071
здатний до сприйняття,

352
00:16:22,095 --> 00:16:23,470
також здатний до творчості,

353
00:16:23,494 --> 00:16:26,718
тому що в обидвох випадках
використовується один механізм.

354
00:16:26,742 --> 00:16:31,274
Я також думаю, що сприйняття 
і творча здатність не є

355
00:16:31,298 --> 00:16:32,508
лише людськими якостями.

356
00:16:32,532 --> 00:16:36,240
У нас з'являються комп'ютерні моделі,
які роблять якраз ці речі.

357
00:16:36,264 --> 00:16:39,592
І це не має бути несподіваним;
мозок є обчислювальним органом.

358
00:16:39,616 --> 00:16:41,273
І, нарешті,

359
00:16:41,297 --> 00:16:45,965
машинне обчислення почалося як спроба
створити розумні машини.

360
00:16:45,989 --> 00:16:48,451
Воно було здебільшого побудоване на ідеї

361
00:16:48,475 --> 00:16:51,488
як зробити машини розумними.

362
00:16:51,512 --> 00:16:53,674
І ми нарешті зараз починаємо виконувати

363
00:16:53,698 --> 00:16:56,104
деякі обіцянки ранніх застрільників,

364
00:16:56,128 --> 00:16:57,841
Тюринґа і фон Неймана,

365
00:16:57,865 --> 00:17:00,130
МакКалока й Піттса.

366
00:17:00,154 --> 00:17:04,252
Я думаю, машинне обчислення --
це не лише бухгалтерія

367
00:17:04,276 --> 00:17:06,423
чи гра у Кенді Краш.

368
00:17:06,447 --> 00:17:09,025
Від початку комп'ютери
моделювалися за нашим розумом.

369
00:17:09,049 --> 00:17:12,318
І вони дають нам змогу
краще зрозуміти можливості нашого розуму

370
00:17:12,342 --> 00:17:13,871
і розширити їх одночасно.

371
00:17:14,627 --> 00:17:15,794
Щиро дякую.

372
00:17:15,818 --> 00:17:21,757
(Оплески)