1 00:00:00,800 --> 00:00:03,924 Я возглавляю команду в Google, работающую над машинным интеллектом, 2 00:00:03,948 --> 00:00:08,598 другими словами, занимающуюся инженерией, созданием компьютеров и устройств, 3 00:00:08,622 --> 00:00:11,041 способных делать то, что делает наш мозг. 4 00:00:11,439 --> 00:00:14,538 Мы не можем не интересоваться настоящей мозговой деятельностью, 5 00:00:14,562 --> 00:00:15,851 а также неврологией. 6 00:00:15,875 --> 00:00:20,047 И особенно нас интересуют действия нашего мозга, 7 00:00:20,071 --> 00:00:24,113 в которых он до сих пор превосходит возможности компьютеров. 8 00:00:25,209 --> 00:00:28,818 Исторически одной из этих областей было восприятие — 9 00:00:28,842 --> 00:00:31,881 процесс, благодаря которому всё в мире, 10 00:00:31,905 --> 00:00:33,489 все звуки и изображения 11 00:00:33,513 --> 00:00:35,691 в нашем сознании превращаются в понятия. 12 00:00:36,235 --> 00:00:38,752 Это совершенно необходимо для нашего разума, 13 00:00:38,776 --> 00:00:41,240 однако полезно и для компьютера. 14 00:00:41,636 --> 00:00:44,986 Например, наша команда создаёт машинные алгоритмы восприятия, 15 00:00:45,010 --> 00:00:48,884 которые позволяют вам находить картинки на Google Photos по тому, 16 00:00:48,908 --> 00:00:50,305 что на них изображено. 17 00:00:51,594 --> 00:00:55,087 Обратная сторона восприятия — творчество: 18 00:00:55,111 --> 00:00:58,149 превращение задумки во что-то реальное. 19 00:00:58,173 --> 00:01:01,728 Таким образом, за прошедший год наша работа над компьютерным восприятием 20 00:01:01,752 --> 00:01:06,611 также неожиданно стала связана с миром компьютерного творчества 21 00:01:06,635 --> 00:01:07,795 и машинного искусства. 22 00:01:08,556 --> 00:01:11,840 Я считаю, что у Микеланджело было точное понимание 23 00:01:11,864 --> 00:01:15,520 двойственного отношения между восприятием и творчеством. 24 00:01:16,023 --> 00:01:18,029 Вот его известная цитата: 25 00:01:18,053 --> 00:01:21,376 «Внутри каждого камня скрыта статуя, 26 00:01:22,036 --> 00:01:25,038 задача скульптора — её обнаружить». 27 00:01:26,029 --> 00:01:29,245 Я думаю, что Микеланджело говорит о том, 28 00:01:29,269 --> 00:01:32,449 что мы создаём посредством восприятия, 29 00:01:32,473 --> 00:01:35,496 а само восприятие — это акт воображения 30 00:01:35,520 --> 00:01:37,981 и материал для творчества. 31 00:01:38,691 --> 00:01:42,616 Орган, который думает, воспринимает и представляет, — 32 00:01:42,640 --> 00:01:44,228 это, конечно же, мозг. 33 00:01:45,089 --> 00:01:47,634 Я хотел бы начать с небольшого экскурса в историю 34 00:01:47,658 --> 00:01:49,960 исследования нашего мозга. 35 00:01:50,496 --> 00:01:52,942 Потому что, в отличие от сердца или кишечника, 36 00:01:52,966 --> 00:01:56,110 нельзя много сказать о мозге, просто посмотрев на него 37 00:01:56,134 --> 00:01:57,546 невооружённым глазом. 38 00:01:57,983 --> 00:02:00,399 Первые анатомы, которые смотрели на мозги, 39 00:02:00,423 --> 00:02:04,230 давали поверхностной структуре этого óргана причудливые имена, 40 00:02:04,254 --> 00:02:06,687 например, гиппокамп, что означает «креветка». 41 00:02:06,711 --> 00:02:09,475 Но, конечно, такого рода наблюдения мало говорят нам 42 00:02:09,499 --> 00:02:11,817 о происходящем внутри мозга. 43 00:02:12,780 --> 00:02:16,393 Первый человек, у которого действительно было некоторое понимание того, 44 00:02:16,417 --> 00:02:18,347 что происходит в мозге, 45 00:02:18,371 --> 00:02:22,291 был великий испанский нейрофизиолог Сантьяго Рамон-и-Кахаль, 46 00:02:22,315 --> 00:02:23,859 живший в XIX веке. 47 00:02:23,883 --> 00:02:27,638 Он использовал микроскоп и специальный краситель, 48 00:02:27,662 --> 00:02:31,832 который мог выборочно заполнить отдельные клетки мозга 49 00:02:31,856 --> 00:02:33,864 или придать им контрастность, 50 00:02:33,888 --> 00:02:37,042 чтобы понять их морфологию. 51 00:02:37,972 --> 00:02:40,863 А вот изображения нейронов, которые он нарисовал 52 00:02:40,887 --> 00:02:42,096 в XIX веке. 53 00:02:42,120 --> 00:02:44,004 Это нейроны мозга птицы. 54 00:02:44,028 --> 00:02:47,085 Вы видите здесь невероятное разнообразие различных видов клеток, 55 00:02:47,109 --> 00:02:50,544 даже клеточная теория сама по себе была в то время довольно нова. 56 00:02:50,568 --> 00:02:51,846 И эти структуры, 57 00:02:51,870 --> 00:02:54,129 эти клетки, которые имеют разветвления 58 00:02:54,153 --> 00:02:56,761 и эти очень длинные ответвления, — 59 00:02:56,785 --> 00:02:58,401 всё это было тогда очень ново. 60 00:02:58,779 --> 00:03:01,682 Они напоминают провода. 61 00:03:01,706 --> 00:03:05,163 Это могло быть очевидным для некоторых людей в XIX веке: 62 00:03:05,187 --> 00:03:09,501 как раз начиналась электрификация. 63 00:03:09,964 --> 00:03:11,142 Но во многом 64 00:03:11,166 --> 00:03:14,479 такие микроанатомические зарисовки Рамона-и-Кахаля 65 00:03:14,503 --> 00:03:16,835 всё ещё остаются непревзойдёнными. 66 00:03:16,859 --> 00:03:18,713 Мы до сих пор, более ста лет спустя, 67 00:03:18,737 --> 00:03:21,562 пытаемся закончить работу, начатую Рамоном-и-Кахалем. 68 00:03:21,586 --> 00:03:24,720 Это необработанные данные от наших коллег 69 00:03:24,744 --> 00:03:27,625 из Института Неврологии Макса Планка. 70 00:03:27,649 --> 00:03:29,439 Наши коллеги 71 00:03:29,463 --> 00:03:34,464 изобразили маленькие кусочки ткани головного мозга. 72 00:03:34,488 --> 00:03:37,814 Весь образец составляет примерно один кубический миллиметр, 73 00:03:37,838 --> 00:03:40,459 а я показываю вам очень маленький его кусочек. 74 00:03:40,483 --> 00:03:42,829 Та риска слева равна одному микрону. 75 00:03:42,853 --> 00:03:45,262 Структуры, которые вы видите, — это митохондрии, 76 00:03:45,286 --> 00:03:47,330 они размером с бактерию. 77 00:03:47,354 --> 00:03:48,905 А это последовательные срезы 78 00:03:48,929 --> 00:03:52,077 этого очень маленького кусочка ткани. 79 00:03:52,101 --> 00:03:54,504 Просто для сравнения: 80 00:03:54,528 --> 00:03:58,320 диаметр волоса в среднем составляет около 100 микрон. 81 00:03:58,344 --> 00:04:00,618 Мы здесь видим нечто гораздо меньшее, 82 00:04:00,642 --> 00:04:02,040 чем человеческий волос. 83 00:04:02,064 --> 00:04:06,095 Из этой серии микроскопических срезов 84 00:04:06,119 --> 00:04:11,127 можно начать делать 3D реконструкции нейронов, похожие на эти. 85 00:04:11,151 --> 00:04:14,308 По стилю они похожи на рисунки Рамона-и-Кахаля. 86 00:04:14,332 --> 00:04:15,824 Отдельные нейроны подсвечены, 87 00:04:15,848 --> 00:04:18,629 иначе мы бы здесь ничего не увидели. 88 00:04:18,653 --> 00:04:19,965 Тут было бы полно́ всего, 89 00:04:19,989 --> 00:04:21,319 сплошные структуры 90 00:04:21,343 --> 00:04:24,067 и провода, соединяющие один нейрон с другим. 91 00:04:25,293 --> 00:04:28,097 Итак, Рамон-и-Кахаль немного опережал своё время, 92 00:04:28,121 --> 00:04:30,676 и прогресс в понимании мозга продвигался медленно 93 00:04:30,700 --> 00:04:32,971 в течение следующих десятилетий. 94 00:04:33,455 --> 00:04:36,308 Но мы знали, что нейроны используют электричество, 95 00:04:36,332 --> 00:04:39,268 и ко Второй мировой войне технологии были развиты достаточно, 96 00:04:39,292 --> 00:04:42,098 чтобы начать электрические эксперименты на живых нейронах, 97 00:04:42,122 --> 00:04:44,228 чтобы лучше понимать, как они работают. 98 00:04:44,631 --> 00:04:48,987 Именно тогда изобрели компьютеры, 99 00:04:49,011 --> 00:04:52,111 во многом основанные на идее моделирования мозга, 100 00:04:52,135 --> 00:04:55,220 или «искусственного интеллекта», как называл его Алан Тьюринг, 101 00:04:55,244 --> 00:04:57,235 один из отцов информатики. 102 00:04:57,923 --> 00:05:02,555 Уоррен Мак-Каллок и Уолтер Питтс посмотрели на рисунки Рамона-и-Кахаля. 103 00:05:02,579 --> 00:05:03,896 Сейчас я показываю вам 104 00:05:03,920 --> 00:05:05,482 это изображение зрительной коры. 105 00:05:05,506 --> 00:05:09,948 Эта кора головного мозга обрабатывает образы, поступающие от органов зрения. 106 00:05:10,424 --> 00:05:13,932 По их мнению это выглядело, как замкнутая схема. 107 00:05:14,353 --> 00:05:18,188 В схеме Мак-Каллока и Питтса многие детали 108 00:05:18,212 --> 00:05:19,564 не совсем точны, 109 00:05:19,588 --> 00:05:20,823 но основная идея, 110 00:05:20,847 --> 00:05:24,839 что зрительная кора работает как серия вычислительных элементов, 111 00:05:24,863 --> 00:05:27,609 которые каскадом передают друг другу информацию, 112 00:05:27,633 --> 00:05:29,235 по сути верна. 113 00:05:29,259 --> 00:05:31,609 Давайте немного поговорим о том, 114 00:05:31,633 --> 00:05:35,665 что должна делать модель обработки визуальной информации. 115 00:05:36,228 --> 00:05:38,969 Основная задача распознавания — 116 00:05:38,993 --> 00:05:43,187 это взять картинку, такую как эта, и сказать: 117 00:05:43,211 --> 00:05:44,387 «Это птица». 118 00:05:44,411 --> 00:05:47,285 Для нашего мозга это простая задача, 119 00:05:47,309 --> 00:05:50,730 но вы должны понимать, что для компьютера 120 00:05:50,754 --> 00:05:53,841 всего несколько лет назад подобное было почти невозможно. 121 00:05:53,865 --> 00:05:55,781 Согласно классической парадигме расчётов, 122 00:05:55,805 --> 00:05:58,312 это не то задание, которое можно выполнить легко. 123 00:05:59,366 --> 00:06:01,918 Так что же происходит между пикселями, 124 00:06:01,942 --> 00:06:05,970 между изображением птицы и словом «птица»? 125 00:06:05,994 --> 00:06:08,808 По сути, группа нейронов связана друг с другом 126 00:06:08,832 --> 00:06:09,987 в нейронной сети, 127 00:06:10,011 --> 00:06:11,234 как я показываю здесь. 128 00:06:11,258 --> 00:06:14,530 Эта нейронная сеть в коре головного мозга могла быть биологической, 129 00:06:14,554 --> 00:06:16,716 а в наше время мы можем 130 00:06:16,740 --> 00:06:19,194 смоделировать такую нейронную сеть на компьютере. 131 00:06:19,834 --> 00:06:22,187 И я вам покажу, как это выглядит. 132 00:06:22,211 --> 00:06:25,627 Поэтому о пикселях можно думать как о первом слое нейронов — 133 00:06:25,651 --> 00:06:27,890 именно так происходит в глазу — 134 00:06:27,914 --> 00:06:29,577 это нейроны в сетчатке. 135 00:06:29,601 --> 00:06:31,101 А остальные нейроны 136 00:06:31,125 --> 00:06:34,528 связаны по цепи слой за слоем, 137 00:06:34,552 --> 00:06:37,585 их соединяют между собой синапсы различных весов. 138 00:06:37,609 --> 00:06:38,944 Поведение этой сети 139 00:06:38,968 --> 00:06:42,252 характеризуется силой этих синапсов. 140 00:06:42,276 --> 00:06:45,564 Они характеризуют вычислительные свойства этой сети. 141 00:06:45,588 --> 00:06:47,058 В конце концов 142 00:06:47,082 --> 00:06:49,529 один или несколько нейронов 143 00:06:49,553 --> 00:06:51,200 загораются, говоря: «птица». 144 00:06:51,824 --> 00:06:54,956 Теперь я собираюсь представить эти три вещи — 145 00:06:54,980 --> 00:06:59,676 входные пиксели и синапсы в нейронной сети 146 00:06:59,700 --> 00:07:01,285 и, как результат, птицу 147 00:07:01,309 --> 00:07:04,366 при помощи трёх переменных: Х, W и Y. 148 00:07:04,853 --> 00:07:06,664 Существует миллион или около того X — 149 00:07:06,688 --> 00:07:08,641 миллион пикселей в изображении. 150 00:07:08,665 --> 00:07:11,111 Миллиарды или триллионы W — 151 00:07:11,135 --> 00:07:14,556 представляющих весá всех этих синапсов в нейронной сети. 152 00:07:14,580 --> 00:07:16,455 И очень маленькое количество Y — 153 00:07:16,479 --> 00:07:18,337 значений на выходе сети. 154 00:07:18,361 --> 00:07:20,110 «Птица» же состоит всего из 5 букв. 155 00:07:21,088 --> 00:07:24,514 Давайте представим, что это простая формула: 156 00:07:24,538 --> 00:07:26,701 X «х» W = Y. 157 00:07:26,725 --> 00:07:28,761 Я ставлю умножение в кавычки, 158 00:07:28,785 --> 00:07:31,065 потому что на самом деле там просисходит 159 00:07:31,089 --> 00:07:34,135 очень сложная серия математических расчётов. 160 00:07:35,172 --> 00:07:36,393 Это одно уравнение 161 00:07:36,417 --> 00:07:38,089 с тремя переменными. 162 00:07:38,113 --> 00:07:40,839 И всем известно, что если у нас есть уравнение, 163 00:07:40,863 --> 00:07:44,505 то мы можем найти одну переменную, зная две другие. 164 00:07:45,158 --> 00:07:48,538 Таким образом, задача 165 00:07:48,562 --> 00:07:51,435 по распознаванию птицы в изображении птицы 166 00:07:51,459 --> 00:07:52,733 заключается в следующем: 167 00:07:52,757 --> 00:07:56,216 Y неизвестен, а W и X известны. 168 00:07:56,240 --> 00:07:58,699 Вы знаете нейронную сеть, вы знаете пиксели. 169 00:07:58,723 --> 00:08:02,050 И как видите, это относительно простая задача. 170 00:08:02,074 --> 00:08:04,260 Вы умножаете два на три, и всё готово. 171 00:08:04,862 --> 00:08:06,985 Я покажу вам искусственную нейронную сеть, 172 00:08:07,009 --> 00:08:09,305 которую мы построили недавно, делая то же самое. 173 00:08:09,634 --> 00:08:12,494 Она работает в реальном времени на мобильном телефоне. 174 00:08:12,518 --> 00:08:15,831 Удивительно уже само по себе то, 175 00:08:15,855 --> 00:08:19,323 что мобильные телефоны могут выполнять миллиарды и триллионы операций 176 00:08:19,347 --> 00:08:20,595 в секунду. 177 00:08:20,619 --> 00:08:22,234 Мы видим телефон, 178 00:08:22,258 --> 00:08:25,805 который смотрит на изображение птиц одно за другим 179 00:08:25,829 --> 00:08:28,544 и не только говорит: «Да, это птица», 180 00:08:28,568 --> 00:08:31,979 но также через такую же сеть определяет вид этой птицы. 181 00:08:32,890 --> 00:08:34,716 На этой картинке 182 00:08:34,740 --> 00:08:38,542 X и W известны, а Y неизвестен. 183 00:08:38,566 --> 00:08:41,074 Я, конечно, пропускаю самую сложную часть — 184 00:08:41,098 --> 00:08:44,959 то, каким непостижимым образом мы находим W — 185 00:08:44,983 --> 00:08:47,170 мозг, который может это сделать. 186 00:08:47,194 --> 00:08:49,028 Сможем ли мы сделать такую модель? 187 00:08:49,418 --> 00:08:52,651 Этот процесс нахождения W, 188 00:08:52,675 --> 00:08:55,322 будь это простым уравнением, 189 00:08:55,346 --> 00:08:57,346 где мы думаем о неизвестных, как о числах, 190 00:08:57,370 --> 00:09:00,057 мы бы знали, как именно это сделать: 6 = 2 * W, 191 00:09:00,081 --> 00:09:03,393 делим на 2, и готово. 192 00:09:04,001 --> 00:09:06,221 Но проблема именно в этом преобразовании, 193 00:09:06,823 --> 00:09:07,974 в делении. 194 00:09:07,998 --> 00:09:11,119 Мы использовали его здесь, так как оно обратно умножению, 195 00:09:11,143 --> 00:09:12,583 но, как я сказал, 196 00:09:12,607 --> 00:09:15,056 умножение здесь — это фикция. 197 00:09:15,080 --> 00:09:18,406 Это чрезвычайно сложная нелинейная операция, 198 00:09:18,430 --> 00:09:20,134 она не имеет обратного действия. 199 00:09:20,158 --> 00:09:23,308 Мы должны найти способ решить это уравнение 200 00:09:23,332 --> 00:09:25,356 без деления. 201 00:09:25,380 --> 00:09:27,723 И способ довольно простой. 202 00:09:27,747 --> 00:09:30,418 Давайте проделаем маленький математический трюк 203 00:09:30,442 --> 00:09:33,348 и перенесём 6 в правую часть уравнения. 204 00:09:33,372 --> 00:09:35,198 Сейчас мы используем умножение. 205 00:09:35,675 --> 00:09:39,255 И этот ноль, давайте примем его за отклонение. 206 00:09:39,279 --> 00:09:41,794 Другими словами, если мы посчитаем W правильно, 207 00:09:41,818 --> 00:09:43,474 то отклонение будет равно нулю. 208 00:09:43,498 --> 00:09:45,436 А если мы посчитали неверно, 209 00:09:45,460 --> 00:09:47,209 то отклонение будет больше нуля. 210 00:09:47,233 --> 00:09:50,599 Теперь мы можем подбирать числа, чтобы минимизировать отклонение, 211 00:09:50,623 --> 00:09:53,310 а это как раз то, в чём компьютеры очень хороши. 212 00:09:53,334 --> 00:09:54,927 Сначала мы предположили: 213 00:09:54,951 --> 00:09:56,107 что если W = 0? 214 00:09:56,131 --> 00:09:57,371 Тогда отклонение равно 6. 215 00:09:57,395 --> 00:09:58,841 Если W = 1, то отклонение — 4. 216 00:09:58,865 --> 00:10:01,232 И потом компьютер начинает играть в «угадайку» 217 00:10:01,256 --> 00:10:03,623 и приближает отклонение к нулю. 218 00:10:03,647 --> 00:10:07,021 Так он приближается к верному значению W. 219 00:10:07,045 --> 00:10:10,701 Обычно он не находит точного решения, но сделав с десяток шагов, 220 00:10:10,725 --> 00:10:15,349 мы приближаемся к W = 2,999, что достаточно близко к истине. 221 00:10:16,302 --> 00:10:18,116 Это и есть процесс обучения. 222 00:10:18,140 --> 00:10:20,870 Напомню, что именно мы делаем: 223 00:10:20,894 --> 00:10:25,272 мы берём много известных X и Y 224 00:10:25,296 --> 00:10:28,750 и посредством процесса повторения находим W. 225 00:10:28,774 --> 00:10:32,330 Мы сами учимся точно так же. 226 00:10:32,354 --> 00:10:34,584 В детстве мы встречаем множество образов, 227 00:10:34,608 --> 00:10:37,241 и нам говорят: «Это птица, а это не птица». 228 00:10:37,714 --> 00:10:39,812 Со временем через повторение 229 00:10:39,836 --> 00:10:42,764 мы находим W, то есть нейронные связи. 230 00:10:43,460 --> 00:10:47,546 Теперь у нас есть готовые X и W для нахождения Y 231 00:10:47,570 --> 00:10:49,417 и быстрого повседневного восприятия. 232 00:10:49,441 --> 00:10:51,204 Мы узнаём, как найти W, — 233 00:10:51,228 --> 00:10:53,131 это обучение, и оно сложно, 234 00:10:53,155 --> 00:10:55,140 так как надо минимизировать погрешности 235 00:10:55,164 --> 00:10:56,851 методом проб и ошибок. 236 00:10:56,875 --> 00:11:00,062 Около года назад Алекс Мордвинцев из нашей команды 237 00:11:00,086 --> 00:11:03,636 решил попробовать, что будет, если попытаться найти X, 238 00:11:03,660 --> 00:11:05,697 зная W и Y. 239 00:11:06,124 --> 00:11:07,275 Другими словами, 240 00:11:07,299 --> 00:11:08,651 вы знаете, что это птица, 241 00:11:08,675 --> 00:11:11,978 и вашей нейронной сети тоже это известно. 242 00:11:12,002 --> 00:11:14,346 Но как же выглядит птица? 243 00:11:15,034 --> 00:11:20,058 Оказывается, что используя ту же самую процедуру минимизации погрешностей, 244 00:11:20,082 --> 00:11:23,512 можно проделать это c нейронной сетью, обученной распознавать птиц, 245 00:11:23,536 --> 00:11:26,924 и в результате получается 246 00:11:30,400 --> 00:11:31,705 изображение птицы. 247 00:11:32,814 --> 00:11:36,551 Это изображение птиц создано нейронной сетью, 248 00:11:36,575 --> 00:11:38,401 обученной распознавать птиц, 249 00:11:38,425 --> 00:11:41,963 просто находя X, а не Y, 250 00:11:41,987 --> 00:11:43,275 через множество повторений. 251 00:11:43,732 --> 00:11:45,579 Вот другой интересный пример. 252 00:11:45,603 --> 00:11:49,040 Это работа, сделанная Майком Тайком из нашей команды. 253 00:11:49,064 --> 00:11:51,372 Он назвал её «Парад зверей». 254 00:11:51,396 --> 00:11:54,272 Она немного напоминает мне работы Уильяма Кентриджа, 255 00:11:54,296 --> 00:11:56,785 в которых он делает эскизы, потом их стирает, 256 00:11:56,809 --> 00:11:58,269 снова рисует и стирает, 257 00:11:58,293 --> 00:11:59,691 и так создаёт фильм. 258 00:11:59,715 --> 00:12:00,866 В данном случае 259 00:12:00,890 --> 00:12:04,167 Майк меняет Y различных видов животных 260 00:12:04,191 --> 00:12:06,573 в сети, созданной для распознавания 261 00:12:06,597 --> 00:12:08,407 разных видов животных. 262 00:12:08,431 --> 00:12:12,182 Получается парадоксальное, в стиле Эшера, изображение животных. 263 00:12:14,221 --> 00:12:18,835 Здесь он и Алекс попытались упростить Y 264 00:12:18,859 --> 00:12:21,618 до двухмерного пространства, 265 00:12:21,642 --> 00:12:25,080 тем самым создавая карту из пространства всех объектов, 266 00:12:25,104 --> 00:12:26,823 распознаваемых данной сетью. 267 00:12:26,847 --> 00:12:28,870 Выполняя такого рода синтез 268 00:12:28,894 --> 00:12:31,276 или создавая изображения на всей поверхности, 269 00:12:31,300 --> 00:12:34,146 изменяя в ней Y, вы делаете подобие карты — 270 00:12:34,170 --> 00:12:37,311 визуальную карту всех вещей, которые может распознать сеть. 271 00:12:37,335 --> 00:12:40,200 Здесь есть все животные. Вот «броненосец». 272 00:12:40,919 --> 00:12:43,398 То же можно проделать с другими типами сетей. 273 00:12:43,422 --> 00:12:46,296 Эта сеть создана, чтобы распознавать лица 274 00:12:46,320 --> 00:12:48,320 и отличать одно лицо от другого. 275 00:12:48,344 --> 00:12:51,593 Здесь мы добавляем Y, который значит «я», 276 00:12:51,617 --> 00:12:53,192 мои параметры лица. 277 00:12:53,216 --> 00:12:54,922 И когда эта сеть находит X, 278 00:12:54,946 --> 00:12:57,564 то создаёт это довольно сумасшедшее, 279 00:12:57,588 --> 00:13:02,016 кубическое, сюрреалистическое, психоделическое изображение меня 280 00:13:02,040 --> 00:13:03,846 с разных сторон одновременно. 281 00:13:03,870 --> 00:13:06,604 И причина, по которой изображение так выглядит, 282 00:13:06,628 --> 00:13:10,315 в том, что сеть стремится избавиться от неопределённости, 283 00:13:10,339 --> 00:13:12,815 возникающей из-за разных положений головы 284 00:13:12,839 --> 00:13:16,215 или разных углов освещения. 285 00:13:16,239 --> 00:13:18,324 При такого рода преобразованиях, 286 00:13:18,348 --> 00:13:20,652 если нет опорного изображения 287 00:13:20,676 --> 00:13:21,887 или опорных данных, 288 00:13:21,911 --> 00:13:25,676 то вы получите мешанину изображений, сделанных с разных сторон, 289 00:13:25,700 --> 00:13:27,068 из-за неопределённости. 290 00:13:27,786 --> 00:13:32,009 Вот что происходит, если Алекс использует своё лицо как опорное изображение 291 00:13:32,033 --> 00:13:35,354 во время оптимизации программы по воссозданию моего лица. 292 00:13:36,284 --> 00:13:38,612 Как видите, не всё идеально. 293 00:13:38,636 --> 00:13:40,510 Нам предстоит ещё много работы 294 00:13:40,534 --> 00:13:42,987 по оптимизации процесса оптимизации. 295 00:13:43,011 --> 00:13:45,838 Но полученное лицо становится чётче, 296 00:13:45,862 --> 00:13:47,876 при его создании опорным было моё лицо. 297 00:13:48,892 --> 00:13:51,393 Вам не нужно начинать с чистого листа 298 00:13:51,417 --> 00:13:52,573 или белого шума. 299 00:13:52,597 --> 00:13:53,901 Когда вы ищете X, 300 00:13:53,925 --> 00:13:57,814 вы можете начать с X, который сам по себе является другим изображением. 301 00:13:57,838 --> 00:14:00,394 Вот о чём эта маленькая демонстрация. 302 00:14:00,418 --> 00:14:04,540 Эта сеть которая разработана, чтобы категоризировать 303 00:14:04,564 --> 00:14:07,683 самые различные объекты — искусственные сооружения, животных... 304 00:14:07,707 --> 00:14:10,300 Здесь мы начинаем с простого изображения облаков, 305 00:14:10,324 --> 00:14:11,995 и по мере оптимизации 306 00:14:12,019 --> 00:14:16,505 эта сеть определяет, что именно она видит в облаках. 307 00:14:16,931 --> 00:14:19,251 И чем дольше вы смотрите, 308 00:14:19,275 --> 00:14:22,028 тем больше сможете увидеть в облаках. 309 00:14:23,004 --> 00:14:26,379 Можно использовать сеть распознавания лиц, чтобы вызвать галюцинации 310 00:14:26,403 --> 00:14:28,215 и получить довольно сумасшедшие вещи. 311 00:14:28,239 --> 00:14:29,389 (Смех) 312 00:14:30,401 --> 00:14:33,145 Майк провёл и другой эксперимент, 313 00:14:33,169 --> 00:14:37,074 в котором он берёт изображение óблака, 314 00:14:37,098 --> 00:14:40,605 галлюцинирует, приближает, галлюцинирует, приближает. 315 00:14:40,629 --> 00:14:41,780 И таким образом 316 00:14:41,804 --> 00:14:45,479 получается что-то типа состояния диссоциативной фуги сети 317 00:14:45,503 --> 00:14:49,183 или подобие свободных ассоциаций, 318 00:14:49,207 --> 00:14:51,434 в которых сеть ловит свой хвост. 319 00:14:51,458 --> 00:14:54,879 Каждое изображение становится основой для ответа на вопрос: 320 00:14:54,903 --> 00:14:56,324 «Что же я увижу дальше? 321 00:14:56,348 --> 00:14:59,151 Что же я увижу дальше? Что же я увижу дальше?» 322 00:14:59,487 --> 00:15:02,423 Первый раз я показал это группе 323 00:15:02,447 --> 00:15:07,884 в Сиэттле на лекции «Высшее образование». 324 00:15:07,908 --> 00:15:10,345 Это было как раз после легализации марихуаны. 325 00:15:10,369 --> 00:15:12,784 (Смех) 326 00:15:14,627 --> 00:15:16,731 Я хотел бы быстро подвести итог 327 00:15:16,755 --> 00:15:21,010 и отметить, что возможности этой технологии безграничны. 328 00:15:21,034 --> 00:15:24,699 Я показал вам лишь визуальные примеры, потому что на них интересно смотреть. 329 00:15:24,723 --> 00:15:27,174 Но это не только визуальная технология. 330 00:15:27,198 --> 00:15:29,191 Наш сотрудник, художник Росс Гудвин, 331 00:15:29,215 --> 00:15:32,886 провёл эксперимент с камерой, на которую делал снимок, 332 00:15:32,910 --> 00:15:37,144 а в рюкзаке у него был компьютер, пишущий стихи посредством нейронных сетей, 333 00:15:37,168 --> 00:15:39,112 которые брали за основу фотографию. 334 00:15:39,136 --> 00:15:42,083 И эта поэтическая нейронная сеть была «натренирована» 335 00:15:42,107 --> 00:15:44,341 на обширном корпусе поэзии XX века. 336 00:15:44,365 --> 00:15:45,864 И знаете, получившиеся стихи, 337 00:15:45,888 --> 00:15:47,802 по-моему, не не так уж и плохи. 338 00:15:47,826 --> 00:15:49,210 (Смех) 339 00:15:49,234 --> 00:15:50,393 В завершение скажу, 340 00:15:50,417 --> 00:15:52,549 что считаю, 341 00:15:52,573 --> 00:15:53,807 Микаленджело был прав: 342 00:15:53,831 --> 00:15:57,267 восприятие и творчество очень тесно связаны между собой. 343 00:15:57,611 --> 00:16:00,245 Мы только что увидели нейронные сети, 344 00:16:00,269 --> 00:16:02,572 полностью обученные различать 345 00:16:02,596 --> 00:16:04,838 и распознавать разные физические объекты, 346 00:16:04,862 --> 00:16:08,023 а также работать в обратном направлении, воспроизводя их. 347 00:16:08,047 --> 00:16:09,830 На эту мысль меня наводит не то, 348 00:16:09,854 --> 00:16:12,252 что Микеланджело действительно видел 349 00:16:12,276 --> 00:16:14,728 скульптуру в глыбе камня, 350 00:16:14,752 --> 00:16:18,390 а то, что любое существо, даже инопланетное, 351 00:16:18,414 --> 00:16:22,071 способное к такому восприятию, 352 00:16:22,095 --> 00:16:23,470 также способно творить, 353 00:16:23,494 --> 00:16:26,718 потому что действия в обоих случаях одинаковые. 354 00:16:26,742 --> 00:16:31,274 Кроме того, я думаю, что восприятие и творчество присущи 355 00:16:31,298 --> 00:16:32,508 не только человеку. 356 00:16:32,532 --> 00:16:36,240 У нас начинают появляться компьютеры, которые могут делать то же самое. 357 00:16:36,264 --> 00:16:39,592 И это неудивительно, ведь мозг — своего рода компьютер. 358 00:16:39,616 --> 00:16:41,273 И наконец, 359 00:16:41,297 --> 00:16:45,965 информатика зарождалась в попытках создания искусственного интеллекта. 360 00:16:45,989 --> 00:16:48,451 Её во многом сформировала концепция о том, 361 00:16:48,475 --> 00:16:51,488 как можно сделать машины умнее. 362 00:16:51,512 --> 00:16:53,674 И сейчас мы начинаем выполнять 363 00:16:53,698 --> 00:16:56,104 некоторые обещания тех первопроходцев, 364 00:16:56,128 --> 00:16:57,841 Тьюринга и фон Неймана, 365 00:16:57,865 --> 00:17:00,130 Мак-Каллока и Питтса. 366 00:17:00,154 --> 00:17:04,252 Я считаю, что компьютеры — это не только расчёты, 367 00:17:04,276 --> 00:17:06,423 пасьянс «Косынка» или что-то подобное. 368 00:17:06,447 --> 00:17:09,025 Мы изначально делали компьютеры похожими на свой мозг. 369 00:17:09,049 --> 00:17:12,318 И они дали нам возможность лучше понять собственный мозг 370 00:17:12,342 --> 00:17:13,871 и развивать его. 371 00:17:14,627 --> 00:17:15,794 Большое спасибо. 372 00:17:15,818 --> 00:17:21,757 (Аплодисменты)