WEBVTT

00:00:00.880 --> 00:00:04.893
Обычно, если вы хотите, чтобы
компьютер сделал что-то новое,

00:00:04.893 --> 00:00:06.447
вам нужно его запрограммировать.

00:00:06.447 --> 00:00:09.858
Для тех, кто не знает:
программирование

00:00:09.858 --> 00:00:13.360
требует мучительного определения
мельчайших деталей,

00:00:13.360 --> 00:00:16.727
которые должен выполнять компьютер

00:00:16.727 --> 00:00:19.089
для достижения вашей цели.

00:00:19.089 --> 00:00:22.585
А сделать то, чего вы никогда не делали,

00:00:22.585 --> 00:00:24.648
будет очень сложно.

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
Именно с такой сложной задачей
столкнулся этот человек, Артур Самуэль.

00:00:28.131 --> 00:00:32.208
В 1956 году он захотел,

00:00:32.208 --> 00:00:34.548
чтобы компьютер
смог обыграть его в шашки.

00:00:34.548 --> 00:00:36.588
Как написать программу,

00:00:36.588 --> 00:00:40.394
продумать её до мельчайших деталей,
чтобы она обыграла тебя в шашки?

00:00:40.394 --> 00:00:42.116
Ему в голову пришла мысль:

00:00:42.116 --> 00:00:45.840
компьютер должен сыграть тысячу партий
с самим собой,

00:00:45.840 --> 00:00:48.364
и так он научится играть в шашки.

00:00:48.364 --> 00:00:51.544
Это действительно сработало —
в 1962 году

00:00:51.544 --> 00:00:55.561
этот компьютер обыграл
чемпиона штата Коннектикут.

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
Так Артур Самуэль стал основоположником
машинного обучения.

00:00:58.534 --> 00:01:00.251
Я в большом долгу перед ним,

00:01:00.251 --> 00:01:03.014
потому что работаю
в области машинного обучения.

00:01:03.014 --> 00:01:04.479
Я был президентом Kaggle,

00:01:04.479 --> 00:01:07.867
сообщества, объединяющего 200 000 людей,
применяющих машинное обучение.

00:01:07.867 --> 00:01:09.925
Kaggle проводит соревнования

00:01:09.925 --> 00:01:13.633
по решению ещё не решённых проблем,

00:01:13.633 --> 00:01:17.470
и участники успешно справились
с сотнями из них.

00:01:17.470 --> 00:01:19.940
У меня была отличная возможность
побольше узнать

00:01:19.940 --> 00:01:23.890
о машинном обучении
в прошлом, настоящем

00:01:23.890 --> 00:01:26.252
и будущем.

00:01:26.252 --> 00:01:30.675
Возможно, первым большим коммерческим
успехом машинного обучения стал Google.

00:01:30.675 --> 00:01:33.784
В Google доказали,
что можно находить информацию

00:01:33.784 --> 00:01:35.536
с помощью компьютерного алгоритма,

00:01:35.536 --> 00:01:38.437
а этот алгоритм был основан
на машинном обучении.

00:01:38.437 --> 00:01:42.323
С тех пор машинное обучение неоднократно
использовалось в коммерческих целях.

00:01:42.323 --> 00:01:44.160
Компании вроде Amazon и Netflix

00:01:44.160 --> 00:01:47.876
иcпользуют машинное обучение, определяя,
какие товары вы захотите купить,

00:01:47.876 --> 00:01:49.896
какие фильмы посмотреть.

00:01:49.896 --> 00:01:51.703
Иногда это даже пугает.

00:01:51.703 --> 00:01:53.637
Сети, такие как LinkedIn и Facebook,

00:01:53.637 --> 00:01:56.251
иногда предлагают людей,
которых вы можете знать,

00:01:56.251 --> 00:01:58.228
а вы не понимаете, как они их нашли.

00:01:58.228 --> 00:02:01.195
Это стало возможным
благодаря машинному обучению.

00:02:01.195 --> 00:02:05.323
Алгоритмы собирают информацию
и обучаются,

00:02:05.331 --> 00:02:07.399
а не программируются человеком.

NOTE Paragraph

00:02:07.399 --> 00:02:09.877
Это также объясняет успехи IBM:

00:02:09.877 --> 00:02:13.739
программа Watson обыграла
двух чемпионов мира в «Своей игре»,

00:02:13.739 --> 00:02:16.964
ответив на невероятно хитрые и каверзные
вопросы вроде этого:

00:02:16.964 --> 00:02:19.799
[В 2003 году «лев Нимруда» исчез
из музея этого города]

00:02:19.799 --> 00:02:23.034
Именно этот метод лёг в основу
технологии беспилотных автомобилей.

00:02:23.034 --> 00:02:25.856
Важно, чтобы такой автомобиль
смог отличить

00:02:25.856 --> 00:02:28.488
дерево от пешехода.

00:02:28.488 --> 00:02:31.075
Мы не знаем,
как задать такой алгоритм вручную,

00:02:31.075 --> 00:02:34.072
зато это стало возможным
с помощью машинного обучения.

00:02:34.072 --> 00:02:36.680
Этот автомобиль проехал
более 1,5 миллионов километров

00:02:36.680 --> 00:02:40.186
и ни разу не попал в аварию на трассе.

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
Итак, мы знаем, 
что компьютеры могут учиться.

00:02:44.110 --> 00:02:46.010
Причём они могут учиться делать то,

00:02:46.010 --> 00:02:48.848
чего не умеем делать мы сами,

00:02:48.848 --> 00:02:51.733
или могут делать это лучше нас.

00:02:51.733 --> 00:02:55.928
С одним из самых невероятных примеров
машинного обучения

00:02:55.928 --> 00:02:58.320
я столкнулся, пока работал в Kaggle:

00:02:58.320 --> 00:03:01.911
команда под руководством Джеффри Хинтона

00:03:01.911 --> 00:03:03.463
из Торонтского университета

00:03:03.463 --> 00:03:06.140
выиграла конкурс по автоматизации поиска
новых лекарств.

00:03:06.140 --> 00:03:08.987
Невероятно не только то,
что их алгоритм оказался лучше

00:03:08.987 --> 00:03:13.000
всех алгоритмов, разработанных Merck
или международным научным сообществом.

00:03:13.000 --> 00:03:18.061
Никто в команде не имел никакого отношения
к химии, биологии или медицине,

00:03:18.061 --> 00:03:20.230
и на всё у них ушло две недели.

00:03:20.230 --> 00:03:21.611
Как?

00:03:22.421 --> 00:03:25.342
Благодаря уникальному алгоритму
глубинного обучения.

00:03:25.342 --> 00:03:28.291
Результаты их работы были настолько 
ошеломительны, что об этом

00:03:28.291 --> 00:03:31.412
спустя несколько недель сообщила
на первой полосе New York Times.

00:03:31.412 --> 00:03:34.147
Джеффри Хинтон слева.

00:03:34.147 --> 00:03:38.488
В основе глубинного обучения —
принципы работы человеческого мозга,

00:03:38.488 --> 00:03:40.300
и поэтому теоретически

00:03:40.300 --> 00:03:44.141
у этого алгоритма
нет ограничений применимости.

00:03:44.141 --> 00:03:46.964
Чем больше данных на входе
и времени на их обработку,

00:03:46.964 --> 00:03:48.276
тем лучше результат.

NOTE Paragraph

00:03:48.276 --> 00:03:50.615
В этой же статье New York Times
был упомянут

00:03:50.615 --> 00:03:52.857
другой удивительный продукт
глубинного обучения,

00:03:52.857 --> 00:03:55.569
который я вам сейчас продемонстрирую.

00:03:55.569 --> 00:04:00.510
Он доказывает,
что компьютеры могут слышать и понимать.

NOTE Paragraph

00:04:00.510 --> 00:04:03.221
(Видео) Ричард Рашид: Наконец,

00:04:03.221 --> 00:04:06.246
последнее, что я хочу сделать, —

00:04:06.246 --> 00:04:10.961
это поговорить с вами по-китайски.

00:04:10.961 --> 00:04:13.596
Суть в том,

00:04:13.596 --> 00:04:18.548
что мы сформировали массив записей
носителей китайского языка

00:04:18.548 --> 00:04:21.128
и разработали систему
для преобразования текста в речь,

00:04:21.128 --> 00:04:25.801
которая получает текст на китайском
и преобразует его в речь.

00:04:25.801 --> 00:04:29.929
Потом мы записали примерно час
звучания моего голоса

00:04:29.929 --> 00:04:31.820
и использовали эту запись для модуляции

00:04:31.820 --> 00:04:36.551
обычной системы
преобразования текста в речь.

00:04:36.551 --> 00:04:38.904
Если что, результат не идеален.

00:04:38.904 --> 00:04:41.552
Там есть несколько ошибок.

00:04:41.552 --> 00:04:44.036
(Говорит по-китайски)

00:04:44.036 --> 00:04:47.403
(Аплодисменты)

00:04:49.446 --> 00:04:53.022
Нам предстоит ещё много работы.

00:04:53.022 --> 00:04:56.667
(Говорит по-китайски)

00:04:56.667 --> 00:05:00.100
(Аплодисменты)

NOTE Paragraph

00:05:01.345 --> 00:05:04.744
Джереми Говард: Это было на конференции
по машинному обучению в Китае.

00:05:04.744 --> 00:05:07.114
На самом деле,
на научных конференциях

00:05:07.114 --> 00:05:09.011
внезапно аплодируют очень редко,

00:05:09.011 --> 00:05:12.687
в отличие от TEDx, так что не стесняйтесь.

00:05:12.687 --> 00:05:15.482
Всё это видео было записано
с помощью глубинного обучения.

00:05:15.482 --> 00:05:17.007
(Аплодисменты) Спасибо.

00:05:17.007 --> 00:05:19.289
Английские субтитры —
это глубинное обучение,

00:05:19.289 --> 00:05:22.701
перевод на китайский
и текст справа вверху — оно же,

00:05:22.701 --> 00:05:26.008
и конструирование голоса — снова оно.

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
Глубинное обучение — невероятная вещь.

00:05:29.242 --> 00:05:32.341
Один-единственный алгоритм,
который, похоже, может почти всё.

00:05:32.341 --> 00:05:35.452
Ещё годом раньше я обнаружил,
что этот алгоритм может видеть.

00:05:35.452 --> 00:05:37.348
На малоизвестном конкурсе в Германии —

00:05:37.348 --> 00:05:40.225
«Сравнительный анализ распознавания
дорожных знаков» —

00:05:40.225 --> 00:05:43.618
глубинное обучение использовалось
для распознавания вот таких знаков.

00:05:43.618 --> 00:05:45.712
Мало того, что результаты распознавания

00:05:45.712 --> 00:05:47.470
были лучше, чем у других алгоритмов;

00:05:47.470 --> 00:05:50.189
в таблице видно,
что они превосходят человеческие

00:05:50.189 --> 00:05:52.041
примерно в два раза.

00:05:52.041 --> 00:05:54.037
Итак, к 2011 году появился

00:05:54.037 --> 00:05:57.442
первый компьютер,
который видел лучше людей.

00:05:57.442 --> 00:05:59.491
С тех пор произошло многое.

00:05:59.491 --> 00:06:03.005
В 2012 году в Google объявили,
что их алгоритм глубинного обучения

00:06:03.005 --> 00:06:04.420
использовал видео на YouTube.

00:06:04.420 --> 00:06:07.857
Данные обрабатывались
на 16 000 компьютеров в течение месяца,

00:06:07.857 --> 00:06:12.218
и компьютер самостоятельно определил,
что такое люди и кошки,

00:06:12.218 --> 00:06:14.027
на основе только видеоматериалов.

00:06:14.027 --> 00:06:16.379
Это очень похоже на то,
как учатся люди.

00:06:16.379 --> 00:06:19.119
Им не говорят, что они видят.

00:06:19.119 --> 00:06:22.450
Люди сами разбираются, что они видят.

00:06:22.450 --> 00:06:25.819
В том же 2012 году Джеффри Хинтон,
которого вы уже знаете,

00:06:25.819 --> 00:06:28.677
победил в очень известном
конкурсе ImageNet,

00:06:28.677 --> 00:06:32.818
в котором необходимо распознать,
что изображено

00:06:32.818 --> 00:06:34.256
на 1,5 миллионах картинок.

00:06:34.256 --> 00:06:37.789
К 2014 году количество ошибок
в распознавании образов

00:06:37.789 --> 00:06:39.242
сократилось до 6%.

00:06:39.242 --> 00:06:41.268
И опять же, это лучше, чем у людей.

NOTE Paragraph

00:06:41.268 --> 00:06:45.037
Эффективность компьютеров действительно
невероятно высока,

00:06:45.037 --> 00:06:47.306
и сейчас это применяется
в коммерческих целях.

00:06:47.306 --> 00:06:50.348
Так, в прошлом году в Google объявили,

00:06:50.348 --> 00:06:54.933
что их карты могут локализовать
любую точку во Франции за два часа:

00:06:54.933 --> 00:06:58.380
они обрабатывают фотографии улиц

00:06:58.380 --> 00:07:02.699
с помощью алгоритма глубинного обучения,
чтобы распознать и прочитать адреса.

00:07:02.699 --> 00:07:04.919
Подумайте, сколько времени
это заняло бы:

00:07:04.919 --> 00:07:08.274
понадобились бы десятки людей
и несколько лет.

00:07:08.274 --> 00:07:10.185
То же самое происходит в Китае.

00:07:10.185 --> 00:07:14.221
Baidu — это что-то вроде
китайского Google,

00:07:14.221 --> 00:07:16.504
и сверху слева вы видите картинку,

00:07:16.504 --> 00:07:20.478
которую я загрузил на вход
алгоритмов глубинного обучения Baidu,

00:07:20.478 --> 00:07:24.247
а под ней — то, как система распознала,
что изображено на картинке,

00:07:24.247 --> 00:07:26.483
и нашла похожие.

00:07:26.483 --> 00:07:29.219
Похожие изображения имеют похожий фон,

00:07:29.219 --> 00:07:30.877
морды смотрят в ту же сторону,

00:07:30.877 --> 00:07:32.665
иногда даже так же высунут язык.

00:07:32.665 --> 00:07:35.695
Это не просто поиск текста
на веб-странице.

00:07:35.695 --> 00:07:37.107
Я загрузил только картинку.

00:07:37.107 --> 00:07:41.128
Итак, теперь наши компьютеры 
действительно понимают увиденное

00:07:41.128 --> 00:07:42.752
и могут искать информацию в базах

00:07:42.752 --> 00:07:46.306
среди сотен миллионов картинок
в режиме реального времени.

NOTE Paragraph

00:07:46.306 --> 00:07:49.536
Значит ли это,
что компьютеры могут видеть?

00:07:49.536 --> 00:07:51.553
Это не просто умение видеть.

00:07:51.553 --> 00:07:53.622
Глубинное обучение — это намного больше.

00:07:53.622 --> 00:07:56.570
Сложные предложения со множеством
смысловых оттенков

00:07:56.570 --> 00:07:59.394
теперь понятны благодаря
алгоритмам глубинного обучения.

00:07:59.394 --> 00:08:00.687
Как видно на экране,

00:08:00.697 --> 00:08:03.975
эта стэнфордская система распознаёт
отрицательные эмоции в предложении

00:08:03.975 --> 00:08:07.384
и отмечает их красными точками сверху.

00:08:07.384 --> 00:08:10.790
Глубинное обучение
похоже на человеческое поведение

00:08:10.802 --> 00:08:15.923
в процессе распознавания того,
что и о чём сказано.

00:08:15.923 --> 00:08:18.651
Глубинное обучение использовалось
для чтения на китайском.

00:08:18.651 --> 00:08:21.807
Результат был на уровне результата
человека — носителя китайского.

00:08:21.807 --> 00:08:23.975
Этот алгоритм
был разработан в Швейцарии

00:08:23.975 --> 00:08:27.331
людьми, ни один из которых
не говорит по-китайски.

00:08:27.331 --> 00:08:29.382
Как я и сказал, глубинное обучение —

00:08:29.382 --> 00:08:31.601
это оптимальный способ
решения таких задач,

00:08:31.601 --> 00:08:36.718
даже по сравнению
с человеческим восприятием.

NOTE Paragraph

00:08:36.718 --> 00:08:39.542
На экране система,
разработаная в моей компании,

00:08:39.542 --> 00:08:41.728
в ней задействовано всё,
о чём я рассказал.

00:08:41.728 --> 00:08:44.189
Это картинки без описаний.

00:08:44.189 --> 00:08:46.541
Здесь я набираю предложения.

00:08:46.541 --> 00:08:49.510
В режиме реального времени
картинки распознаются,

00:08:49.510 --> 00:08:51.189
определяется их смысл,

00:08:51.189 --> 00:08:54.352
и находятся изображения,
соответствующие введённому мной тексту.

00:08:54.352 --> 00:08:57.108
Итак, вы видите, что предложения

00:08:57.108 --> 00:08:59.332
и картинки действительно распознаются.

00:08:59.332 --> 00:09:01.891
Я знаю, что вы видели
нечто похожее в Google,

00:09:01.891 --> 00:09:04.666
при вводе запроса,
по которому вам выдаются картинки,

00:09:04.666 --> 00:09:08.090
но в действительности там идёт поиск
нужного текста на веб-странице.

00:09:08.090 --> 00:09:11.091
Распознавание образов —
это принципиально новый процесс.

00:09:11.091 --> 00:09:13.843
Распознавание стало доступно
компьютерным алгоритмам

00:09:13.843 --> 00:09:17.091
впервые несколько месяцев назад.

NOTE Paragraph

00:09:17.091 --> 00:09:21.182
Итак, компьютеры теперь могут
не только видеть, но и читать,

00:09:21.182 --> 00:09:24.947
и, как мы уже показали,
понимать услышанное.

00:09:24.947 --> 00:09:28.389
Вы вряд ли удивитесь, если я вам скажу,
что они умеют писать.

00:09:28.389 --> 00:09:33.172
Вот текст, который я вчера получил
с помощью алгоритма глубинного обучения.

00:09:33.172 --> 00:09:37.096
А вот текст, полученный
с помощью стэнфордского алгоритма.

00:09:37.096 --> 00:09:38.860
Каждое из этих предложений составлено

00:09:38.860 --> 00:09:43.109
алгоритмом глубинного обучения
для описания этих картинок.

00:09:43.109 --> 00:09:47.581
Алгоритм ещё не встречал понятия мужчины
в чёрной рубашке, играющего на гитаре.

00:09:47.581 --> 00:09:49.801
Но ему известны понятия

00:09:49.801 --> 00:09:51.400
человека, чёрного, гитары,

00:09:51.400 --> 00:09:55.694
и алгоритм независимо формулирует
связное описание этого изображения.

00:09:55.694 --> 00:09:59.196
Мы всё ещё не дотягиваем до уровня
человека, но мы уже близки.

00:09:59.196 --> 00:10:03.264
При испытаниях люди выбирают
описания, данные компьютером,

00:10:03.264 --> 00:10:04.791
в одном случае из четырёх.

00:10:04.791 --> 00:10:06.855
Эта система была создана
две недели назад,

00:10:06.855 --> 00:10:08.701
и, скорее всего, в течение года

00:10:08.701 --> 00:10:11.502
алгоритм покажет результаты
намного лучше человеческих,

00:10:11.502 --> 00:10:13.364
если будет развиваться в том же темпе.

00:10:13.364 --> 00:10:16.413
Итак, компьютеры могут ещё и писать.

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
Складываем всё вместе,
и нам открываются невероятные возможности.

00:10:19.888 --> 00:10:21.380
Например, в медицине.

00:10:21.380 --> 00:10:23.905
Группа учёных из Бостона открыла

00:10:23.905 --> 00:10:26.854
десятки новых клинически значимых
особенностей опухолей;

00:10:26.854 --> 00:10:31.120
это поможет врачам
давать прогнозы онкобольным.

00:10:32.220 --> 00:10:34.516
Точно так же в Стэнфорде

00:10:34.516 --> 00:10:38.179
группа учёных, проанализиров опухоли
под увеличением,

00:10:38.179 --> 00:10:40.560
создала систему
на основе машинного обучения,

00:10:40.560 --> 00:10:43.142
которая работает лучше,
чем патологоанатомы,

00:10:43.142 --> 00:10:47.519
прогнозируя исход заболевания
у онкобольных.

00:10:47.519 --> 00:10:50.764
В обоих случаях алгоритмы давали
не только более точный результат,

00:10:50.764 --> 00:10:53.266
но и новые ценные открытия.

00:10:53.276 --> 00:10:54.781
В случае с радиологией

00:10:54.781 --> 00:10:57.876
это были новые клинические показатели,
понятные для людей.

00:10:57.876 --> 00:10:59.668
В случае с патологиями

00:10:59.668 --> 00:11:04.168
алгоритм установил,
что для постановки диагноза

00:11:04.168 --> 00:11:07.508
клетки вокруг опухоли так же важны,

00:11:07.508 --> 00:11:09.260
как и сами раковые клетки.

00:11:09.260 --> 00:11:14.621
Это противоречит всему, чему
патологоанатомов учили десятилетиями.

00:11:14.621 --> 00:11:17.913
В разработке обеих систем

00:11:17.913 --> 00:11:21.534
участвовали как эксперты-врачи,
так и специалисты по машинному обучению,

00:11:21.534 --> 00:11:24.275
но в прошлом году мы смогли преодолеть
и это ограничение.

00:11:24.275 --> 00:11:27.824
На экране пример распознавания
поражённых раком

00:11:27.824 --> 00:11:30.354
человеческих тканей под микроскопом.

00:11:30.354 --> 00:11:34.967
Система, изображённая на экране,
может определить их точнее,

00:11:34.967 --> 00:11:37.742
или так же точно, как и патологоанатом.

00:11:37.742 --> 00:11:41.134
В её основе — только метод
глубинного обучения.

00:11:41.134 --> 00:11:44.380
Она разработана людьми, не имеющими
никакого отношения к медицине.

00:11:44.730 --> 00:11:47.285
Или сегментация нейронов.

00:11:47.285 --> 00:11:50.953
Теперь мы можем сегментировать нейроны
так же точно, как и вручную,

00:11:50.953 --> 00:11:53.670
и эта система так же была основана
на глубинном обучении

00:11:53.670 --> 00:11:56.921
и разработана людьми, не имеющими
медицинских знаний или опыта.

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
Поэтому я, как человек,
никогда не занимавшийся медициной,

00:12:00.148 --> 00:12:03.875
оказался отличным кандидатом на роль
основателя новой медицинской компании.

00:12:03.875 --> 00:12:06.021
Им я и стал.

00:12:06.021 --> 00:12:07.761
Я порядком трусил,

00:12:07.761 --> 00:12:10.650
но в теории можно было

00:12:10.650 --> 00:12:16.142
разрабатывать очень полезные препараты,
используя только анализ данных.

00:12:16.142 --> 00:12:18.622
И — слава богу —
отзывы превзошли все мои ожидания,

00:12:18.622 --> 00:12:20.978
не только в СМИ,
но и от медицинского сообщества,

00:12:20.978 --> 00:12:23.322
где горячо поддержали мою идею.

00:12:23.322 --> 00:12:27.471
Идея заключается в том, что мы можем
взять промежуточный этап лечения

00:12:27.471 --> 00:12:30.364
и максимально применить к нему
наши способы анализа данных,

00:12:30.364 --> 00:12:33.429
позволив врачам заниматься тем,
что у них получается лучше всего.

00:12:33.429 --> 00:12:35.031
Приведу пример.

00:12:35.031 --> 00:12:39.975
На составление нового диагностического
теста у нас уходит 15 минут.

00:12:39.975 --> 00:12:41.929
Я покажу это в режиме реального времени,

00:12:41.929 --> 00:12:45.416
но сокращу процесс до трёх минут,
вырезав отдельные фрагменты.

00:12:45.416 --> 00:12:48.477
Вместо медицинских терминов

00:12:48.477 --> 00:12:51.846
будут изображения машин,

00:12:51.846 --> 00:12:54.068
потому что так будет понятнее всем.

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
Итак, начнём с 1,5 миллионов
изображений машин.

00:12:57.269 --> 00:13:00.475
Я хочу придумать, как их разбить
на группы в зависимости от угла,

00:13:00.475 --> 00:13:02.698
с которого они сфотографированы.

00:13:02.698 --> 00:13:06.586
Ни одна из картинок не имеет описания,
поэтому мне придётся начинать с нуля.

00:13:06.586 --> 00:13:08.451
Наш алгоритм глубинного обучения

00:13:08.451 --> 00:13:12.158
автоматически распознаёт отдельные
компоненты на этих изображениях.

00:13:12.158 --> 00:13:15.778
Хорошо то, что человек и компьютер
могут решать задачу вместе.

00:13:15.778 --> 00:13:17.956
Человек, как вы видите,

00:13:17.956 --> 00:13:20.631
задаёт компьютеру исследуемую область,

00:13:20.631 --> 00:13:25.281
на основе которой компьютер должен
усовершенствовать свои алгоритмы.

00:13:25.281 --> 00:13:29.577
Такая система глубинного обучения работает
в 16 000-мерном пространстве.

00:13:29.577 --> 00:13:33.009
Компьютер вращает в нём данные,

00:13:33.009 --> 00:13:35.001
чтобы обнаружить новые структуры.

00:13:35.001 --> 00:13:36.782
А когда он их находит,

00:13:36.782 --> 00:13:40.786
человек, управляющий процессом,
указывает на те, что его интересуют.

00:13:40.786 --> 00:13:43.208
Итак, компьютер успешно
обнаруживает признаки,

00:13:43.208 --> 00:13:45.770
например, ракурс.

00:13:45.770 --> 00:13:47.376
В ходе исследования

00:13:47.376 --> 00:13:49.716
мы постепенно уточняем,

00:13:49.716 --> 00:13:52.144
что именно мы ищем.

00:13:52.144 --> 00:13:53.916
Представьте диагностический тест,

00:13:53.916 --> 00:13:57.266
благодаря которому врач
определяет границы патологии

00:13:57.266 --> 00:14:02.292
или радиолог — потенциально
опасные образования.

00:14:02.292 --> 00:14:04.851
Иногда алгоритм
не может справиться с задачей.

00:14:04.851 --> 00:14:06.815
Он не находит решения.

00:14:06.815 --> 00:14:09.365
Здесь капоты и багажники машин
идут вперемешку.

00:14:09.365 --> 00:14:11.437
Поэтому нам надо быть немного аккуратнее

00:14:11.437 --> 00:14:14.669
и разделить их вручную,

00:14:14.669 --> 00:14:20.175
а затем задать компьютеру тип изображений,

00:14:20.175 --> 00:14:21.523
которые нам нужны.

NOTE Paragraph

00:14:21.523 --> 00:14:24.200
Процесс идёт какое-то время,
пропустим немного,

00:14:24.200 --> 00:14:26.446
а потом мы обучаем наш алгоритм

00:14:26.446 --> 00:14:28.420
на основе двух объектов из сотен

00:14:28.420 --> 00:14:30.445
и надеемся, что он это усвоил.

00:14:30.445 --> 00:14:33.518
Видите, некоторые
из этих картинок поблёкли.

00:14:33.518 --> 00:14:38.226
Это означает, что теперь компьютер
распознаёт их самостоятельно.

00:14:38.226 --> 00:14:41.128
Теперь мы можем использовать
этот принцип похожих изображений.

00:14:41.128 --> 00:14:43.222
Как видите, используя эти изображения,

00:14:43.222 --> 00:14:47.241
компьютер может самостоятельно
находить только фотографии машин спереди.

00:14:47.241 --> 00:14:50.189
Теперь человек может сказать компьютеру:

00:14:50.189 --> 00:14:52.482
«Отлично, ты молодец».

NOTE Paragraph

00:14:53.652 --> 00:14:55.837
Иногда, конечно, даже на этом этапе

00:14:55.837 --> 00:14:59.511
всё ещё сложно выделить группы.

00:14:59.511 --> 00:15:03.395
В этом случае даже после дополнительного
вращения данных компьютером

00:15:03.399 --> 00:15:06.744
снимки машин, сделанные справа и слева,

00:15:06.744 --> 00:15:08.222
всё ещё идут вперемешку.

00:15:08.222 --> 00:15:10.362
Мы снова даём компьютеру подсказки,

00:15:10.362 --> 00:15:13.338
чтобы он нашёл плоскость,
которая разделит

00:15:13.338 --> 00:15:15.945
изображения автомобилей
справа и слева предельно точно

00:15:15.945 --> 00:15:18.067
на основе алгоритма глубинного обучения.

00:15:18.067 --> 00:15:21.009
И с этими подсказками — о, отлично,
решение найдено.

00:15:21.009 --> 00:15:23.891
Компьютер ищет, чем эти объекты

00:15:23.891 --> 00:15:26.271
отличаются от остальных.

NOTE Paragraph

00:15:26.271 --> 00:15:28.709
Это суть метода.

00:15:28.709 --> 00:15:36.906
Компьютер не заменяет человека,

00:15:36.906 --> 00:15:39.546
здесь они работают вместе.

00:15:39.546 --> 00:15:43.096
То, на что команда

00:15:43.096 --> 00:15:45.098
из 5—6 человек потратила бы около 7 лет,

00:15:45.098 --> 00:15:47.703
мы заменяем 15-минутной процедурой,

00:15:47.703 --> 00:15:50.208
которую выполняет всего один человек.

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
Этот процесс выполняется
за 4—5 рабочих циклов.

00:15:54.158 --> 00:15:56.017
Как видите, теперь из наших


00:15:56.017 --> 00:15:58.976
1,5 миллионов изображений
верно классифицированы 62%.

00:15:58.976 --> 00:16:01.448
Теперь мы сможем быстро выделять

00:16:01.448 --> 00:16:02.745
отдельные большие блоки

00:16:02.745 --> 00:16:05.664
и просматривать их, чтобы убедиться,
что в них нет ошибок.

00:16:05.664 --> 00:16:09.616
Если возникают ошибки,
мы указываем на них компьютеру.

00:16:09.616 --> 00:16:12.661
Применяя эту процедуру
к разным группам по отдельности,

00:16:12.661 --> 00:16:15.148
мы получаем
около 80% верных результатов

00:16:15.148 --> 00:16:17.563
при распределении
1,5 миллионов изображений.

00:16:17.563 --> 00:16:19.641
Сейчас задача состоит только в том,

00:16:19.641 --> 00:16:23.220
чтобы найти те немногочисленные
неверно распознаные изображения,

00:16:23.220 --> 00:16:26.108
и понять, почему это произошло.

00:16:26.108 --> 00:16:27.851
Используя этот метод,

00:16:27.851 --> 00:16:31.972
за 15 минут мы получаем
результат, верный на 97%.

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
Эта техника поможет нам справиться
с одной из важнейших проблем —

00:16:36.578 --> 00:16:39.614
нехваткой медицинских работников в мире.

00:16:39.614 --> 00:16:43.103
По данным, озвученным на Всемирном
экономическом форуме,

00:16:43.103 --> 00:16:45.777
развивающимся странам
нужно в 10—20 раз больше терапевтов

00:16:45.777 --> 00:16:47.840
и понадобится около 300 лет,

00:16:47.840 --> 00:16:50.734
чтобы обучить нужное количество людей.

00:16:50.734 --> 00:16:53.619
А теперь представьте,
что мы повысим их эффективность,

00:16:53.619 --> 00:16:56.458
используя глубинное обучение.

NOTE Paragraph

00:16:56.458 --> 00:16:58.690
Эти возможности приводят меня
в полный восторг,

00:16:58.690 --> 00:17:01.279
но в то же время
я отдаю отчёт в последствиях.

00:17:01.279 --> 00:17:04.403
Проблема в том, что во всех странах,
отмеченных на карте синим,

00:17:04.403 --> 00:17:08.172
80% рабочих мест приходится
на сферу услуг.

00:17:08.172 --> 00:17:09.959
Каких услуг?

00:17:09.959 --> 00:17:11.473
Вот этих услуг.

00:17:11.473 --> 00:17:15.627
А это именно то, что компьютеры
только что научились делать.

00:17:15.627 --> 00:17:19.431
Если 80% людей в развитых странах

00:17:19.431 --> 00:17:21.963
заняты тем, что теперь
умеет компьютер,

00:17:21.963 --> 00:17:23.403
то что это значит?

00:17:23.403 --> 00:17:25.986
Всё в порядке. Они сменят работу.

00:17:25.986 --> 00:17:28.693
Например, будет больше работы
для аналитиков данных.

00:17:28.693 --> 00:17:29.560
Ну или не совсем.

00:17:29.560 --> 00:17:32.628
Решение этих задач не займёт
у них много времени.

00:17:32.628 --> 00:17:35.880
Например, эти четыре алгоритма
создал один и тот же человек.

00:17:35.880 --> 00:17:38.318
Вы скажете, что человечество
с этим уже сталкивалось.

00:17:38.318 --> 00:17:42.126
В прошлом мы видели,
что когда приходят новые технологии,

00:17:42.126 --> 00:17:44.378
новые профессии приходят на смену старым,

00:17:44.378 --> 00:17:46.494
но что это будут за новые профессии?

00:17:46.494 --> 00:17:48.365
Нам очень сложно сейчас это оценить,

00:17:48.365 --> 00:17:51.274
ведь производительность человеческого
труда растёт постепенно.

00:17:51.274 --> 00:17:53.666
Однако теперь есть система
глубинного обучения,

00:17:53.666 --> 00:17:56.893
и мы знаем, что её возможности
растут по экспоненте.

00:17:56.893 --> 00:17:58.498
Итак,

00:17:58.498 --> 00:18:00.559
мы оглядываемся по сторонам:

00:18:00.559 --> 00:18:03.235
«Ведь компьютеры всё ещё
достаточно примитивны». Верно?

00:18:03.235 --> 00:18:06.664
Но через пять лет их возможности выйдут
за границы этого графика.

00:18:06.664 --> 00:18:09.999
Поэтому нам необходимо начать обдумывать
этот аспект прямо сейчас.

NOTE Paragraph

00:18:09.999 --> 00:18:12.579
Разумеется, такое уже случалось
в истории человечества.

00:18:12.579 --> 00:18:13.966
Промышленная революция,

00:18:13.966 --> 00:18:16.817
благодаря двигателям, дала
качественный скачок производства.

00:18:17.667 --> 00:18:20.805
Однако спустя какое-то время
мощности перестали расти.

00:18:20.805 --> 00:18:22.507
Случился социальный взрыв,

00:18:22.507 --> 00:18:25.946
но когда двигатели стали применяться
в промышленности повсеместно,

00:18:25.946 --> 00:18:28.300
был найден баланс.

00:18:28.300 --> 00:18:29.773
Революция машинного обучения

00:18:29.773 --> 00:18:32.682
будет сильно отличаться
от промышленной революции,

00:18:32.682 --> 00:18:35.632
потому что революция
машинного обучения непрерывна.

00:18:35.632 --> 00:18:38.614
Чем более интеллектуально
развиты компьютеры,

00:18:38.614 --> 00:18:42.862
тем более интеллектуально
развитые компьютеры они создают.

00:18:42.862 --> 00:18:44.770
А это приведёт к тому,

00:18:44.770 --> 00:18:47.248
с чем наш мир
никогда раньше не сталкивался,

00:18:47.248 --> 00:18:50.554
и ваши прошлые представления
о возможном изменятся.

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
Мы это уже почувствовали на себе.

00:18:52.754 --> 00:18:56.384
В течение последней четверти века
производительность оборудования росла,

00:18:56.400 --> 00:19:00.588
в то время как производительность рабочих
оставалась прежней или немного снижалась.

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
Я хочу, чтобы мы уже сейчас
задумались над этим.

00:19:04.149 --> 00:19:07.176
Когда я рассказываю об этом людям,

00:19:07.176 --> 00:19:08.666
они зачастую мне не верят:

00:19:08.666 --> 00:19:10.339
мол, компьютеры не могут думать,

00:19:10.339 --> 00:19:13.367
переживать, воспринимать стихи.

00:19:13.367 --> 00:19:15.888
Мы не понимаем по-настоящему,
как они работают.

00:19:15.888 --> 00:19:17.374
И что?

00:19:17.374 --> 00:19:19.178
Уже сейчас компьютеры
делают то,

00:19:19.178 --> 00:19:21.897
на что люди тратят бóльшую часть
оплачиваемого времени,

00:19:21.897 --> 00:19:23.628
так что теперь пора думать над тем,

00:19:23.628 --> 00:19:28.015
как мы будем адаптировать наши
социальные и экономические структуры,

00:19:28.015 --> 00:19:29.855
чтобы быть готовыми
к новой реальности.

00:19:29.855 --> 00:19:31.388
Спасибо.

00:19:31.388 --> 00:19:32.190
(Аплодисменты)