WEBVTT 00:00:00.880 --> 00:00:04.893 Обычно, если вы хотите, чтобы компьютер сделал что-то новое, 00:00:04.893 --> 00:00:06.447 вам нужно его запрограммировать. 00:00:06.447 --> 00:00:09.858 Для тех, кто не знает: программирование 00:00:09.858 --> 00:00:13.360 требует мучительного определения мельчайших деталей, 00:00:13.360 --> 00:00:16.727 которые должен выполнять компьютер 00:00:16.727 --> 00:00:19.089 для достижения вашей цели. 00:00:19.089 --> 00:00:22.585 А сделать то, чего вы никогда не делали, 00:00:22.585 --> 00:00:24.648 будет очень сложно. NOTE Paragraph 00:00:24.648 --> 00:00:28.131 Именно с такой сложной задачей столкнулся этот человек, Артур Самуэль. 00:00:28.131 --> 00:00:32.208 В 1956 году он захотел, 00:00:32.208 --> 00:00:34.548 чтобы компьютер смог обыграть его в шашки. 00:00:34.548 --> 00:00:36.588 Как написать программу, 00:00:36.588 --> 00:00:40.394 продумать её до мельчайших деталей, чтобы она обыграла тебя в шашки? 00:00:40.394 --> 00:00:42.116 Ему в голову пришла мысль: 00:00:42.116 --> 00:00:45.840 компьютер должен сыграть тысячу партий с самим собой, 00:00:45.840 --> 00:00:48.364 и так он научится играть в шашки. 00:00:48.364 --> 00:00:51.544 Это действительно сработало — в 1962 году 00:00:51.544 --> 00:00:55.561 этот компьютер обыграл чемпиона штата Коннектикут. NOTE Paragraph 00:00:55.561 --> 00:00:58.534 Так Артур Самуэль стал основоположником машинного обучения. 00:00:58.534 --> 00:01:00.251 Я в большом долгу перед ним, 00:01:00.251 --> 00:01:03.014 потому что работаю в области машинного обучения. 00:01:03.014 --> 00:01:04.479 Я был президентом Kaggle, 00:01:04.479 --> 00:01:07.867 сообщества, объединяющего 200 000 людей, применяющих машинное обучение. 00:01:07.867 --> 00:01:09.925 Kaggle проводит соревнования 00:01:09.925 --> 00:01:13.633 по решению ещё не решённых проблем, 00:01:13.633 --> 00:01:17.470 и участники успешно справились с сотнями из них. 00:01:17.470 --> 00:01:19.940 У меня была отличная возможность побольше узнать 00:01:19.940 --> 00:01:23.890 о машинном обучении в прошлом, настоящем 00:01:23.890 --> 00:01:26.252 и будущем. 00:01:26.252 --> 00:01:30.675 Возможно, первым большим коммерческим успехом машинного обучения стал Google. 00:01:30.675 --> 00:01:33.784 В Google доказали, что можно находить информацию 00:01:33.784 --> 00:01:35.536 с помощью компьютерного алгоритма, 00:01:35.536 --> 00:01:38.437 а этот алгоритм был основан на машинном обучении. 00:01:38.437 --> 00:01:42.323 С тех пор машинное обучение неоднократно использовалось в коммерческих целях. 00:01:42.323 --> 00:01:44.160 Компании вроде Amazon и Netflix 00:01:44.160 --> 00:01:47.876 иcпользуют машинное обучение, определяя, какие товары вы захотите купить, 00:01:47.876 --> 00:01:49.896 какие фильмы посмотреть. 00:01:49.896 --> 00:01:51.703 Иногда это даже пугает. 00:01:51.703 --> 00:01:53.637 Сети, такие как LinkedIn и Facebook, 00:01:53.637 --> 00:01:56.251 иногда предлагают людей, которых вы можете знать, 00:01:56.251 --> 00:01:58.228 а вы не понимаете, как они их нашли. 00:01:58.228 --> 00:02:01.195 Это стало возможным благодаря машинному обучению. 00:02:01.195 --> 00:02:05.323 Алгоритмы собирают информацию и обучаются, 00:02:05.331 --> 00:02:07.399 а не программируются человеком. NOTE Paragraph 00:02:07.399 --> 00:02:09.877 Это также объясняет успехи IBM: 00:02:09.877 --> 00:02:13.739 программа Watson обыграла двух чемпионов мира в «Своей игре», 00:02:13.739 --> 00:02:16.964 ответив на невероятно хитрые и каверзные вопросы вроде этого: 00:02:16.964 --> 00:02:19.799 [В 2003 году «лев Нимруда» исчез из музея этого города] 00:02:19.799 --> 00:02:23.034 Именно этот метод лёг в основу технологии беспилотных автомобилей. 00:02:23.034 --> 00:02:25.856 Важно, чтобы такой автомобиль смог отличить 00:02:25.856 --> 00:02:28.488 дерево от пешехода. 00:02:28.488 --> 00:02:31.075 Мы не знаем, как задать такой алгоритм вручную, 00:02:31.075 --> 00:02:34.072 зато это стало возможным с помощью машинного обучения. 00:02:34.072 --> 00:02:36.680 Этот автомобиль проехал более 1,5 миллионов километров 00:02:36.680 --> 00:02:40.186 и ни разу не попал в аварию на трассе. NOTE Paragraph 00:02:40.196 --> 00:02:44.110 Итак, мы знаем, что компьютеры могут учиться. 00:02:44.110 --> 00:02:46.010 Причём они могут учиться делать то, 00:02:46.010 --> 00:02:48.848 чего не умеем делать мы сами, 00:02:48.848 --> 00:02:51.733 или могут делать это лучше нас. 00:02:51.733 --> 00:02:55.928 С одним из самых невероятных примеров машинного обучения 00:02:55.928 --> 00:02:58.320 я столкнулся, пока работал в Kaggle: 00:02:58.320 --> 00:03:01.911 команда под руководством Джеффри Хинтона 00:03:01.911 --> 00:03:03.463 из Торонтского университета 00:03:03.463 --> 00:03:06.140 выиграла конкурс по автоматизации поиска новых лекарств. 00:03:06.140 --> 00:03:08.987 Невероятно не только то, что их алгоритм оказался лучше 00:03:08.987 --> 00:03:13.000 всех алгоритмов, разработанных Merck или международным научным сообществом. 00:03:13.000 --> 00:03:18.061 Никто в команде не имел никакого отношения к химии, биологии или медицине, 00:03:18.061 --> 00:03:20.230 и на всё у них ушло две недели. 00:03:20.230 --> 00:03:21.611 Как? 00:03:22.421 --> 00:03:25.342 Благодаря уникальному алгоритму глубинного обучения. 00:03:25.342 --> 00:03:28.291 Результаты их работы были настолько ошеломительны, что об этом 00:03:28.291 --> 00:03:31.412 спустя несколько недель сообщила на первой полосе New York Times. 00:03:31.412 --> 00:03:34.147 Джеффри Хинтон слева. 00:03:34.147 --> 00:03:38.488 В основе глубинного обучения — принципы работы человеческого мозга, 00:03:38.488 --> 00:03:40.300 и поэтому теоретически 00:03:40.300 --> 00:03:44.141 у этого алгоритма нет ограничений применимости. 00:03:44.141 --> 00:03:46.964 Чем больше данных на входе и времени на их обработку, 00:03:46.964 --> 00:03:48.276 тем лучше результат. NOTE Paragraph 00:03:48.276 --> 00:03:50.615 В этой же статье New York Times был упомянут 00:03:50.615 --> 00:03:52.857 другой удивительный продукт глубинного обучения, 00:03:52.857 --> 00:03:55.569 который я вам сейчас продемонстрирую. 00:03:55.569 --> 00:04:00.510 Он доказывает, что компьютеры могут слышать и понимать. NOTE Paragraph 00:04:00.510 --> 00:04:03.221 (Видео) Ричард Рашид: Наконец, 00:04:03.221 --> 00:04:06.246 последнее, что я хочу сделать, — 00:04:06.246 --> 00:04:10.961 это поговорить с вами по-китайски. 00:04:10.961 --> 00:04:13.596 Суть в том, 00:04:13.596 --> 00:04:18.548 что мы сформировали массив записей носителей китайского языка 00:04:18.548 --> 00:04:21.128 и разработали систему для преобразования текста в речь, 00:04:21.128 --> 00:04:25.801 которая получает текст на китайском и преобразует его в речь. 00:04:25.801 --> 00:04:29.929 Потом мы записали примерно час звучания моего голоса 00:04:29.929 --> 00:04:31.820 и использовали эту запись для модуляции 00:04:31.820 --> 00:04:36.551 обычной системы преобразования текста в речь. 00:04:36.551 --> 00:04:38.904 Если что, результат не идеален. 00:04:38.904 --> 00:04:41.552 Там есть несколько ошибок. 00:04:41.552 --> 00:04:44.036 (Говорит по-китайски) 00:04:44.036 --> 00:04:47.403 (Аплодисменты) 00:04:49.446 --> 00:04:53.022 Нам предстоит ещё много работы. 00:04:53.022 --> 00:04:56.667 (Говорит по-китайски) 00:04:56.667 --> 00:05:00.100 (Аплодисменты) NOTE Paragraph 00:05:01.345 --> 00:05:04.744 Джереми Говард: Это было на конференции по машинному обучению в Китае. 00:05:04.744 --> 00:05:07.114 На самом деле, на научных конференциях 00:05:07.114 --> 00:05:09.011 внезапно аплодируют очень редко, 00:05:09.011 --> 00:05:12.687 в отличие от TEDx, так что не стесняйтесь. 00:05:12.687 --> 00:05:15.482 Всё это видео было записано с помощью глубинного обучения. 00:05:15.482 --> 00:05:17.007 (Аплодисменты) Спасибо. 00:05:17.007 --> 00:05:19.289 Английские субтитры — это глубинное обучение, 00:05:19.289 --> 00:05:22.701 перевод на китайский и текст справа вверху — оно же, 00:05:22.701 --> 00:05:26.008 и конструирование голоса — снова оно. NOTE Paragraph 00:05:26.008 --> 00:05:29.242 Глубинное обучение — невероятная вещь. 00:05:29.242 --> 00:05:32.341 Один-единственный алгоритм, который, похоже, может почти всё. 00:05:32.341 --> 00:05:35.452 Ещё годом раньше я обнаружил, что этот алгоритм может видеть. 00:05:35.452 --> 00:05:37.348 На малоизвестном конкурсе в Германии — 00:05:37.348 --> 00:05:40.225 «Сравнительный анализ распознавания дорожных знаков» — 00:05:40.225 --> 00:05:43.618 глубинное обучение использовалось для распознавания вот таких знаков. 00:05:43.618 --> 00:05:45.712 Мало того, что результаты распознавания 00:05:45.712 --> 00:05:47.470 были лучше, чем у других алгоритмов; 00:05:47.470 --> 00:05:50.189 в таблице видно, что они превосходят человеческие 00:05:50.189 --> 00:05:52.041 примерно в два раза. 00:05:52.041 --> 00:05:54.037 Итак, к 2011 году появился 00:05:54.037 --> 00:05:57.442 первый компьютер, который видел лучше людей. 00:05:57.442 --> 00:05:59.491 С тех пор произошло многое. 00:05:59.491 --> 00:06:03.005 В 2012 году в Google объявили, что их алгоритм глубинного обучения 00:06:03.005 --> 00:06:04.420 использовал видео на YouTube. 00:06:04.420 --> 00:06:07.857 Данные обрабатывались на 16 000 компьютеров в течение месяца, 00:06:07.857 --> 00:06:12.218 и компьютер самостоятельно определил, что такое люди и кошки, 00:06:12.218 --> 00:06:14.027 на основе только видеоматериалов. 00:06:14.027 --> 00:06:16.379 Это очень похоже на то, как учатся люди. 00:06:16.379 --> 00:06:19.119 Им не говорят, что они видят. 00:06:19.119 --> 00:06:22.450 Люди сами разбираются, что они видят. 00:06:22.450 --> 00:06:25.819 В том же 2012 году Джеффри Хинтон, которого вы уже знаете, 00:06:25.819 --> 00:06:28.677 победил в очень известном конкурсе ImageNet, 00:06:28.677 --> 00:06:32.818 в котором необходимо распознать, что изображено 00:06:32.818 --> 00:06:34.256 на 1,5 миллионах картинок. 00:06:34.256 --> 00:06:37.789 К 2014 году количество ошибок в распознавании образов 00:06:37.789 --> 00:06:39.242 сократилось до 6%. 00:06:39.242 --> 00:06:41.268 И опять же, это лучше, чем у людей. NOTE Paragraph 00:06:41.268 --> 00:06:45.037 Эффективность компьютеров действительно невероятно высока, 00:06:45.037 --> 00:06:47.306 и сейчас это применяется в коммерческих целях. 00:06:47.306 --> 00:06:50.348 Так, в прошлом году в Google объявили, 00:06:50.348 --> 00:06:54.933 что их карты могут локализовать любую точку во Франции за два часа: 00:06:54.933 --> 00:06:58.380 они обрабатывают фотографии улиц 00:06:58.380 --> 00:07:02.699 с помощью алгоритма глубинного обучения, чтобы распознать и прочитать адреса. 00:07:02.699 --> 00:07:04.919 Подумайте, сколько времени это заняло бы: 00:07:04.919 --> 00:07:08.274 понадобились бы десятки людей и несколько лет. 00:07:08.274 --> 00:07:10.185 То же самое происходит в Китае. 00:07:10.185 --> 00:07:14.221 Baidu — это что-то вроде китайского Google, 00:07:14.221 --> 00:07:16.504 и сверху слева вы видите картинку, 00:07:16.504 --> 00:07:20.478 которую я загрузил на вход алгоритмов глубинного обучения Baidu, 00:07:20.478 --> 00:07:24.247 а под ней — то, как система распознала, что изображено на картинке, 00:07:24.247 --> 00:07:26.483 и нашла похожие. 00:07:26.483 --> 00:07:29.219 Похожие изображения имеют похожий фон, 00:07:29.219 --> 00:07:30.877 морды смотрят в ту же сторону, 00:07:30.877 --> 00:07:32.665 иногда даже так же высунут язык. 00:07:32.665 --> 00:07:35.695 Это не просто поиск текста на веб-странице. 00:07:35.695 --> 00:07:37.107 Я загрузил только картинку. 00:07:37.107 --> 00:07:41.128 Итак, теперь наши компьютеры действительно понимают увиденное 00:07:41.128 --> 00:07:42.752 и могут искать информацию в базах 00:07:42.752 --> 00:07:46.306 среди сотен миллионов картинок в режиме реального времени. NOTE Paragraph 00:07:46.306 --> 00:07:49.536 Значит ли это, что компьютеры могут видеть? 00:07:49.536 --> 00:07:51.553 Это не просто умение видеть. 00:07:51.553 --> 00:07:53.622 Глубинное обучение — это намного больше. 00:07:53.622 --> 00:07:56.570 Сложные предложения со множеством смысловых оттенков 00:07:56.570 --> 00:07:59.394 теперь понятны благодаря алгоритмам глубинного обучения. 00:07:59.394 --> 00:08:00.687 Как видно на экране, 00:08:00.697 --> 00:08:03.975 эта стэнфордская система распознаёт отрицательные эмоции в предложении 00:08:03.975 --> 00:08:07.384 и отмечает их красными точками сверху. 00:08:07.384 --> 00:08:10.790 Глубинное обучение похоже на человеческое поведение 00:08:10.802 --> 00:08:15.923 в процессе распознавания того, что и о чём сказано. 00:08:15.923 --> 00:08:18.651 Глубинное обучение использовалось для чтения на китайском. 00:08:18.651 --> 00:08:21.807 Результат был на уровне результата человека — носителя китайского. 00:08:21.807 --> 00:08:23.975 Этот алгоритм был разработан в Швейцарии 00:08:23.975 --> 00:08:27.331 людьми, ни один из которых не говорит по-китайски. 00:08:27.331 --> 00:08:29.382 Как я и сказал, глубинное обучение — 00:08:29.382 --> 00:08:31.601 это оптимальный способ решения таких задач, 00:08:31.601 --> 00:08:36.718 даже по сравнению с человеческим восприятием. NOTE Paragraph 00:08:36.718 --> 00:08:39.542 На экране система, разработаная в моей компании, 00:08:39.542 --> 00:08:41.728 в ней задействовано всё, о чём я рассказал. 00:08:41.728 --> 00:08:44.189 Это картинки без описаний. 00:08:44.189 --> 00:08:46.541 Здесь я набираю предложения. 00:08:46.541 --> 00:08:49.510 В режиме реального времени картинки распознаются, 00:08:49.510 --> 00:08:51.189 определяется их смысл, 00:08:51.189 --> 00:08:54.352 и находятся изображения, соответствующие введённому мной тексту. 00:08:54.352 --> 00:08:57.108 Итак, вы видите, что предложения 00:08:57.108 --> 00:08:59.332 и картинки действительно распознаются. 00:08:59.332 --> 00:09:01.891 Я знаю, что вы видели нечто похожее в Google, 00:09:01.891 --> 00:09:04.666 при вводе запроса, по которому вам выдаются картинки, 00:09:04.666 --> 00:09:08.090 но в действительности там идёт поиск нужного текста на веб-странице. 00:09:08.090 --> 00:09:11.091 Распознавание образов — это принципиально новый процесс. 00:09:11.091 --> 00:09:13.843 Распознавание стало доступно компьютерным алгоритмам 00:09:13.843 --> 00:09:17.091 впервые несколько месяцев назад. NOTE Paragraph 00:09:17.091 --> 00:09:21.182 Итак, компьютеры теперь могут не только видеть, но и читать, 00:09:21.182 --> 00:09:24.947 и, как мы уже показали, понимать услышанное. 00:09:24.947 --> 00:09:28.389 Вы вряд ли удивитесь, если я вам скажу, что они умеют писать. 00:09:28.389 --> 00:09:33.172 Вот текст, который я вчера получил с помощью алгоритма глубинного обучения. 00:09:33.172 --> 00:09:37.096 А вот текст, полученный с помощью стэнфордского алгоритма. 00:09:37.096 --> 00:09:38.860 Каждое из этих предложений составлено 00:09:38.860 --> 00:09:43.109 алгоритмом глубинного обучения для описания этих картинок. 00:09:43.109 --> 00:09:47.581 Алгоритм ещё не встречал понятия мужчины в чёрной рубашке, играющего на гитаре. 00:09:47.581 --> 00:09:49.801 Но ему известны понятия 00:09:49.801 --> 00:09:51.400 человека, чёрного, гитары, 00:09:51.400 --> 00:09:55.694 и алгоритм независимо формулирует связное описание этого изображения. 00:09:55.694 --> 00:09:59.196 Мы всё ещё не дотягиваем до уровня человека, но мы уже близки. 00:09:59.196 --> 00:10:03.264 При испытаниях люди выбирают описания, данные компьютером, 00:10:03.264 --> 00:10:04.791 в одном случае из четырёх. 00:10:04.791 --> 00:10:06.855 Эта система была создана две недели назад, 00:10:06.855 --> 00:10:08.701 и, скорее всего, в течение года 00:10:08.701 --> 00:10:11.502 алгоритм покажет результаты намного лучше человеческих, 00:10:11.502 --> 00:10:13.364 если будет развиваться в том же темпе. 00:10:13.364 --> 00:10:16.413 Итак, компьютеры могут ещё и писать. NOTE Paragraph 00:10:16.413 --> 00:10:19.888 Складываем всё вместе, и нам открываются невероятные возможности. 00:10:19.888 --> 00:10:21.380 Например, в медицине. 00:10:21.380 --> 00:10:23.905 Группа учёных из Бостона открыла 00:10:23.905 --> 00:10:26.854 десятки новых клинически значимых особенностей опухолей; 00:10:26.854 --> 00:10:31.120 это поможет врачам давать прогнозы онкобольным. 00:10:32.220 --> 00:10:34.516 Точно так же в Стэнфорде 00:10:34.516 --> 00:10:38.179 группа учёных, проанализиров опухоли под увеличением, 00:10:38.179 --> 00:10:40.560 создала систему на основе машинного обучения, 00:10:40.560 --> 00:10:43.142 которая работает лучше, чем патологоанатомы, 00:10:43.142 --> 00:10:47.519 прогнозируя исход заболевания у онкобольных. 00:10:47.519 --> 00:10:50.764 В обоих случаях алгоритмы давали не только более точный результат, 00:10:50.764 --> 00:10:53.266 но и новые ценные открытия. 00:10:53.276 --> 00:10:54.781 В случае с радиологией 00:10:54.781 --> 00:10:57.876 это были новые клинические показатели, понятные для людей. 00:10:57.876 --> 00:10:59.668 В случае с патологиями 00:10:59.668 --> 00:11:04.168 алгоритм установил, что для постановки диагноза 00:11:04.168 --> 00:11:07.508 клетки вокруг опухоли так же важны, 00:11:07.508 --> 00:11:09.260 как и сами раковые клетки. 00:11:09.260 --> 00:11:14.621 Это противоречит всему, чему патологоанатомов учили десятилетиями. 00:11:14.621 --> 00:11:17.913 В разработке обеих систем 00:11:17.913 --> 00:11:21.534 участвовали как эксперты-врачи, так и специалисты по машинному обучению, 00:11:21.534 --> 00:11:24.275 но в прошлом году мы смогли преодолеть и это ограничение. 00:11:24.275 --> 00:11:27.824 На экране пример распознавания поражённых раком 00:11:27.824 --> 00:11:30.354 человеческих тканей под микроскопом. 00:11:30.354 --> 00:11:34.967 Система, изображённая на экране, может определить их точнее, 00:11:34.967 --> 00:11:37.742 или так же точно, как и патологоанатом. 00:11:37.742 --> 00:11:41.134 В её основе — только метод глубинного обучения. 00:11:41.134 --> 00:11:44.380 Она разработана людьми, не имеющими никакого отношения к медицине. 00:11:44.730 --> 00:11:47.285 Или сегментация нейронов. 00:11:47.285 --> 00:11:50.953 Теперь мы можем сегментировать нейроны так же точно, как и вручную, 00:11:50.953 --> 00:11:53.670 и эта система так же была основана на глубинном обучении 00:11:53.670 --> 00:11:56.921 и разработана людьми, не имеющими медицинских знаний или опыта. NOTE Paragraph 00:11:56.921 --> 00:12:00.148 Поэтому я, как человек, никогда не занимавшийся медициной, 00:12:00.148 --> 00:12:03.875 оказался отличным кандидатом на роль основателя новой медицинской компании. 00:12:03.875 --> 00:12:06.021 Им я и стал. 00:12:06.021 --> 00:12:07.761 Я порядком трусил, 00:12:07.761 --> 00:12:10.650 но в теории можно было 00:12:10.650 --> 00:12:16.142 разрабатывать очень полезные препараты, используя только анализ данных. 00:12:16.142 --> 00:12:18.622 И — слава богу — отзывы превзошли все мои ожидания, 00:12:18.622 --> 00:12:20.978 не только в СМИ, но и от медицинского сообщества, 00:12:20.978 --> 00:12:23.322 где горячо поддержали мою идею. 00:12:23.322 --> 00:12:27.471 Идея заключается в том, что мы можем взять промежуточный этап лечения 00:12:27.471 --> 00:12:30.364 и максимально применить к нему наши способы анализа данных, 00:12:30.364 --> 00:12:33.429 позволив врачам заниматься тем, что у них получается лучше всего. 00:12:33.429 --> 00:12:35.031 Приведу пример. 00:12:35.031 --> 00:12:39.975 На составление нового диагностического теста у нас уходит 15 минут. 00:12:39.975 --> 00:12:41.929 Я покажу это в режиме реального времени, 00:12:41.929 --> 00:12:45.416 но сокращу процесс до трёх минут, вырезав отдельные фрагменты. 00:12:45.416 --> 00:12:48.477 Вместо медицинских терминов 00:12:48.477 --> 00:12:51.846 будут изображения машин, 00:12:51.846 --> 00:12:54.068 потому что так будет понятнее всем. NOTE Paragraph 00:12:54.068 --> 00:12:57.269 Итак, начнём с 1,5 миллионов изображений машин. 00:12:57.269 --> 00:13:00.475 Я хочу придумать, как их разбить на группы в зависимости от угла, 00:13:00.475 --> 00:13:02.698 с которого они сфотографированы. 00:13:02.698 --> 00:13:06.586 Ни одна из картинок не имеет описания, поэтому мне придётся начинать с нуля. 00:13:06.586 --> 00:13:08.451 Наш алгоритм глубинного обучения 00:13:08.451 --> 00:13:12.158 автоматически распознаёт отдельные компоненты на этих изображениях. 00:13:12.158 --> 00:13:15.778 Хорошо то, что человек и компьютер могут решать задачу вместе. 00:13:15.778 --> 00:13:17.956 Человек, как вы видите, 00:13:17.956 --> 00:13:20.631 задаёт компьютеру исследуемую область, 00:13:20.631 --> 00:13:25.281 на основе которой компьютер должен усовершенствовать свои алгоритмы. 00:13:25.281 --> 00:13:29.577 Такая система глубинного обучения работает в 16 000-мерном пространстве. 00:13:29.577 --> 00:13:33.009 Компьютер вращает в нём данные, 00:13:33.009 --> 00:13:35.001 чтобы обнаружить новые структуры. 00:13:35.001 --> 00:13:36.782 А когда он их находит, 00:13:36.782 --> 00:13:40.786 человек, управляющий процессом, указывает на те, что его интересуют. 00:13:40.786 --> 00:13:43.208 Итак, компьютер успешно обнаруживает признаки, 00:13:43.208 --> 00:13:45.770 например, ракурс. 00:13:45.770 --> 00:13:47.376 В ходе исследования 00:13:47.376 --> 00:13:49.716 мы постепенно уточняем, 00:13:49.716 --> 00:13:52.144 что именно мы ищем. 00:13:52.144 --> 00:13:53.916 Представьте диагностический тест, 00:13:53.916 --> 00:13:57.266 благодаря которому врач определяет границы патологии 00:13:57.266 --> 00:14:02.292 или радиолог — потенциально опасные образования. 00:14:02.292 --> 00:14:04.851 Иногда алгоритм не может справиться с задачей. 00:14:04.851 --> 00:14:06.815 Он не находит решения. 00:14:06.815 --> 00:14:09.365 Здесь капоты и багажники машин идут вперемешку. 00:14:09.365 --> 00:14:11.437 Поэтому нам надо быть немного аккуратнее 00:14:11.437 --> 00:14:14.669 и разделить их вручную, 00:14:14.669 --> 00:14:20.175 а затем задать компьютеру тип изображений, 00:14:20.175 --> 00:14:21.523 которые нам нужны. NOTE Paragraph 00:14:21.523 --> 00:14:24.200 Процесс идёт какое-то время, пропустим немного, 00:14:24.200 --> 00:14:26.446 а потом мы обучаем наш алгоритм 00:14:26.446 --> 00:14:28.420 на основе двух объектов из сотен 00:14:28.420 --> 00:14:30.445 и надеемся, что он это усвоил. 00:14:30.445 --> 00:14:33.518 Видите, некоторые из этих картинок поблёкли. 00:14:33.518 --> 00:14:38.226 Это означает, что теперь компьютер распознаёт их самостоятельно. 00:14:38.226 --> 00:14:41.128 Теперь мы можем использовать этот принцип похожих изображений. 00:14:41.128 --> 00:14:43.222 Как видите, используя эти изображения, 00:14:43.222 --> 00:14:47.241 компьютер может самостоятельно находить только фотографии машин спереди. 00:14:47.241 --> 00:14:50.189 Теперь человек может сказать компьютеру: 00:14:50.189 --> 00:14:52.482 «Отлично, ты молодец». NOTE Paragraph 00:14:53.652 --> 00:14:55.837 Иногда, конечно, даже на этом этапе 00:14:55.837 --> 00:14:59.511 всё ещё сложно выделить группы. 00:14:59.511 --> 00:15:03.395 В этом случае даже после дополнительного вращения данных компьютером 00:15:03.399 --> 00:15:06.744 снимки машин, сделанные справа и слева, 00:15:06.744 --> 00:15:08.222 всё ещё идут вперемешку. 00:15:08.222 --> 00:15:10.362 Мы снова даём компьютеру подсказки, 00:15:10.362 --> 00:15:13.338 чтобы он нашёл плоскость, которая разделит 00:15:13.338 --> 00:15:15.945 изображения автомобилей справа и слева предельно точно 00:15:15.945 --> 00:15:18.067 на основе алгоритма глубинного обучения. 00:15:18.067 --> 00:15:21.009 И с этими подсказками — о, отлично, решение найдено. 00:15:21.009 --> 00:15:23.891 Компьютер ищет, чем эти объекты 00:15:23.891 --> 00:15:26.271 отличаются от остальных. NOTE Paragraph 00:15:26.271 --> 00:15:28.709 Это суть метода. 00:15:28.709 --> 00:15:36.906 Компьютер не заменяет человека, 00:15:36.906 --> 00:15:39.546 здесь они работают вместе. 00:15:39.546 --> 00:15:43.096 То, на что команда 00:15:43.096 --> 00:15:45.098 из 5—6 человек потратила бы около 7 лет, 00:15:45.098 --> 00:15:47.703 мы заменяем 15-минутной процедурой, 00:15:47.703 --> 00:15:50.208 которую выполняет всего один человек. NOTE Paragraph 00:15:50.208 --> 00:15:54.158 Этот процесс выполняется за 4—5 рабочих циклов. 00:15:54.158 --> 00:15:56.017 Как видите, теперь из наших 00:15:56.017 --> 00:15:58.976 1,5 миллионов изображений верно классифицированы 62%. 00:15:58.976 --> 00:16:01.448 Теперь мы сможем быстро выделять 00:16:01.448 --> 00:16:02.745 отдельные большие блоки 00:16:02.745 --> 00:16:05.664 и просматривать их, чтобы убедиться, что в них нет ошибок. 00:16:05.664 --> 00:16:09.616 Если возникают ошибки, мы указываем на них компьютеру. 00:16:09.616 --> 00:16:12.661 Применяя эту процедуру к разным группам по отдельности, 00:16:12.661 --> 00:16:15.148 мы получаем около 80% верных результатов 00:16:15.148 --> 00:16:17.563 при распределении 1,5 миллионов изображений. 00:16:17.563 --> 00:16:19.641 Сейчас задача состоит только в том, 00:16:19.641 --> 00:16:23.220 чтобы найти те немногочисленные неверно распознаные изображения, 00:16:23.220 --> 00:16:26.108 и понять, почему это произошло. 00:16:26.108 --> 00:16:27.851 Используя этот метод, 00:16:27.851 --> 00:16:31.972 за 15 минут мы получаем результат, верный на 97%. NOTE Paragraph 00:16:31.972 --> 00:16:36.572 Эта техника поможет нам справиться с одной из важнейших проблем — 00:16:36.578 --> 00:16:39.614 нехваткой медицинских работников в мире. 00:16:39.614 --> 00:16:43.103 По данным, озвученным на Всемирном экономическом форуме, 00:16:43.103 --> 00:16:45.777 развивающимся странам нужно в 10—20 раз больше терапевтов 00:16:45.777 --> 00:16:47.840 и понадобится около 300 лет, 00:16:47.840 --> 00:16:50.734 чтобы обучить нужное количество людей. 00:16:50.734 --> 00:16:53.619 А теперь представьте, что мы повысим их эффективность, 00:16:53.619 --> 00:16:56.458 используя глубинное обучение. NOTE Paragraph 00:16:56.458 --> 00:16:58.690 Эти возможности приводят меня в полный восторг, 00:16:58.690 --> 00:17:01.279 но в то же время я отдаю отчёт в последствиях. 00:17:01.279 --> 00:17:04.403 Проблема в том, что во всех странах, отмеченных на карте синим, 00:17:04.403 --> 00:17:08.172 80% рабочих мест приходится на сферу услуг. 00:17:08.172 --> 00:17:09.959 Каких услуг? 00:17:09.959 --> 00:17:11.473 Вот этих услуг. 00:17:11.473 --> 00:17:15.627 А это именно то, что компьютеры только что научились делать. 00:17:15.627 --> 00:17:19.431 Если 80% людей в развитых странах 00:17:19.431 --> 00:17:21.963 заняты тем, что теперь умеет компьютер, 00:17:21.963 --> 00:17:23.403 то что это значит? 00:17:23.403 --> 00:17:25.986 Всё в порядке. Они сменят работу. 00:17:25.986 --> 00:17:28.693 Например, будет больше работы для аналитиков данных. 00:17:28.693 --> 00:17:29.560 Ну или не совсем. 00:17:29.560 --> 00:17:32.628 Решение этих задач не займёт у них много времени. 00:17:32.628 --> 00:17:35.880 Например, эти четыре алгоритма создал один и тот же человек. 00:17:35.880 --> 00:17:38.318 Вы скажете, что человечество с этим уже сталкивалось. 00:17:38.318 --> 00:17:42.126 В прошлом мы видели, что когда приходят новые технологии, 00:17:42.126 --> 00:17:44.378 новые профессии приходят на смену старым, 00:17:44.378 --> 00:17:46.494 но что это будут за новые профессии? 00:17:46.494 --> 00:17:48.365 Нам очень сложно сейчас это оценить, 00:17:48.365 --> 00:17:51.274 ведь производительность человеческого труда растёт постепенно. 00:17:51.274 --> 00:17:53.666 Однако теперь есть система глубинного обучения, 00:17:53.666 --> 00:17:56.893 и мы знаем, что её возможности растут по экспоненте. 00:17:56.893 --> 00:17:58.498 Итак, 00:17:58.498 --> 00:18:00.559 мы оглядываемся по сторонам: 00:18:00.559 --> 00:18:03.235 «Ведь компьютеры всё ещё достаточно примитивны». Верно? 00:18:03.235 --> 00:18:06.664 Но через пять лет их возможности выйдут за границы этого графика. 00:18:06.664 --> 00:18:09.999 Поэтому нам необходимо начать обдумывать этот аспект прямо сейчас. NOTE Paragraph 00:18:09.999 --> 00:18:12.579 Разумеется, такое уже случалось в истории человечества. 00:18:12.579 --> 00:18:13.966 Промышленная революция, 00:18:13.966 --> 00:18:16.817 благодаря двигателям, дала качественный скачок производства. 00:18:17.667 --> 00:18:20.805 Однако спустя какое-то время мощности перестали расти. 00:18:20.805 --> 00:18:22.507 Случился социальный взрыв, 00:18:22.507 --> 00:18:25.946 но когда двигатели стали применяться в промышленности повсеместно, 00:18:25.946 --> 00:18:28.300 был найден баланс. 00:18:28.300 --> 00:18:29.773 Революция машинного обучения 00:18:29.773 --> 00:18:32.682 будет сильно отличаться от промышленной революции, 00:18:32.682 --> 00:18:35.632 потому что революция машинного обучения непрерывна. 00:18:35.632 --> 00:18:38.614 Чем более интеллектуально развиты компьютеры, 00:18:38.614 --> 00:18:42.862 тем более интеллектуально развитые компьютеры они создают. 00:18:42.862 --> 00:18:44.770 А это приведёт к тому, 00:18:44.770 --> 00:18:47.248 с чем наш мир никогда раньше не сталкивался, 00:18:47.248 --> 00:18:50.554 и ваши прошлые представления о возможном изменятся. NOTE Paragraph 00:18:50.974 --> 00:18:52.754 Мы это уже почувствовали на себе. 00:18:52.754 --> 00:18:56.384 В течение последней четверти века производительность оборудования росла, 00:18:56.400 --> 00:19:00.588 в то время как производительность рабочих оставалась прежней или немного снижалась. NOTE Paragraph 00:19:01.408 --> 00:19:04.149 Я хочу, чтобы мы уже сейчас задумались над этим. 00:19:04.149 --> 00:19:07.176 Когда я рассказываю об этом людям, 00:19:07.176 --> 00:19:08.666 они зачастую мне не верят: 00:19:08.666 --> 00:19:10.339 мол, компьютеры не могут думать, 00:19:10.339 --> 00:19:13.367 переживать, воспринимать стихи. 00:19:13.367 --> 00:19:15.888 Мы не понимаем по-настоящему, как они работают. 00:19:15.888 --> 00:19:17.374 И что? 00:19:17.374 --> 00:19:19.178 Уже сейчас компьютеры делают то, 00:19:19.178 --> 00:19:21.897 на что люди тратят бóльшую часть оплачиваемого времени, 00:19:21.897 --> 00:19:23.628 так что теперь пора думать над тем, 00:19:23.628 --> 00:19:28.015 как мы будем адаптировать наши социальные и экономические структуры, 00:19:28.015 --> 00:19:29.855 чтобы быть готовыми к новой реальности. 00:19:29.855 --> 00:19:31.388 Спасибо. 00:19:31.388 --> 00:19:32.190 (Аплодисменты)