Return to Video

Як комп'ютер вчиться миттєво визначати об'єкти

  • 0:01 - 0:02
    Десять років тому
  • 0:02 - 0:05
    дослідники комп'ютерного зору
    вважали, що навчити комп'ютер
  • 0:05 - 0:07
    визначити різницю
    між котом і собакою —
  • 0:08 - 0:09
    майже неможливо,
  • 0:10 - 0:13
    навіть зі значним розвитком
    в галузі штучного інтелекту.
  • 0:13 - 0:17
    Зараз ми вміємо це робити
    з точністю понад 99%.
  • 0:18 - 0:20
    Це називається класифікація
    зображень —
  • 0:20 - 0:23
    маючи зображення,
    назвати це зображення —
  • 0:23 - 0:26
    і комп'ютери знають
    тисячі таких категорій.
  • 0:27 - 0:30
    Я аспірант
    Університету Вашингтона,
  • 0:30 - 0:32
    і я працюю над проектом
    під назвою Даркнет,
  • 0:32 - 0:33
    це фреймворк для нейронної сітки,
  • 0:33 - 0:36
    який навчає і тестує
    моделі комп'ютерного зору.
  • 0:36 - 0:39
    Дізнаймося, що думає Даркнет
  • 0:39 - 0:41
    про це наше зображення.
  • 0:43 - 0:45
    Коли ми запускаємо класифікатор
  • 0:45 - 0:46
    для цього зображення,
  • 0:46 - 0:49
    ми отримуємо не просто прогноз
    щодо кішки чи собаки,
  • 0:49 - 0:51
    насправді ми отримуємо
    визначення породи.
  • 0:51 - 0:53
    Ось такий рівень точності
    ми маємо зараз.
  • 0:53 - 0:55
    І це так.
  • 0:55 - 0:57
    Мій собака насправді маламут.
  • 0:57 - 1:01
    Тож ми досягли відчутного успіху
    у класифікації зображень,
  • 1:01 - 1:04
    але що станеться, якщо запустити
    класифікатор
  • 1:04 - 1:05
    на отакому зображенні?
  • 1:07 - 1:08
    Ну...
  • 1:13 - 1:17
    Ми бачимо, що він повертається
    з дуже подібним передбаченням.
  • 1:17 - 1:20
    І це правда, на зображенні
    є маламут,
  • 1:20 - 1:23
    але через саму цю назву
    ми небагато дізналися про те,
  • 1:23 - 1:25
    що саме відбувається на зображенні.
  • 1:25 - 1:27
    Нам потрібно щось потужніше.
  • 1:27 - 1:30
    І я працюю над проблемою
    під назвою визначення об'єктів,
  • 1:30 - 1:33
    ми дивимося на зображення
    і намагаємося знайти усі об'єкти,
  • 1:33 - 1:34
    визначивши їхні межі
  • 1:34 - 1:36
    і підписавши, що це таке.
  • 1:36 - 1:40
    Ось що трапиться, якщо запустити детектор
    для цього зображення.
  • 1:41 - 1:43
    З таким результатом ми можемо
  • 1:44 - 1:46
    зробити більше з нашими алгоритмами
    комп'ютерного зору.
  • 1:46 - 1:49
    Ми бачимо, що він знає,
    що це кіт і собака.
  • 1:49 - 1:51
    Він знає їхні приблизні локації,
  • 1:52 - 1:53
    їхній розмір.
  • 1:53 - 1:55
    Він може навіть знати деяку
    додаткову інформацію.
  • 1:55 - 1:57
    Ось там на фоні книжка.
  • 1:57 - 2:01
    І якщо ви хочете побудувати систему
    на основі комп'ютерного зору,
  • 2:01 - 2:04
    наприклад, машину на автопілоті
    чи роботизовану систему,
  • 2:04 - 2:06
    ви потребуватимете
    саме такої інформації.
  • 2:07 - 2:10
    Ви хочете чогось, що дозволить
    взаємодіяти з матеріальним світом.
  • 2:11 - 2:13
    Коли я почав працювати над
    визначенням об'єктітв,
  • 2:13 - 2:16
    обробка зображення займала
    20 секунд.
  • 2:16 - 2:20
    І щоб зрозуміти, чому швидкість
    настільки важлива в цій галузі,
  • 2:21 - 2:24
    ось приклад детектора об'єктів,
  • 2:24 - 2:26
    що потребує 2 секунди
    на обробку зображення.
  • 2:26 - 2:29
    Тож він у десять разів швидший
  • 2:29 - 2:32
    за той 20-секундний детектор,
  • 2:32 - 2:35
    але видно, що коли він робить
    свій прогноз,
  • 2:35 - 2:37
    стан навколишнього світу
    вже змінився.
  • 2:38 - 2:40
    Тож це не дуже корисно
  • 2:40 - 2:42
    для додатку.
  • 2:42 - 2:44
    Якщо ми прискоримо це
    ще вдесятеро,
  • 2:44 - 2:47
    ось детектор, що працює
    на швидкості 5 кадрів на секунду.
  • 2:47 - 2:49
    Це набагато краще,
  • 2:49 - 2:51
    але наприклад,
  • 2:51 - 2:53
    якщо відбувається помітний рух,
  • 2:53 - 2:56
    я б не хотів, щоб така система
    керувала моєю автівкою.
  • 2:57 - 3:00
    Це наша система визначення,
    що працює наживо на моєму лептопі.
  • 3:01 - 3:04
    Вона послідовно визначає моє місце,
    поки я рухаюсь коло меж,
  • 3:04 - 3:08
    і вона стійка до різноманітних
    змін розміру,
  • 3:09 - 3:11
    пози,
  • 3:11 - 3:13
    руху вперед і назад.
  • 3:13 - 3:14
    Це чудово.
  • 3:14 - 3:16
    Саме це нам і потрібно,
  • 3:16 - 3:19
    якщо ми хочемо будувати системи
    на основі комп'ютерного зору.
  • 3:19 - 3:23
    (Оплески)
  • 3:24 - 3:26
    Тож лише за кілька років
  • 3:26 - 3:29
    ми пройшли від 20 секунд
    на зображення
  • 3:29 - 3:33
    до 20 мілісекунд на зображення,
    у тисячу разів швидше.
  • 3:33 - 3:34
    Як ми цього досягли?
  • 3:34 - 3:37
    У минулому система визначення об'єктів
  • 3:37 - 3:39
    взяла б подібне зображення
  • 3:39 - 3:42
    і поділила на безліч регіонів,
  • 3:42 - 3:45
    а потім запустила б класифікатор
    для кожного регіону,
  • 3:45 - 3:47
    і високі бали для такого класифікатора
  • 3:47 - 3:51
    вважалися б
    за визначення зображення.
  • 3:51 - 3:55
    Але це потребувало б запуску
    класифікатора тисячі разів,
  • 3:55 - 3:58
    тисячі перевірок нейронної мережі,
    щоб зробити визначення.
  • 3:59 - 4:04
    Натомість ми натренували єдину мережу
    робити усі визначення для нас.
  • 4:04 - 4:08
    Вона створює усі рамки
    й сортує ймовірності одночасно.
  • 4:08 - 4:12
    З нашою системою, замість того
    щоб тисячі разів дивитися на зображення
  • 4:12 - 4:14
    для визначення,
    ми дивимося один раз:
  • 4:14 - 4:15
    "you only look once".
  • 4:15 - 4:18
    і ми назвали наш метод
    визначення об'єктів YOLO.
  • 4:19 - 4:23
    Тож з такою швидкістю
    ми не обмежені зображеннями,
  • 4:23 - 4:26
    ми можемо обробляти відео наживо.
  • 4:26 - 4:29
    І тепер, замість того щоб бачити
    тих кота і собаку,
  • 4:29 - 4:32
    ми можемо бачити, як вони
    рухаються і взаємодіють.
  • 4:35 - 4:37
    Цей детектор ми тренували
  • 4:37 - 4:41
    на 80 різних класах
  • 4:41 - 4:44
    з набору даних Microsoft СОСО.
  • 4:44 - 4:48
    Там були усі типи речей:
    ложка і виделка, миска,
  • 4:48 - 4:49
    подібні звичні речі.
  • 4:50 - 4:53
    Там була й безліч незвичніших речей:
  • 4:53 - 4:57
    тварини, авто, зебри, жирафи.
  • 4:57 - 4:59
    І зараз ми зробимо дещо цікаве.
  • 4:59 - 5:01
    Ми просто підемо у залу
  • 5:01 - 5:03
    і побачимо, які речі зможемо
    визначити.
  • 5:03 - 5:04
    Хтось хоче м'яку іграшку?
  • 5:06 - 5:08
    Тут є іграшкові ведмеді.
  • 5:10 - 5:15
    І ми можемо трошки знизити
    поріг розпізнавання,
  • 5:15 - 5:18
    щоб знайти більше вас
    в аудиторії.
  • 5:20 - 5:22
    Побачимо, чи ми визначаємо знаки "стоп".
  • 5:22 - 5:24
    Ми знайшли наплечники.
  • 5:26 - 5:28
    Тепер наблизьмо трошки.
  • 5:30 - 5:32
    І це чудово.
  • 5:32 - 5:35
    І уся обробка відбувається
    в реальному часі
  • 5:35 - 5:36
    на лептопі.
  • 5:37 - 5:39
    І важливо пам'ятати,
  • 5:39 - 5:42
    що це система визначення
    загального призначення,
  • 5:42 - 5:47
    тож ми можемо натренувати її
    для будь-якого типу зображень.
  • 5:48 - 5:51
    Той самий код, що використовується,
  • 5:51 - 5:53
    щоб знаходити знаки "стоп", пішоходів,
  • 5:53 - 5:55
    велосипеди для машини на автопілоті,
  • 5:55 - 5:58
    можна використати, щоб знаходити
    ракові клітини
  • 5:58 - 6:01
    у біопсії тканини.
  • 6:01 - 6:05
    І дослідники по всьому світу
    вже використовують цю технологію,
  • 6:06 - 6:09
    щоб розвивати медицину
    чи робототехніку.
  • 6:09 - 6:11
    Цього ранку я прочитав статтю
  • 6:11 - 6:16
    про те, як підраховували тварин
    в Національному парку Найробі,
  • 6:16 - 6:19
    використовуючи YOLO
    як частину системи розпізнавання.
  • 6:19 - 6:22
    А це тому, що Даркнет — проект з вікритим
    кодом
  • 6:22 - 6:24
    у публічному доступі,
    безкоштовний для використання.
  • 6:26 - 6:31
    (Оплески)
  • 6:31 - 6:36
    Але ми хочемо зробити визначення
    навіть доступнішим і зручнішим,
  • 6:36 - 6:40
    тож завдяки оптимізації,
  • 6:40 - 6:43
    апроксимації та бінаризації мережі
  • 6:43 - 6:47
    наше визначення зображень
    працює на телефоні.
  • 6:53 - 6:58
    (Оплески)
  • 6:59 - 7:04
    І я дуже схвильований, бо
    зараз у нас є досить потужне розв'язання
  • 7:04 - 7:06
    для низькорівневого комп'ютерного зору,
  • 7:06 - 7:10
    і кожен може взяти його
    і щоб з цим побудувати.
  • 7:10 - 7:13
    Тож решта залежить від вас усіх,
  • 7:13 - 7:16
    від людей по всьому світу,
    які мають доступ до цієї програми,
  • 7:16 - 7:20
    і я із нетерпінням чекаю на речі,
    які люди створять із цією технологією.
  • 7:20 - 7:21
    Дякую.
  • 7:21 - 7:25
    (Оплески)
Title:
Як комп'ютер вчиться миттєво визначати об'єкти
Speaker:
Джозеф Редмон
Description:

Десять років тому дослідники вважали, що змусити комп'ютер визначити різницю мід кішкою та собакою буде майже неможливо. Сьогодні системи комп'ютерного зору роблять це з точністю понад 99 відсотків. Як? Джозеф Редмон працює над системою із відкритим доступом до коду YOLO ("You Only Look Once" - "Ви Дивитеся Тільки Один раз"). Цей метод розпізнавання вміє визначити об'єкти на зображеннях та відео — від зебр до знаків "стоп" — з блискавичною швидкістю. У вражаючому живому демо Редмон показує, який важливий шаг зроблено для побудови машин на автопілоті, робототехніки і навіть визначення ракових клітин.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Ukrainian subtitles

Revisions