Як комп'ютер вчиться миттєво визначати об'єкти

0:01 - 0:02

Десять років тому
0:02 - 0:05

дослідники комп'ютерного зору
вважали, що навчити комп'ютер
0:05 - 0:07

визначити різницю
між котом і собакою —
0:08 - 0:09

майже неможливо,
0:10 - 0:13

навіть зі значним розвитком
в галузі штучного інтелекту.
0:13 - 0:17

Зараз ми вміємо це робити
з точністю понад 99%.
0:18 - 0:20

Це називається класифікація
зображень —
0:20 - 0:23

маючи зображення,
назвати це зображення —
0:23 - 0:26

і комп'ютери знають
тисячі таких категорій.
0:27 - 0:30

Я аспірант
Університету Вашингтона,
0:30 - 0:32

і я працюю над проектом
під назвою Даркнет,
0:32 - 0:33

це фреймворк для нейронної сітки,
0:33 - 0:36

який навчає і тестує
моделі комп'ютерного зору.
0:36 - 0:39

Дізнаймося, що думає Даркнет
0:39 - 0:41

про це наше зображення.
0:43 - 0:45

Коли ми запускаємо класифікатор
0:45 - 0:46

для цього зображення,
0:46 - 0:49

ми отримуємо не просто прогноз
щодо кішки чи собаки,
0:49 - 0:51

насправді ми отримуємо
визначення породи.
0:51 - 0:53

Ось такий рівень точності
ми маємо зараз.
0:53 - 0:55

І це так.
0:55 - 0:57

Мій собака насправді маламут.
0:57 - 1:01

Тож ми досягли відчутного успіху
у класифікації зображень,
1:01 - 1:04

але що станеться, якщо запустити
класифікатор
1:04 - 1:05

на отакому зображенні?
1:07 - 1:08

Ну...
1:13 - 1:17

Ми бачимо, що він повертається
з дуже подібним передбаченням.
1:17 - 1:20

І це правда, на зображенні
є маламут,
1:20 - 1:23

але через саму цю назву
ми небагато дізналися про те,
1:23 - 1:25

що саме відбувається на зображенні.
1:25 - 1:27

Нам потрібно щось потужніше.
1:27 - 1:30

І я працюю над проблемою
під назвою визначення об'єктів,
1:30 - 1:33

ми дивимося на зображення
і намагаємося знайти усі об'єкти,
1:33 - 1:34

визначивши їхні межі
1:34 - 1:36

і підписавши, що це таке.
1:36 - 1:40

Ось що трапиться, якщо запустити детектор
для цього зображення.
1:41 - 1:43

З таким результатом ми можемо
1:44 - 1:46

зробити більше з нашими алгоритмами
комп'ютерного зору.
1:46 - 1:49

Ми бачимо, що він знає,
що це кіт і собака.
1:49 - 1:51

Він знає їхні приблизні локації,
1:52 - 1:53

їхній розмір.
1:53 - 1:55

Він може навіть знати деяку
додаткову інформацію.
1:55 - 1:57

Ось там на фоні книжка.
1:57 - 2:01

І якщо ви хочете побудувати систему
на основі комп'ютерного зору,
2:01 - 2:04

наприклад, машину на автопілоті
чи роботизовану систему,
2:04 - 2:06

ви потребуватимете
саме такої інформації.
2:07 - 2:10

Ви хочете чогось, що дозволить
взаємодіяти з матеріальним світом.
2:11 - 2:13

Коли я почав працювати над
визначенням об'єктітв,
2:13 - 2:16

обробка зображення займала
20 секунд.
2:16 - 2:20

І щоб зрозуміти, чому швидкість
настільки важлива в цій галузі,
2:21 - 2:24

ось приклад детектора об'єктів,
2:24 - 2:26

що потребує 2 секунди
на обробку зображення.
2:26 - 2:29

Тож він у десять разів швидший
2:29 - 2:32

за той 20-секундний детектор,
2:32 - 2:35

але видно, що коли він робить
свій прогноз,
2:35 - 2:37

стан навколишнього світу
вже змінився.
2:38 - 2:40

Тож це не дуже корисно
2:40 - 2:42

для додатку.
2:42 - 2:44

Якщо ми прискоримо це
ще вдесятеро,
2:44 - 2:47

ось детектор, що працює
на швидкості 5 кадрів на секунду.
2:47 - 2:49

Це набагато краще,
2:49 - 2:51

але наприклад,
2:51 - 2:53

якщо відбувається помітний рух,
2:53 - 2:56

я б не хотів, щоб така система
керувала моєю автівкою.
2:57 - 3:00

Це наша система визначення,
що працює наживо на моєму лептопі.
3:01 - 3:04

Вона послідовно визначає моє місце,
поки я рухаюсь коло меж,
3:04 - 3:08

і вона стійка до різноманітних
змін розміру,
3:09 - 3:11

пози,
3:11 - 3:13

руху вперед і назад.
3:13 - 3:14

Це чудово.
3:14 - 3:16

Саме це нам і потрібно,
3:16 - 3:19

якщо ми хочемо будувати системи
на основі комп'ютерного зору.
3:19 - 3:23

(Оплески)
3:24 - 3:26

Тож лише за кілька років
3:26 - 3:29

ми пройшли від 20 секунд
на зображення
3:29 - 3:33

до 20 мілісекунд на зображення,
у тисячу разів швидше.
3:33 - 3:34

Як ми цього досягли?
3:34 - 3:37

У минулому система визначення об'єктів
3:37 - 3:39

взяла б подібне зображення
3:39 - 3:42

і поділила на безліч регіонів,
3:42 - 3:45

а потім запустила б класифікатор
для кожного регіону,
3:45 - 3:47

і високі бали для такого класифікатора
3:47 - 3:51

вважалися б
за визначення зображення.
3:51 - 3:55

Але це потребувало б запуску
класифікатора тисячі разів,
3:55 - 3:58

тисячі перевірок нейронної мережі,
щоб зробити визначення.
3:59 - 4:04

Натомість ми натренували єдину мережу
робити усі визначення для нас.
4:04 - 4:08

Вона створює усі рамки
й сортує ймовірності одночасно.
4:08 - 4:12

З нашою системою, замість того
щоб тисячі разів дивитися на зображення
4:12 - 4:14

для визначення,
ми дивимося один раз:
4:14 - 4:15

"you only look once".
4:15 - 4:18

і ми назвали наш метод
визначення об'єктів YOLO.
4:19 - 4:23

Тож з такою швидкістю
ми не обмежені зображеннями,
4:23 - 4:26

ми можемо обробляти відео наживо.
4:26 - 4:29

І тепер, замість того щоб бачити
тих кота і собаку,
4:29 - 4:32

ми можемо бачити, як вони
рухаються і взаємодіють.
4:35 - 4:37

Цей детектор ми тренували
4:37 - 4:41

на 80 різних класах
4:41 - 4:44

з набору даних Microsoft СОСО.
4:44 - 4:48

Там були усі типи речей:
ложка і виделка, миска,
4:48 - 4:49

подібні звичні речі.
4:50 - 4:53

Там була й безліч незвичніших речей:
4:53 - 4:57

тварини, авто, зебри, жирафи.
4:57 - 4:59

І зараз ми зробимо дещо цікаве.
4:59 - 5:01

Ми просто підемо у залу
5:01 - 5:03

і побачимо, які речі зможемо
визначити.
5:03 - 5:04

Хтось хоче м'яку іграшку?
5:06 - 5:08

Тут є іграшкові ведмеді.
5:10 - 5:15

І ми можемо трошки знизити
поріг розпізнавання,
5:15 - 5:18

щоб знайти більше вас
в аудиторії.
5:20 - 5:22

Побачимо, чи ми визначаємо знаки "стоп".
5:22 - 5:24

Ми знайшли наплечники.
5:26 - 5:28

Тепер наблизьмо трошки.
5:30 - 5:32

І це чудово.
5:32 - 5:35

І уся обробка відбувається
в реальному часі
5:35 - 5:36

на лептопі.
5:37 - 5:39

І важливо пам'ятати,
5:39 - 5:42

що це система визначення
загального призначення,
5:42 - 5:47

тож ми можемо натренувати її
для будь-якого типу зображень.
5:48 - 5:51

Той самий код, що використовується,
5:51 - 5:53

щоб знаходити знаки "стоп", пішоходів,
5:53 - 5:55

велосипеди для машини на автопілоті,
5:55 - 5:58

можна використати, щоб знаходити
ракові клітини
5:58 - 6:01

у біопсії тканини.
6:01 - 6:05

І дослідники по всьому світу
вже використовують цю технологію,
6:06 - 6:09

щоб розвивати медицину
чи робототехніку.
6:09 - 6:11

Цього ранку я прочитав статтю
6:11 - 6:16

про те, як підраховували тварин
в Національному парку Найробі,
6:16 - 6:19

використовуючи YOLO
як частину системи розпізнавання.
6:19 - 6:22

А це тому, що Даркнет — проект з вікритим
кодом
6:22 - 6:24

у публічному доступі,
безкоштовний для використання.
6:26 - 6:31

(Оплески)
6:31 - 6:36

Але ми хочемо зробити визначення
навіть доступнішим і зручнішим,
6:36 - 6:40

тож завдяки оптимізації,
6:40 - 6:43

апроксимації та бінаризації мережі
6:43 - 6:47

наше визначення зображень
працює на телефоні.
6:53 - 6:58

(Оплески)
6:59 - 7:04

І я дуже схвильований, бо
зараз у нас є досить потужне розв'язання
7:04 - 7:06

для низькорівневого комп'ютерного зору,
7:06 - 7:10

і кожен може взяти його
і щоб з цим побудувати.
7:10 - 7:13

Тож решта залежить від вас усіх,
7:13 - 7:16

від людей по всьому світу,
які мають доступ до цієї програми,
7:16 - 7:20

і я із нетерпінням чекаю на речі,
які люди створять із цією технологією.
7:20 - 7:21

Дякую.
7:21 - 7:25

(Оплески)

Title:: Як комп'ютер вчиться миттєво визначати об'єкти
Speaker:: Джозеф Редмон
Description:: Десять років тому дослідники вважали, що змусити комп'ютер визначити різницю мід кішкою та собакою буде майже неможливо. Сьогодні системи комп'ютерного зору роблять це з точністю понад 99 відсотків. Як? Джозеф Редмон працює над системою із відкритим доступом до коду YOLO ("You Only Look Once" - "Ви Дивитеся Тільки Один раз"). Цей метод розпізнавання вміє визначити об'єкти на зображеннях та відео — від зебр до знаків "стоп" — з блискавичною швидкістю. У вражаючому живому демо Редмон показує, який важливий шаг зроблено для побудови машин на автопілоті, робототехніки і навіть визначення ракових клітин.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Khrystyna Romashko approved Ukrainian subtitles for How computers learn to recognize objects instantly
	Khrystyna Romashko accepted Ukrainian subtitles for How computers learn to recognize objects instantly
	Khrystyna Romashko edited Ukrainian subtitles for How computers learn to recognize objects instantly
	Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly
	Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly
	Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly
	Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly
	Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly

Show all

Ukrainian subtitles

Revisions

Revision 10 Edited

Khrystyna Romashko

Як комп'ютер вчиться миттєво визначати об'єкти

Revisions

Our website uses cookies

Operating cookies (Required)