Як комп'ютер вчиться миттєво визначати об'єкти
-
0:01 - 0:02Десять років тому
-
0:02 - 0:05дослідники комп'ютерного зору
вважали, що навчити комп'ютер -
0:05 - 0:07визначити різницю
між котом і собакою — -
0:08 - 0:09майже неможливо,
-
0:10 - 0:13навіть зі значним розвитком
в галузі штучного інтелекту. -
0:13 - 0:17Зараз ми вміємо це робити
з точністю понад 99%. -
0:18 - 0:20Це називається класифікація
зображень — -
0:20 - 0:23маючи зображення,
назвати це зображення — -
0:23 - 0:26і комп'ютери знають
тисячі таких категорій. -
0:27 - 0:30Я аспірант
Університету Вашингтона, -
0:30 - 0:32і я працюю над проектом
під назвою Даркнет, -
0:32 - 0:33це фреймворк для нейронної сітки,
-
0:33 - 0:36який навчає і тестує
моделі комп'ютерного зору. -
0:36 - 0:39Дізнаймося, що думає Даркнет
-
0:39 - 0:41про це наше зображення.
-
0:43 - 0:45Коли ми запускаємо класифікатор
-
0:45 - 0:46для цього зображення,
-
0:46 - 0:49ми отримуємо не просто прогноз
щодо кішки чи собаки, -
0:49 - 0:51насправді ми отримуємо
визначення породи. -
0:51 - 0:53Ось такий рівень точності
ми маємо зараз. -
0:53 - 0:55І це так.
-
0:55 - 0:57Мій собака насправді маламут.
-
0:57 - 1:01Тож ми досягли відчутного успіху
у класифікації зображень, -
1:01 - 1:04але що станеться, якщо запустити
класифікатор -
1:04 - 1:05на отакому зображенні?
-
1:07 - 1:08Ну...
-
1:13 - 1:17Ми бачимо, що він повертається
з дуже подібним передбаченням. -
1:17 - 1:20І це правда, на зображенні
є маламут, -
1:20 - 1:23але через саму цю назву
ми небагато дізналися про те, -
1:23 - 1:25що саме відбувається на зображенні.
-
1:25 - 1:27Нам потрібно щось потужніше.
-
1:27 - 1:30І я працюю над проблемою
під назвою визначення об'єктів, -
1:30 - 1:33ми дивимося на зображення
і намагаємося знайти усі об'єкти, -
1:33 - 1:34визначивши їхні межі
-
1:34 - 1:36і підписавши, що це таке.
-
1:36 - 1:40Ось що трапиться, якщо запустити детектор
для цього зображення. -
1:41 - 1:43З таким результатом ми можемо
-
1:44 - 1:46зробити більше з нашими алгоритмами
комп'ютерного зору. -
1:46 - 1:49Ми бачимо, що він знає,
що це кіт і собака. -
1:49 - 1:51Він знає їхні приблизні локації,
-
1:52 - 1:53їхній розмір.
-
1:53 - 1:55Він може навіть знати деяку
додаткову інформацію. -
1:55 - 1:57Ось там на фоні книжка.
-
1:57 - 2:01І якщо ви хочете побудувати систему
на основі комп'ютерного зору, -
2:01 - 2:04наприклад, машину на автопілоті
чи роботизовану систему, -
2:04 - 2:06ви потребуватимете
саме такої інформації. -
2:07 - 2:10Ви хочете чогось, що дозволить
взаємодіяти з матеріальним світом. -
2:11 - 2:13Коли я почав працювати над
визначенням об'єктітв, -
2:13 - 2:16обробка зображення займала
20 секунд. -
2:16 - 2:20І щоб зрозуміти, чому швидкість
настільки важлива в цій галузі, -
2:21 - 2:24ось приклад детектора об'єктів,
-
2:24 - 2:26що потребує 2 секунди
на обробку зображення. -
2:26 - 2:29Тож він у десять разів швидший
-
2:29 - 2:32за той 20-секундний детектор,
-
2:32 - 2:35але видно, що коли він робить
свій прогноз, -
2:35 - 2:37стан навколишнього світу
вже змінився. -
2:38 - 2:40Тож це не дуже корисно
-
2:40 - 2:42для додатку.
-
2:42 - 2:44Якщо ми прискоримо це
ще вдесятеро, -
2:44 - 2:47ось детектор, що працює
на швидкості 5 кадрів на секунду. -
2:47 - 2:49Це набагато краще,
-
2:49 - 2:51але наприклад,
-
2:51 - 2:53якщо відбувається помітний рух,
-
2:53 - 2:56я б не хотів, щоб така система
керувала моєю автівкою. -
2:57 - 3:00Це наша система визначення,
що працює наживо на моєму лептопі. -
3:01 - 3:04Вона послідовно визначає моє місце,
поки я рухаюсь коло меж, -
3:04 - 3:08і вона стійка до різноманітних
змін розміру, -
3:09 - 3:11пози,
-
3:11 - 3:13руху вперед і назад.
-
3:13 - 3:14Це чудово.
-
3:14 - 3:16Саме це нам і потрібно,
-
3:16 - 3:19якщо ми хочемо будувати системи
на основі комп'ютерного зору. -
3:19 - 3:23(Оплески)
-
3:24 - 3:26Тож лише за кілька років
-
3:26 - 3:29ми пройшли від 20 секунд
на зображення -
3:29 - 3:33до 20 мілісекунд на зображення,
у тисячу разів швидше. -
3:33 - 3:34Як ми цього досягли?
-
3:34 - 3:37У минулому система визначення об'єктів
-
3:37 - 3:39взяла б подібне зображення
-
3:39 - 3:42і поділила на безліч регіонів,
-
3:42 - 3:45а потім запустила б класифікатор
для кожного регіону, -
3:45 - 3:47і високі бали для такого класифікатора
-
3:47 - 3:51вважалися б
за визначення зображення. -
3:51 - 3:55Але це потребувало б запуску
класифікатора тисячі разів, -
3:55 - 3:58тисячі перевірок нейронної мережі,
щоб зробити визначення. -
3:59 - 4:04Натомість ми натренували єдину мережу
робити усі визначення для нас. -
4:04 - 4:08Вона створює усі рамки
й сортує ймовірності одночасно. -
4:08 - 4:12З нашою системою, замість того
щоб тисячі разів дивитися на зображення -
4:12 - 4:14для визначення,
ми дивимося один раз: -
4:14 - 4:15"you only look once".
-
4:15 - 4:18і ми назвали наш метод
визначення об'єктів YOLO. -
4:19 - 4:23Тож з такою швидкістю
ми не обмежені зображеннями, -
4:23 - 4:26ми можемо обробляти відео наживо.
-
4:26 - 4:29І тепер, замість того щоб бачити
тих кота і собаку, -
4:29 - 4:32ми можемо бачити, як вони
рухаються і взаємодіють. -
4:35 - 4:37Цей детектор ми тренували
-
4:37 - 4:41на 80 різних класах
-
4:41 - 4:44з набору даних Microsoft СОСО.
-
4:44 - 4:48Там були усі типи речей:
ложка і виделка, миска, -
4:48 - 4:49подібні звичні речі.
-
4:50 - 4:53Там була й безліч незвичніших речей:
-
4:53 - 4:57тварини, авто, зебри, жирафи.
-
4:57 - 4:59І зараз ми зробимо дещо цікаве.
-
4:59 - 5:01Ми просто підемо у залу
-
5:01 - 5:03і побачимо, які речі зможемо
визначити. -
5:03 - 5:04Хтось хоче м'яку іграшку?
-
5:06 - 5:08Тут є іграшкові ведмеді.
-
5:10 - 5:15І ми можемо трошки знизити
поріг розпізнавання, -
5:15 - 5:18щоб знайти більше вас
в аудиторії. -
5:20 - 5:22Побачимо, чи ми визначаємо знаки "стоп".
-
5:22 - 5:24Ми знайшли наплечники.
-
5:26 - 5:28Тепер наблизьмо трошки.
-
5:30 - 5:32І це чудово.
-
5:32 - 5:35І уся обробка відбувається
в реальному часі -
5:35 - 5:36на лептопі.
-
5:37 - 5:39І важливо пам'ятати,
-
5:39 - 5:42що це система визначення
загального призначення, -
5:42 - 5:47тож ми можемо натренувати її
для будь-якого типу зображень. -
5:48 - 5:51Той самий код, що використовується,
-
5:51 - 5:53щоб знаходити знаки "стоп", пішоходів,
-
5:53 - 5:55велосипеди для машини на автопілоті,
-
5:55 - 5:58можна використати, щоб знаходити
ракові клітини -
5:58 - 6:01у біопсії тканини.
-
6:01 - 6:05І дослідники по всьому світу
вже використовують цю технологію, -
6:06 - 6:09щоб розвивати медицину
чи робототехніку. -
6:09 - 6:11Цього ранку я прочитав статтю
-
6:11 - 6:16про те, як підраховували тварин
в Національному парку Найробі, -
6:16 - 6:19використовуючи YOLO
як частину системи розпізнавання. -
6:19 - 6:22А це тому, що Даркнет — проект з вікритим
кодом -
6:22 - 6:24у публічному доступі,
безкоштовний для використання. -
6:26 - 6:31(Оплески)
-
6:31 - 6:36Але ми хочемо зробити визначення
навіть доступнішим і зручнішим, -
6:36 - 6:40тож завдяки оптимізації,
-
6:40 - 6:43апроксимації та бінаризації мережі
-
6:43 - 6:47наше визначення зображень
працює на телефоні. -
6:53 - 6:58(Оплески)
-
6:59 - 7:04І я дуже схвильований, бо
зараз у нас є досить потужне розв'язання -
7:04 - 7:06для низькорівневого комп'ютерного зору,
-
7:06 - 7:10і кожен може взяти його
і щоб з цим побудувати. -
7:10 - 7:13Тож решта залежить від вас усіх,
-
7:13 - 7:16від людей по всьому світу,
які мають доступ до цієї програми, -
7:16 - 7:20і я із нетерпінням чекаю на речі,
які люди створять із цією технологією. -
7:20 - 7:21Дякую.
-
7:21 - 7:25(Оплески)
- Title:
- Як комп'ютер вчиться миттєво визначати об'єкти
- Speaker:
- Джозеф Редмон
- Description:
-
Десять років тому дослідники вважали, що змусити комп'ютер визначити різницю мід кішкою та собакою буде майже неможливо. Сьогодні системи комп'ютерного зору роблять це з точністю понад 99 відсотків. Як? Джозеф Редмон працює над системою із відкритим доступом до коду YOLO ("You Only Look Once" - "Ви Дивитеся Тільки Один раз"). Цей метод розпізнавання вміє визначити об'єкти на зображеннях та відео — від зебр до знаків "стоп" — з блискавичною швидкістю. У вражаючому живому демо Редмон показує, який важливий шаг зроблено для побудови машин на автопілоті, робототехніки і навіть визначення ракових клітин.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
Khrystyna Romashko approved Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Khrystyna Romashko accepted Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Khrystyna Romashko edited Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly | ||
Olena Gapak edited Ukrainian subtitles for How computers learn to recognize objects instantly |