Jak komputer uczy się błyskawicznie rozpoznawać obiekty

0:01 - 0:02

Dziesięć lat temu
0:02 - 0:05

badacze rozpoznawania obrazów
sądzili, że nauczenie komputera
0:05 - 0:07

rozróżniania kota od psa
0:08 - 0:09

jest prawie niemożliwe
0:10 - 0:13

nawet przy sporym postępie
rozwoju sztucznej inteligencji.
0:13 - 0:17

Teraz jest to możliwe
z dokładnością większą niż 99%.
0:18 - 0:20

Nazywamy to klasyfikacją obrazu:
0:20 - 0:23

dostarcz obraz,
przypisz do niego etykietę...
0:23 - 0:26

komputery znają teraz
tysiące innych kategorii.
0:27 - 0:30

Jestem doktorantem
na Uniwersytecie Waszyngtońskim
0:30 - 0:31

i pracuję nad projektem "Darknet",
0:32 - 0:33

który jest frameworkiem
sieci neuronowej
0:33 - 0:36

do ćwiczenia i testowana
modeli rozpoznawania obrazów.
0:36 - 0:39

Sprawdźmy więc, co "Darknet" sądzi
0:39 - 0:41

o tym obrazie.
0:43 - 0:46

Wprowadzenie tego obrazu do klasyfikatora
0:46 - 0:49

nie tylko da nam prognozę,
czy to pies czy kot,
0:49 - 0:51

ale nawet prognozę konkretnej rasy.
0:51 - 0:53

Taki poziom szczegółowości
jest teraz dostępny.
0:53 - 0:55

I jest to poprawne rozpoznanie.
0:55 - 0:57

Mój pies to naprawdę malamut.
0:57 - 1:01

Dokonaliśmy niesamowitego postępu
w klasyfikacji obrazów,
1:01 - 1:05

ale co się stanie,
jeśli wprowadzimy taki obraz?
1:13 - 1:17

Klasyfikator zwraca podobną prognozę
1:17 - 1:20

i jest poprawna - na zdjęciu jest malamut,
1:20 - 1:23

ale na podstawie samej etykiety
nie można dowiedzieć się wiele
1:23 - 1:25

na temat tego,
co dzieje się na zdjęciu.
1:25 - 1:27

Do tego potrzeba
czegoś bardziej zaawansowanego.
1:27 - 1:30

Pracuję nad wykrywaniem obiektów.
1:30 - 1:33

Patrzymy na obraz i próbujemy
znaleźć wszystkie obiekty,
1:33 - 1:34

wpisujemy je w bryły brzegowe
1:34 - 1:36

i je nazywamy.
1:36 - 1:40

Oto co się dzieje, kiedy wprowadzimy
ten obraz do detektora.
1:41 - 1:43

Z tego rodzaju rezultatem
1:44 - 1:46

możemy zrobić znacznie więcej,
stosując nasze algorytmy.
1:46 - 1:49

Komputer wie,
że na zdjęciu jest kot i pies.
1:49 - 1:51

Zna ich względne położenie,
1:52 - 1:53

ich wielkość.
1:53 - 1:55

Może też uzyskać dodatkowe informacje:
1:55 - 1:57

w tle leży książka.
1:57 - 2:01

Żeby zbudować system
na rozpoznawaniu obrazu,
2:01 - 2:04

powiedzmy samoprowadzący się pojazd
lub manipulator robotyczny,
2:04 - 2:06

potrzeba właśnie tego typu informacji.
2:07 - 2:10

Potrzeba czegoś do interakcji
ze światem fizycznym.
2:11 - 2:13

Kiedy zacząłem pracować
nad wykrywaniem obiektów,
2:13 - 2:16

przetworzenie jednego obrazu
zajmowało 20 sekund.
2:16 - 2:20

Aby lepiej odczuć dlaczego prędkość
jest tak ważna w tej dziedzinie,
2:21 - 2:24

pokażę przykład detektora obiektów,
2:24 - 2:26

który przetwarza obraz w 2 sekundy.
2:26 - 2:29

To 10 razy szybciej
2:29 - 2:32

niż ten przetwarzający obraz w 20 sekund,
2:32 - 2:35

a i tak można zaobserwować,
że zanim dokonał prognozy,
2:35 - 2:37

zmieniła się cała sytuacja,
2:38 - 2:40

a to nie byłoby zbyt użyteczne
w zastosowaniu.
2:42 - 2:44

Jeśli dziesięciokrotnie
przyspieszymy ten proces,
2:44 - 2:47

tak wygląda detektor
przy pięciu klatkach an sekundę.
2:47 - 2:49

Wygląda to dużo lepiej,
2:49 - 2:51

ale na przykład
2:51 - 2:53

w przypadku znacznego ruchu
2:53 - 2:56

nie chciałbym, żeby taki system
prowadził mój samochód.
2:57 - 3:00

Tak wygląda nasz system
działający w czasie rzeczywistym
3:00 - 3:01

na moim laptopie.
3:01 - 3:04

Płynnie śledzi mnie
w trakcie poruszania się w ramie
3:04 - 3:08

i jest odporny na dużą
różnorodność zmian wielkości,
3:09 - 3:11

pozy,
3:11 - 3:13

rotacji poziomej.
3:13 - 3:14

O to chodziło.
3:14 - 3:16

Tego właśnie potrzeba,
3:16 - 3:19

żeby budować systemy
na rozpoznawaniu obrazu.
3:19 - 3:23

(Brawa)
3:24 - 3:26

Zaledwie w kilka lat
3:26 - 3:29

przeszliśmy od 20 sekund na obraz
3:29 - 3:33

do 20 milisekund na obraz
- tysiąc razy szybciej.
3:33 - 3:34

Jak to się stało?
3:34 - 3:37

W przeszłości systemy wykrywania obiektów
3:37 - 3:39

rozbiłyby ten obraz
3:39 - 3:42

na mnóstwo obszarów
3:42 - 3:45

i wprowadziłyby każdy z nich
do klasyfikatora,
3:45 - 3:47

a wysokie rezultaty klasyfikatora
3:47 - 3:51

byłyby uważane za wykrycie obiektów.
3:51 - 3:55

Ale to wymagało wprowadzenia obrazu
do klasyfikatora tysiące razy,
3:55 - 3:58

tysięcy ewaluacji sieci neuronowych,
aby otrzymać wykrycie.
3:59 - 4:01

Zamiast tego nauczyliśmy pojedynczą sieć
4:01 - 4:04

całkowitego wykrywania.
4:04 - 4:08

Tworzy ona wszystkie bryły brzegowe
i prawdopodobieństwa klasowe jednocześnie.
4:09 - 4:12

Nasz system, zamiast tysiąc razy
analizować obraz
4:12 - 4:14

do jednego wykrycia,
4:14 - 4:15

analizuje go tylko raz
4:15 - 4:18

i dlatego nazywamy to
metodą wykrywania obrazów YOLO.
4:19 - 4:23

Z tą prędkością nie musimy
ograniczać się jedynie do obrazów.
4:23 - 4:26

Możemy przetwarzać wideo
w czasie rzeczywistym.
4:26 - 4:29

Teraz zamiast kota i psa
4:29 - 4:32

można też obserwować
ich ruch i interakcję.
4:35 - 4:37

Trenowaliśmy ten detektor
4:37 - 4:41

na osiemdziesięciu różnych klasach
4:41 - 4:44

w zbiorze danych Microsoft COCO.
4:44 - 4:48

Zawiera on różnorodne rzeczy,
na przykład łyżkę i widelec, miskę
4:48 - 4:50

i podobne przedmioty codziennego użytku.
4:50 - 4:53

Zawiera również
bardziej egzotyczne obrazy:
4:53 - 4:57

zwierzęta, samochody, zebry, żyrafy.
4:57 - 4:59

Teraz zrobimy coś dla zabawy.
4:59 - 5:01

Skierujemy detektor na publiczność
5:01 - 5:03

i zobaczymy, co się da wykryć.
5:03 - 5:04

Czy ktoś chce pluszaka?
5:06 - 5:08

Mam tu kilka misiów.
5:10 - 5:15

Możemy trochę obniżyć
nasz próg wykrywalności,
5:15 - 5:18

aby znaleźć więcej osób na widowni.
5:20 - 5:22

Zobaczmy, czy uda nam się
rozpoznać te znaki stopu.
5:22 - 5:24

Widzimy kilka plecaków.
5:26 - 5:28

Zróbmy niewielkie zbliżenie.
5:30 - 5:32

Świetnie.
5:32 - 5:35

Całe przetwarzanie ma miejsce
w czasie rzeczywistym
5:35 - 5:36

na laptopie.
5:37 - 5:39

Należy pamiętać,
5:39 - 5:42

że jest to system wykrywania
obiektów do użytku ogólnego,
5:42 - 5:47

więc możemy go wytrenować
dla dowolnej kategorii obrazów.
5:48 - 5:51

Ten sam kod, którego używamy
5:51 - 5:53

do znalezienia znaków stopu, pieszych,
5:53 - 5:55

lub rowerów w autonomicznym pojeździe
5:55 - 5:58

można wykorzystać
do znalezienia komórek rakowych
5:58 - 6:01

w biopsji tkanki.
6:01 - 6:05

Badacze na całym świece
używają już tej technologii
6:06 - 6:10

do rozwoju w dziedzinach
takich jak medycyna, czy robotyka.
6:10 - 6:11

Dziś rano czytałem pracę
6:11 - 6:16

omawiającą zliczanie zwierząt
w Parku Narodowym Nairobi
6:16 - 6:19

przy wykorzystaniu YOLO jako
części systemu wykrywania obiektów.
6:19 - 6:22

Jest to możliwe ponieważ "Darknet"
jest programem open source,
6:22 - 6:25

będącym własnością publiczną
do wolnego użytku.
6:26 - 6:31

(Brawa)
6:31 - 6:36

Chcieliśmy jednak, żeby wykrywanie
było bardziej przystępne i przydatne,
6:36 - 6:40

więc poprzez połączenie
optymalizacji modelu,
6:40 - 6:43

binaryzacji i aproksymacji sieci
6:43 - 6:47

otrzymaliśmy wykrywanie obiektów
działające na telefonie.
6:53 - 6:58

(Brawa)
6:59 - 7:04

Jestem bardzo podekscytowany,
bo mamy potężne rozwiązanie problemu
7:04 - 7:06

rozpoznawania obrazów
na komputerach o niskiej wydajności
7:06 - 7:10

i każdy może je wykorzystać
i stworzyć coś przy jego użyciu.
7:10 - 7:13

Reszta zależy od was
7:13 - 7:16

i ludzi na całym świecie
z dostępem do tego oprogramowania.
7:16 - 7:18

Nie mogę się doczekać tego,
7:18 - 7:20

co ludzie stworzą
przy użyciu tej technologii.
7:20 - 7:21

Dziękuję.
7:21 - 7:25

(Brawa)

Title:: Jak komputer uczy się błyskawicznie rozpoznawać obiekty
Speaker:: Joseph Redmon
Description:: Dziesięć lat temu badacze sądzili, że właściwie nie da się nauczyć komputera rozróżniania kota od psa. Dzisiaj systemy rozpoznawania obrazów robią to z dokładnością większą niż 99 procent. Jak? Joseph Redmon pracuje nad systemem YOLO (You Only Look Once), open source'ową metodą wykrywania obiektów, która potrafi identyfikować obiekty na obrazach i plikach wideo, od zebr po znaki stopu, z prędkością błyskawicy. Podczas niesamowitej demonstracji na żywo Redmon prezentuje zastosowanie tej przełomowej technologii do celów takich jak samoprowadzące się auta, robotyka, czy nawet wykrywanie raka.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Rysia Wand approved Polish subtitles for How computers learn to recognize objects instantly
	Rysia Wand edited Polish subtitles for How computers learn to recognize objects instantly
	Rysia Wand accepted Polish subtitles for How computers learn to recognize objects instantly
	Rysia Wand edited Polish subtitles for How computers learn to recognize objects instantly
	Rysia Wand edited Polish subtitles for How computers learn to recognize objects instantly
	Agnieszka Kmieć edited Polish subtitles for How computers learn to recognize objects instantly
	Agnieszka Kmieć edited Polish subtitles for How computers learn to recognize objects instantly
	Agnieszka Kmieć edited Polish subtitles for How computers learn to recognize objects instantly

Show all

Polish subtitles

Revisions

Revision 13 Edited

Rysia Wand

Jak komputer uczy się błyskawicznie rozpoznawać obiekty

Revisions

Our website uses cookies

Operating cookies (Required)