Return to Video

Jak komputer uczy się błyskawicznie rozpoznawać obiekty

  • 0:01 - 0:02
    Dziesięć lat temu
  • 0:02 - 0:05
    badacze rozpoznawania obrazów
    sądzili, że nauczenie komputera
  • 0:05 - 0:07
    rozróżniania kota od psa
  • 0:08 - 0:09
    jest prawie niemożliwe
  • 0:10 - 0:13
    nawet przy sporym postępie
    rozwoju sztucznej inteligencji.
  • 0:13 - 0:17
    Teraz jest to możliwe
    z dokładnością większą niż 99%.
  • 0:18 - 0:20
    Nazywamy to klasyfikacją obrazu:
  • 0:20 - 0:23
    dostarcz obraz,
    przypisz do niego etykietę...
  • 0:23 - 0:26
    komputery znają teraz
    tysiące innych kategorii.
  • 0:27 - 0:30
    Jestem doktorantem
    na Uniwersytecie Waszyngtońskim
  • 0:30 - 0:31
    i pracuję nad projektem "Darknet",
  • 0:32 - 0:33
    który jest frameworkiem
    sieci neuronowej
  • 0:33 - 0:36
    do ćwiczenia i testowana
    modeli rozpoznawania obrazów.
  • 0:36 - 0:39
    Sprawdźmy więc, co "Darknet" sądzi
  • 0:39 - 0:41
    o tym obrazie.
  • 0:43 - 0:46
    Wprowadzenie tego obrazu do klasyfikatora
  • 0:46 - 0:49
    nie tylko da nam prognozę,
    czy to pies czy kot,
  • 0:49 - 0:51
    ale nawet prognozę konkretnej rasy.
  • 0:51 - 0:53
    Taki poziom szczegółowości
    jest teraz dostępny.
  • 0:53 - 0:55
    I jest to poprawne rozpoznanie.
  • 0:55 - 0:57
    Mój pies to naprawdę malamut.
  • 0:57 - 1:01
    Dokonaliśmy niesamowitego postępu
    w klasyfikacji obrazów,
  • 1:01 - 1:05
    ale co się stanie,
    jeśli wprowadzimy taki obraz?
  • 1:13 - 1:17
    Klasyfikator zwraca podobną prognozę
  • 1:17 - 1:20
    i jest poprawna - na zdjęciu jest malamut,
  • 1:20 - 1:23
    ale na podstawie samej etykiety
    nie można dowiedzieć się wiele
  • 1:23 - 1:25
    na temat tego,
    co dzieje się na zdjęciu.
  • 1:25 - 1:27
    Do tego potrzeba
    czegoś bardziej zaawansowanego.
  • 1:27 - 1:30
    Pracuję nad wykrywaniem obiektów.
  • 1:30 - 1:33
    Patrzymy na obraz i próbujemy
    znaleźć wszystkie obiekty,
  • 1:33 - 1:34
    wpisujemy je w bryły brzegowe
  • 1:34 - 1:36
    i je nazywamy.
  • 1:36 - 1:40
    Oto co się dzieje, kiedy wprowadzimy
    ten obraz do detektora.
  • 1:41 - 1:43
    Z tego rodzaju rezultatem
  • 1:44 - 1:46
    możemy zrobić znacznie więcej,
    stosując nasze algorytmy.
  • 1:46 - 1:49
    Komputer wie,
    że na zdjęciu jest kot i pies.
  • 1:49 - 1:51
    Zna ich względne położenie,
  • 1:52 - 1:53
    ich wielkość.
  • 1:53 - 1:55
    Może też uzyskać dodatkowe informacje:
  • 1:55 - 1:57
    w tle leży książka.
  • 1:57 - 2:01
    Żeby zbudować system
    na rozpoznawaniu obrazu,
  • 2:01 - 2:04
    powiedzmy samoprowadzący się pojazd
    lub manipulator robotyczny,
  • 2:04 - 2:06
    potrzeba właśnie tego typu informacji.
  • 2:07 - 2:10
    Potrzeba czegoś do interakcji
    ze światem fizycznym.
  • 2:11 - 2:13
    Kiedy zacząłem pracować
    nad wykrywaniem obiektów,
  • 2:13 - 2:16
    przetworzenie jednego obrazu
    zajmowało 20 sekund.
  • 2:16 - 2:20
    Aby lepiej odczuć dlaczego prędkość
    jest tak ważna w tej dziedzinie,
  • 2:21 - 2:24
    pokażę przykład detektora obiektów,
  • 2:24 - 2:26
    który przetwarza obraz w 2 sekundy.
  • 2:26 - 2:29
    To 10 razy szybciej
  • 2:29 - 2:32
    niż ten przetwarzający obraz w 20 sekund,
  • 2:32 - 2:35
    a i tak można zaobserwować,
    że zanim dokonał prognozy,
  • 2:35 - 2:37
    zmieniła się cała sytuacja,
  • 2:38 - 2:40
    a to nie byłoby zbyt użyteczne
    w zastosowaniu.
  • 2:42 - 2:44
    Jeśli dziesięciokrotnie
    przyspieszymy ten proces,
  • 2:44 - 2:47
    tak wygląda detektor
    przy pięciu klatkach an sekundę.
  • 2:47 - 2:49
    Wygląda to dużo lepiej,
  • 2:49 - 2:51
    ale na przykład
  • 2:51 - 2:53
    w przypadku znacznego ruchu
  • 2:53 - 2:56
    nie chciałbym, żeby taki system
    prowadził mój samochód.
  • 2:57 - 3:00
    Tak wygląda nasz system
    działający w czasie rzeczywistym
  • 3:00 - 3:01
    na moim laptopie.
  • 3:01 - 3:04
    Płynnie śledzi mnie
    w trakcie poruszania się w ramie
  • 3:04 - 3:08
    i jest odporny na dużą
    różnorodność zmian wielkości,
  • 3:09 - 3:11
    pozy,
  • 3:11 - 3:13
    rotacji poziomej.
  • 3:13 - 3:14
    O to chodziło.
  • 3:14 - 3:16
    Tego właśnie potrzeba,
  • 3:16 - 3:19
    żeby budować systemy
    na rozpoznawaniu obrazu.
  • 3:19 - 3:23
    (Brawa)
  • 3:24 - 3:26
    Zaledwie w kilka lat
  • 3:26 - 3:29
    przeszliśmy od 20 sekund na obraz
  • 3:29 - 3:33
    do 20 milisekund na obraz
    - tysiąc razy szybciej.
  • 3:33 - 3:34
    Jak to się stało?
  • 3:34 - 3:37
    W przeszłości systemy wykrywania obiektów
  • 3:37 - 3:39
    rozbiłyby ten obraz
  • 3:39 - 3:42
    na mnóstwo obszarów
  • 3:42 - 3:45
    i wprowadziłyby każdy z nich
    do klasyfikatora,
  • 3:45 - 3:47
    a wysokie rezultaty klasyfikatora
  • 3:47 - 3:51
    byłyby uważane za wykrycie obiektów.
  • 3:51 - 3:55
    Ale to wymagało wprowadzenia obrazu
    do klasyfikatora tysiące razy,
  • 3:55 - 3:58
    tysięcy ewaluacji sieci neuronowych,
    aby otrzymać wykrycie.
  • 3:59 - 4:01
    Zamiast tego nauczyliśmy pojedynczą sieć
  • 4:01 - 4:04
    całkowitego wykrywania.
  • 4:04 - 4:08
    Tworzy ona wszystkie bryły brzegowe
    i prawdopodobieństwa klasowe jednocześnie.
  • 4:09 - 4:12
    Nasz system, zamiast tysiąc razy
    analizować obraz
  • 4:12 - 4:14
    do jednego wykrycia,
  • 4:14 - 4:15
    analizuje go tylko raz
  • 4:15 - 4:18
    i dlatego nazywamy to
    metodą wykrywania obrazów YOLO.
  • 4:19 - 4:23
    Z tą prędkością nie musimy
    ograniczać się jedynie do obrazów.
  • 4:23 - 4:26
    Możemy przetwarzać wideo
    w czasie rzeczywistym.
  • 4:26 - 4:29
    Teraz zamiast kota i psa
  • 4:29 - 4:32
    można też obserwować
    ich ruch i interakcję.
  • 4:35 - 4:37
    Trenowaliśmy ten detektor
  • 4:37 - 4:41
    na osiemdziesięciu różnych klasach
  • 4:41 - 4:44
    w zbiorze danych Microsoft COCO.
  • 4:44 - 4:48
    Zawiera on różnorodne rzeczy,
    na przykład łyżkę i widelec, miskę
  • 4:48 - 4:50
    i podobne przedmioty codziennego użytku.
  • 4:50 - 4:53
    Zawiera również
    bardziej egzotyczne obrazy:
  • 4:53 - 4:57
    zwierzęta, samochody, zebry, żyrafy.
  • 4:57 - 4:59
    Teraz zrobimy coś dla zabawy.
  • 4:59 - 5:01
    Skierujemy detektor na publiczność
  • 5:01 - 5:03
    i zobaczymy, co się da wykryć.
  • 5:03 - 5:04
    Czy ktoś chce pluszaka?
  • 5:06 - 5:08
    Mam tu kilka misiów.
  • 5:10 - 5:15
    Możemy trochę obniżyć
    nasz próg wykrywalności,
  • 5:15 - 5:18
    aby znaleźć więcej osób na widowni.
  • 5:20 - 5:22
    Zobaczmy, czy uda nam się
    rozpoznać te znaki stopu.
  • 5:22 - 5:24
    Widzimy kilka plecaków.
  • 5:26 - 5:28
    Zróbmy niewielkie zbliżenie.
  • 5:30 - 5:32
    Świetnie.
  • 5:32 - 5:35
    Całe przetwarzanie ma miejsce
    w czasie rzeczywistym
  • 5:35 - 5:36
    na laptopie.
  • 5:37 - 5:39
    Należy pamiętać,
  • 5:39 - 5:42
    że jest to system wykrywania
    obiektów do użytku ogólnego,
  • 5:42 - 5:47
    więc możemy go wytrenować
    dla dowolnej kategorii obrazów.
  • 5:48 - 5:51
    Ten sam kod, którego używamy
  • 5:51 - 5:53
    do znalezienia znaków stopu, pieszych,
  • 5:53 - 5:55
    lub rowerów w autonomicznym pojeździe
  • 5:55 - 5:58
    można wykorzystać
    do znalezienia komórek rakowych
  • 5:58 - 6:01
    w biopsji tkanki.
  • 6:01 - 6:05
    Badacze na całym świece
    używają już tej technologii
  • 6:06 - 6:10
    do rozwoju w dziedzinach
    takich jak medycyna, czy robotyka.
  • 6:10 - 6:11
    Dziś rano czytałem pracę
  • 6:11 - 6:16
    omawiającą zliczanie zwierząt
    w Parku Narodowym Nairobi
  • 6:16 - 6:19
    przy wykorzystaniu YOLO jako
    części systemu wykrywania obiektów.
  • 6:19 - 6:22
    Jest to możliwe ponieważ "Darknet"
    jest programem open source,
  • 6:22 - 6:25
    będącym własnością publiczną
    do wolnego użytku.
  • 6:26 - 6:31
    (Brawa)
  • 6:31 - 6:36
    Chcieliśmy jednak, żeby wykrywanie
    było bardziej przystępne i przydatne,
  • 6:36 - 6:40
    więc poprzez połączenie
    optymalizacji modelu,
  • 6:40 - 6:43
    binaryzacji i aproksymacji sieci
  • 6:43 - 6:47
    otrzymaliśmy wykrywanie obiektów
    działające na telefonie.
  • 6:53 - 6:58
    (Brawa)
  • 6:59 - 7:04
    Jestem bardzo podekscytowany,
    bo mamy potężne rozwiązanie problemu
  • 7:04 - 7:06
    rozpoznawania obrazów
    na komputerach o niskiej wydajności
  • 7:06 - 7:10
    i każdy może je wykorzystać
    i stworzyć coś przy jego użyciu.
  • 7:10 - 7:13
    Reszta zależy od was
  • 7:13 - 7:16
    i ludzi na całym świecie
    z dostępem do tego oprogramowania.
  • 7:16 - 7:18
    Nie mogę się doczekać tego,
  • 7:18 - 7:20
    co ludzie stworzą
    przy użyciu tej technologii.
  • 7:20 - 7:21
    Dziękuję.
  • 7:21 - 7:25
    (Brawa)
Title:
Jak komputer uczy się błyskawicznie rozpoznawać obiekty
Speaker:
Joseph Redmon
Description:

Dziesięć lat temu badacze sądzili, że właściwie nie da się nauczyć komputera rozróżniania kota od psa. Dzisiaj systemy rozpoznawania obrazów robią to z dokładnością większą niż 99 procent. Jak? Joseph Redmon pracuje nad systemem YOLO (You Only Look Once), open source'ową metodą wykrywania obiektów, która potrafi identyfikować obiekty na obrazach i plikach wideo, od zebr po znaki stopu, z prędkością błyskawicy. Podczas niesamowitej demonstracji na żywo Redmon prezentuje zastosowanie tej przełomowej technologii do celów takich jak samoprowadzące się auta, robotyka, czy nawet wykrywanie raka.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Polish subtitles

Revisions