Return to Video

A számítógép betanítása valós idejű tárgyfelismerésre

  • 0:01 - 0:02
    Tíz évvel ezelőtt még
  • 0:02 - 0:04
    a számítógépes látás kutatói
    nem hitték,
  • 0:04 - 0:06
    hogy lehetséges
    rábírni egy számítógépet,
  • 0:06 - 0:09
    hogy megkülönböztessen
    egy kutyát egy macskától,
  • 0:10 - 0:13
    még a mesterséges intelligencia
    jelentős előrehaladásával sem.
  • 0:13 - 0:17
    Ma csaknem 100%-os pontossággal
    képesek vagyunk erre.
  • 0:18 - 0:20
    Ezt hívják képosztályozásnak.
  • 0:20 - 0:23
    Vegyünk egy képet, címkézzük fel,
  • 0:23 - 0:26
    és a számítógép több ezer
    más kategóriát is felismer.
  • 0:27 - 0:30
    A washingtoni egyetem
    végzős hallgatója vagyok,
  • 0:30 - 0:31
    és az ún. Darknet programon dolgozom,
  • 0:32 - 0:33
    neurális hálózatok keretrendszerén.
  • 0:33 - 0:36
    Számítógépes látómodellek
    fejlesztése és tesztelése a célom.
  • 0:36 - 0:39
    Nézzük hát, mit gondol a Darknet
  • 0:39 - 0:41
    a kutyás képről.
  • 0:43 - 0:45
    Amikor lefuttatjuk osztályozónkat
  • 0:45 - 0:46
    erre a képre,
  • 0:46 - 0:49
    látjuk, nemcsak kutya vagy macska
    előképét kapjuk,
  • 0:49 - 0:51
    hanem a fajtát is előre meghatározza.
  • 0:51 - 0:53
    Ez a granularitás [szemcsézettség] foka.
  • 0:53 - 0:55
    És helyes!
  • 0:55 - 0:57
    A kutyám alaszkai malamut.
  • 0:57 - 1:01
    Tehát izgalmas lépéseket tettünk meg
    a képosztályozás terén,
  • 1:01 - 1:03
    de mi van, ha egy ilyen képre
  • 1:03 - 1:05
    futtatjuk le osztályozónkat?
  • 1:07 - 1:08
    Nos...
  • 1:13 - 1:17
    Eléggé hasonló meghatározást
    ad meg az osztályozónk.
  • 1:17 - 1:20
    Ez is helyes:
    malamut van a képen,
  • 1:20 - 1:23
    de csak a címkét véve alapul
    nem sokat tudunk meg arról,
  • 1:23 - 1:25
    hogy mi zajlik a képen.
  • 1:25 - 1:27
    Valami hatékonyabb kell nekünk.
  • 1:27 - 1:30
    Én az úgynevezett tárgyfelismerés
    problémáján dolgozom,
  • 1:30 - 1:33
    ránézünk egy képre, igyekszünk
    minden tárgyat beazonosítani,
  • 1:33 - 1:34
    határolókeretet vonva köréjük,
  • 1:34 - 1:36
    és pontosan megnevezni őket.
  • 1:36 - 1:40
    Nézzük, mi történik,
    ha lefuttatunk egy felismerő programot.
  • 1:41 - 1:43
    Ha ilyesmi eredmény születik,
  • 1:43 - 1:46
    sokkal többre megyünk számítógépes
    látó algoritmusainkkal.
  • 1:46 - 1:49
    Látjuk, hogy felismeri, hogy ott
    egy macska és egy kutya.
  • 1:49 - 1:51
    Felismeri egymáshoz
    viszonyított helyzetüket,
  • 1:52 - 1:53
    méretüket.
  • 1:53 - 1:55
    Esetleg még egyéb információt is nyújt.
  • 1:55 - 1:57
    A háttérben hever egy könyv.
  • 1:57 - 2:01
    És ha számítógépes látáson alapuló
    rendszert akarunk építeni,
  • 2:01 - 2:04
    mondjuk, legyen egy önjáró jármű,
    vagy robotrendszer,
  • 2:04 - 2:06
    ilyen információra van szükségünk.
  • 2:07 - 2:10
    Valami olyan kéne, ami kölcsönhatásban áll
    fizikai valóságunkkal.
  • 2:11 - 2:13
    Amikor elkezdtem ezzel foglalkozni,
  • 2:13 - 2:16
    húsz másodpercbe telt
    egyetlen kép feldolgozása.
  • 2:16 - 2:20
    Hogy érezzék, miért olyan fontos
    a sebesség ezen a területen,
  • 2:21 - 2:24
    itt egy példa egy tárgyfelismerőre,
  • 2:24 - 2:26
    ami két másodperc alatt
    dolgoz fel egy képet.
  • 2:26 - 2:29
    Tízszer gyorsabb tehát,
  • 2:29 - 2:32
    mint a 20 mp/kép sebességű érzékelő,
  • 2:32 - 2:35
    és láthatják, ennyi idő alatt
    előrejelzéseket végez.
  • 2:35 - 2:37
    A világ teljesen megváltozott,
  • 2:38 - 2:40
    és ez nem lenne túl hasznos
  • 2:40 - 2:42
    egy alkalmazáshoz.
  • 2:42 - 2:44
    Ha ezt még tízszeresére gyorsítjuk -
  • 2:44 - 2:47
    ez a képfelismerő öt képkockát
    tud másodpercenként.
  • 2:47 - 2:49
    Ez sokkal jobb,
  • 2:49 - 2:51
    de ha például
  • 2:51 - 2:53
    bármilyen jelentős esemény történik,
  • 2:53 - 2:56
    nem szeretném, ha efféle
    rendszer vezetné az autómat.
  • 2:57 - 3:00
    Ez a felismerő rendszerünk
    valós időben fut a laptopomon.
  • 3:01 - 3:04
    Simán követ engem a kerettel,
    ahogy itt sétálgatok,
  • 3:04 - 3:08
    és pontosan meghatározza
    a méretváltozásomat,
  • 3:09 - 3:11
    testtartásomat,
  • 3:11 - 3:13
    előre- és hátramozgásomat.
  • 3:13 - 3:14
    Ez óriási.
  • 3:14 - 3:16
    Pontosan erre van szükségünk,
  • 3:16 - 3:19
    ha rendszereket akarunk építeni
    a számítógépes látásra.
  • 3:19 - 3:23
    (Taps)
  • 3:24 - 3:26
    Alig néhány éven belül tehát
  • 3:26 - 3:29
    eljutottunk a 20 mp/kép sebességtől
  • 3:29 - 3:33
    a 20 milliszekundum/képig,
    ezerszeres sebességig.
  • 3:33 - 3:34
    Hogy jutottunk el idáig?
  • 3:34 - 3:37
    Nos, régen a tárgyfelismerő rendszerek
  • 3:37 - 3:39
    fogtak egy efféle képet,
  • 3:39 - 3:42
    régiócsoportokra osztották,
  • 3:42 - 3:45
    aztán minden egyes régióra
    lefuttattak egy osztályozót,
  • 3:45 - 3:47
    és ezek magas értékei
  • 3:47 - 3:51
    határozták meg a kép felismerését.
  • 3:51 - 3:55
    De ehhez több ezerszer le kellett futtatni
    az osztályozót egy képen,
  • 3:55 - 3:58
    neurális hálózati kiértékelések ezrei
    vezettek a felismeréshez.
  • 3:59 - 4:04
    Ehelyett mi egyetlen hálózatra
    bíztuk az egész felismerő tevékenységet.
  • 4:04 - 4:08
    Egyszerre kezeli a terület-meghatározást
    és az osztályozást.
  • 4:09 - 4:12
    A mi rendszerünkben nem kell
    több ezerszer végignézni egy képet
  • 4:12 - 4:14
    a felismerés lefuttatásához,
  • 4:14 - 4:16
    "Elég Egyszer Megnézni"
    [You Only Look Once],
  • 4:16 - 4:18
    ezért hívjuk a tárgyfelismerés
    YOLO-módszerének.
  • 4:19 - 4:23
    Ezzel a sebességgel
    nemcsak képeket vizsgálhatunk,
  • 4:23 - 4:26
    hanem valós időben videót is.
  • 4:26 - 4:29
    Most pedig ne csak a kutyát
    és a macskát nézzük,
  • 4:29 - 4:32
    hanem ahogy forognak egymás körül,
    és kapcsolatot teremtenek.
  • 4:35 - 4:37
    Ez olyan detektor,
  • 4:37 - 4:41
    amit 80 különféle osztályra képeztünk ki
  • 4:41 - 4:44
    a Microsoft COCO adatbázisában.
  • 4:44 - 4:48
    Mindenféle dolgokat tartalmaz:
    kanalat, villát, tálat,
  • 4:48 - 4:49
    efféle egyszerű tárgyakat.
  • 4:50 - 4:53
    Különlegesebbeket is:
  • 4:53 - 4:57
    állatokat, autót, zebrát, zsiráfot.
  • 4:57 - 4:59
    Most pedig valami érdekeset teszünk.
  • 4:59 - 5:01
    Kimegyünk a közönség soraiba,
    és szétnézünk,
  • 5:01 - 5:03
    miket találunk.
  • 5:03 - 5:04
    Kér valaki kitömött állatot?
  • 5:06 - 5:08
    Van néhány plüssmackó itt-ott.
  • 5:10 - 5:15
    Kicsit lejjebb vesszük
    a felismerési küszöb értékét,
  • 5:15 - 5:18
    így könnyebben megtaláljuk
    a megfelelő fickókat.
  • 5:20 - 5:22
    Nézzük csak a stoptáblákat.
  • 5:22 - 5:24
    Rábukkanunk néhány hátizsákra.
  • 5:26 - 5:28
    Nagyítsunk csak rá egy kicsit.
  • 5:30 - 5:32
    Ez bizony óriási.
  • 5:32 - 5:35
    És az egész folyamat valós időben zajlik
  • 5:35 - 5:36
    a laptopomon.
  • 5:37 - 5:39
    Fontos újra hangsúlyozni,
  • 5:39 - 5:42
    hogy ez egy általános célú
    tárgyfelismerő rendszer,
  • 5:42 - 5:47
    így bármilyen képfajtára alkalmazható.
  • 5:48 - 5:51
    Ugyanaz a kód,
  • 5:51 - 5:53
    amivel stoptáblát, gyalogost, kerékpárost
  • 5:53 - 5:55
    ismerünk fel az önjáró autóban,
  • 5:55 - 5:58
    ráksejt feltárására is alkalmazható
  • 5:58 - 6:01
    szövettani vizsgálatnál.
  • 6:01 - 6:05
    És ezt a technológiát már világszerte
    alkalmazzák kutatók
  • 6:06 - 6:10
    orvostudományi, robotikai
    fejlesztésekhez.
  • 6:10 - 6:11
    Ma reggel olvastam,
  • 6:11 - 6:16
    hogy a Nairobi Nemzeti Parkban
    YOLO-alapú felismerő rendszerrel
  • 6:16 - 6:19
    veszik nyilvántartásba az állatokat.
  • 6:19 - 6:22
    Ez azért lehetséges,
    mert a Darknet nyílt forráskódú,
  • 6:22 - 6:25
    nyilvánosan hozzáférhető,
    bárki szabadon használhatja.
  • 6:26 - 6:31
    (Taps)
  • 6:31 - 6:36
    De még könnyebben elérhető és hasznosabb
    felismerő rendszert akarunk fejleszteni,
  • 6:36 - 6:40
    így modell-optimalizálással,
  • 6:40 - 6:43
    hálózati binarizációval
    és approximációval
  • 6:43 - 6:47
    mobilon is futtatható
    felismerő programot fejlesztünk.
  • 6:53 - 6:58
    (Taps)
  • 6:59 - 7:04
    És tényleg izgatott vagyok, mert máris
    van egy igazán ütős megoldásunk
  • 7:04 - 7:06
    erre az alacsony szintű
    számítógépes látási problémára,
  • 7:06 - 7:10
    és bárki hozzájuthat, és alkalmazhatja.
  • 7:10 - 7:13
    A többi már önökön múlik,
  • 7:13 - 7:16
    és mindenkin, aki hozzáfér
    ehhez a szoftverhez,
  • 7:16 - 7:20
    és alig várom, hogy lássam,
    miket hoznak létre ezzel a technológiával.
  • 7:20 - 7:21
    Köszönöm.
  • 7:21 - 7:25
    (Taps)
Title:
A számítógép betanítása valós idejű tárgyfelismerésre
Speaker:
Joseph Redmon
Description:

Tíz éve még azt gondolták a kutatók, hogy szinte lehetetlen rábírni egy számítógépet arra, hogy különbséget tegyen egy macska és egy kutya között. A mai számítógépes látórendszerek ezt már csaknem 100%-os biztonsággal megteszik. De hogyan? Joseph Redmon a YOLO-rendszeren dolgozik (Elég Egyszer Megnézni - You Only Look Once). Ez egy nyílt forráskódú alakfelismerő módszer, ami képeken is, videókon is képes alakok megkülönböztetésére – a zebrától a stoptábláig. Redmon egy izgalmas élő bemutatón szemlélteti ezt a fontos lépést, ami olyan alkalmazások felé vezet, mint az önjáró autók, robotika, sőt még a rák korai felismerése is.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37
  • Megnéznétek, hogy jó lesz-e így? A "tárgyfelismerés" szerintem kicsit jobban kifejezi a dolog komplexitását. De nem ragaszkodom hozzá...

  • Most így elolvasva tényleg jobb a tárgyfelismerés, nekem nem jutott eszembe.
    Átnéztem az egészet, szerintem teljesen jó most, köszi! :)

  • jó bizony, mehet, köszönöm szépen mindkettőtök munkáját!

Hungarian subtitles

Revisions