A számítógép betanítása valós idejű tárgyfelismerésre

0:01 - 0:02

Tíz évvel ezelőtt még
0:02 - 0:04

a számítógépes látás kutatói
nem hitték,
0:04 - 0:06

hogy lehetséges
rábírni egy számítógépet,
0:06 - 0:09

hogy megkülönböztessen
egy kutyát egy macskától,
0:10 - 0:13

még a mesterséges intelligencia
jelentős előrehaladásával sem.
0:13 - 0:17

Ma csaknem 100%-os pontossággal
képesek vagyunk erre.
0:18 - 0:20

Ezt hívják képosztályozásnak.
0:20 - 0:23

Vegyünk egy képet, címkézzük fel,
0:23 - 0:26

és a számítógép több ezer
más kategóriát is felismer.
0:27 - 0:30

A washingtoni egyetem
végzős hallgatója vagyok,
0:30 - 0:31

és az ún. Darknet programon dolgozom,
0:32 - 0:33

neurális hálózatok keretrendszerén.
0:33 - 0:36

Számítógépes látómodellek
fejlesztése és tesztelése a célom.
0:36 - 0:39

Nézzük hát, mit gondol a Darknet
0:39 - 0:41

a kutyás képről.
0:43 - 0:45

Amikor lefuttatjuk osztályozónkat
0:45 - 0:46

erre a képre,
0:46 - 0:49

látjuk, nemcsak kutya vagy macska
előképét kapjuk,
0:49 - 0:51

hanem a fajtát is előre meghatározza.
0:51 - 0:53

Ez a granularitás [szemcsézettség] foka.
0:53 - 0:55

És helyes!
0:55 - 0:57

A kutyám alaszkai malamut.
0:57 - 1:01

Tehát izgalmas lépéseket tettünk meg
a képosztályozás terén,
1:01 - 1:03

de mi van, ha egy ilyen képre
1:03 - 1:05

futtatjuk le osztályozónkat?
1:07 - 1:08

Nos...
1:13 - 1:17

Eléggé hasonló meghatározást
ad meg az osztályozónk.
1:17 - 1:20

Ez is helyes:
malamut van a képen,
1:20 - 1:23

de csak a címkét véve alapul
nem sokat tudunk meg arról,
1:23 - 1:25

hogy mi zajlik a képen.
1:25 - 1:27

Valami hatékonyabb kell nekünk.
1:27 - 1:30

Én az úgynevezett tárgyfelismerés
problémáján dolgozom,
1:30 - 1:33

ránézünk egy képre, igyekszünk
minden tárgyat beazonosítani,
1:33 - 1:34

határolókeretet vonva köréjük,
1:34 - 1:36

és pontosan megnevezni őket.
1:36 - 1:40

Nézzük, mi történik,
ha lefuttatunk egy felismerő programot.
1:41 - 1:43

Ha ilyesmi eredmény születik,
1:43 - 1:46

sokkal többre megyünk számítógépes
látó algoritmusainkkal.
1:46 - 1:49

Látjuk, hogy felismeri, hogy ott
egy macska és egy kutya.
1:49 - 1:51

Felismeri egymáshoz
viszonyított helyzetüket,
1:52 - 1:53

méretüket.
1:53 - 1:55

Esetleg még egyéb információt is nyújt.
1:55 - 1:57

A háttérben hever egy könyv.
1:57 - 2:01

És ha számítógépes látáson alapuló
rendszert akarunk építeni,
2:01 - 2:04

mondjuk, legyen egy önjáró jármű,
vagy robotrendszer,
2:04 - 2:06

ilyen információra van szükségünk.
2:07 - 2:10

Valami olyan kéne, ami kölcsönhatásban áll
fizikai valóságunkkal.
2:11 - 2:13

Amikor elkezdtem ezzel foglalkozni,
2:13 - 2:16

húsz másodpercbe telt
egyetlen kép feldolgozása.
2:16 - 2:20

Hogy érezzék, miért olyan fontos
a sebesség ezen a területen,
2:21 - 2:24

itt egy példa egy tárgyfelismerőre,
2:24 - 2:26

ami két másodperc alatt
dolgoz fel egy képet.
2:26 - 2:29

Tízszer gyorsabb tehát,
2:29 - 2:32

mint a 20 mp/kép sebességű érzékelő,
2:32 - 2:35

és láthatják, ennyi idő alatt
előrejelzéseket végez.
2:35 - 2:37

A világ teljesen megváltozott,
2:38 - 2:40

és ez nem lenne túl hasznos
2:40 - 2:42

egy alkalmazáshoz.
2:42 - 2:44

Ha ezt még tízszeresére gyorsítjuk -
2:44 - 2:47

ez a képfelismerő öt képkockát
tud másodpercenként.
2:47 - 2:49

Ez sokkal jobb,
2:49 - 2:51

de ha például
2:51 - 2:53

bármilyen jelentős esemény történik,
2:53 - 2:56

nem szeretném, ha efféle
rendszer vezetné az autómat.
2:57 - 3:00

Ez a felismerő rendszerünk
valós időben fut a laptopomon.
3:01 - 3:04

Simán követ engem a kerettel,
ahogy itt sétálgatok,
3:04 - 3:08

és pontosan meghatározza
a méretváltozásomat,
3:09 - 3:11

testtartásomat,
3:11 - 3:13

előre- és hátramozgásomat.
3:13 - 3:14

Ez óriási.
3:14 - 3:16

Pontosan erre van szükségünk,
3:16 - 3:19

ha rendszereket akarunk építeni
a számítógépes látásra.
3:19 - 3:23

(Taps)
3:24 - 3:26

Alig néhány éven belül tehát
3:26 - 3:29

eljutottunk a 20 mp/kép sebességtől
3:29 - 3:33

a 20 milliszekundum/képig,
ezerszeres sebességig.
3:33 - 3:34

Hogy jutottunk el idáig?
3:34 - 3:37

Nos, régen a tárgyfelismerő rendszerek
3:37 - 3:39

fogtak egy efféle képet,
3:39 - 3:42

régiócsoportokra osztották,
3:42 - 3:45

aztán minden egyes régióra
lefuttattak egy osztályozót,
3:45 - 3:47

és ezek magas értékei
3:47 - 3:51

határozták meg a kép felismerését.
3:51 - 3:55

De ehhez több ezerszer le kellett futtatni
az osztályozót egy képen,
3:55 - 3:58

neurális hálózati kiértékelések ezrei
vezettek a felismeréshez.
3:59 - 4:04

Ehelyett mi egyetlen hálózatra
bíztuk az egész felismerő tevékenységet.
4:04 - 4:08

Egyszerre kezeli a terület-meghatározást
és az osztályozást.
4:09 - 4:12

A mi rendszerünkben nem kell
több ezerszer végignézni egy képet
4:12 - 4:14

a felismerés lefuttatásához,
4:14 - 4:16

"Elég Egyszer Megnézni"
[You Only Look Once],
4:16 - 4:18

ezért hívjuk a tárgyfelismerés
YOLO-módszerének.
4:19 - 4:23

Ezzel a sebességgel
nemcsak képeket vizsgálhatunk,
4:23 - 4:26

hanem valós időben videót is.
4:26 - 4:29

Most pedig ne csak a kutyát
és a macskát nézzük,
4:29 - 4:32

hanem ahogy forognak egymás körül,
és kapcsolatot teremtenek.
4:35 - 4:37

Ez olyan detektor,
4:37 - 4:41

amit 80 különféle osztályra képeztünk ki
4:41 - 4:44

a Microsoft COCO adatbázisában.
4:44 - 4:48

Mindenféle dolgokat tartalmaz:
kanalat, villát, tálat,
4:48 - 4:49

efféle egyszerű tárgyakat.
4:50 - 4:53

Különlegesebbeket is:
4:53 - 4:57

állatokat, autót, zebrát, zsiráfot.
4:57 - 4:59

Most pedig valami érdekeset teszünk.
4:59 - 5:01

Kimegyünk a közönség soraiba,
és szétnézünk,
5:01 - 5:03

miket találunk.
5:03 - 5:04

Kér valaki kitömött állatot?
5:06 - 5:08

Van néhány plüssmackó itt-ott.
5:10 - 5:15

Kicsit lejjebb vesszük
a felismerési küszöb értékét,
5:15 - 5:18

így könnyebben megtaláljuk
a megfelelő fickókat.
5:20 - 5:22

Nézzük csak a stoptáblákat.
5:22 - 5:24

Rábukkanunk néhány hátizsákra.
5:26 - 5:28

Nagyítsunk csak rá egy kicsit.
5:30 - 5:32

Ez bizony óriási.
5:32 - 5:35

És az egész folyamat valós időben zajlik
5:35 - 5:36

a laptopomon.
5:37 - 5:39

Fontos újra hangsúlyozni,
5:39 - 5:42

hogy ez egy általános célú
tárgyfelismerő rendszer,
5:42 - 5:47

így bármilyen képfajtára alkalmazható.
5:48 - 5:51

Ugyanaz a kód,
5:51 - 5:53

amivel stoptáblát, gyalogost, kerékpárost
5:53 - 5:55

ismerünk fel az önjáró autóban,
5:55 - 5:58

ráksejt feltárására is alkalmazható
5:58 - 6:01

szövettani vizsgálatnál.
6:01 - 6:05

És ezt a technológiát már világszerte
alkalmazzák kutatók
6:06 - 6:10

orvostudományi, robotikai
fejlesztésekhez.
6:10 - 6:11

Ma reggel olvastam,
6:11 - 6:16

hogy a Nairobi Nemzeti Parkban
YOLO-alapú felismerő rendszerrel
6:16 - 6:19

veszik nyilvántartásba az állatokat.
6:19 - 6:22

Ez azért lehetséges,
mert a Darknet nyílt forráskódú,
6:22 - 6:25

nyilvánosan hozzáférhető,
bárki szabadon használhatja.
6:26 - 6:31

(Taps)
6:31 - 6:36

De még könnyebben elérhető és hasznosabb
felismerő rendszert akarunk fejleszteni,
6:36 - 6:40

így modell-optimalizálással,
6:40 - 6:43

hálózati binarizációval
és approximációval
6:43 - 6:47

mobilon is futtatható
felismerő programot fejlesztünk.
6:53 - 6:58

(Taps)
6:59 - 7:04

És tényleg izgatott vagyok, mert máris
van egy igazán ütős megoldásunk
7:04 - 7:06

erre az alacsony szintű
számítógépes látási problémára,
7:06 - 7:10

és bárki hozzájuthat, és alkalmazhatja.
7:10 - 7:13

A többi már önökön múlik,
7:13 - 7:16

és mindenkin, aki hozzáfér
ehhez a szoftverhez,
7:16 - 7:20

és alig várom, hogy lássam,
miket hoznak létre ezzel a technológiával.
7:20 - 7:21

Köszönöm.
7:21 - 7:25

(Taps)

Title:: A számítógép betanítása valós idejű tárgyfelismerésre
Speaker:: Joseph Redmon
Description:: Tíz éve még azt gondolták a kutatók, hogy szinte lehetetlen rábírni egy számítógépet arra, hogy különbséget tegyen egy macska és egy kutya között. A mai számítógépes látórendszerek ezt már csaknem 100%-os biztonsággal megteszik. De hogyan? Joseph Redmon a YOLO-rendszeren dolgozik (Elég Egyszer Megnézni - You Only Look Once). Ez egy nyílt forráskódú alakfelismerő módszer, ami képeken is, videókon is képes alakok megkülönböztetésére – a zebrától a stoptábláig. Redmon egy izgalmas élő bemutatón szemlélteti ezt a fontos lépést, ami olyan alkalmazások felé vezet, mint az önjáró autók, robotika, sőt még a rák korai felismerése is.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Csaba Lóki approved Hungarian subtitles for How computers learn to recognize objects instantly
	Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly
	Andi Vida commented on Hungarian subtitles for How computers learn to recognize objects instantly
	Tímea Hegyessy commented on Hungarian subtitles for How computers learn to recognize objects instantly
	Csaba Lóki commented on Hungarian subtitles for How computers learn to recognize objects instantly
	Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly
	Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly
	Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly

Show all

Csaba Lóki

Megnéznétek, hogy jó lesz-e így? A "tárgyfelismerés" szerintem kicsit jobban kifejezi a dolog komplexitását. De nem ragaszkodom hozzá...
Tímea Hegyessy

Most így elolvasva tényleg jobb a tárgyfelismerés, nekem nem jutott eszembe.
Átnéztem az egészet, szerintem teljesen jó most, köszi! :)
Andi Vida

jó bizony, mehet, köszönöm szépen mindkettőtök munkáját!

Hungarian subtitles

Revisions

Revision 13 Edited

Csaba Lóki

A számítógép betanítása valós idejű tárgyfelismerésre

Revisions

Our website uses cookies

Operating cookies (Required)