A számítógép betanítása valós idejű tárgyfelismerésre
-
0:01 - 0:02Tíz évvel ezelőtt még
-
0:02 - 0:04a számítógépes látás kutatói
nem hitték, -
0:04 - 0:06hogy lehetséges
rábírni egy számítógépet, -
0:06 - 0:09hogy megkülönböztessen
egy kutyát egy macskától, -
0:10 - 0:13még a mesterséges intelligencia
jelentős előrehaladásával sem. -
0:13 - 0:17Ma csaknem 100%-os pontossággal
képesek vagyunk erre. -
0:18 - 0:20Ezt hívják képosztályozásnak.
-
0:20 - 0:23Vegyünk egy képet, címkézzük fel,
-
0:23 - 0:26és a számítógép több ezer
más kategóriát is felismer. -
0:27 - 0:30A washingtoni egyetem
végzős hallgatója vagyok, -
0:30 - 0:31és az ún. Darknet programon dolgozom,
-
0:32 - 0:33neurális hálózatok keretrendszerén.
-
0:33 - 0:36Számítógépes látómodellek
fejlesztése és tesztelése a célom. -
0:36 - 0:39Nézzük hát, mit gondol a Darknet
-
0:39 - 0:41a kutyás képről.
-
0:43 - 0:45Amikor lefuttatjuk osztályozónkat
-
0:45 - 0:46erre a képre,
-
0:46 - 0:49látjuk, nemcsak kutya vagy macska
előképét kapjuk, -
0:49 - 0:51hanem a fajtát is előre meghatározza.
-
0:51 - 0:53Ez a granularitás [szemcsézettség] foka.
-
0:53 - 0:55És helyes!
-
0:55 - 0:57A kutyám alaszkai malamut.
-
0:57 - 1:01Tehát izgalmas lépéseket tettünk meg
a képosztályozás terén, -
1:01 - 1:03de mi van, ha egy ilyen képre
-
1:03 - 1:05futtatjuk le osztályozónkat?
-
1:07 - 1:08Nos...
-
1:13 - 1:17Eléggé hasonló meghatározást
ad meg az osztályozónk. -
1:17 - 1:20Ez is helyes:
malamut van a képen, -
1:20 - 1:23de csak a címkét véve alapul
nem sokat tudunk meg arról, -
1:23 - 1:25hogy mi zajlik a képen.
-
1:25 - 1:27Valami hatékonyabb kell nekünk.
-
1:27 - 1:30Én az úgynevezett tárgyfelismerés
problémáján dolgozom, -
1:30 - 1:33ránézünk egy képre, igyekszünk
minden tárgyat beazonosítani, -
1:33 - 1:34határolókeretet vonva köréjük,
-
1:34 - 1:36és pontosan megnevezni őket.
-
1:36 - 1:40Nézzük, mi történik,
ha lefuttatunk egy felismerő programot. -
1:41 - 1:43Ha ilyesmi eredmény születik,
-
1:43 - 1:46sokkal többre megyünk számítógépes
látó algoritmusainkkal. -
1:46 - 1:49Látjuk, hogy felismeri, hogy ott
egy macska és egy kutya. -
1:49 - 1:51Felismeri egymáshoz
viszonyított helyzetüket, -
1:52 - 1:53méretüket.
-
1:53 - 1:55Esetleg még egyéb információt is nyújt.
-
1:55 - 1:57A háttérben hever egy könyv.
-
1:57 - 2:01És ha számítógépes látáson alapuló
rendszert akarunk építeni, -
2:01 - 2:04mondjuk, legyen egy önjáró jármű,
vagy robotrendszer, -
2:04 - 2:06ilyen információra van szükségünk.
-
2:07 - 2:10Valami olyan kéne, ami kölcsönhatásban áll
fizikai valóságunkkal. -
2:11 - 2:13Amikor elkezdtem ezzel foglalkozni,
-
2:13 - 2:16húsz másodpercbe telt
egyetlen kép feldolgozása. -
2:16 - 2:20Hogy érezzék, miért olyan fontos
a sebesség ezen a területen, -
2:21 - 2:24itt egy példa egy tárgyfelismerőre,
-
2:24 - 2:26ami két másodperc alatt
dolgoz fel egy képet. -
2:26 - 2:29Tízszer gyorsabb tehát,
-
2:29 - 2:32mint a 20 mp/kép sebességű érzékelő,
-
2:32 - 2:35és láthatják, ennyi idő alatt
előrejelzéseket végez. -
2:35 - 2:37A világ teljesen megváltozott,
-
2:38 - 2:40és ez nem lenne túl hasznos
-
2:40 - 2:42egy alkalmazáshoz.
-
2:42 - 2:44Ha ezt még tízszeresére gyorsítjuk -
-
2:44 - 2:47ez a képfelismerő öt képkockát
tud másodpercenként. -
2:47 - 2:49Ez sokkal jobb,
-
2:49 - 2:51de ha például
-
2:51 - 2:53bármilyen jelentős esemény történik,
-
2:53 - 2:56nem szeretném, ha efféle
rendszer vezetné az autómat. -
2:57 - 3:00Ez a felismerő rendszerünk
valós időben fut a laptopomon. -
3:01 - 3:04Simán követ engem a kerettel,
ahogy itt sétálgatok, -
3:04 - 3:08és pontosan meghatározza
a méretváltozásomat, -
3:09 - 3:11testtartásomat,
-
3:11 - 3:13előre- és hátramozgásomat.
-
3:13 - 3:14Ez óriási.
-
3:14 - 3:16Pontosan erre van szükségünk,
-
3:16 - 3:19ha rendszereket akarunk építeni
a számítógépes látásra. -
3:19 - 3:23(Taps)
-
3:24 - 3:26Alig néhány éven belül tehát
-
3:26 - 3:29eljutottunk a 20 mp/kép sebességtől
-
3:29 - 3:33a 20 milliszekundum/képig,
ezerszeres sebességig. -
3:33 - 3:34Hogy jutottunk el idáig?
-
3:34 - 3:37Nos, régen a tárgyfelismerő rendszerek
-
3:37 - 3:39fogtak egy efféle képet,
-
3:39 - 3:42régiócsoportokra osztották,
-
3:42 - 3:45aztán minden egyes régióra
lefuttattak egy osztályozót, -
3:45 - 3:47és ezek magas értékei
-
3:47 - 3:51határozták meg a kép felismerését.
-
3:51 - 3:55De ehhez több ezerszer le kellett futtatni
az osztályozót egy képen, -
3:55 - 3:58neurális hálózati kiértékelések ezrei
vezettek a felismeréshez. -
3:59 - 4:04Ehelyett mi egyetlen hálózatra
bíztuk az egész felismerő tevékenységet. -
4:04 - 4:08Egyszerre kezeli a terület-meghatározást
és az osztályozást. -
4:09 - 4:12A mi rendszerünkben nem kell
több ezerszer végignézni egy képet -
4:12 - 4:14a felismerés lefuttatásához,
-
4:14 - 4:16"Elég Egyszer Megnézni"
[You Only Look Once], -
4:16 - 4:18ezért hívjuk a tárgyfelismerés
YOLO-módszerének. -
4:19 - 4:23Ezzel a sebességgel
nemcsak képeket vizsgálhatunk, -
4:23 - 4:26hanem valós időben videót is.
-
4:26 - 4:29Most pedig ne csak a kutyát
és a macskát nézzük, -
4:29 - 4:32hanem ahogy forognak egymás körül,
és kapcsolatot teremtenek. -
4:35 - 4:37Ez olyan detektor,
-
4:37 - 4:41amit 80 különféle osztályra képeztünk ki
-
4:41 - 4:44a Microsoft COCO adatbázisában.
-
4:44 - 4:48Mindenféle dolgokat tartalmaz:
kanalat, villát, tálat, -
4:48 - 4:49efféle egyszerű tárgyakat.
-
4:50 - 4:53Különlegesebbeket is:
-
4:53 - 4:57állatokat, autót, zebrát, zsiráfot.
-
4:57 - 4:59Most pedig valami érdekeset teszünk.
-
4:59 - 5:01Kimegyünk a közönség soraiba,
és szétnézünk, -
5:01 - 5:03miket találunk.
-
5:03 - 5:04Kér valaki kitömött állatot?
-
5:06 - 5:08Van néhány plüssmackó itt-ott.
-
5:10 - 5:15Kicsit lejjebb vesszük
a felismerési küszöb értékét, -
5:15 - 5:18így könnyebben megtaláljuk
a megfelelő fickókat. -
5:20 - 5:22Nézzük csak a stoptáblákat.
-
5:22 - 5:24Rábukkanunk néhány hátizsákra.
-
5:26 - 5:28Nagyítsunk csak rá egy kicsit.
-
5:30 - 5:32Ez bizony óriási.
-
5:32 - 5:35És az egész folyamat valós időben zajlik
-
5:35 - 5:36a laptopomon.
-
5:37 - 5:39Fontos újra hangsúlyozni,
-
5:39 - 5:42hogy ez egy általános célú
tárgyfelismerő rendszer, -
5:42 - 5:47így bármilyen képfajtára alkalmazható.
-
5:48 - 5:51Ugyanaz a kód,
-
5:51 - 5:53amivel stoptáblát, gyalogost, kerékpárost
-
5:53 - 5:55ismerünk fel az önjáró autóban,
-
5:55 - 5:58ráksejt feltárására is alkalmazható
-
5:58 - 6:01szövettani vizsgálatnál.
-
6:01 - 6:05És ezt a technológiát már világszerte
alkalmazzák kutatók -
6:06 - 6:10orvostudományi, robotikai
fejlesztésekhez. -
6:10 - 6:11Ma reggel olvastam,
-
6:11 - 6:16hogy a Nairobi Nemzeti Parkban
YOLO-alapú felismerő rendszerrel -
6:16 - 6:19veszik nyilvántartásba az állatokat.
-
6:19 - 6:22Ez azért lehetséges,
mert a Darknet nyílt forráskódú, -
6:22 - 6:25nyilvánosan hozzáférhető,
bárki szabadon használhatja. -
6:26 - 6:31(Taps)
-
6:31 - 6:36De még könnyebben elérhető és hasznosabb
felismerő rendszert akarunk fejleszteni, -
6:36 - 6:40így modell-optimalizálással,
-
6:40 - 6:43hálózati binarizációval
és approximációval -
6:43 - 6:47mobilon is futtatható
felismerő programot fejlesztünk. -
6:53 - 6:58(Taps)
-
6:59 - 7:04És tényleg izgatott vagyok, mert máris
van egy igazán ütős megoldásunk -
7:04 - 7:06erre az alacsony szintű
számítógépes látási problémára, -
7:06 - 7:10és bárki hozzájuthat, és alkalmazhatja.
-
7:10 - 7:13A többi már önökön múlik,
-
7:13 - 7:16és mindenkin, aki hozzáfér
ehhez a szoftverhez, -
7:16 - 7:20és alig várom, hogy lássam,
miket hoznak létre ezzel a technológiával. -
7:20 - 7:21Köszönöm.
-
7:21 - 7:25(Taps)
- Title:
- A számítógép betanítása valós idejű tárgyfelismerésre
- Speaker:
- Joseph Redmon
- Description:
-
Tíz éve még azt gondolták a kutatók, hogy szinte lehetetlen rábírni egy számítógépet arra, hogy különbséget tegyen egy macska és egy kutya között. A mai számítógépes látórendszerek ezt már csaknem 100%-os biztonsággal megteszik. De hogyan? Joseph Redmon a YOLO-rendszeren dolgozik (Elég Egyszer Megnézni - You Only Look Once). Ez egy nyílt forráskódú alakfelismerő módszer, ami képeken is, videókon is képes alakok megkülönböztetésére – a zebrától a stoptábláig. Redmon egy izgalmas élő bemutatón szemlélteti ezt a fontos lépést, ami olyan alkalmazások felé vezet, mint az önjáró autók, robotika, sőt még a rák korai felismerése is.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
Csaba Lóki approved Hungarian subtitles for How computers learn to recognize objects instantly | ||
Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly | ||
Andi Vida commented on Hungarian subtitles for How computers learn to recognize objects instantly | ||
Tímea Hegyessy commented on Hungarian subtitles for How computers learn to recognize objects instantly | ||
Csaba Lóki commented on Hungarian subtitles for How computers learn to recognize objects instantly | ||
Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly | ||
Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly | ||
Csaba Lóki edited Hungarian subtitles for How computers learn to recognize objects instantly |
Csaba Lóki
Megnéznétek, hogy jó lesz-e így? A "tárgyfelismerés" szerintem kicsit jobban kifejezi a dolog komplexitását. De nem ragaszkodom hozzá...
Tímea Hegyessy
Most így elolvasva tényleg jobb a tárgyfelismerés, nekem nem jutott eszembe.
Átnéztem az egészet, szerintem teljesen jó most, köszi! :)
Andi Vida
jó bizony, mehet, köszönöm szépen mindkettőtök munkáját!