0:00:00.825,0:00:01.746 Prije deset godina, 0:00:01.746,0:00:04.680 istraživači računalnog vida mislili su[br]da je naučiti računalo 0:00:04.680,0:00:07.496 kako razlikovati između mačke i psa 0:00:07.520,0:00:09.496 gotovo nemoguće, 0:00:09.520,0:00:13.216 čak i uz značajan napredak[br]u razvoju umjetne inteligencije. 0:00:13.240,0:00:16.800 Sad to možemo učiniti[br]s više od 99 posto točnosti. 0:00:17.680,0:00:19.536 To se zove klasifikacija slike - 0:00:19.560,0:00:22.656 dati sliku, staviti oznaku na sliku - 0:00:22.680,0:00:25.720 a računala znaju [br]i tisuće drugih kategorija. 0:00:26.680,0:00:29.576 Ja sam postdiplomac[br]na Sveučilištu u Washingtonu 0:00:29.600,0:00:31.520 i radim na projektu pod nazivom Darknet, 0:00:31.520,0:00:33.216 što je neuronska mrežna struktura 0:00:33.240,0:00:36.056 za obuku i testiranje [br]modela računalnog vida. 0:00:36.080,0:00:39.056 Pa pogledajmo što Darknet misli 0:00:39.080,0:00:40.840 o ovoj slici koju imamo. 0:00:42.520,0:00:44.856 Kad smo pokrenuti naš klasifikator 0:00:44.880,0:00:46.096 na ovoj slici, 0:00:46.120,0:00:48.576 ne dobivamo samo predviđanja[br]je li to pas ili mačka, 0:00:48.600,0:00:50.936 nego čak i određena predviđanja pasmine. 0:00:51.090,0:00:53.136 To je razina zrnatosti koju imamo sada. 0:00:53.160,0:00:54.776 I to je točno. 0:00:54.800,0:00:56.640 Moj pas je doista malamut. 0:00:57.040,0:01:01.276 Napravili smo nevjerojatne pomake[br]u klasifikaciji slike, 0:01:01.276,0:01:03.400 ali što se događa kad [br]pokrenemo klasifikator 0:01:03.424,0:01:05.384 na sliku koja izgleda ovako? 0:01:07.080,0:01:08.280 Dobro ... 0:01:12.640,0:01:16.536 Vidimo da je klasifikator vraća[br]uz prilično slična predviđanja. 0:01:16.560,0:01:19.656 I to je točno, na slici je malamut, 0:01:19.680,0:01:23.376 ali samo s tom oznakom [br]ne znamo mnogo 0:01:23.400,0:01:25.067 o tome što se događa na slici. 0:01:25.091,0:01:26.651 Trebamo nešto snažnije. 0:01:27.240,0:01:29.856 Radim na problemu koji se zove[br]otkrivanje objekta, 0:01:29.880,0:01:32.816 gdje gledamo sliku i [br]pokušavamo pronaći sve objekte, 0:01:32.840,0:01:34.296 staviti okvire oko njih 0:01:34.320,0:01:35.840 i reći ono što ti predmeti su. 0:01:36.400,0:01:39.680 Evo što se događa kad pokrenemo [br]detektor na ovoj slici. 0:01:41.240,0:01:43.456 Ovakvom vrstom rezultata 0:01:43.456,0:01:46.216 možemo napraviti puno više [br]s algoritmima računalnog vida. 0:01:46.240,0:01:49.216 Vidimo da zna da su tu mačka i pas. 0:01:49.240,0:01:51.496 Zna njihove relativne položaje, 0:01:51.520,0:01:52.736 njihovu veličinu. 0:01:52.760,0:01:54.426 Čak može znati neke dodatne informacije. 0:01:54.426,0:01:56.680 U pozadini je knjiga. 0:01:57.280,0:02:00.536 Ako želite izgraditi sustav[br]na osnovi računalnog vida, 0:02:00.560,0:02:04.016 recimo autonomno vozilo [br]ili robotski sustav, 0:02:04.040,0:02:06.496 ovo je vrsta informacija koje želite. 0:02:06.520,0:02:09.759 Želite nešto da možete[br]komunicirati s fizičkim svijetom. 0:02:10.759,0:02:13.016 Kad sam počeo raditi na [br]prepoznavanju objekata, 0:02:13.040,0:02:16.336 trebalo je 20 sekundi [br]za obradu jedne slike. 0:02:16.360,0:02:20.240 A kako biste dobili osjećaj zašto je [br]brzina ovdje tako važna, 0:02:21.120,0:02:23.656 evo primjera detektora objekta 0:02:23.680,0:02:26.096 koji treba dvije sekunde za obradu slike. 0:02:26.120,0:02:28.736 Dakle ovo je 10 puta brže 0:02:28.760,0:02:32.026 od detektora kojem treba [br]20 sekundi po slici, 0:02:32.026,0:02:34.976 i možete vidjeti da se za vrijeme [br]dok on učini predviđanja, 0:02:35.000,0:02:37.040 promijenilo čitavo stanje u svijetu, 0:02:37.880,0:02:40.296 i to ne bi bilo vrlo korisno 0:02:40.320,0:02:41.736 za neku primjenu. 0:02:41.760,0:02:44.256 Ako ovo gore ubrzamo[br]još jednom za faktor 10, 0:02:44.280,0:02:47.096 to je detektor koji radi [br]na pet sličica u sekundi. 0:02:47.120,0:02:48.656 To je puno bolje, 0:02:48.680,0:02:50.656 ali, na primjer, 0:02:50.680,0:02:52.976 ako postoji bilo kakav značajan pokret, 0:02:53.000,0:02:55.560 ne bih želio da sustav poput ovog[br]vozi moj auto. 0:02:57.120,0:03:00.360 Ovo je naš sustav otkrivanja [br]u realnom vremenu na mom laptopu. 0:03:01.000,0:03:04.136 Glatko me prati kako se krećem kroz kadar, 0:03:04.160,0:03:07.880 i otporan je na razne promjene veličine, 0:03:09.440,0:03:10.640 položaja, 0:03:11.280,0:03:13.136 naprijed, natrag. 0:03:13.160,0:03:14.376 Ovo je super. 0:03:14.400,0:03:16.136 To je ono što stvarno trebamo 0:03:16.160,0:03:19.056 ako ćemo graditi sustave[br]na osnovi računalnog vida, 0:03:19.080,0:03:23.080 (Pljesak) 0:03:24.280,0:03:26.456 U samo nekoliko godina 0:03:26.480,0:03:29.136 došli smo od 20 sekundi po slici 0:03:29.160,0:03:32.696 do 20 milisekundi po slici, [br]tisuću puta brže. 0:03:32.720,0:03:34.136 Kako smo došli dovde? 0:03:34.160,0:03:37.176 Nekada su sustavi za otkrivanje predmeta 0:03:37.200,0:03:39.136 uzimali sliku poput ove 0:03:39.160,0:03:41.616 i podijelili je na hrpu područja 0:03:41.640,0:03:44.896 i zatim pokrenuli klasifikator[br]na svakom od tih područja. 0:03:44.920,0:03:47.456 Visoki rezultati za taj klasifikator 0:03:47.480,0:03:50.616 smatrali su se detekcijom u slici. 0:03:50.640,0:03:54.696 No, to je značilo rad klasifikatora [br]tisuće puta na slici, 0:03:54.720,0:03:57.640 tisuće procjena neuronskih mreža [br]kako bi dobili detekciju. 0:03:59.240,0:04:03.776 Umjesto toga smo naučili jednu mrežu [br]da učini sve detekcije za nas. 0:04:03.800,0:04:08.080 Ona istodobno proizvodi sve okvire[br]i klase vjerojatnosti. 0:04:08.680,0:04:12.176 S našim sustavom, umjesto da[br]gledate sliku tisuće puta 0:04:12.200,0:04:13.656 kako bi postigao detekciju, 0:04:13.680,0:04:14.936 gledate samo jednom, 0:04:14.960,0:04:17.880 zato ga zovemo YOLO metoda [br]za detekciju objekta. 0:04:19.360,0:04:23.336 Dakle, ovom brzinom[br]nismo ograničeni samo na slike; 0:04:23.360,0:04:25.776 možemo obraditi video u realnom vremenu. 0:04:25.800,0:04:28.896 Sad, umjesto da samo vidimo mačku i psa, 0:04:28.920,0:04:31.880 vidimo kako se kreću [br]i međusobno komuniciraju. 0:04:34.560,0:04:36.616 To je detektor koji smo obučili 0:04:36.640,0:04:41.016 na 80 različitih klasa 0:04:41.040,0:04:44.296 u Microsoftovoj zbirci podataka COCO. 0:04:44.320,0:04:47.656 Ona ima svašta, poput žlice [br]i vilice, zdjele, 0:04:47.680,0:04:49.480 obične predmete poput tih. 0:04:50.360,0:04:53.456 Ima raznih egzotičnijih stvari: 0:04:53.480,0:04:56.736 životinje, automobili, zebre, žirafe. 0:04:56.760,0:04:58.696 A sada idemo učiniti nešto zabavno. 0:04:58.720,0:05:00.816 Samo ćemo otići u publiku 0:05:00.840,0:05:02.856 i vidjeti što možemo otkriti. 0:05:02.880,0:05:04.500 Želi li tko plišanu životinju? 0:05:06.000,0:05:07.762 Tamo ima nekih medvjedića. 0:05:10.040,0:05:14.576 Možemo malo smanjiti prag detekcije, 0:05:14.600,0:05:18.000 tako da možemo naći više vas u publici. 0:05:19.560,0:05:21.896 Da vidimo možemo li dobiti [br]ove znakove STOP. 0:05:21.920,0:05:23.800 Nalazimo neke ruksake. 0:05:25.880,0:05:27.720 Zumirajmo samo malo. 0:05:30.320,0:05:31.576 I to je super. 0:05:31.600,0:05:34.776 Sva obrada se događa u stvarnom vremenu 0:05:34.800,0:05:36.000 na laptopu. 0:05:37.080,0:05:38.346 I to je važno zapamtiti 0:05:38.346,0:05:41.776 da je ovo sustav za detekciju objekta [br]opće namjene, 0:05:41.800,0:05:46.800 možemo ga trenirati za bilo koju domenu. 0:05:48.320,0:05:50.856 Isti kod koji koristimo 0:05:50.880,0:05:53.336 za pronaći znakove STOP ili pješake, 0:05:53.360,0:05:55.336 bicikle u autonomnim vozilima, 0:05:55.360,0:05:58.216 može se koristiti[br]kako bi pronašli stanice raka 0:05:58.240,0:06:01.256 u biopsiji tkiva. 0:06:01.280,0:06:05.320 A znanstvenici diljem svijeta već [br]koriste ovu tehnologiju 0:06:06.240,0:06:09.656 za napredak u medicini, robotici. 0:06:09.680,0:06:11.056 Jutros sam pročitao članak 0:06:11.080,0:06:15.656 o popisu životinja u [br]Nacionalnom parku Nairobi 0:06:15.680,0:06:18.816 koristeći YOLO u sustavu detekcije. 0:06:18.840,0:06:21.936 A to je zato što je Darknet open source, 0:06:21.960,0:06:24.480 u javnoj domeni, besplatan [br]svakomu za korištenje. 0:06:25.600,0:06:31.296 (Pljesak) 0:06:31.320,0:06:36.256 No, željeli smo napraviti detekciju [br]još dostupnijom i korisnijom 0:06:36.280,0:06:40.336 pa smo kombinacijom optimizacije modela, 0:06:40.360,0:06:42.656 binarizacije mreže i aproksimacije 0:06:42.680,0:06:46.600 dobili detekciju objekata[br]koja radi na mobitelu. 0:06:52.800,0:06:58.120 (Pljesak) 0:06:58.960,0:07:04.016 A ja sam stvarno uzbuđen [br]jer sada imamo moćno rješenje 0:07:04.040,0:07:06.336 problema računalnog vida [br]na osnovnoj razini, 0:07:06.360,0:07:10.216 i svatko ga može uzeti[br]i graditi nešto njime. 0:07:10.240,0:07:13.416 Sad je sve ostalo do vas 0:07:13.440,0:07:16.376 i ljudi diljem svijeta [br]s pristupom tom softveru, 0:07:16.400,0:07:20.056 jedva čekam vidjeti što će [br]ljudi učiniti s ovom tehnologijom. 0:07:20.080,0:07:21.296 Hvala vam. 0:07:21.316,0:07:22.532 (Pljesak)