Jak učíme počítače chápat obrázky

0:03 - 0:06

Něco vám ukážu.
0:06 - 0:10

(Video) Holčička: Dobře, to je kočka
sedící na posteli.
0:10 - 0:14

Kluk si hladí slona.
0:14 - 0:19

To jsou lidi, co nastupují do letadla.
0:19 - 0:21

Je to velké letadlo.
0:21 - 0:24

Fei-Fei Li: Toto je tříleté dítě
0:24 - 0:27

popisující, co vidí na sérii fotek.
0:27 - 0:30

Ještě se má hodně co učit o světě,
0:30 - 0:35

ale už teď je expert na jednu velmi
důležitou věc:
0:35 - 0:38

dávat smysl tomu, co vidí.
0:38 - 0:42

Naše společnost je více technologicky
vyvinutá než kdy předtím.
0:42 - 0:46

Posíláme lidi na měsíc,
vyrábíme telefony, co na nás mluví,
0:46 - 0:51

nebo si můžeme upravit radio, aby
hrálo jenom hudbu, kterou chceme.
0:51 - 0:55

Přesto naše nejvyvinutější stroje
a počítače
0:55 - 0:58

tenhle úkol nezvládají.
0:58 - 1:01

Já jsem tu dnes, abych vám dala hlášení
o vývoji
1:01 - 1:05

posledních pokroků v našem výzkumu
počítačového zraku,
1:05 - 1:10

jedné z nejhraničnějších a
potencionálně revolučních
1:10 - 1:13

technologiích v počítačové vědě.
1:13 - 1:17

Ano, navrhli jsme auta,
která sama řídí,
1:17 - 1:21

ale bez chytrého zraku,
nerozeznají
1:21 - 1:25

zmuchlaný papírový sáček na silnici,
který se může přejet,
1:25 - 1:29

od kamenu stejné velikosti,
který by bylo lepší objet.
1:29 - 1:33

Vytvořili jsme úžasné megapixelové foťáky,
1:33 - 1:36

ale neumíme slepým vrátit zrak.
1:36 - 1:40

Drony mohou létat po rozsáhlé krajině,
1:40 - 1:42

ale nemají dostatečnou
vizuální technologie,
1:42 - 1:45

aby nám pomohly mapovat změny
v deštných pralesech.
1:45 - 1:48

Kamerové systémy jsou všude,
1:48 - 1:53

ale neupozorní nás, když se dítě
topí v bazénu.
1:54 - 2:00

Fotky a videa se stávají nezbytnou
součástí života.
2:00 - 2:04

Jsou vytvářeny rychlostí, která je
mnohem vyšší
2:04 - 2:07

než jsme si dokázali představit,
2:07 - 2:11

a já zde na TEDu k tomu přispívám.
2:11 - 2:16

Přesto všechno naše nejdokonalejší
programy stále zápasí s porozuměním
2:16 - 2:20

a ovládáním tohoto ohromného obsahu.
2:20 - 2:25

Jiný slovy, dohromady jako společnost
2:25 - 2:27

jsme prakticky slepí,
2:27 - 2:30

protože naše nejchytřejší stroje
jsou slepé.
2:31 - 2:34

"Proč je to tak těžké?" ptáte se.
2:34 - 2:37

Foťáky mohou vyfotit obrázek jako tento
2:37 - 2:41

převedením světel do dvoudimenzionální
soustavy
2:41 - 2:43

známé jako pixely,
2:43 - 2:45

ale to jsou jenom neživá čísla.
2:45 - 2:48

Sama o sobě nemají smysl.
2:48 - 2:52

Stejně jako slyšet není to samé
jako poslouchat,
2:52 - 2:57

fotit není to samé jako vidět,
2:57 - 3:00

a viděním myslíme chápaní.
3:01 - 3:07

Ve skutečnosti, Matce Zemi trvalo
540 milionů let tvrdé práce,
3:07 - 3:09

aby tohoto dosáhla
3:09 - 3:11

a velká část této snahy
3:11 - 3:17

padla na vývoj zrakové procesního
aparátu v našem mozku,
3:17 - 3:19

nejen na oči samotné.
3:19 - 3:22

Takže zrak začíná očima,
3:22 - 3:26

ale odehrává se v mozku.
3:26 - 3:31

Již po 15 let od mého doktorátu
na Caltechu
3:31 - 3:34

a vedení laboratoře
Stanford's Vision,
3:34 - 3:39

pracuji se svými mentory, spolupracovníky
a studenty na tom,
3:39 - 3:42

abychom naučili počítače vidět.
3:43 - 3:46

Náš výzkum se jmenuje počítačový zrak
a učení strojů.
3:46 - 3:50

Je to součástí obecného oboru
o umělé inteligenci.
3:51 - 3:56

Chceme naučit stroje,
aby viděly jako my:
3:56 - 4:02

pojmenovávat objekty, identifikovat lidi,
odvozovat 3D geometrii věcí,
4:02 - 4:08

pochopení vztahů, emocí, akcí a úmyslů.
4:08 - 4:14

Vy a já dohromady splétáme celé příběhy
lidí, míst a věcí
4:14 - 4:16

v okamžik, kdy je spatříme.
4:17 - 4:23

Prvním krokem k dosažení tohoto cíle
je naučit počítače vidět objekty,
4:23 - 4:26

základní kameny světa vidění.
4:26 - 4:30

Jednoduše řečeno, představte si tento
proces učení
4:30 - 4:33

jako ukazování počítačům
tréninkové obrázky
4:33 - 4:37

konkrétního objektu, například koček,
4:37 - 4:41

a vytváření modelu, který se učí z těchto
tréninkových obrázků.
4:41 - 4:43

Jak těžké to může být?
4:43 - 4:47

Vždyť kočka je jen sbírka tvarů a barev
4:47 - 4:52

a to je přesně to, co jsme udělali
v začátcích objektového modelování.
4:52 - 4:55

Naučili jsme počítače algoritmus
v matematickém jazyce,
4:55 - 4:59

že kočka má kulatý obličej,
zaoblené tělo,
4:59 - 5:01

dvě špičaté uši, a dlouhý ocas,
5:01 - 5:02

a všechno vypadalo dobře.
5:03 - 5:05

Ale co třeba tahle kočka?
5:05 - 5:06

(Smích)
5:06 - 5:07

Je celá pokřivená.
5:07 - 5:12

Nyní musíte tedy přidat další tvar a
pohled danému modelu.
5:12 - 5:14

Ale co když jsou kočky schované?
5:15 - 5:17

Co tyhle pošetilé kočky?
5:19 - 5:22

Teď už mě chápete.
5:22 - 5:25

Tak jednoduchá věc jako je
domácí mazlíček
5:25 - 5:29

může mít nekonečné množství
variací objektovému modelu,
5:29 - 5:32

a to je to jenom jeden objekt.
5:33 - 5:35

Takže před zhruba osmi lety,
5:35 - 5:40

jeden prostý, ale pronikavý prostřeh
změnil mé myšlení.
5:41 - 5:44

Nikdo neříká dítěti jak má vidět,
5:44 - 5:46

obzvláště v raném věku.
5:46 - 5:51

Naučí se to pomocí skutečných
životních zkušeností a příkladů.
5:51 - 5:54

Když si představíte dětské oči
5:54 - 5:57

jako pár biologických foťáků,
5:57 - 6:01

vyfotí jeden obrázek každých
200 milisekund,
6:01 - 6:04

což je průměrný čas, za který
se oko pohne.
6:04 - 6:10

Takže ve třetím roce dítě
vidělo stovky milionů obrázků
6:10 - 6:11

skutečného světa.
6:11 - 6:14

To je celkem hodně tréninkových příkladů.
6:14 - 6:20

Místo cílení na lepší algoritmy,
6:20 - 6:26

můj nápad byl dát algoritmům taková
tréninková data,
6:26 - 6:29

jaká byla dána dítěti skrze zkušenosti
6:29 - 6:33

jak množstevně, tak kvalitou.
6:33 - 6:35

Jakmile jsme toto pochopili,
6:35 - 6:38

věděli jsme, že potřebujeme sehnat
sadu dat,
6:38 - 6:42

která má v sobě mnohem více obrázků,
než jsme kdy měli,
6:42 - 6:45

možná i tisíckrát více,
6:45 - 6:49

a společně s profesorem Kai Li
na Princetonské univerzitě,
6:49 - 6:54

jsme v roce 2007 spustili
projekt ImageNet.
6:54 - 6:57

Naštěstí jsme si nemuseli namontovat
kameru na hlavu
6:57 - 6:59

a čekat mnoho let.
6:59 - 7:01

Šli jsme na internet,
7:01 - 7:05

největší pokladnice obrázků,
kterou jsme jako lidé vytvořili.
7:05 - 7:08

Stáhli jsme téměř miliardu obrázků
7:08 - 7:14

a využili crowdsourcingové technologie
jako Amazon Mechanical Turk,
7:14 - 7:16

aby nám pomohly pojmenovat tyto obrázky.
7:16 - 7:21

Na svém vrcholu, ImageNet byl jedním
z největších zaměstnavatelů
7:21 - 7:24

pracovníků Amazon Mechanical Turk:
7:24 - 7:28

celkem téměř 50 tisíc pracovníků,
7:28 - 7:32

ze 167 zemí světa,
7:32 - 7:36

nám pomohlo vyčistit, utřídit a označit
7:36 - 7:40

téměř miliardu potencionálních obrázků.
7:41 - 7:43

Přesně tolik úsilí nás stálo
7:43 - 7:47

zachytili pouze zlomek obrázků,
7:47 - 7:51

které dětská mysl přijímá
během svých počátečních vývojových let.
7:52 - 7:56

Při pohledu zpět, nápad používání
velkého množství dat
7:56 - 8:01

pro učení počítačových algoritmů
se nyní může zdát samozřejmý,
8:01 - 8:05

ale v roce 2007 tomu tak nebylo.
8:05 - 8:09

Byli jsme po docela dlouhou dobu
na této cestě sami.
8:09 - 8:14

Někteří mí kolegové mi doporučovali,
abych dělala něco užitečnějšího,
8:14 - 8:18

a neustále jsme sháněli finance
pro náš výzkum.
8:18 - 8:20

Jednou jsem dokonce vtipkovala se svými
studenty,
8:20 - 8:24

že si znovu otevřu svoji čistírnu, abych
zaplatila ImageNet.
8:24 - 8:29

Přece jen, tak jsem financovala svoje
studia na univerzitě.
8:29 - 8:31

Tak jsme pokračovali.
8:31 - 8:35

V roce 2009 projekt ImageNet vytvořil
8:35 - 8:39

databázi 15 milionů obrázků
8:39 - 8:44

napříč 22 000 tříd objektů a věcí
8:44 - 8:47

organizovaných podle každodenních
anglických slov.
8:47 - 8:50

V obou - kvantitě i kvalitě,
8:50 - 8:53

v nevídaném množství.
8:53 - 8:56

Uvedu příklad na zmiňovaných kočkách,
8:56 - 8:59

měli jsme více než 62 tisíc koček
8:59 - 9:03

různého vzhledu, v různých pózách
9:03 - 9:08

a všechny druhy domácích i divokých koček.
9:08 - 9:12

Byli jsme nadšení, že jsme mohli
dát ImageNet dohromady
9:12 - 9:16

a chtěli jsme, aby toho mohl využívat
celý výzkumný svět,
9:16 - 9:20

takže podle TEDu, jsme celý náš data set
otevřeli
9:20 - 9:23

pro celosvětovou výzkumnou komunitu
zadarmo.
9:25 - 9:29

(Potlesk)
9:29 - 9:34

Když teď máme data, kterými můžeme
krmit náš počítačový mozek,
9:34 - 9:38

jsme připraveni se vrátit zpět
k algoritmům jako takovým.
9:38 - 9:43

Jak se pak ukázalo, hojnost informací
z ImageNetu
9:43 - 9:48

byla perfektní pro konkrétní třídu
algoritmů pro učení strojů, které
9:48 - 9:50

se nazývaly konvoluční neuronová síť,
9:50 - 9:55

vytvořené Kunihikem Fukushimou,
Geoffem Hintonem a Yannem LeCunem
9:55 - 9:59

během 70. a 80. let 20. století.
9:59 - 10:05

Stejně jako se mozek skládá z miliard
vzájemně propojených neuronů,
10:05 - 10:08

základní operační jednotkou
v neuronové síti
10:08 - 10:11

je uzel podobný neuronu.
10:11 - 10:13

Vstup si vezme od jiných uzlů
10:13 - 10:16

a pošle výstup dalším.
10:16 - 10:21

Navíc tyto stovky tisíc či dokonce
miliony uzlů
10:21 - 10:24

jsou organizovány v hierarchistických
vrstvách,
10:24 - 10:27

podobně jako v mozku.
10:27 - 10:29

V klasické neuronové síti, kterou
používáme,
10:29 - 10:32

abychom naučili náš model
rozpoznávání objektů
10:32 - 10:35

je 24 milionů uzlů,
10:35 - 10:38

140 milionů parametrů
10:38 - 10:41

a 15 miliard spojení.
10:41 - 10:43

To je obrovský model.
10:43 - 10:47

Poháněný ohromným množstvím dat
z ImageNet
10:47 - 10:52

a moderními CPU a GPU k trénování
takto velkého modelu,
10:52 - 10:55

konvoluční neuronová síť
10:55 - 10:58

kvete tak, jak by nikdo nečekal.
10:58 - 11:01

Stala se vítěznou architekturou
11:01 - 11:06

k vytváření nových úžasných výsledků
v rozpoznávání objektů.
11:06 - 11:09

Toto je počítač, který nám říká,
11:09 - 11:11

že na obrázku je kočka
11:11 - 11:13

a kde ta kočka je.
11:13 - 11:15

Samozřejmě existuje víc věcí než
jen kočky,
11:15 - 11:18

takže tady je algoritmus počítače,
který říká,
11:18 - 11:21

že obrázek obsahuje chlapce a medvídka,
11:21 - 11:25

psa, osobu a malého draka v pozadí,
11:25 - 11:28

nebo velice chaotický obrázek plný věcí,
11:28 - 11:33

jako je muž, skateboard, zábradlí,
lampa atd.
11:33 - 11:38

Někdy, když si počítač není jistý,
co vidí,
11:39 - 11:42

naučili jsme ho,
aby byl dostatečně chytrý,
11:42 - 11:46

a aby odpověděl neutrálně,
než aby se k něčemu zavázal,
11:46 - 11:48

stejně jako bychom to udělali my,
11:48 - 11:53

ale jindy nám náš počítačový algoritmus
znamenitě vysvětlí,
11:53 - 11:55

co přesně dané objekty jsou,
11:55 - 11:59

jako například značka, model a rok u auta.
11:59 - 12:04

Aplikovali jsme tento algoritmus na
miliony obrázků z Google Street View
12:04 - 12:07

napříč stovkami amerických měst,
12:07 - 12:10

a zjistili jsme něco velice zajímavého:
12:10 - 12:14

zaprvé, to potvrdilo známou pravdu,
12:14 - 12:17

že ceny aut jsou přímo úměrné
12:17 - 12:19

příjmům domácností.
12:19 - 12:24

A překvapivě, ceny aut
jsou také závislé
12:24 - 12:26

na kriminalitě v daných městech,
12:27 - 12:31

a nebo volební názory na PSČ.
12:32 - 12:34

Takže, to je ono?
12:34 - 12:39

Dosáhly počítače lidských schopností,
nebo je snad dokonce přesáhly?
12:39 - 12:42

Ne tak rychle.
12:42 - 12:46

Zatím jsme počítač naučili jenom
vidět věci.
12:46 - 12:51

Je to jako malé dítě, které se učí
vyslovit pár slov.
12:51 - 12:54

Je to neuvěřitelný úspěch,
12:54 - 12:56

ale je to teprve první krok.
12:56 - 13:00

Brzy, další vývojový mezník bude
dosažen,
13:00 - 13:03

a děti se naučí mluvit ve větách.
13:03 - 13:08

Takže místo tvrzení - to je kočka,
13:08 - 13:13

slyšeli jsme holčičku říct, že kočka
leží na posteli.
13:13 - 13:18

Abychom naučili počítač vidět obrázek
a vytořit věty,
13:18 - 13:22

vztah mezi velkým množstvím dat a
algoritmem učení strojů
13:22 - 13:25

musí dosáhnout další fáze.
13:25 - 13:29

Nyní se počítač musí učit z obou částí,
13:29 - 13:32

stejně tak jako jsou věty
13:32 - 13:35

vytvářené lidmi.
13:35 - 13:39

Stejně jako mozek spojuje zrak a jazyk,
13:39 - 13:44

vytvořili jsme model, který spojuje
části zraku,
13:44 - 13:46

jako vizuální ústřižky
13:46 - 13:50

se slovy a frázemi ve větách.
13:50 - 13:53

Zhruba před čtyřmi měsíci,
13:53 - 13:56

jsme to konečně spojili
13:56 - 13:59

a vytvořili jeden z prvních modelů
počítačového zraku,
13:59 - 14:03

který je schopen vytvářet lidskou větu,
14:03 - 14:07

když vidí daný obrázek poprvé.
14:07 - 14:12

Nyní vám ukážu, co počítač řekne,
14:12 - 14:14

když vidí obrázek,
14:14 - 14:17

který viděla holčička na začátku.
14:20 - 14:23

(Video) Počítač: Muž stojí vedle slona.
14:24 - 14:28

Velké letadlo sedí na letištní runwayi.
14:29 - 14:33

FFL: Samozřejmě, stále pracujeme
na zlepšení našich algoritmů
14:33 - 14:36

a stále je toho hodně, co se učit.
14:36 - 14:38

(Potlesk)
14:40 - 14:43

A počítač dělá i chyby.
14:43 - 14:46

(Video) Počítač: Kočka ležící na posteli
pod dekou.
14:46 - 14:49

FFL: samozřejmě, že když vidí tolik koček,
14:49 - 14:52

myslí si, že všechno může vypadat jako
kočka.
14:53 - 14:56

(Video) Počítač: Mladý chlapec drží
baseballovou pálku.
14:56 - 14:58

(Smích)
14:58 - 15:03

FFL: Nebo pokud ještě neviděl kartáček,
splete si ho s basebalkou.
15:03 - 15:07

(Video) Počítač: Muž jede na koni po ulici
vedle budovy.
15:07 - 15:09

(Smích)
15:09 - 15:12

FFL: Nenaučili jsme naše počítače
základy umění.
15:14 - 15:17

(Video) Počítač: Zebra stojí na poli trávy.
15:17 - 15:20

FFL: A ještě neumí ocenit krásu přírody
15:20 - 15:22

jako vy a já.
15:22 - 15:25

Je to dlouhá cesta.
15:25 - 15:30

Dostat se od věku 0 do 3 let bylo těžké.
15:30 - 15:35

Opravdová výzva je dostat se od 3 let
ke 13 a dál.
15:35 - 15:39

Dovolte mi ukázat ještě jednou obrázek
chlapce s dortem.
15:39 - 15:44

Zatím jsme počítač naučili vidět objekty,
15:44 - 15:48

či dokonce říct krátce co vidí na obrázku.
15:48 - 15:52

(Video) Počítač: Člověk sedí u stolu
s dortem.
15:52 - 15:54

FFL: Ale na tom obrázku je toho
o tolik více
15:54 - 15:56

než jen člověk a dort.
15:56 - 16:01

Co počítač nevidí, je, že je to speciální
italský dort,
16:01 - 16:04

který se podává pouze při Velikonocích.
16:04 - 16:07

Chlapec má na sobě své nejoblíbenější
tričko,
16:07 - 16:11

které mu dal jeho otec po cestě do Sydney,
16:11 - 16:15

a vy i já dokážeme říct, jak je šťastný
16:15 - 16:18

a co si právě myslí.
16:19 - 16:22

Toto je můj syn Leo.
16:22 - 16:25

Při řešení zrakové inteligence,
16:25 - 16:27

myslím na Lea neustále,
16:27 - 16:30

a na svět, ve kterém bude žít.
16:30 - 16:32

Když stroje mohou vidět,
16:32 - 16:37

doktoři a sestry budou mít navíc
pár neúnavných očí,
16:37 - 16:41

které jim pomohou diagnostikovat
a starat se o pacienty.
16:41 - 16:45

Auta budou jezdit chytřeji a
bezpečněji.
16:45 - 16:48

Roboti, nejen lidé,
16:48 - 16:53

nám pomohou prozkoumat místa neštěstí,
aby zachránili uvězněné a zraněné.
16:54 - 16:58

Objevíme nové druhy,
lepší materiály,
16:58 - 17:02

a prozkoumáme neznámé hranice,
když nám stroje pomohou.
17:03 - 17:07

Postupně dáváme zrak strojům.
17:07 - 17:10

Nejdřív je učíme vidět.
17:10 - 17:13

Pak nám pomohou pomoci vidět lépe.
17:13 - 17:17

Poprvé, lidské oči nebudou jediné,
17:17 - 17:20

které zkoumají a objevují náš svět.
17:20 - 17:23

Nebudeme stroje používat jenom
kvůli jejich inteligenci,
17:23 - 17:30

ale můžeme spolupracovat způsoby,
které si ani neumíme představit.
17:30 - 17:32

Toto je můj úkol:
17:32 - 17:34

dát počítačům zrakovou inteligenci,
17:34 - 17:40

a vytvořit tak lepší budoucnost
pro Lea a svět.
17:40 - 17:41

Děkuji
17:41 - 17:45

(Potlesk)

Title:: Jak učíme počítače chápat obrázky
Speaker:: Fei-Fei Li
Description:: Když se malé dítě dívá na obrázky, dokáže identifikovat jednoduché prvky: "kočka", "kniha", "židle." Počítače se stávají dostatečně chytrými, aby to také dokázaly. A co dále? Ve vzrušující přednášce počítačová expertka Fei-Fei Li popisuje stávající stav - včetně databáze 15 milionů fotek, které její tým vytvořil pro naučení počítačů chápat obrázky - a nové pohledy na svět, které nás teprve čekají.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	Dimitra Papageorgiou approved Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková accepted Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures
	Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures

Show all

Czech subtitles

Revisions

Revision 18 Edited

Kateřina Jabůrková

Jak učíme počítače chápat obrázky

Revisions

Our website uses cookies

Operating cookies (Required)