Jak učíme počítače chápat obrázky
-
0:03 - 0:06Něco vám ukážu.
-
0:06 - 0:10(Video) Holčička: Dobře, to je kočka
sedící na posteli. -
0:10 - 0:14Kluk si hladí slona.
-
0:14 - 0:19To jsou lidi, co nastupují do letadla.
-
0:19 - 0:21Je to velké letadlo.
-
0:21 - 0:24Fei-Fei Li: Toto je tříleté dítě
-
0:24 - 0:27popisující, co vidí na sérii fotek.
-
0:27 - 0:30Ještě se má hodně co učit o světě,
-
0:30 - 0:35ale už teď je expert na jednu velmi
důležitou věc: -
0:35 - 0:38dávat smysl tomu, co vidí.
-
0:38 - 0:42Naše společnost je více technologicky
vyvinutá než kdy předtím. -
0:42 - 0:46Posíláme lidi na měsíc,
vyrábíme telefony, co na nás mluví, -
0:46 - 0:51nebo si můžeme upravit radio, aby
hrálo jenom hudbu, kterou chceme. -
0:51 - 0:55Přesto naše nejvyvinutější stroje
a počítače -
0:55 - 0:58tenhle úkol nezvládají.
-
0:58 - 1:01Já jsem tu dnes, abych vám dala hlášení
o vývoji -
1:01 - 1:05posledních pokroků v našem výzkumu
počítačového zraku, -
1:05 - 1:10jedné z nejhraničnějších a
potencionálně revolučních -
1:10 - 1:13technologiích v počítačové vědě.
-
1:13 - 1:17Ano, navrhli jsme auta,
která sama řídí, -
1:17 - 1:21ale bez chytrého zraku,
nerozeznají -
1:21 - 1:25zmuchlaný papírový sáček na silnici,
který se může přejet, -
1:25 - 1:29od kamenu stejné velikosti,
který by bylo lepší objet. -
1:29 - 1:33Vytvořili jsme úžasné megapixelové foťáky,
-
1:33 - 1:36ale neumíme slepým vrátit zrak.
-
1:36 - 1:40Drony mohou létat po rozsáhlé krajině,
-
1:40 - 1:42ale nemají dostatečnou
vizuální technologie, -
1:42 - 1:45aby nám pomohly mapovat změny
v deštných pralesech. -
1:45 - 1:48Kamerové systémy jsou všude,
-
1:48 - 1:53ale neupozorní nás, když se dítě
topí v bazénu. -
1:54 - 2:00Fotky a videa se stávají nezbytnou
součástí života. -
2:00 - 2:04Jsou vytvářeny rychlostí, která je
mnohem vyšší -
2:04 - 2:07než jsme si dokázali představit,
-
2:07 - 2:11a já zde na TEDu k tomu přispívám.
-
2:11 - 2:16Přesto všechno naše nejdokonalejší
programy stále zápasí s porozuměním -
2:16 - 2:20a ovládáním tohoto ohromného obsahu.
-
2:20 - 2:25Jiný slovy, dohromady jako společnost
-
2:25 - 2:27jsme prakticky slepí,
-
2:27 - 2:30protože naše nejchytřejší stroje
jsou slepé. -
2:31 - 2:34"Proč je to tak těžké?" ptáte se.
-
2:34 - 2:37Foťáky mohou vyfotit obrázek jako tento
-
2:37 - 2:41převedením světel do dvoudimenzionální
soustavy -
2:41 - 2:43známé jako pixely,
-
2:43 - 2:45ale to jsou jenom neživá čísla.
-
2:45 - 2:48Sama o sobě nemají smysl.
-
2:48 - 2:52Stejně jako slyšet není to samé
jako poslouchat, -
2:52 - 2:57fotit není to samé jako vidět,
-
2:57 - 3:00a viděním myslíme chápaní.
-
3:01 - 3:07Ve skutečnosti, Matce Zemi trvalo
540 milionů let tvrdé práce, -
3:07 - 3:09aby tohoto dosáhla
-
3:09 - 3:11a velká část této snahy
-
3:11 - 3:17padla na vývoj zrakové procesního
aparátu v našem mozku, -
3:17 - 3:19nejen na oči samotné.
-
3:19 - 3:22Takže zrak začíná očima,
-
3:22 - 3:26ale odehrává se v mozku.
-
3:26 - 3:31Již po 15 let od mého doktorátu
na Caltechu -
3:31 - 3:34a vedení laboratoře
Stanford's Vision, -
3:34 - 3:39pracuji se svými mentory, spolupracovníky
a studenty na tom, -
3:39 - 3:42abychom naučili počítače vidět.
-
3:43 - 3:46Náš výzkum se jmenuje počítačový zrak
a učení strojů. -
3:46 - 3:50Je to součástí obecného oboru
o umělé inteligenci. -
3:51 - 3:56Chceme naučit stroje,
aby viděly jako my: -
3:56 - 4:02pojmenovávat objekty, identifikovat lidi,
odvozovat 3D geometrii věcí, -
4:02 - 4:08pochopení vztahů, emocí, akcí a úmyslů.
-
4:08 - 4:14Vy a já dohromady splétáme celé příběhy
lidí, míst a věcí -
4:14 - 4:16v okamžik, kdy je spatříme.
-
4:17 - 4:23Prvním krokem k dosažení tohoto cíle
je naučit počítače vidět objekty, -
4:23 - 4:26základní kameny světa vidění.
-
4:26 - 4:30Jednoduše řečeno, představte si tento
proces učení -
4:30 - 4:33jako ukazování počítačům
tréninkové obrázky -
4:33 - 4:37konkrétního objektu, například koček,
-
4:37 - 4:41a vytváření modelu, který se učí z těchto
tréninkových obrázků. -
4:41 - 4:43Jak těžké to může být?
-
4:43 - 4:47Vždyť kočka je jen sbírka tvarů a barev
-
4:47 - 4:52a to je přesně to, co jsme udělali
v začátcích objektového modelování. -
4:52 - 4:55Naučili jsme počítače algoritmus
v matematickém jazyce, -
4:55 - 4:59že kočka má kulatý obličej,
zaoblené tělo, -
4:59 - 5:01dvě špičaté uši, a dlouhý ocas,
-
5:01 - 5:02a všechno vypadalo dobře.
-
5:03 - 5:05Ale co třeba tahle kočka?
-
5:05 - 5:06(Smích)
-
5:06 - 5:07Je celá pokřivená.
-
5:07 - 5:12Nyní musíte tedy přidat další tvar a
pohled danému modelu. -
5:12 - 5:14Ale co když jsou kočky schované?
-
5:15 - 5:17Co tyhle pošetilé kočky?
-
5:19 - 5:22Teď už mě chápete.
-
5:22 - 5:25Tak jednoduchá věc jako je
domácí mazlíček -
5:25 - 5:29může mít nekonečné množství
variací objektovému modelu, -
5:29 - 5:32a to je to jenom jeden objekt.
-
5:33 - 5:35Takže před zhruba osmi lety,
-
5:35 - 5:40jeden prostý, ale pronikavý prostřeh
změnil mé myšlení. -
5:41 - 5:44Nikdo neříká dítěti jak má vidět,
-
5:44 - 5:46obzvláště v raném věku.
-
5:46 - 5:51Naučí se to pomocí skutečných
životních zkušeností a příkladů. -
5:51 - 5:54Když si představíte dětské oči
-
5:54 - 5:57jako pár biologických foťáků,
-
5:57 - 6:01vyfotí jeden obrázek každých
200 milisekund, -
6:01 - 6:04což je průměrný čas, za který
se oko pohne. -
6:04 - 6:10Takže ve třetím roce dítě
vidělo stovky milionů obrázků -
6:10 - 6:11skutečného světa.
-
6:11 - 6:14To je celkem hodně tréninkových příkladů.
-
6:14 - 6:20Místo cílení na lepší algoritmy,
-
6:20 - 6:26můj nápad byl dát algoritmům taková
tréninková data, -
6:26 - 6:29jaká byla dána dítěti skrze zkušenosti
-
6:29 - 6:33jak množstevně, tak kvalitou.
-
6:33 - 6:35Jakmile jsme toto pochopili,
-
6:35 - 6:38věděli jsme, že potřebujeme sehnat
sadu dat, -
6:38 - 6:42která má v sobě mnohem více obrázků,
než jsme kdy měli, -
6:42 - 6:45možná i tisíckrát více,
-
6:45 - 6:49a společně s profesorem Kai Li
na Princetonské univerzitě, -
6:49 - 6:54jsme v roce 2007 spustili
projekt ImageNet. -
6:54 - 6:57Naštěstí jsme si nemuseli namontovat
kameru na hlavu -
6:57 - 6:59a čekat mnoho let.
-
6:59 - 7:01Šli jsme na internet,
-
7:01 - 7:05největší pokladnice obrázků,
kterou jsme jako lidé vytvořili. -
7:05 - 7:08Stáhli jsme téměř miliardu obrázků
-
7:08 - 7:14a využili crowdsourcingové technologie
jako Amazon Mechanical Turk, -
7:14 - 7:16aby nám pomohly pojmenovat tyto obrázky.
-
7:16 - 7:21Na svém vrcholu, ImageNet byl jedním
z největších zaměstnavatelů -
7:21 - 7:24pracovníků Amazon Mechanical Turk:
-
7:24 - 7:28celkem téměř 50 tisíc pracovníků,
-
7:28 - 7:32ze 167 zemí světa,
-
7:32 - 7:36nám pomohlo vyčistit, utřídit a označit
-
7:36 - 7:40téměř miliardu potencionálních obrázků.
-
7:41 - 7:43Přesně tolik úsilí nás stálo
-
7:43 - 7:47zachytili pouze zlomek obrázků,
-
7:47 - 7:51které dětská mysl přijímá
během svých počátečních vývojových let. -
7:52 - 7:56Při pohledu zpět, nápad používání
velkého množství dat -
7:56 - 8:01pro učení počítačových algoritmů
se nyní může zdát samozřejmý, -
8:01 - 8:05ale v roce 2007 tomu tak nebylo.
-
8:05 - 8:09Byli jsme po docela dlouhou dobu
na této cestě sami. -
8:09 - 8:14Někteří mí kolegové mi doporučovali,
abych dělala něco užitečnějšího, -
8:14 - 8:18a neustále jsme sháněli finance
pro náš výzkum. -
8:18 - 8:20Jednou jsem dokonce vtipkovala se svými
studenty, -
8:20 - 8:24že si znovu otevřu svoji čistírnu, abych
zaplatila ImageNet. -
8:24 - 8:29Přece jen, tak jsem financovala svoje
studia na univerzitě. -
8:29 - 8:31Tak jsme pokračovali.
-
8:31 - 8:35V roce 2009 projekt ImageNet vytvořil
-
8:35 - 8:39databázi 15 milionů obrázků
-
8:39 - 8:44napříč 22 000 tříd objektů a věcí
-
8:44 - 8:47organizovaných podle každodenních
anglických slov. -
8:47 - 8:50V obou - kvantitě i kvalitě,
-
8:50 - 8:53v nevídaném množství.
-
8:53 - 8:56Uvedu příklad na zmiňovaných kočkách,
-
8:56 - 8:59měli jsme více než 62 tisíc koček
-
8:59 - 9:03různého vzhledu, v různých pózách
-
9:03 - 9:08a všechny druhy domácích i divokých koček.
-
9:08 - 9:12Byli jsme nadšení, že jsme mohli
dát ImageNet dohromady -
9:12 - 9:16a chtěli jsme, aby toho mohl využívat
celý výzkumný svět, -
9:16 - 9:20takže podle TEDu, jsme celý náš data set
otevřeli -
9:20 - 9:23pro celosvětovou výzkumnou komunitu
zadarmo. -
9:25 - 9:29(Potlesk)
-
9:29 - 9:34Když teď máme data, kterými můžeme
krmit náš počítačový mozek, -
9:34 - 9:38jsme připraveni se vrátit zpět
k algoritmům jako takovým. -
9:38 - 9:43Jak se pak ukázalo, hojnost informací
z ImageNetu -
9:43 - 9:48byla perfektní pro konkrétní třídu
algoritmů pro učení strojů, které -
9:48 - 9:50se nazývaly konvoluční neuronová síť,
-
9:50 - 9:55vytvořené Kunihikem Fukushimou,
Geoffem Hintonem a Yannem LeCunem -
9:55 - 9:59během 70. a 80. let 20. století.
-
9:59 - 10:05Stejně jako se mozek skládá z miliard
vzájemně propojených neuronů, -
10:05 - 10:08základní operační jednotkou
v neuronové síti -
10:08 - 10:11je uzel podobný neuronu.
-
10:11 - 10:13Vstup si vezme od jiných uzlů
-
10:13 - 10:16a pošle výstup dalším.
-
10:16 - 10:21Navíc tyto stovky tisíc či dokonce
miliony uzlů -
10:21 - 10:24jsou organizovány v hierarchistických
vrstvách, -
10:24 - 10:27podobně jako v mozku.
-
10:27 - 10:29V klasické neuronové síti, kterou
používáme, -
10:29 - 10:32abychom naučili náš model
rozpoznávání objektů -
10:32 - 10:35je 24 milionů uzlů,
-
10:35 - 10:38140 milionů parametrů
-
10:38 - 10:41a 15 miliard spojení.
-
10:41 - 10:43To je obrovský model.
-
10:43 - 10:47Poháněný ohromným množstvím dat
z ImageNet -
10:47 - 10:52a moderními CPU a GPU k trénování
takto velkého modelu, -
10:52 - 10:55konvoluční neuronová síť
-
10:55 - 10:58kvete tak, jak by nikdo nečekal.
-
10:58 - 11:01Stala se vítěznou architekturou
-
11:01 - 11:06k vytváření nových úžasných výsledků
v rozpoznávání objektů. -
11:06 - 11:09Toto je počítač, který nám říká,
-
11:09 - 11:11že na obrázku je kočka
-
11:11 - 11:13a kde ta kočka je.
-
11:13 - 11:15Samozřejmě existuje víc věcí než
jen kočky, -
11:15 - 11:18takže tady je algoritmus počítače,
který říká, -
11:18 - 11:21že obrázek obsahuje chlapce a medvídka,
-
11:21 - 11:25psa, osobu a malého draka v pozadí,
-
11:25 - 11:28nebo velice chaotický obrázek plný věcí,
-
11:28 - 11:33jako je muž, skateboard, zábradlí,
lampa atd. -
11:33 - 11:38Někdy, když si počítač není jistý,
co vidí, -
11:39 - 11:42naučili jsme ho,
aby byl dostatečně chytrý, -
11:42 - 11:46a aby odpověděl neutrálně,
než aby se k něčemu zavázal, -
11:46 - 11:48stejně jako bychom to udělali my,
-
11:48 - 11:53ale jindy nám náš počítačový algoritmus
znamenitě vysvětlí, -
11:53 - 11:55co přesně dané objekty jsou,
-
11:55 - 11:59jako například značka, model a rok u auta.
-
11:59 - 12:04Aplikovali jsme tento algoritmus na
miliony obrázků z Google Street View -
12:04 - 12:07napříč stovkami amerických měst,
-
12:07 - 12:10a zjistili jsme něco velice zajímavého:
-
12:10 - 12:14zaprvé, to potvrdilo známou pravdu,
-
12:14 - 12:17že ceny aut jsou přímo úměrné
-
12:17 - 12:19příjmům domácností.
-
12:19 - 12:24A překvapivě, ceny aut
jsou také závislé -
12:24 - 12:26na kriminalitě v daných městech,
-
12:27 - 12:31a nebo volební názory na PSČ.
-
12:32 - 12:34Takže, to je ono?
-
12:34 - 12:39Dosáhly počítače lidských schopností,
nebo je snad dokonce přesáhly? -
12:39 - 12:42Ne tak rychle.
-
12:42 - 12:46Zatím jsme počítač naučili jenom
vidět věci. -
12:46 - 12:51Je to jako malé dítě, které se učí
vyslovit pár slov. -
12:51 - 12:54Je to neuvěřitelný úspěch,
-
12:54 - 12:56ale je to teprve první krok.
-
12:56 - 13:00Brzy, další vývojový mezník bude
dosažen, -
13:00 - 13:03a děti se naučí mluvit ve větách.
-
13:03 - 13:08Takže místo tvrzení - to je kočka,
-
13:08 - 13:13slyšeli jsme holčičku říct, že kočka
leží na posteli. -
13:13 - 13:18Abychom naučili počítač vidět obrázek
a vytořit věty, -
13:18 - 13:22vztah mezi velkým množstvím dat a
algoritmem učení strojů -
13:22 - 13:25musí dosáhnout další fáze.
-
13:25 - 13:29Nyní se počítač musí učit z obou částí,
-
13:29 - 13:32stejně tak jako jsou věty
-
13:32 - 13:35vytvářené lidmi.
-
13:35 - 13:39Stejně jako mozek spojuje zrak a jazyk,
-
13:39 - 13:44vytvořili jsme model, který spojuje
části zraku, -
13:44 - 13:46jako vizuální ústřižky
-
13:46 - 13:50se slovy a frázemi ve větách.
-
13:50 - 13:53Zhruba před čtyřmi měsíci,
-
13:53 - 13:56jsme to konečně spojili
-
13:56 - 13:59a vytvořili jeden z prvních modelů
počítačového zraku, -
13:59 - 14:03který je schopen vytvářet lidskou větu,
-
14:03 - 14:07když vidí daný obrázek poprvé.
-
14:07 - 14:12Nyní vám ukážu, co počítač řekne,
-
14:12 - 14:14když vidí obrázek,
-
14:14 - 14:17který viděla holčička na začátku.
-
14:20 - 14:23(Video) Počítač: Muž stojí vedle slona.
-
14:24 - 14:28Velké letadlo sedí na letištní runwayi.
-
14:29 - 14:33FFL: Samozřejmě, stále pracujeme
na zlepšení našich algoritmů -
14:33 - 14:36a stále je toho hodně, co se učit.
-
14:36 - 14:38(Potlesk)
-
14:40 - 14:43A počítač dělá i chyby.
-
14:43 - 14:46(Video) Počítač: Kočka ležící na posteli
pod dekou. -
14:46 - 14:49FFL: samozřejmě, že když vidí tolik koček,
-
14:49 - 14:52myslí si, že všechno může vypadat jako
kočka. -
14:53 - 14:56(Video) Počítač: Mladý chlapec drží
baseballovou pálku. -
14:56 - 14:58(Smích)
-
14:58 - 15:03FFL: Nebo pokud ještě neviděl kartáček,
splete si ho s basebalkou. -
15:03 - 15:07(Video) Počítač: Muž jede na koni po ulici
vedle budovy. -
15:07 - 15:09(Smích)
-
15:09 - 15:12FFL: Nenaučili jsme naše počítače
základy umění. -
15:14 - 15:17(Video) Počítač: Zebra stojí na poli trávy.
-
15:17 - 15:20FFL: A ještě neumí ocenit krásu přírody
-
15:20 - 15:22jako vy a já.
-
15:22 - 15:25Je to dlouhá cesta.
-
15:25 - 15:30Dostat se od věku 0 do 3 let bylo těžké.
-
15:30 - 15:35Opravdová výzva je dostat se od 3 let
ke 13 a dál. -
15:35 - 15:39Dovolte mi ukázat ještě jednou obrázek
chlapce s dortem. -
15:39 - 15:44Zatím jsme počítač naučili vidět objekty,
-
15:44 - 15:48či dokonce říct krátce co vidí na obrázku.
-
15:48 - 15:52(Video) Počítač: Člověk sedí u stolu
s dortem. -
15:52 - 15:54FFL: Ale na tom obrázku je toho
o tolik více -
15:54 - 15:56než jen člověk a dort.
-
15:56 - 16:01Co počítač nevidí, je, že je to speciální
italský dort, -
16:01 - 16:04který se podává pouze při Velikonocích.
-
16:04 - 16:07Chlapec má na sobě své nejoblíbenější
tričko, -
16:07 - 16:11které mu dal jeho otec po cestě do Sydney,
-
16:11 - 16:15a vy i já dokážeme říct, jak je šťastný
-
16:15 - 16:18a co si právě myslí.
-
16:19 - 16:22Toto je můj syn Leo.
-
16:22 - 16:25Při řešení zrakové inteligence,
-
16:25 - 16:27myslím na Lea neustále,
-
16:27 - 16:30a na svět, ve kterém bude žít.
-
16:30 - 16:32Když stroje mohou vidět,
-
16:32 - 16:37doktoři a sestry budou mít navíc
pár neúnavných očí, -
16:37 - 16:41které jim pomohou diagnostikovat
a starat se o pacienty. -
16:41 - 16:45Auta budou jezdit chytřeji a
bezpečněji. -
16:45 - 16:48Roboti, nejen lidé,
-
16:48 - 16:53nám pomohou prozkoumat místa neštěstí,
aby zachránili uvězněné a zraněné. -
16:54 - 16:58Objevíme nové druhy,
lepší materiály, -
16:58 - 17:02a prozkoumáme neznámé hranice,
když nám stroje pomohou. -
17:03 - 17:07Postupně dáváme zrak strojům.
-
17:07 - 17:10Nejdřív je učíme vidět.
-
17:10 - 17:13Pak nám pomohou pomoci vidět lépe.
-
17:13 - 17:17Poprvé, lidské oči nebudou jediné,
-
17:17 - 17:20které zkoumají a objevují náš svět.
-
17:20 - 17:23Nebudeme stroje používat jenom
kvůli jejich inteligenci, -
17:23 - 17:30ale můžeme spolupracovat způsoby,
které si ani neumíme představit. -
17:30 - 17:32Toto je můj úkol:
-
17:32 - 17:34dát počítačům zrakovou inteligenci,
-
17:34 - 17:40a vytvořit tak lepší budoucnost
pro Lea a svět. -
17:40 - 17:41Děkuji
-
17:41 - 17:45(Potlesk)
- Title:
- Jak učíme počítače chápat obrázky
- Speaker:
- Fei-Fei Li
- Description:
-
Když se malé dítě dívá na obrázky, dokáže identifikovat jednoduché prvky: "kočka", "kniha", "židle." Počítače se stávají dostatečně chytrými, aby to také dokázaly. A co dále? Ve vzrušující přednášce počítačová expertka Fei-Fei Li popisuje stávající stav - včetně databáze 15 milionů fotek, které její tým vytvořil pro naučení počítačů chápat obrázky - a nové pohledy na svět, které nás teprve čekají.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Dimitra Papageorgiou approved Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková accepted Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures | ||
Kateřina Jabůrková edited Czech subtitles for How we're teaching computers to understand pictures |