Como estamos ensinando os computadores a compreender fotos

0:03 - 0:06

Deixem-me lhes mostrar algo.
0:06 - 0:10

(Vídeo) Garota: Certo, isso é um gato
sentado sobre a cama.
0:10 - 0:14

O garoto está acariciando o elefante.
0:14 - 0:18

Aquelas são pessoas
que estão entrando num avião.
0:18 - 0:21

É um avião grande!
0:21 - 0:24

Fei-Fei Li: Esta é uma criança
de três anos de idade
0:24 - 0:27

descrevendo o que vê numa série de fotos.
0:27 - 0:30

Ela ainda tem muito
o que aprender sobre este mundo,
0:30 - 0:35

mas já é uma especialista
numa importante tarefa:
0:35 - 0:38

dar sentido ao que vê.
0:38 - 0:42

Nossa sociedade está mais
tecnologicamente avançada do que nunca.
0:42 - 0:46

Mandamos pessoas para a Lua,
fazemos telefones que falam conosco
0:46 - 0:51

ou personalizamos estações de rádio
para tocar só as músicas de que gostamos.
0:51 - 0:55

No entanto, nossas máquinas
mais avançadas e computadores
0:55 - 0:58

ainda lutam para realizar esta tarefa.
0:58 - 1:01

Então, estou aqui hoje
para dar um relatório do progresso
1:01 - 1:05

sobre os últimos avanços
em nossa pesquisa em visão computacional,
1:05 - 1:10

uma das tecnologias mais inovadoras
e potencialmente revolucionárias
1:10 - 1:13

na ciência da computação.
1:13 - 1:17

Sim, temos protótipos de carros
que podem dirigir sozinhos,
1:17 - 1:21

mas sem uma visão inteligente,
não conseguem notar a diferença
1:21 - 1:25

entre um saco de papel amassado
na estrada, que pode ser atropelado,
1:25 - 1:29

e uma pedra daquele tamanho,
que deve ser evitada.
1:29 - 1:33

Fizemos câmeras incríveis de megapixel,
1:33 - 1:36

mas não demos visão aos cegos.
1:36 - 1:40

Os "drones" podem voar
sobre a terra firme,
1:40 - 1:42

mas não têm a tecnologia
de visão suficiente
1:42 - 1:45

para nos ajudar a rastrear
as mudanças das florestas tropicais.
1:45 - 1:48

As câmeras de segurança
estão em toda parte,
1:48 - 1:54

mas não nos alertam quando uma criança
está se afogando numa piscina.
1:54 - 2:00

Fotos e vídeos estão se tornando
partes integrais da vida global.
2:00 - 2:04

Estão sendo gerados a um ritmo
muito além do que qualquer humano,
2:04 - 2:07

-- ou grupos de seres humanos --
poderia esperar ver.
2:07 - 2:11

E vocês e eu estamos contribuindo
para isto nesta palestra TED.
2:11 - 2:16

No entanto, nosso software mais avançado
ainda tem dificuldade para compreender
2:16 - 2:20

e administrar este conteúdo enorme.
2:20 - 2:24

Então, em outras palavras,
coletivamente como sociedade,
2:24 - 2:26

somos muito cegos,
2:26 - 2:30

porque nossas máquinas
mais inteligentes ainda são cegas.
2:31 - 2:34

"Por que isto é tão difícil?",
vocês podem perguntar.
2:34 - 2:37

As câmeras podem tirar fotos como esta,
2:37 - 2:41

convertendo luzes numa matriz
bidimensional de números
2:41 - 2:43

conhecida como pixels,
2:43 - 2:45

mas estes são apenas números sem vida,
2:45 - 2:48

não carregam significado em si mesmos.
2:48 - 2:52

Assim como ouvir
não é o mesmo que escutar,
2:52 - 2:57

tirar fotos não é o mesmo que ver,
2:57 - 3:01

e por ver, queremos dizer, compreender.
3:01 - 3:07

Na verdade, a mãe natureza levou
540 milhões de anos de trabalho pesado
3:07 - 3:09

para realizar esta tarefa,
3:09 - 3:11

e muito deste esforço
3:11 - 3:17

foi para desenvolver o aparelho
de processamento visual do nosso cérebro,
3:17 - 3:19

não os olhos em si.
3:19 - 3:22

Então, a visão começa com os olhos,
3:22 - 3:26

mas acontece de fato no cérebro.
3:26 - 3:31

Então, por 15 anos, começando
com o meu doutorado na Caltech
3:31 - 3:34

e depois liderando
o Stanford's Vision Lab,
3:34 - 3:39

venho trabalhando com os meus mentores,
colaboradores e alunos
3:39 - 3:42

para ensinar os computadores a ver.
3:42 - 3:46

Nosso campo de pesquisa chama-se visão
computacional e aprendizado de máquina.
3:46 - 3:50

É parte do campo geral
da inteligência artificial.
3:51 - 3:56

Basicamente, queremos ensinar
as máquinas a ver como nós:
3:56 - 4:02

nomear objetos, identificar pessoas,
perceber a geometria 3D das coisas,
4:02 - 4:08

compreender relações, emoções,
ações e intenções.
4:08 - 4:14

Nós tecemos juntos histórias completas
das pessoas, lugares e coisas
4:14 - 4:16

no momento em que os vemos.
4:17 - 4:23

O primeiro passo rumo a este objetivo,
é ensinar um computador a ver objetos,
4:23 - 4:25

o bloco de construção do mundo visual.
4:25 - 4:30

De modo bem simples,
imaginem este processo de ensino
4:30 - 4:33

como mostrar aos computadores
algumas imagens de treinamento
4:33 - 4:37

de um objeto em particular, digamos gatos,
4:37 - 4:41

e projetar um modelo que aprenda
a partir destas imagens de treinamento.
4:41 - 4:43

Qual é a dificuldade disto?
4:43 - 4:47

Afinal de contas, um gato é apenas
uma coleção de forma e cores,
4:47 - 4:51

e foi o que fizemos nos primeiro dias
de modelagem de objetos.
4:51 - 4:55

Falamos ao algoritmo computacional,
numa linguagem matemática,
4:55 - 4:59

que um gato tem o rosto
arredondado, corpo gordinho,
4:59 - 5:01

duas orelhas pontudas e uma cauda longa,
5:01 - 5:02

e parecia tudo bem.
5:02 - 5:05

Mas, e este gato?
5:05 - 5:06

(Risos)
5:06 - 5:08

Ele está todo torto.
5:08 - 5:12

Agora é preciso adicionar outra forma
e outro ponto de vista ao objeto modelo.
5:12 - 5:15

Mas, e se os gatos estiverem escondidos?
5:15 - 5:17

E estes gatos bobos?
5:19 - 5:22

Agora vocês sabem do que estou falando.
5:22 - 5:25

Mesmo algo simples,
como um animal doméstico,
5:25 - 5:29

pode apresentar um número infinito
de variações ao objeto modelo,
5:29 - 5:32

e isto é só um objeto.
5:33 - 5:35

Então, há oito anos,
5:35 - 5:40

uma observação bem simples
e profunda mudou o meu pensamento.
5:41 - 5:44

Ninguém diz a uma criança como ver,
5:44 - 5:46

especialmente nos primeiros anos.
5:46 - 5:51

Elas aprendem através das experiências
e exemplos do mundo real.
5:51 - 5:54

Se considerarmos os olhos de uma criança
5:54 - 5:57

como um par de câmeras biológicas,
5:57 - 6:01

eles tiram uma foto
a cada 200 milissegundos,
6:01 - 6:04

o tempo médio em que o movimento
do olho é feito.
6:04 - 6:10

Então, aos três anos, uma criança
terá visto centenas de milhões de fotos
6:10 - 6:11

do mundo real.
6:11 - 6:14

São muitos exemplos de treinamento.
6:14 - 6:20

Então, em vez de focar
somente algoritmos melhores,
6:20 - 6:26

minha ideia foi dar-lhes
os tipos de dados de treinamento
6:26 - 6:29

que uma criança obtém
através das experiências,
6:29 - 6:33

tanto em quantidade quanto em qualidade.
6:33 - 6:35

Uma vez compreendendo isso,
6:35 - 6:38

sabíamos que precisávamos
coletar um conjunto de dados
6:38 - 6:42

que tivesse mais imagens
do que tínhamos antes,
6:42 - 6:45

talvez milhares de vezes mais,
6:45 - 6:49

e juntamente com o professor Kai Li,
da Universidade de Princeton,
6:49 - 6:54

lançamos o projeto ImageNet em 2007.
6:54 - 6:57

Felizmente, não tínhamos que colocar
uma câmera em nossas cabeças
6:57 - 6:59

e esperar por vários anos.
6:59 - 7:01

Fomos à internet,
7:01 - 7:05

o maior tesouro de imagens
que os humanos já criaram.
7:05 - 7:08

Baixamos aproximadamente
um bilhão de imagens
7:08 - 7:14

e usamos tecnologia de "crowdsourcing",
como a plataforma Amazon Mechanical Turk,
7:14 - 7:16

para nos ajudar
a classificar essas imagens.
7:16 - 7:21

No seu auge, o ImageNet foi
um dos maiores empregadores
7:21 - 7:24

de trabalhadores
da Amazon Mechanical Turk.
7:24 - 7:28

Juntos, quase 50 mil trabalhadores
7:28 - 7:32

de 167 países do mundo,
7:32 - 7:36

nos ajudaram a limpar,
separar e classificar
7:36 - 7:40

aproximadamente um bilhão
de candidatas a imagens.
7:41 - 7:43

Esse foi o tamanho do empenho
7:43 - 7:47

para capturar até mesmo
uma fração das imagens
7:47 - 7:51

que a mente de uma criança capta
nos primeiros anos de desenvolvimento.
7:51 - 7:56

Em retrospecto,
esta ideia de usar dados extensos
7:56 - 8:01

para treinar os algoritmos
computacionais pode parecer óbvia agora,
8:01 - 8:05

mas em 2007, não era tão óbvia assim.
8:05 - 8:09

Estivemos praticamente sós
nessa jornada por um bom tempo.
8:09 - 8:14

Alguns colegas próximos me aconselharam
a fazer algo mais útil pelo meu mandato,
8:14 - 8:18

e lutávamos constantemente para conseguir
financiamento para a pesquisa.
8:18 - 8:20

Uma vez, eu brinquei
com os meus alunos de graduação
8:20 - 8:24

que iria reabrir minha loja de lavagem
a seco para financiar o ImageNet.
8:24 - 8:29

Afinal de contas, foi assim
que financiei minha faculdade.
8:29 - 8:31

Então seguimos em frente.
8:31 - 8:35

Em 2009, o projeto ImageNet entregou
8:35 - 8:39

um banco de dados
de 15 milhões de imagens,
8:39 - 8:44

entre 22 mil classes de objetos e coisas,
8:44 - 8:47

organizadas pelas palavras
cotidianas em inglês.
8:47 - 8:50

Tanto em quantidade quanto em qualidade,
8:50 - 8:53

isso foi uma escala sem precedentes.
8:53 - 8:56

Como exemplo, no caso dos gatos,
8:56 - 8:59

temos mais de 62 mil gatos
8:59 - 9:03

de todos os aspectos e poses;
9:03 - 9:08

e todas as espécies
de gatos domésticos e selvagens.
9:08 - 9:12

Ficamos muito felizes em criar o ImageNet
9:12 - 9:15

e queríamos que todo o mundo das pesquisas
se beneficiasse com ele.
9:15 - 9:20

Assim, à moda TED, abrimos
todo o conjunto de dados
9:20 - 9:23

para a comunidade mundial
de pesquisa gratuitamente.
9:23 - 9:27

(Aplausos)
9:29 - 9:34

Agora que temos os dados para alimentar
o cérebro do nosso computador,
9:34 - 9:38

estamos prontos para retornar
aos algoritmos em si.
9:38 - 9:43

Como se viu, a riqueza de informações
fornecidas pelo ImageNet
9:43 - 9:48

foi um ajuste perfeito para uma classe
de algoritmos de aprendizado de máquina
9:48 - 9:50

chamada "rede neural convolucional",
9:50 - 9:55

iniciada por Kunihiko Fukushima,
Geoff Hinton e Yann LeCun
9:55 - 9:58

nos anos 1970 e 1980.
9:59 - 10:05

Assim como o cérebro é composto de bilhões
de neurônios altamente conectados,
10:05 - 10:08

uma unidade operacional básica
numa rede neural
10:08 - 10:11

é como um nó neuronal.
10:11 - 10:13

Ela obtém informações de outros nós
10:13 - 10:16

e envia dados para outros.
10:16 - 10:21

Além disso, essas centenas de milhares,
ou mesmo milhões de nós,
10:21 - 10:24

são organizadas em camadas hierárquicas,
10:24 - 10:27

parecidas com o cérebro.
10:27 - 10:31

Numa rede neural que usamos para treinar
nosso modelo de reconhecimento de objetos
10:31 - 10:35

há 24 milhões de nós,
10:35 - 10:37

140 milhões de parâmetros
10:37 - 10:40

e 15 bilhões de conexões.
10:40 - 10:43

É um modelo enorme.
10:43 - 10:47

Alimentada pelos dados
consideráveis do ImageNet
10:47 - 10:52

e os modernos CPUs e GPUs
para treinar um modelo colossal,
10:52 - 10:54

a rede neural convolucional
10:54 - 10:58

floresceu de um modo que ninguém esperava.
10:58 - 11:01

Tornou-se a arquitetura vencedora
11:01 - 11:06

para gerar novos resultados animadores
em reconhecimento de objetos.
11:06 - 11:09

Isto é um computador nos dizendo
11:09 - 11:11

que esta foto contém um gato
11:11 - 11:13

e onde ele está.
11:13 - 11:15

É claro que há mais coisas além de gatos.
11:15 - 11:18

Aqui está um algoritmo
computacional nos dizendo
11:18 - 11:21

que a foto contém um garoto
e um urso de pelúcia;
11:21 - 11:25

um cão, uma pessoa
e uma pequena pipa ao fundo;
11:25 - 11:28

ou uma foto com muitas informações
11:28 - 11:33

como um homem, um skate, corrimãos,
um poste de luz, e assim por diante.
11:33 - 11:34

Às vezes,
11:34 - 11:37

quando o computador
não tem certeza do que vê,
11:37 - 11:39

(Risos)
11:39 - 11:42

nós o ensinamos
a ser inteligente o bastante
11:42 - 11:46

para nos dar uma resposta segura
em vez de ficar deduzindo muito,
11:46 - 11:48

como nós faríamos.
11:48 - 11:53

Mas outras vezes, nosso algoritmo
computacional é notável aos nos dizer
11:53 - 11:55

exatamente o que são os objetos,
11:55 - 11:59

como a marca, o modelo e o ano dos carros.
11:59 - 12:04

Nós cruzamos esse algoritmo com milhões
de imagens do Google Street View
12:04 - 12:07

em centenas de cidades americanas
12:07 - 12:10

e descobrimos algo muito interessante:
12:10 - 12:14

primeiro, confirmou-se
a nossa sabedoria popular
12:14 - 12:17

de que preços de carros estão relacionados
12:17 - 12:19

ao rendimento das famílias.
12:19 - 12:24

Mas surpreendentemente,
o preço dos carros também se relaciona
12:24 - 12:26

com as taxas de crimes nas cidades,
12:26 - 12:30

ou padrões de votos pelo CEPs.
12:32 - 12:34

Espere um pouco. É isso mesmo?
12:34 - 12:39

Os computadores já igualaram ou mesmo
superaram as capacidades humanas?
12:39 - 12:42

Não tão rápido.
12:42 - 12:46

Até agora, apenas ensinamos
os computadores a ver objetos.
12:46 - 12:51

É como uma criancinha aprendendo
a pronunciar algumas palavras.
12:51 - 12:54

É um feito incrível,
12:54 - 12:56

mas é apenas o primeiro passo.
12:56 - 13:00

Em breve, outro marco
de desenvolvimento será atingido,
13:00 - 13:04

e as crianças começam
a se comunicar por meio de frases.
13:04 - 13:08

Então, em vez de dizer
que isto é um gato na foto,
13:08 - 13:13

vocês ouviram a garotinha nos dizendo
que isto é um gato deitado na cama.
13:13 - 13:18

Então, para ensinar um computador
a ver uma foto e criar frases,
13:18 - 13:22

o casamento entre os dados
e o algoritmo de aprendizado de máquina
13:22 - 13:25

deve dar outro passo.
13:25 - 13:29

Agora, o computador tem que aprender
tanto com as fotos
13:29 - 13:32

quanto com as frases em linguagem natural
13:32 - 13:35

geradas por humanos.
13:35 - 13:39

Assim como o cérebro integra
visão e linguagem,
13:39 - 13:44

nós desenvolvemos um modelo
que conecta partes de coisas visuais,
13:44 - 13:46

como fragmentos visuais,
13:46 - 13:50

com palavras e ideias em frases.
13:51 - 13:53

Há uns quatro meses,
13:53 - 13:56

finalmente juntamos tudo isso,
13:56 - 13:59

e produzimos um dos primeiros
modelos de visão computacional
13:59 - 14:03

capaz de gerar frases do jeito humano
14:03 - 14:07

quando vê uma foto pela primeira vez.
14:07 - 14:12

Agora, vou mostrar o que o computador diz
14:12 - 14:14

quando vê a foto
14:14 - 14:17

que a garotinha viu,
no início desta palestra.
14:19 - 14:22

(Vídeo) Computador: Um homem está
em pé, próximo a um elefante.
14:24 - 14:28

Um grande avião sentado em cima
de uma pista de aeroporto.
14:29 - 14:33

FFL: Claro, estamos trabalhando com afinco
para melhorar nossos algoritmos,
14:33 - 14:36

e ele ainda tem muito o que aprender.
14:36 - 14:38

(Aplausos)
14:39 - 14:42

E o computador ainda comete erros.
14:42 - 14:46

(Vídeo) Computador: Um gato deitado
numa cama com um cobertor. (Risos)
14:46 - 14:49

FFL: É claro, quando ele vê muitos gatos,
14:49 - 14:52

ele acha que tudo se parece com um gato.
14:53 - 14:56

(Vídeo) Computador: Um garoto
está segurando um taco de beisebol.
14:56 - 14:58

(Risos)
14:58 - 15:02

FFL: Se nunca viu uma escova de dentes,
ele a confunde com um taco de beisebol.
15:03 - 15:07

(Vídeo) Computador: Um homem monta
um cavalo na rua, próximo a um edifício.
15:07 - 15:09

(Risos)
15:09 - 15:12

FFL: Não ensinamos Arte 101
aos computadores.
15:14 - 15:17

(Vídeo) Computador: Uma zebra
num campo gramado.
15:17 - 15:20

FFL: E ele não aprendeu a apreciar
a deslumbrante beleza da natureza
15:20 - 15:22

como nós apreciamos.
15:22 - 15:25

Tem sido uma longa jornada.
15:25 - 15:29

Ir da idade zero a três foi difícil.
15:29 - 15:35

O verdadeiro desafio é ir
dos 3 aos 13 e além disso.
15:35 - 15:39

Vejam esta foto do garoto
com o bolo novamente.
15:39 - 15:44

Até então, ensinamos
o computador a ver objetos
15:44 - 15:47

ou mesmo contar-nos uma simples
história quando vê uma foto.
15:47 - 15:52

(Vídeo) Computador: Uma pessoa
sentada à mesa com um bolo.
15:52 - 15:54

FFL: Mas há muito mais nesta foto
15:54 - 15:56

do que apenas uma pessoa e um bolo.
15:56 - 16:01

O que o computador não vê
é que esta é uma colomba
16:01 - 16:04

que é servida apenas durante a Páscoa.
16:04 - 16:07

O garoto está vestindo
a sua camiseta preferida,
16:07 - 16:11

que lhe foi dada de presente
pelo pai após uma viagem a Sydney.
16:11 - 16:15

E nós podemos ver a felicidade dele,
16:15 - 16:18

e o que está se passando em sua mente
exatamente naquele momento.
16:19 - 16:22

Este é o meu filho Leo.
16:22 - 16:24

Em minha busca pela inteligência visual,
16:24 - 16:27

penso nele constantemente
16:27 - 16:30

e no mundo futuro em que ele viverá.
16:30 - 16:32

Quando as máquinas puderem ver,
16:32 - 16:37

médicos e enfermeiros terão
pares extras de olhos incansáveis
16:37 - 16:41

para ajudá-los a diagnosticar
e cuidar de pacientes.
16:41 - 16:45

Os carros funcionarão de forma
mais inteligente e segura nas estradas.
16:45 - 16:48

Robôs, não apenas seres humanos,
16:48 - 16:51

nos ajudarão a realizar buscas
em áreas de desastres
16:51 - 16:53

e a salvar pessoas soterradas e feridas.
16:53 - 16:58

Descobriremos novas espécies,
materiais melhores
16:58 - 17:02

e exploraremos lugares que não podemos ver
com a ajuda das máquinas.
17:03 - 17:07

Pouco a pouco, estamos dando
visão às máquinas.
17:07 - 17:10

Primeiro, as ensinamos a ver,
17:10 - 17:13

então elas nos ajudam a ver melhor.
17:13 - 17:14

Pela primeira vez,
17:14 - 17:20

os olhos humanos não serão os únicos
ponderando e explorando nosso mundo.
17:20 - 17:23

Não usaremos as máquinas
apenas pela sua inteligência;
17:23 - 17:29

colaboraremos também com elas
de uma maneira que nem sequer imaginamos.
17:29 - 17:32

Esta é a minha busca:
17:32 - 17:34

dar aos computadores inteligência visual
17:34 - 17:39

e criar um futuro melhor
para o Leo e para o mundo.
17:39 - 17:40

Obrigada.
17:40 - 17:43

(Aplausos)

Title:: Como estamos ensinando os computadores a compreender fotos
Speaker:: Fei-Fei Li
Description:: Quando uma criancinha olha para uma foto, ela consegue identificar elementos simples: "gato", "livro", "cadeira". Bem, os computadores estão ficando inteligentes o suficiente para fazer isso também. O que vem a seguir? Em uma palestra animada, a especialista em visão computacional Fei-Fei Li fala sobre tecnologia de ponta - incluindo um banco de dados de 15 milhões de fotos que a sua equipe reuniu para "ensinar" um computador a compreender fotos - e sobre ideias importantes que estão por vir.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Leonardo Silva approved Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Maricene Crus edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Maricene Crus edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures
	Maricene Crus accepted Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures

Show all

Portuguese, Brazilian subtitles

Revisions Compare revisions

Revision 19 Edited

Leonardo Silva
Revision 18 Edited

Leonardo Silva

	Revision Number	Author	Created
	19	Leonardo Silva
	18	Leonardo Silva

Como estamos ensinando os computadores a compreender fotos

Revisions Compare revisions

Our website uses cookies

Operating cookies (Required)