Como estamos a ensinar os computadores a entender imagens

0:04 - 0:06

Vou mostrar-vos uma coisa.
0:06 - 0:10

(Vídeo) Menina: Isto é um gato
sentado numa cama.
0:10 - 0:13

O rapaz está a fazer festas ao elefante.
0:15 - 0:18

Isso são pessoas a ir para um avião.
0:19 - 0:21

É um grande avião.
0:21 - 0:24

Fei-Fei Li: Esta é uma criança de 3 anos
0:24 - 0:27

a descrever o que vê num
conjunto de fotografias.
0:27 - 0:30

Ela poderá ter ainda muito
para aprender neste mundo,
0:30 - 0:35

mas já é especialista
numa tarefa muito importante:
0:35 - 0:37

dar sentido ao que vê.
0:38 - 0:42

A nossa sociedade
está mais avançada do que nunca.
0:42 - 0:46

Enviamos pessoas para a lua,
fazemos telefones que falam connosco
0:46 - 0:51

ou personalizamos estações de rádio
que apenas tocam música de que gostamos.
0:51 - 0:55

No entanto, as nossas máquinas
e computadores mais avançados
0:55 - 0:58

ainda têm dificuldade
em realizar esta tarefa.
0:58 - 1:01

Por isso estou aqui hoje,
para vos dar um relato
1:01 - 1:05

sobre os últimos avanços do nosso trabalho
em visão computacional,
1:05 - 1:10

uma das tecnologias mais inovadoras
e potencialmente mais revolucionárias
1:10 - 1:12

da ciência informática.
1:13 - 1:17

É verdade que já temos protótipos
de carros que conduzem sozinhos,
1:17 - 1:21

mas sem visão inteligente,
eles não conseguem distinguir
1:21 - 1:25

entre um saco de papel amarrotado,
que o carro pode atropelar,
1:25 - 1:29

e uma pedra do mesmo tamanho,
que deve ser evitada.
1:29 - 1:33

Criámos fabulosas câmaras de megapixéis,
1:33 - 1:37

mas não conseguimos devolver
a visão a pessoas cegas.
1:36 - 1:40

Os drones conseguem voar
sobre uma área extensa de terra,
1:40 - 1:42

mas não têm a tecnologia
de visualização
1:42 - 1:45

necessária para detetar
alterações nas florestas tropicais
1:45 - 1:48

Temos câmaras de segurança
por todo o lado,
1:48 - 1:53

mas elas não nos alertam quando uma
criança se está a afogar numa piscina.
1:54 - 1:58

As fotografias e os vídeos
estão a tornar-se
1:58 - 2:00

parte integrante da vida em todo o mundo.
2:00 - 2:04

São gerados a um ritmo muito mais rápido
do que qualquer ser humano,
2:04 - 2:07

ou equipas de seres humanos
poderiam esperar ver.
2:07 - 2:11

Nós estamos neste momento a contribuir
para este fenómeno, com este evento TED.
2:11 - 2:16

No entanto, até o software mais avançado
tem ainda dificuldades em compreender
2:16 - 2:20

e gerir uma quantidade
de dados tão grande.
2:20 - 2:24

Por outras palavras, enquanto sociedade,
2:24 - 2:27

nós somos bastante cegos,
2:27 - 2:30

porque as nossas máquinas
mais inteligentes ainda são cegas.
2:32 - 2:34

"Porque é isto tão difícil?"
poderão perguntar.
2:34 - 2:37

As câmaras fotográficas
tiram fotografias como esta,
2:37 - 2:41

convertendo luzes
numa tabela com números,
2:41 - 2:43

conhecidos como pixéis,
2:43 - 2:45

mas são apenas números sem vida.
2:45 - 2:48

Por si só não têm significado.
2:48 - 2:52

Pela mesma razão que ouvir
não é o mesmo que escutar,
2:52 - 2:57

tirar fotografias
não é o mesmo que ver,
2:57 - 3:00

e por ver entenda-se compreender.
3:01 - 3:07

Na verdade, a Mãe Natureza precisou
de 540 milhões de anos de trabalho duro
3:07 - 3:09

para realizar esta tarefa.
3:09 - 3:11

Muito desse esforço
3:11 - 3:17

foi para o desenvolvimento do mecanismo
de processamento visual do cérebro,
3:17 - 3:19

e não para os olhos.
3:19 - 3:22

Portanto, a visão começa nos olhos,
3:22 - 3:25

mas onde realmente acontece é no cérebro.
3:27 - 3:31

Há já 15 anos, desde
o meu doutoramento em Caltech,
3:31 - 3:34

e depois como diretora
do laboratório Stanford's Vision,
3:34 - 3:39

tenho trabalhado com os meus mentores,
colaboradores e estudantes
3:39 - 3:42

para ensinar os computadores a ver.
3:42 - 3:44

A nossa área de investigação chama-se
3:44 - 3:46

visão computacional
e aprendizagem automática.
3:46 - 3:50

Faz parte do campo mais geral
da inteligência artificial.
3:51 - 3:56

Em ultima análise, queremos ensinar
as máquinas a ver, tal como nós vemos:
3:56 - 4:02

nomear objetos, identificar pessoas,
inferir a geometria 3D das coisas,
4:02 - 4:07

entender relações, emoções,
ações e intenções.
4:08 - 4:14

Todos imaginamos e criamos histórias
sobre pessoas, lugares e objetos
4:14 - 4:16

mal lhes deitamos a vista em cima.
4:17 - 4:23

O primeiro passo para este objetivo
é ensinar um computador a ver objetos,
4:23 - 4:25

os blocos de construção do mundo visual.
4:26 - 4:30

Na sua forma mais simples, imaginem
este processo de ensinar os computadores
4:30 - 4:33

como o ato de lhes mostrar
imagens de um dado objeto
4:33 - 4:37

para treino, por exemplo gatos,
4:37 - 4:41

e conceber um modelo que aprende
a partir dessas imagens para treino.
4:41 - 4:43

Quão difícil será fazer isto?
4:43 - 4:47

Afinal de contas, um gato não é mais
que um conjunto de formas e cores,
4:47 - 4:52

e foi o que fizemos nos primeiros
tempos da modelação de objetos.
4:52 - 4:55

Dizíamos ao algoritmo do computador,
em linguagem matemática,
4:55 - 4:59

que um gato tem uma face redonda,
um corpo volumoso,
4:59 - 5:01

duas orelhas pontiagudas,
uma cauda comprida,
5:01 - 5:03

e esse modelo parecia bem assim.
5:03 - 5:05

Mas o que acontece com este gato?
5:05 - 5:07

(Risos)
5:07 - 5:08

Está todo enrolado.
5:08 - 5:12

Agora vamos ter de adicionar
outra forma e perspetiva ao modelo.
5:12 - 5:15

E se os gatos estiverem escondidos?
5:15 - 5:18

E quanto a estes gatos patetas?
5:19 - 5:22

Agora compreendem o meu problema.
5:22 - 5:25

Até mesmo algo tão simples
quanto um animal doméstico
5:25 - 5:29

pode ter um número infinito
de variações relativamente ao modelo
5:29 - 5:32

e estamos a falar de um único objeto.
5:33 - 5:35

Então, há cerca de oito anos,
5:35 - 5:40

uma observação muito simples e profunda
mudou a minha forma de pensar.
5:41 - 5:44

Ninguém diz a uma criança como se vê,
5:44 - 5:46

especialmente nos primeiros anos de vida.
5:46 - 5:51

As crianças aprendem isso através
de experiências e exemplos da vida real.
5:51 - 5:54

Se considerarmos os olhos de uma criança
5:54 - 5:57

como duas máquinas fotográficas biológicas,
5:57 - 6:01

elas tiram uma fotografia a cada
200 millisegundos aproximadamente,
6:01 - 6:04

o tempo médio que demora
um movimento ocular.
6:04 - 6:10

Assim, aos três anos, uma criança
terá visto centenas de milhões de imagens
6:10 - 6:11

do mundo real.
6:11 - 6:14

São imensos exemplos para treino.
6:14 - 6:20

Deste modo, em vez de me focar apenas
em algoritmos cada vez melhores,
6:20 - 6:26

a minha ideia foi treinar os algoritmos
com o mesmo tipo de dados
6:26 - 6:29

que uma criança recebe
através das suas experiências,
6:29 - 6:32

tanto em quantidade como qualidade.
6:33 - 6:35

Depois de percebermos isto,
6:35 - 6:38

sabíamos que teríamos de reunir
um conjunto de dados
6:38 - 6:42

com muito mais imagens
do que alguma vez tínhamos tido,
6:42 - 6:45

talvez mesmo milhares de vezes mais.
6:45 - 6:49

Juntamente com o Professor Kai Li
na Universidade de Princeton,
6:49 - 6:53

iniciámos o projeto ImageNet, em 2007.
6:54 - 6:57

Felizmente, não precisámos de montar
uma câmara na cabeça
6:57 - 6:59

e esperar vários anos.
6:59 - 7:01

Recorremos à Internet,
7:01 - 7:05

o maior tesouro de imagens
que o Homem alguma vez criou.
7:05 - 7:08

Descarregámos cerca
de mil milhões de imagens
7:08 - 7:12

e utilizámos tecnologias
de contribuição voluntária,
7:12 - 7:14

como a plataforma Amazon Mechanical Turk,
7:14 - 7:16

para nos ajudar a rotular essas imagens.
7:17 - 7:21

No seu auge, o ImageNet
era um dos maiores empregadores
7:21 - 7:24

da Amazon Mechanical Turk.
7:24 - 7:29

No total, quase 50 mil trabalhadores
7:29 - 7:32

de 167 países de todo o mundo
7:32 - 7:36

ajudaram-nos a limpar, ordenar e rotular
7:36 - 7:40

cerca de mil milhões
de imagens candidatas.
7:41 - 7:44

Foi quanto custou captar
7:44 - 7:47

uma fração de todas as imagens
7:47 - 7:51

que uma criança vê nos seus
primeiros anos de desenvolvimento.
7:52 - 7:56

Em retrospetiva, esta ideia
de usar grandes volumes de dados
7:56 - 8:01

para treinar algoritmos em computadores
pode hoje parecer óbvia,
8:01 - 8:04

mas em 2007 não era assim tão óbvia.
8:05 - 8:09

Estivemos sozinhos neste percurso
durante algum tempo.
8:09 - 8:14

Alguns colegas amáveis aconselharam-me
a fazer algo mais útil no meu mandato,
8:14 - 8:18

e estávamos constantemente a lutar
por financiamento para a investigação.
8:18 - 8:20

Uma vez até disse, a brincar,
aos meus alunos
8:20 - 8:23

que ia reabrir a minha loja
de limpeza a seco,
8:23 - 8:25

para financiar o ImageNet.
8:25 - 8:27

Afinal de contas,
foi assim que eu financiei
8:27 - 8:29

os meus estudos na universidade.
8:29 - 8:31

E assim continuámos o trabalho.
8:31 - 8:35

Em 2009, o ImageNet disponibilizou
8:35 - 8:39

uma base de dado
com 15 milhões de imagens
8:39 - 8:44

ao longo de 22 mil classes
de objetos e coisas,
8:44 - 8:47

organizados por palavras
inglesas de uso comum.
8:47 - 8:50

Tanto em quantidade como em qualidade,
8:50 - 8:53

tratou-se de uma escala sem precedentes.
8:54 - 8:57

Como exemplo disto temos,
no caso dos gatos,
8:57 - 8:59

mais de 62 mil gatos
8:59 - 9:03

de todos os tipos e em variadas poses,
9:03 - 9:08

assim como todas as espécies
de gatos domésticos e selvagens.
9:08 - 9:12

Estávamos muito entusiasmados
por termos construído o ImageNet
9:12 - 9:16

e queríamos que toda a pesquisa mundial
pudesse beneficiar dele,
9:16 - 9:20

por isso, à boa maneira do TED,
disponibilizámos toda a base de dados
9:20 - 9:23

para a comunidade de pesquisa
mundial, gratuitamente.
9:24 - 9:27

(Aplausos)
9:29 - 9:34

Agora que já temos os dados para alimentar
o cérebro do nosso computador,
9:34 - 9:37

estamos prontos para voltar
a trabalhar nos algoritmos.
9:38 - 9:43

Como se veio a perceber, a riqueza
de informações fornecidas pelo ImageNet
9:43 - 9:48

era perfeita para uma classe particular
de algoritmos de aprendizagem automática
9:48 - 9:50

designada por "rede neural convoluta",
9:50 - 9:55

lançada por Kunihiko Fukushima,
Geoff Hinton e Yann LeCun,
9:55 - 9:58

nos anos 70 e 80.
9:59 - 10:01

À semelhança do cérebro,
10:01 - 10:05

formado por milhares de milhões
de neurónios altamente ligados,
10:05 - 10:08

uma operação unitária básica
numa rede neural
10:08 - 10:11

é idêntica a um nodo de neurónios.
10:11 - 10:13

Esse nodo recebe e envia informações
10:13 - 10:16

de outros nodos e para outros nodos.
10:16 - 10:21

Além disso, essas centenas de milhares
ou mesmo milhões de nodos
10:21 - 10:24

estão organizados em camadas hierárquicas,
10:24 - 10:27

à semelhança do que se passa no cérebro.
10:27 - 10:29

Numa rede neural típica que usamos,
10:29 - 10:32

para treinar o modelo
de reconhecimento de objetos
10:32 - 10:35

existem 24 milhões de nodos,
10:35 - 10:37

140 milhões de parâmetros
10:37 - 10:40

e 15 mil milhões de ligações.
10:41 - 10:43

É um modelo enorme.
10:43 - 10:47

Abastecido pelos imensos dados do ImageNet
10:47 - 10:52

dos CPUs e GPUs modernos para treinar
um modelo tão pesado quanto este,
10:52 - 10:55

a rede neural convoluta
10:55 - 10:58

floresceu de um modo que ninguém esperava.
10:58 - 11:02

Tornou-se na arquitetura vencedora
11:02 - 11:05

para a geração de resultados
sensacionais no reconhecimento de objetos.
11:06 - 11:09

Aqui temos um computador a dizer-nos
11:09 - 11:11

que esta imagem tem um gato
11:11 - 11:13

e a localização do gato na imagem.
11:13 - 11:15

É claro que há mais coisas além de gatos,
11:15 - 11:18

e assim temos aqui um algoritmo
de computador a dizer-nos
11:18 - 11:21

que a imagem contém um rapaz
e um ursinho de peluche,
11:21 - 11:25

um cão, uma pessoa
e um pequeno papagaio ao fundo,
11:25 - 11:28

ou uma imagem com muitos elementos,
11:28 - 11:33

tais como um homem, um "skate",
grades, um poste de iluminação, etc.
11:33 - 11:39

Por vezes, quando o computador
não está seguro do que vê,
11:39 - 11:42

ensinámo-lo a ser
suficientemente inteligente
11:42 - 11:46

para nos dar uma resposta segura
em vez de se comprometer demasiado,
11:46 - 11:47

tal como nós faríamos.
11:48 - 11:53

Mas outras vezes o nosso algoritmo
é brilhante a dizer exatamente
11:53 - 11:55

quais são os objetos na imagem,
11:55 - 11:59

como a marca, o modelo
e o ano de fabrico dos carros.
11:59 - 12:04

Aplicámos este algoritmo a milhões
de imagens do Google Street View
12:04 - 12:07

a centenas de cidades norte-americanas
12:07 - 12:10

e aprendemos algo muito interessante:
12:10 - 12:14

primeiro, confirmou a sabedoria comum
12:14 - 12:17

que diz que os preços dos carros
estão fortemente correlacionados
12:17 - 12:19

com os rendimentos familiares.
12:19 - 12:24

Mas, surpreendentemente, os preços
dos carros também estão correlacionados
12:24 - 12:26

com as taxas de criminalidade em cidades,
12:27 - 12:30

ou padrões de votação por código postal.
12:32 - 12:34

Mas esperem. É mesmo assim?
12:34 - 12:39

O computador já conseguiu mesmo igualar
ou até ultrapassar as capacidades humanas?
12:40 - 12:42

Vamos com calma.
12:42 - 12:46

Até agora, apenas ensinámos
o computador a ver objetos.
12:46 - 12:51

Isto é o equivalente a uma criança
que aprende a pronunciar alguns nomes.
12:51 - 12:54

É um feito incrível,
12:54 - 12:56

mas é apenas o primeiro passo.
12:56 - 13:00

As crianças atingem rapidamente
um novo marco no seu desenvolvimento,
13:00 - 13:03

começando a comunicar com frases.
13:05 - 13:08

Ou seja, em vez de dizer
que há um gato na imagem,
13:08 - 13:12

já ouvimos a menina dizer-nos
que é um gato deitado numa cama.
13:13 - 13:18

Para ensinar um computador
a gerar frases a partir de uma imagem,
13:18 - 13:20

é agora preciso que o casamento
13:20 - 13:23

entre o volume de dados
e a aprendizagem automática
13:23 - 13:24

dê mais um passo.
13:25 - 13:29

Agora, o computador terá que aprender,
não só a partir de imagens,
13:29 - 13:32

como também frases naturais da linguagem
13:32 - 13:34

geradas pelos seres humanos.
13:35 - 13:39

Tal como o cérebro integra
a visão e a linguagem,
13:39 - 13:44

nós desenvolvemos um modelo
que relaciona partes de coisas visuais,
13:44 - 13:46

tais como fragmentos visuais,
13:46 - 13:50

com palavras e expressões em frases.
13:51 - 13:53

Há cerca de 4 meses,
13:53 - 13:56

conseguimos finalmente conjugar tudo isto
13:56 - 13:59

e produzir um dos primeiros
modelos de visão computacional
13:59 - 14:03

capaz de gerar uma frase semelhante
à gerada por um ser humano,
14:03 - 14:06

quando vê uma imagem pela primeira vez.
14:07 - 14:12

Agora, estou pronta para vos mostrar
o que o computador diz
14:12 - 14:14

quando vê a imagem
14:14 - 14:17

que a menina viu no início desta palestra.
14:19 - 14:22

(Vídeo) Computador:
Um homem está ao pé de um elefante.
14:24 - 14:28

Um avião de grande porte
poisado na pista de um aeroporto.
14:29 - 14:33

FFL: Claro que ainda estamos a trabalhar
arduamente para melhorar os algoritmos,
14:33 - 14:36

e o computador ainda tem
muito que aprender.
14:36 - 14:39

(Aplausos)
14:40 - 14:42

O computador ainda faz erros.
14:43 - 14:46

(Vídeo) Computador:
Um gato deitado numa cama num cobertor.
14:46 - 14:49

FFL: Claro que, depois de ver
muitos gatos,
14:49 - 14:51

ele pensa que tudo é um gato.
14:53 - 14:56

(Video) Computador: Um menino
segura um taco de basebol.
14:56 - 14:58

(Risos)
14:58 - 15:01

FFL: Ou, se o computador
nunca viu uma escova de dentes,
15:01 - 15:04

confunde-a com um taco de basebol.
15:03 - 15:07

(Vídeo) Computador: Um homem a cavalo
desce uma rua ao pé de um edifício.
15:07 - 15:09

(Risos)
15:09 - 15:12

FFL: Não ensinámos aos computadores
a disciplina de Introdução à Arte.
15:14 - 15:16

(Vídeo) Computador:
Uma zebra num relvado.
15:17 - 15:21

FFL: Também não aprenderam ainda
a apreciar o esplendor da natureza,
15:21 - 15:22

como vocês e eu fazemos.
15:22 - 15:25

Portanto, tem sido um longo percurso.
15:25 - 15:29

Ir dos zero aos três anos foi difícil.
15:29 - 15:35

O verdadeiro desafio será ir
dos três anos aos treze e para além disso.
15:36 - 15:39

Vou mostrar-vos novamente
esta imagem do rapaz e do bolo.
15:39 - 15:44

Até agora, ensinámos
o computador a ver objetos
15:44 - 15:48

ou mesmo a contar-nos uma pequena história
quando vê uma imagem.
15:48 - 15:51

(Vídeo) Computador: Uma pessoa
sentada à mesa com um bolo.
15:52 - 15:55

FFL: Mas há muito mais nesta imagem
15:55 - 15:56

do que somente uma pessoa e um bolo.
15:56 - 16:01

O que o computador não consegue ver
é que se trata de um bolo italiano especial
16:01 - 16:04

que só se serve durante a Páscoa.
16:04 - 16:07

O rapaz está a usar
a sua T-shirt preferida
16:07 - 16:12

que o pai lhe ofereceu
após uma viagem a Sydney.
16:11 - 16:15

Tanto eu como vocês conseguimos ver
como o rapaz está feliz
16:15 - 16:18

e o que se passa exatamente
na sua mente nesse momento.
16:19 - 16:22

Este é o meu filho Leo.
16:22 - 16:25

Na minha busca pela inteligência visual,
16:25 - 16:27

penso frequentemente no Leo
16:27 - 16:30

e no mundo em que ele viverá no futuro.
16:30 - 16:32

Quando as máquinas conseguirem ver,
16:32 - 16:37

médicos e enfermeiros irão ter
um par adicional de olhos incansáveis
16:37 - 16:41

para os ajudar a diagnosticar
e cuidar dos seus doentes.
16:41 - 16:45

Os automóveis irão andar na estrada
de modo mais inteligente e seguro.
16:46 - 16:48

Os robôs, não apenas os seres humanos,
16:48 - 16:50

irão ajudar-nos a enfrentar
16:50 - 16:53

zonas de catástrofe,
salvando feridos e encarcerados.
16:54 - 16:58

Iremos descobrir novas espécies,
melhores materiais,
16:58 - 17:02

e explorar limites nunca antes vistos
com a ajuda de máquinas.
17:03 - 17:07

Pouco a pouco, estamos a dar
às máquinas a capacidade de ver.
17:07 - 17:10

Primeiro, ensinamo-las a ver.
17:10 - 17:13

Depois, elas ajudam-nos a ver melhor.
17:13 - 17:17

Pela primeira vez, os olhos humanos
não estarão sozinhos
17:17 - 17:20

na exploração e compreensão
do nosso mundo.
17:20 - 17:23

Iremos usar máquinas
não somente pela sua inteligência,
17:23 - 17:26

mas também para colaborar com elas
17:26 - 17:29

de formas que ainda
não conseguimos imaginar.
17:30 - 17:32

Esta é a minha missão:
17:32 - 17:35

dar inteligência visual aos computadores
17:35 - 17:39

e criar um futuro melhor
para o Leo e para o mundo.
17:39 - 17:41

Obrigada.
17:41 - 17:44

(Aplausos)

Title:: Como estamos a ensinar os computadores a entender imagens
Speaker:: Fei-Fei Li
Description:: Quando uma criança muito pequena olha para uma imagem, consegue identificar elementos simples: "gato", "livro", "cadeira". Os computadores estão a ficar suficientemente inteligentes para também fazerem isso. O que é que há de novo? Numa palestra emocionante, Fei-Fei Li, especialista de visão de computadores, descreve a última geração — incluindo a base de dados de 15 milhões de fotos que a sua equipa criou para "ensinar" um computador a entender imagens — e as perceções fundamentais que ainda pertencem ao futuro.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	Margarida Ferreira approved Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira accepted Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures
	Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures

Show all

Portuguese subtitles

Revisions

Revision 12 Edited

Margarida Ferreira

Como estamos a ensinar os computadores a entender imagens

Revisions

Our website uses cookies

Operating cookies (Required)