Como estamos a ensinar os computadores a entender imagens
-
0:04 - 0:06Vou mostrar-vos uma coisa.
-
0:06 - 0:10(Vídeo) Menina: Isto é um gato
sentado numa cama. -
0:10 - 0:13O rapaz está a fazer festas ao elefante.
-
0:15 - 0:18Isso são pessoas a ir para um avião.
-
0:19 - 0:21É um grande avião.
-
0:21 - 0:24Fei-Fei Li: Esta é uma criança de 3 anos
-
0:24 - 0:27a descrever o que vê num
conjunto de fotografias. -
0:27 - 0:30Ela poderá ter ainda muito
para aprender neste mundo, -
0:30 - 0:35mas já é especialista
numa tarefa muito importante: -
0:35 - 0:37dar sentido ao que vê.
-
0:38 - 0:42A nossa sociedade
está mais avançada do que nunca. -
0:42 - 0:46Enviamos pessoas para a lua,
fazemos telefones que falam connosco -
0:46 - 0:51ou personalizamos estações de rádio
que apenas tocam música de que gostamos. -
0:51 - 0:55No entanto, as nossas máquinas
e computadores mais avançados -
0:55 - 0:58ainda têm dificuldade
em realizar esta tarefa. -
0:58 - 1:01Por isso estou aqui hoje,
para vos dar um relato -
1:01 - 1:05sobre os últimos avanços do nosso trabalho
em visão computacional, -
1:05 - 1:10uma das tecnologias mais inovadoras
e potencialmente mais revolucionárias -
1:10 - 1:12da ciência informática.
-
1:13 - 1:17É verdade que já temos protótipos
de carros que conduzem sozinhos, -
1:17 - 1:21mas sem visão inteligente,
eles não conseguem distinguir -
1:21 - 1:25entre um saco de papel amarrotado,
que o carro pode atropelar, -
1:25 - 1:29e uma pedra do mesmo tamanho,
que deve ser evitada. -
1:29 - 1:33Criámos fabulosas câmaras de megapixéis,
-
1:33 - 1:37mas não conseguimos devolver
a visão a pessoas cegas. -
1:36 - 1:40Os drones conseguem voar
sobre uma área extensa de terra, -
1:40 - 1:42mas não têm a tecnologia
de visualização -
1:42 - 1:45necessária para detetar
alterações nas florestas tropicais -
1:45 - 1:48Temos câmaras de segurança
por todo o lado, -
1:48 - 1:53mas elas não nos alertam quando uma
criança se está a afogar numa piscina. -
1:54 - 1:58As fotografias e os vídeos
estão a tornar-se -
1:58 - 2:00parte integrante da vida em todo o mundo.
-
2:00 - 2:04São gerados a um ritmo muito mais rápido
do que qualquer ser humano, -
2:04 - 2:07ou equipas de seres humanos
poderiam esperar ver. -
2:07 - 2:11Nós estamos neste momento a contribuir
para este fenómeno, com este evento TED. -
2:11 - 2:16No entanto, até o software mais avançado
tem ainda dificuldades em compreender -
2:16 - 2:20e gerir uma quantidade
de dados tão grande. -
2:20 - 2:24Por outras palavras, enquanto sociedade,
-
2:24 - 2:27nós somos bastante cegos,
-
2:27 - 2:30porque as nossas máquinas
mais inteligentes ainda são cegas. -
2:32 - 2:34"Porque é isto tão difícil?"
poderão perguntar. -
2:34 - 2:37As câmaras fotográficas
tiram fotografias como esta, -
2:37 - 2:41convertendo luzes
numa tabela com números, -
2:41 - 2:43conhecidos como pixéis,
-
2:43 - 2:45mas são apenas números sem vida.
-
2:45 - 2:48Por si só não têm significado.
-
2:48 - 2:52Pela mesma razão que ouvir
não é o mesmo que escutar, -
2:52 - 2:57tirar fotografias
não é o mesmo que ver, -
2:57 - 3:00e por ver entenda-se compreender.
-
3:01 - 3:07Na verdade, a Mãe Natureza precisou
de 540 milhões de anos de trabalho duro -
3:07 - 3:09para realizar esta tarefa.
-
3:09 - 3:11Muito desse esforço
-
3:11 - 3:17foi para o desenvolvimento do mecanismo
de processamento visual do cérebro, -
3:17 - 3:19e não para os olhos.
-
3:19 - 3:22Portanto, a visão começa nos olhos,
-
3:22 - 3:25mas onde realmente acontece é no cérebro.
-
3:27 - 3:31Há já 15 anos, desde
o meu doutoramento em Caltech, -
3:31 - 3:34e depois como diretora
do laboratório Stanford's Vision, -
3:34 - 3:39tenho trabalhado com os meus mentores,
colaboradores e estudantes -
3:39 - 3:42para ensinar os computadores a ver.
-
3:42 - 3:44A nossa área de investigação chama-se
-
3:44 - 3:46visão computacional
e aprendizagem automática. -
3:46 - 3:50Faz parte do campo mais geral
da inteligência artificial. -
3:51 - 3:56Em ultima análise, queremos ensinar
as máquinas a ver, tal como nós vemos: -
3:56 - 4:02nomear objetos, identificar pessoas,
inferir a geometria 3D das coisas, -
4:02 - 4:07entender relações, emoções,
ações e intenções. -
4:08 - 4:14Todos imaginamos e criamos histórias
sobre pessoas, lugares e objetos -
4:14 - 4:16mal lhes deitamos a vista em cima.
-
4:17 - 4:23O primeiro passo para este objetivo
é ensinar um computador a ver objetos, -
4:23 - 4:25os blocos de construção do mundo visual.
-
4:26 - 4:30Na sua forma mais simples, imaginem
este processo de ensinar os computadores -
4:30 - 4:33como o ato de lhes mostrar
imagens de um dado objeto -
4:33 - 4:37para treino, por exemplo gatos,
-
4:37 - 4:41e conceber um modelo que aprende
a partir dessas imagens para treino. -
4:41 - 4:43Quão difícil será fazer isto?
-
4:43 - 4:47Afinal de contas, um gato não é mais
que um conjunto de formas e cores, -
4:47 - 4:52e foi o que fizemos nos primeiros
tempos da modelação de objetos. -
4:52 - 4:55Dizíamos ao algoritmo do computador,
em linguagem matemática, -
4:55 - 4:59que um gato tem uma face redonda,
um corpo volumoso, -
4:59 - 5:01duas orelhas pontiagudas,
uma cauda comprida, -
5:01 - 5:03e esse modelo parecia bem assim.
-
5:03 - 5:05Mas o que acontece com este gato?
-
5:05 - 5:07(Risos)
-
5:07 - 5:08Está todo enrolado.
-
5:08 - 5:12Agora vamos ter de adicionar
outra forma e perspetiva ao modelo. -
5:12 - 5:15E se os gatos estiverem escondidos?
-
5:15 - 5:18E quanto a estes gatos patetas?
-
5:19 - 5:22Agora compreendem o meu problema.
-
5:22 - 5:25Até mesmo algo tão simples
quanto um animal doméstico -
5:25 - 5:29pode ter um número infinito
de variações relativamente ao modelo -
5:29 - 5:32e estamos a falar de um único objeto.
-
5:33 - 5:35Então, há cerca de oito anos,
-
5:35 - 5:40uma observação muito simples e profunda
mudou a minha forma de pensar. -
5:41 - 5:44Ninguém diz a uma criança como se vê,
-
5:44 - 5:46especialmente nos primeiros anos de vida.
-
5:46 - 5:51As crianças aprendem isso através
de experiências e exemplos da vida real. -
5:51 - 5:54Se considerarmos os olhos de uma criança
-
5:54 - 5:57como duas máquinas fotográficas biológicas,
-
5:57 - 6:01elas tiram uma fotografia a cada
200 millisegundos aproximadamente, -
6:01 - 6:04o tempo médio que demora
um movimento ocular. -
6:04 - 6:10Assim, aos três anos, uma criança
terá visto centenas de milhões de imagens -
6:10 - 6:11do mundo real.
-
6:11 - 6:14São imensos exemplos para treino.
-
6:14 - 6:20Deste modo, em vez de me focar apenas
em algoritmos cada vez melhores, -
6:20 - 6:26a minha ideia foi treinar os algoritmos
com o mesmo tipo de dados -
6:26 - 6:29que uma criança recebe
através das suas experiências, -
6:29 - 6:32tanto em quantidade como qualidade.
-
6:33 - 6:35Depois de percebermos isto,
-
6:35 - 6:38sabíamos que teríamos de reunir
um conjunto de dados -
6:38 - 6:42com muito mais imagens
do que alguma vez tínhamos tido, -
6:42 - 6:45talvez mesmo milhares de vezes mais.
-
6:45 - 6:49Juntamente com o Professor Kai Li
na Universidade de Princeton, -
6:49 - 6:53iniciámos o projeto ImageNet, em 2007.
-
6:54 - 6:57Felizmente, não precisámos de montar
uma câmara na cabeça -
6:57 - 6:59e esperar vários anos.
-
6:59 - 7:01Recorremos à Internet,
-
7:01 - 7:05o maior tesouro de imagens
que o Homem alguma vez criou. -
7:05 - 7:08Descarregámos cerca
de mil milhões de imagens -
7:08 - 7:12e utilizámos tecnologias
de contribuição voluntária, -
7:12 - 7:14como a plataforma Amazon Mechanical Turk,
-
7:14 - 7:16para nos ajudar a rotular essas imagens.
-
7:17 - 7:21No seu auge, o ImageNet
era um dos maiores empregadores -
7:21 - 7:24da Amazon Mechanical Turk.
-
7:24 - 7:29No total, quase 50 mil trabalhadores
-
7:29 - 7:32de 167 países de todo o mundo
-
7:32 - 7:36ajudaram-nos a limpar, ordenar e rotular
-
7:36 - 7:40cerca de mil milhões
de imagens candidatas. -
7:41 - 7:44Foi quanto custou captar
-
7:44 - 7:47uma fração de todas as imagens
-
7:47 - 7:51que uma criança vê nos seus
primeiros anos de desenvolvimento. -
7:52 - 7:56Em retrospetiva, esta ideia
de usar grandes volumes de dados -
7:56 - 8:01para treinar algoritmos em computadores
pode hoje parecer óbvia, -
8:01 - 8:04mas em 2007 não era assim tão óbvia.
-
8:05 - 8:09Estivemos sozinhos neste percurso
durante algum tempo. -
8:09 - 8:14Alguns colegas amáveis aconselharam-me
a fazer algo mais útil no meu mandato, -
8:14 - 8:18e estávamos constantemente a lutar
por financiamento para a investigação. -
8:18 - 8:20Uma vez até disse, a brincar,
aos meus alunos -
8:20 - 8:23que ia reabrir a minha loja
de limpeza a seco, -
8:23 - 8:25para financiar o ImageNet.
-
8:25 - 8:27Afinal de contas,
foi assim que eu financiei -
8:27 - 8:29os meus estudos na universidade.
-
8:29 - 8:31E assim continuámos o trabalho.
-
8:31 - 8:35Em 2009, o ImageNet disponibilizou
-
8:35 - 8:39uma base de dado
com 15 milhões de imagens -
8:39 - 8:44ao longo de 22 mil classes
de objetos e coisas, -
8:44 - 8:47organizados por palavras
inglesas de uso comum. -
8:47 - 8:50Tanto em quantidade como em qualidade,
-
8:50 - 8:53tratou-se de uma escala sem precedentes.
-
8:54 - 8:57Como exemplo disto temos,
no caso dos gatos, -
8:57 - 8:59mais de 62 mil gatos
-
8:59 - 9:03de todos os tipos e em variadas poses,
-
9:03 - 9:08assim como todas as espécies
de gatos domésticos e selvagens. -
9:08 - 9:12Estávamos muito entusiasmados
por termos construído o ImageNet -
9:12 - 9:16e queríamos que toda a pesquisa mundial
pudesse beneficiar dele, -
9:16 - 9:20por isso, à boa maneira do TED,
disponibilizámos toda a base de dados -
9:20 - 9:23para a comunidade de pesquisa
mundial, gratuitamente. -
9:24 - 9:27(Aplausos)
-
9:29 - 9:34Agora que já temos os dados para alimentar
o cérebro do nosso computador, -
9:34 - 9:37estamos prontos para voltar
a trabalhar nos algoritmos. -
9:38 - 9:43Como se veio a perceber, a riqueza
de informações fornecidas pelo ImageNet -
9:43 - 9:48era perfeita para uma classe particular
de algoritmos de aprendizagem automática -
9:48 - 9:50designada por "rede neural convoluta",
-
9:50 - 9:55lançada por Kunihiko Fukushima,
Geoff Hinton e Yann LeCun, -
9:55 - 9:58nos anos 70 e 80.
-
9:59 - 10:01À semelhança do cérebro,
-
10:01 - 10:05formado por milhares de milhões
de neurónios altamente ligados, -
10:05 - 10:08uma operação unitária básica
numa rede neural -
10:08 - 10:11é idêntica a um nodo de neurónios.
-
10:11 - 10:13Esse nodo recebe e envia informações
-
10:13 - 10:16de outros nodos e para outros nodos.
-
10:16 - 10:21Além disso, essas centenas de milhares
ou mesmo milhões de nodos -
10:21 - 10:24estão organizados em camadas hierárquicas,
-
10:24 - 10:27à semelhança do que se passa no cérebro.
-
10:27 - 10:29Numa rede neural típica que usamos,
-
10:29 - 10:32para treinar o modelo
de reconhecimento de objetos -
10:32 - 10:35existem 24 milhões de nodos,
-
10:35 - 10:37140 milhões de parâmetros
-
10:37 - 10:40e 15 mil milhões de ligações.
-
10:41 - 10:43É um modelo enorme.
-
10:43 - 10:47Abastecido pelos imensos dados do ImageNet
-
10:47 - 10:52dos CPUs e GPUs modernos para treinar
um modelo tão pesado quanto este, -
10:52 - 10:55a rede neural convoluta
-
10:55 - 10:58floresceu de um modo que ninguém esperava.
-
10:58 - 11:02Tornou-se na arquitetura vencedora
-
11:02 - 11:05para a geração de resultados
sensacionais no reconhecimento de objetos. -
11:06 - 11:09Aqui temos um computador a dizer-nos
-
11:09 - 11:11que esta imagem tem um gato
-
11:11 - 11:13e a localização do gato na imagem.
-
11:13 - 11:15É claro que há mais coisas além de gatos,
-
11:15 - 11:18e assim temos aqui um algoritmo
de computador a dizer-nos -
11:18 - 11:21que a imagem contém um rapaz
e um ursinho de peluche, -
11:21 - 11:25um cão, uma pessoa
e um pequeno papagaio ao fundo, -
11:25 - 11:28ou uma imagem com muitos elementos,
-
11:28 - 11:33tais como um homem, um "skate",
grades, um poste de iluminação, etc. -
11:33 - 11:39Por vezes, quando o computador
não está seguro do que vê, -
11:39 - 11:42ensinámo-lo a ser
suficientemente inteligente -
11:42 - 11:46para nos dar uma resposta segura
em vez de se comprometer demasiado, -
11:46 - 11:47tal como nós faríamos.
-
11:48 - 11:53Mas outras vezes o nosso algoritmo
é brilhante a dizer exatamente -
11:53 - 11:55quais são os objetos na imagem,
-
11:55 - 11:59como a marca, o modelo
e o ano de fabrico dos carros. -
11:59 - 12:04Aplicámos este algoritmo a milhões
de imagens do Google Street View -
12:04 - 12:07a centenas de cidades norte-americanas
-
12:07 - 12:10e aprendemos algo muito interessante:
-
12:10 - 12:14primeiro, confirmou a sabedoria comum
-
12:14 - 12:17que diz que os preços dos carros
estão fortemente correlacionados -
12:17 - 12:19com os rendimentos familiares.
-
12:19 - 12:24Mas, surpreendentemente, os preços
dos carros também estão correlacionados -
12:24 - 12:26com as taxas de criminalidade em cidades,
-
12:27 - 12:30ou padrões de votação por código postal.
-
12:32 - 12:34Mas esperem. É mesmo assim?
-
12:34 - 12:39O computador já conseguiu mesmo igualar
ou até ultrapassar as capacidades humanas? -
12:40 - 12:42Vamos com calma.
-
12:42 - 12:46Até agora, apenas ensinámos
o computador a ver objetos. -
12:46 - 12:51Isto é o equivalente a uma criança
que aprende a pronunciar alguns nomes. -
12:51 - 12:54É um feito incrível,
-
12:54 - 12:56mas é apenas o primeiro passo.
-
12:56 - 13:00As crianças atingem rapidamente
um novo marco no seu desenvolvimento, -
13:00 - 13:03começando a comunicar com frases.
-
13:05 - 13:08Ou seja, em vez de dizer
que há um gato na imagem, -
13:08 - 13:12já ouvimos a menina dizer-nos
que é um gato deitado numa cama. -
13:13 - 13:18Para ensinar um computador
a gerar frases a partir de uma imagem, -
13:18 - 13:20é agora preciso que o casamento
-
13:20 - 13:23entre o volume de dados
e a aprendizagem automática -
13:23 - 13:24dê mais um passo.
-
13:25 - 13:29Agora, o computador terá que aprender,
não só a partir de imagens, -
13:29 - 13:32como também frases naturais da linguagem
-
13:32 - 13:34geradas pelos seres humanos.
-
13:35 - 13:39Tal como o cérebro integra
a visão e a linguagem, -
13:39 - 13:44nós desenvolvemos um modelo
que relaciona partes de coisas visuais, -
13:44 - 13:46tais como fragmentos visuais,
-
13:46 - 13:50com palavras e expressões em frases.
-
13:51 - 13:53Há cerca de 4 meses,
-
13:53 - 13:56conseguimos finalmente conjugar tudo isto
-
13:56 - 13:59e produzir um dos primeiros
modelos de visão computacional -
13:59 - 14:03capaz de gerar uma frase semelhante
à gerada por um ser humano, -
14:03 - 14:06quando vê uma imagem pela primeira vez.
-
14:07 - 14:12Agora, estou pronta para vos mostrar
o que o computador diz -
14:12 - 14:14quando vê a imagem
-
14:14 - 14:17que a menina viu no início desta palestra.
-
14:19 - 14:22(Vídeo) Computador:
Um homem está ao pé de um elefante. -
14:24 - 14:28Um avião de grande porte
poisado na pista de um aeroporto. -
14:29 - 14:33FFL: Claro que ainda estamos a trabalhar
arduamente para melhorar os algoritmos, -
14:33 - 14:36e o computador ainda tem
muito que aprender. -
14:36 - 14:39(Aplausos)
-
14:40 - 14:42O computador ainda faz erros.
-
14:43 - 14:46(Vídeo) Computador:
Um gato deitado numa cama num cobertor. -
14:46 - 14:49FFL: Claro que, depois de ver
muitos gatos, -
14:49 - 14:51ele pensa que tudo é um gato.
-
14:53 - 14:56(Video) Computador: Um menino
segura um taco de basebol. -
14:56 - 14:58(Risos)
-
14:58 - 15:01FFL: Ou, se o computador
nunca viu uma escova de dentes, -
15:01 - 15:04confunde-a com um taco de basebol.
-
15:03 - 15:07(Vídeo) Computador: Um homem a cavalo
desce uma rua ao pé de um edifício. -
15:07 - 15:09(Risos)
-
15:09 - 15:12FFL: Não ensinámos aos computadores
a disciplina de Introdução à Arte. -
15:14 - 15:16(Vídeo) Computador:
Uma zebra num relvado. -
15:17 - 15:21FFL: Também não aprenderam ainda
a apreciar o esplendor da natureza, -
15:21 - 15:22como vocês e eu fazemos.
-
15:22 - 15:25Portanto, tem sido um longo percurso.
-
15:25 - 15:29Ir dos zero aos três anos foi difícil.
-
15:29 - 15:35O verdadeiro desafio será ir
dos três anos aos treze e para além disso. -
15:36 - 15:39Vou mostrar-vos novamente
esta imagem do rapaz e do bolo. -
15:39 - 15:44Até agora, ensinámos
o computador a ver objetos -
15:44 - 15:48ou mesmo a contar-nos uma pequena história
quando vê uma imagem. -
15:48 - 15:51(Vídeo) Computador: Uma pessoa
sentada à mesa com um bolo. -
15:52 - 15:55FFL: Mas há muito mais nesta imagem
-
15:55 - 15:56do que somente uma pessoa e um bolo.
-
15:56 - 16:01O que o computador não consegue ver
é que se trata de um bolo italiano especial -
16:01 - 16:04que só se serve durante a Páscoa.
-
16:04 - 16:07O rapaz está a usar
a sua T-shirt preferida -
16:07 - 16:12que o pai lhe ofereceu
após uma viagem a Sydney. -
16:11 - 16:15Tanto eu como vocês conseguimos ver
como o rapaz está feliz -
16:15 - 16:18e o que se passa exatamente
na sua mente nesse momento. -
16:19 - 16:22Este é o meu filho Leo.
-
16:22 - 16:25Na minha busca pela inteligência visual,
-
16:25 - 16:27penso frequentemente no Leo
-
16:27 - 16:30e no mundo em que ele viverá no futuro.
-
16:30 - 16:32Quando as máquinas conseguirem ver,
-
16:32 - 16:37médicos e enfermeiros irão ter
um par adicional de olhos incansáveis -
16:37 - 16:41para os ajudar a diagnosticar
e cuidar dos seus doentes. -
16:41 - 16:45Os automóveis irão andar na estrada
de modo mais inteligente e seguro. -
16:46 - 16:48Os robôs, não apenas os seres humanos,
-
16:48 - 16:50irão ajudar-nos a enfrentar
-
16:50 - 16:53zonas de catástrofe,
salvando feridos e encarcerados. -
16:54 - 16:58Iremos descobrir novas espécies,
melhores materiais, -
16:58 - 17:02e explorar limites nunca antes vistos
com a ajuda de máquinas. -
17:03 - 17:07Pouco a pouco, estamos a dar
às máquinas a capacidade de ver. -
17:07 - 17:10Primeiro, ensinamo-las a ver.
-
17:10 - 17:13Depois, elas ajudam-nos a ver melhor.
-
17:13 - 17:17Pela primeira vez, os olhos humanos
não estarão sozinhos -
17:17 - 17:20na exploração e compreensão
do nosso mundo. -
17:20 - 17:23Iremos usar máquinas
não somente pela sua inteligência, -
17:23 - 17:26mas também para colaborar com elas
-
17:26 - 17:29de formas que ainda
não conseguimos imaginar. -
17:30 - 17:32Esta é a minha missão:
-
17:32 - 17:35dar inteligência visual aos computadores
-
17:35 - 17:39e criar um futuro melhor
para o Leo e para o mundo. -
17:39 - 17:41Obrigada.
-
17:41 - 17:44(Aplausos)
- Title:
- Como estamos a ensinar os computadores a entender imagens
- Speaker:
- Fei-Fei Li
- Description:
-
Quando uma criança muito pequena olha para uma imagem, consegue identificar elementos simples: "gato", "livro", "cadeira". Os computadores estão a ficar suficientemente inteligentes para também fazerem isso. O que é que há de novo? Numa palestra emocionante, Fei-Fei Li, especialista de visão de computadores, descreve a última geração — incluindo a base de dados de 15 milhões de fotos que a sua equipa criou para "ensinar" um computador a entender imagens — e as perceções fundamentais que ainda pertencem ao futuro.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Margarida Ferreira approved Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira accepted Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures | ||
Margarida Ferreira edited Portuguese subtitles for How we're teaching computers to understand pictures |