Como estamos ensinando os computadores a compreender fotos
-
0:03 - 0:06Deixem-me lhes mostrar algo.
-
0:06 - 0:10(Vídeo) Garota: Certo, isso é um gato
sentado sobre a cama. -
0:10 - 0:14O garoto está acariciando o elefante.
-
0:14 - 0:18Aquelas são pessoas
que estão entrando num avião. -
0:18 - 0:21É um avião grande!
-
0:21 - 0:24Fei-Fei Li: Esta é uma criança
de três anos de idade -
0:24 - 0:27descrevendo o que vê numa série de fotos.
-
0:27 - 0:30Ela ainda tem muito
o que aprender sobre este mundo, -
0:30 - 0:35mas já é uma especialista
numa importante tarefa: -
0:35 - 0:38dar sentido ao que vê.
-
0:38 - 0:42Nossa sociedade está mais
tecnologicamente avançada do que nunca. -
0:42 - 0:46Mandamos pessoas para a Lua,
fazemos telefones que falam conosco -
0:46 - 0:51ou personalizamos estações de rádio
para tocar só as músicas de que gostamos. -
0:51 - 0:55No entanto, nossas máquinas
mais avançadas e computadores -
0:55 - 0:58ainda lutam para realizar esta tarefa.
-
0:58 - 1:01Então, estou aqui hoje
para dar um relatório do progresso -
1:01 - 1:05sobre os últimos avanços
em nossa pesquisa em visão computacional, -
1:05 - 1:10uma das tecnologias mais inovadoras
e potencialmente revolucionárias -
1:10 - 1:13na ciência da computação.
-
1:13 - 1:17Sim, temos protótipos de carros
que podem dirigir sozinhos, -
1:17 - 1:21mas sem uma visão inteligente,
não conseguem notar a diferença -
1:21 - 1:25entre um saco de papel amassado
na estrada, que pode ser atropelado, -
1:25 - 1:29e uma pedra daquele tamanho,
que deve ser evitada. -
1:29 - 1:33Fizemos câmeras incríveis de megapixel,
-
1:33 - 1:36mas não demos visão aos cegos.
-
1:36 - 1:40Os "drones" podem voar
sobre a terra firme, -
1:40 - 1:42mas não têm a tecnologia
de visão suficiente -
1:42 - 1:45para nos ajudar a rastrear
as mudanças das florestas tropicais. -
1:45 - 1:48As câmeras de segurança
estão em toda parte, -
1:48 - 1:54mas não nos alertam quando uma criança
está se afogando numa piscina. -
1:54 - 2:00Fotos e vídeos estão se tornando
partes integrais da vida global. -
2:00 - 2:04Estão sendo gerados a um ritmo
muito além do que qualquer humano, -
2:04 - 2:07-- ou grupos de seres humanos --
poderia esperar ver. -
2:07 - 2:11E vocês e eu estamos contribuindo
para isto nesta palestra TED. -
2:11 - 2:16No entanto, nosso software mais avançado
ainda tem dificuldade para compreender -
2:16 - 2:20e administrar este conteúdo enorme.
-
2:20 - 2:24Então, em outras palavras,
coletivamente como sociedade, -
2:24 - 2:26somos muito cegos,
-
2:26 - 2:30porque nossas máquinas
mais inteligentes ainda são cegas. -
2:31 - 2:34"Por que isto é tão difícil?",
vocês podem perguntar. -
2:34 - 2:37As câmeras podem tirar fotos como esta,
-
2:37 - 2:41convertendo luzes numa matriz
bidimensional de números -
2:41 - 2:43conhecida como pixels,
-
2:43 - 2:45mas estes são apenas números sem vida,
-
2:45 - 2:48não carregam significado em si mesmos.
-
2:48 - 2:52Assim como ouvir
não é o mesmo que escutar, -
2:52 - 2:57tirar fotos não é o mesmo que ver,
-
2:57 - 3:01e por ver, queremos dizer, compreender.
-
3:01 - 3:07Na verdade, a mãe natureza levou
540 milhões de anos de trabalho pesado -
3:07 - 3:09para realizar esta tarefa,
-
3:09 - 3:11e muito deste esforço
-
3:11 - 3:17foi para desenvolver o aparelho
de processamento visual do nosso cérebro, -
3:17 - 3:19não os olhos em si.
-
3:19 - 3:22Então, a visão começa com os olhos,
-
3:22 - 3:26mas acontece de fato no cérebro.
-
3:26 - 3:31Então, por 15 anos, começando
com o meu doutorado na Caltech -
3:31 - 3:34e depois liderando
o Stanford's Vision Lab, -
3:34 - 3:39venho trabalhando com os meus mentores,
colaboradores e alunos -
3:39 - 3:42para ensinar os computadores a ver.
-
3:42 - 3:46Nosso campo de pesquisa chama-se visão
computacional e aprendizado de máquina. -
3:46 - 3:50É parte do campo geral
da inteligência artificial. -
3:51 - 3:56Basicamente, queremos ensinar
as máquinas a ver como nós: -
3:56 - 4:02nomear objetos, identificar pessoas,
perceber a geometria 3D das coisas, -
4:02 - 4:08compreender relações, emoções,
ações e intenções. -
4:08 - 4:14Nós tecemos juntos histórias completas
das pessoas, lugares e coisas -
4:14 - 4:16no momento em que os vemos.
-
4:17 - 4:23O primeiro passo rumo a este objetivo,
é ensinar um computador a ver objetos, -
4:23 - 4:25o bloco de construção do mundo visual.
-
4:25 - 4:30De modo bem simples,
imaginem este processo de ensino -
4:30 - 4:33como mostrar aos computadores
algumas imagens de treinamento -
4:33 - 4:37de um objeto em particular, digamos gatos,
-
4:37 - 4:41e projetar um modelo que aprenda
a partir destas imagens de treinamento. -
4:41 - 4:43Qual é a dificuldade disto?
-
4:43 - 4:47Afinal de contas, um gato é apenas
uma coleção de forma e cores, -
4:47 - 4:51e foi o que fizemos nos primeiro dias
de modelagem de objetos. -
4:51 - 4:55Falamos ao algoritmo computacional,
numa linguagem matemática, -
4:55 - 4:59que um gato tem o rosto
arredondado, corpo gordinho, -
4:59 - 5:01duas orelhas pontudas e uma cauda longa,
-
5:01 - 5:02e parecia tudo bem.
-
5:02 - 5:05Mas, e este gato?
-
5:05 - 5:06(Risos)
-
5:06 - 5:08Ele está todo torto.
-
5:08 - 5:12Agora é preciso adicionar outra forma
e outro ponto de vista ao objeto modelo. -
5:12 - 5:15Mas, e se os gatos estiverem escondidos?
-
5:15 - 5:17E estes gatos bobos?
-
5:19 - 5:22Agora vocês sabem do que estou falando.
-
5:22 - 5:25Mesmo algo simples,
como um animal doméstico, -
5:25 - 5:29pode apresentar um número infinito
de variações ao objeto modelo, -
5:29 - 5:32e isto é só um objeto.
-
5:33 - 5:35Então, há oito anos,
-
5:35 - 5:40uma observação bem simples
e profunda mudou o meu pensamento. -
5:41 - 5:44Ninguém diz a uma criança como ver,
-
5:44 - 5:46especialmente nos primeiros anos.
-
5:46 - 5:51Elas aprendem através das experiências
e exemplos do mundo real. -
5:51 - 5:54Se considerarmos os olhos de uma criança
-
5:54 - 5:57como um par de câmeras biológicas,
-
5:57 - 6:01eles tiram uma foto
a cada 200 milissegundos, -
6:01 - 6:04o tempo médio em que o movimento
do olho é feito. -
6:04 - 6:10Então, aos três anos, uma criança
terá visto centenas de milhões de fotos -
6:10 - 6:11do mundo real.
-
6:11 - 6:14São muitos exemplos de treinamento.
-
6:14 - 6:20Então, em vez de focar
somente algoritmos melhores, -
6:20 - 6:26minha ideia foi dar-lhes
os tipos de dados de treinamento -
6:26 - 6:29que uma criança obtém
através das experiências, -
6:29 - 6:33tanto em quantidade quanto em qualidade.
-
6:33 - 6:35Uma vez compreendendo isso,
-
6:35 - 6:38sabíamos que precisávamos
coletar um conjunto de dados -
6:38 - 6:42que tivesse mais imagens
do que tínhamos antes, -
6:42 - 6:45talvez milhares de vezes mais,
-
6:45 - 6:49e juntamente com o professor Kai Li,
da Universidade de Princeton, -
6:49 - 6:54lançamos o projeto ImageNet em 2007.
-
6:54 - 6:57Felizmente, não tínhamos que colocar
uma câmera em nossas cabeças -
6:57 - 6:59e esperar por vários anos.
-
6:59 - 7:01Fomos à internet,
-
7:01 - 7:05o maior tesouro de imagens
que os humanos já criaram. -
7:05 - 7:08Baixamos aproximadamente
um bilhão de imagens -
7:08 - 7:14e usamos tecnologia de "crowdsourcing",
como a plataforma Amazon Mechanical Turk, -
7:14 - 7:16para nos ajudar
a classificar essas imagens. -
7:16 - 7:21No seu auge, o ImageNet foi
um dos maiores empregadores -
7:21 - 7:24de trabalhadores
da Amazon Mechanical Turk. -
7:24 - 7:28Juntos, quase 50 mil trabalhadores
-
7:28 - 7:32de 167 países do mundo,
-
7:32 - 7:36nos ajudaram a limpar,
separar e classificar -
7:36 - 7:40aproximadamente um bilhão
de candidatas a imagens. -
7:41 - 7:43Esse foi o tamanho do empenho
-
7:43 - 7:47para capturar até mesmo
uma fração das imagens -
7:47 - 7:51que a mente de uma criança capta
nos primeiros anos de desenvolvimento. -
7:51 - 7:56Em retrospecto,
esta ideia de usar dados extensos -
7:56 - 8:01para treinar os algoritmos
computacionais pode parecer óbvia agora, -
8:01 - 8:05mas em 2007, não era tão óbvia assim.
-
8:05 - 8:09Estivemos praticamente sós
nessa jornada por um bom tempo. -
8:09 - 8:14Alguns colegas próximos me aconselharam
a fazer algo mais útil pelo meu mandato, -
8:14 - 8:18e lutávamos constantemente para conseguir
financiamento para a pesquisa. -
8:18 - 8:20Uma vez, eu brinquei
com os meus alunos de graduação -
8:20 - 8:24que iria reabrir minha loja de lavagem
a seco para financiar o ImageNet. -
8:24 - 8:29Afinal de contas, foi assim
que financiei minha faculdade. -
8:29 - 8:31Então seguimos em frente.
-
8:31 - 8:35Em 2009, o projeto ImageNet entregou
-
8:35 - 8:39um banco de dados
de 15 milhões de imagens, -
8:39 - 8:44entre 22 mil classes de objetos e coisas,
-
8:44 - 8:47organizadas pelas palavras
cotidianas em inglês. -
8:47 - 8:50Tanto em quantidade quanto em qualidade,
-
8:50 - 8:53isso foi uma escala sem precedentes.
-
8:53 - 8:56Como exemplo, no caso dos gatos,
-
8:56 - 8:59temos mais de 62 mil gatos
-
8:59 - 9:03de todos os aspectos e poses;
-
9:03 - 9:08e todas as espécies
de gatos domésticos e selvagens. -
9:08 - 9:12Ficamos muito felizes em criar o ImageNet
-
9:12 - 9:15e queríamos que todo o mundo das pesquisas
se beneficiasse com ele. -
9:15 - 9:20Assim, à moda TED, abrimos
todo o conjunto de dados -
9:20 - 9:23para a comunidade mundial
de pesquisa gratuitamente. -
9:23 - 9:27(Aplausos)
-
9:29 - 9:34Agora que temos os dados para alimentar
o cérebro do nosso computador, -
9:34 - 9:38estamos prontos para retornar
aos algoritmos em si. -
9:38 - 9:43Como se viu, a riqueza de informações
fornecidas pelo ImageNet -
9:43 - 9:48foi um ajuste perfeito para uma classe
de algoritmos de aprendizado de máquina -
9:48 - 9:50chamada "rede neural convolucional",
-
9:50 - 9:55iniciada por Kunihiko Fukushima,
Geoff Hinton e Yann LeCun -
9:55 - 9:58nos anos 1970 e 1980.
-
9:59 - 10:05Assim como o cérebro é composto de bilhões
de neurônios altamente conectados, -
10:05 - 10:08uma unidade operacional básica
numa rede neural -
10:08 - 10:11é como um nó neuronal.
-
10:11 - 10:13Ela obtém informações de outros nós
-
10:13 - 10:16e envia dados para outros.
-
10:16 - 10:21Além disso, essas centenas de milhares,
ou mesmo milhões de nós, -
10:21 - 10:24são organizadas em camadas hierárquicas,
-
10:24 - 10:27parecidas com o cérebro.
-
10:27 - 10:31Numa rede neural que usamos para treinar
nosso modelo de reconhecimento de objetos -
10:31 - 10:35há 24 milhões de nós,
-
10:35 - 10:37140 milhões de parâmetros
-
10:37 - 10:40e 15 bilhões de conexões.
-
10:40 - 10:43É um modelo enorme.
-
10:43 - 10:47Alimentada pelos dados
consideráveis do ImageNet -
10:47 - 10:52e os modernos CPUs e GPUs
para treinar um modelo colossal, -
10:52 - 10:54a rede neural convolucional
-
10:54 - 10:58floresceu de um modo que ninguém esperava.
-
10:58 - 11:01Tornou-se a arquitetura vencedora
-
11:01 - 11:06para gerar novos resultados animadores
em reconhecimento de objetos. -
11:06 - 11:09Isto é um computador nos dizendo
-
11:09 - 11:11que esta foto contém um gato
-
11:11 - 11:13e onde ele está.
-
11:13 - 11:15É claro que há mais coisas além de gatos.
-
11:15 - 11:18Aqui está um algoritmo
computacional nos dizendo -
11:18 - 11:21que a foto contém um garoto
e um urso de pelúcia; -
11:21 - 11:25um cão, uma pessoa
e uma pequena pipa ao fundo; -
11:25 - 11:28ou uma foto com muitas informações
-
11:28 - 11:33como um homem, um skate, corrimãos,
um poste de luz, e assim por diante. -
11:33 - 11:34Às vezes,
-
11:34 - 11:37quando o computador
não tem certeza do que vê, -
11:37 - 11:39(Risos)
-
11:39 - 11:42nós o ensinamos
a ser inteligente o bastante -
11:42 - 11:46para nos dar uma resposta segura
em vez de ficar deduzindo muito, -
11:46 - 11:48como nós faríamos.
-
11:48 - 11:53Mas outras vezes, nosso algoritmo
computacional é notável aos nos dizer -
11:53 - 11:55exatamente o que são os objetos,
-
11:55 - 11:59como a marca, o modelo e o ano dos carros.
-
11:59 - 12:04Nós cruzamos esse algoritmo com milhões
de imagens do Google Street View -
12:04 - 12:07em centenas de cidades americanas
-
12:07 - 12:10e descobrimos algo muito interessante:
-
12:10 - 12:14primeiro, confirmou-se
a nossa sabedoria popular -
12:14 - 12:17de que preços de carros estão relacionados
-
12:17 - 12:19ao rendimento das famílias.
-
12:19 - 12:24Mas surpreendentemente,
o preço dos carros também se relaciona -
12:24 - 12:26com as taxas de crimes nas cidades,
-
12:26 - 12:30ou padrões de votos pelo CEPs.
-
12:32 - 12:34Espere um pouco. É isso mesmo?
-
12:34 - 12:39Os computadores já igualaram ou mesmo
superaram as capacidades humanas? -
12:39 - 12:42Não tão rápido.
-
12:42 - 12:46Até agora, apenas ensinamos
os computadores a ver objetos. -
12:46 - 12:51É como uma criancinha aprendendo
a pronunciar algumas palavras. -
12:51 - 12:54É um feito incrível,
-
12:54 - 12:56mas é apenas o primeiro passo.
-
12:56 - 13:00Em breve, outro marco
de desenvolvimento será atingido, -
13:00 - 13:04e as crianças começam
a se comunicar por meio de frases. -
13:04 - 13:08Então, em vez de dizer
que isto é um gato na foto, -
13:08 - 13:13vocês ouviram a garotinha nos dizendo
que isto é um gato deitado na cama. -
13:13 - 13:18Então, para ensinar um computador
a ver uma foto e criar frases, -
13:18 - 13:22o casamento entre os dados
e o algoritmo de aprendizado de máquina -
13:22 - 13:25deve dar outro passo.
-
13:25 - 13:29Agora, o computador tem que aprender
tanto com as fotos -
13:29 - 13:32quanto com as frases em linguagem natural
-
13:32 - 13:35geradas por humanos.
-
13:35 - 13:39Assim como o cérebro integra
visão e linguagem, -
13:39 - 13:44nós desenvolvemos um modelo
que conecta partes de coisas visuais, -
13:44 - 13:46como fragmentos visuais,
-
13:46 - 13:50com palavras e ideias em frases.
-
13:51 - 13:53Há uns quatro meses,
-
13:53 - 13:56finalmente juntamos tudo isso,
-
13:56 - 13:59e produzimos um dos primeiros
modelos de visão computacional -
13:59 - 14:03capaz de gerar frases do jeito humano
-
14:03 - 14:07quando vê uma foto pela primeira vez.
-
14:07 - 14:12Agora, vou mostrar o que o computador diz
-
14:12 - 14:14quando vê a foto
-
14:14 - 14:17que a garotinha viu,
no início desta palestra. -
14:19 - 14:22(Vídeo) Computador: Um homem está
em pé, próximo a um elefante. -
14:24 - 14:28Um grande avião sentado em cima
de uma pista de aeroporto. -
14:29 - 14:33FFL: Claro, estamos trabalhando com afinco
para melhorar nossos algoritmos, -
14:33 - 14:36e ele ainda tem muito o que aprender.
-
14:36 - 14:38(Aplausos)
-
14:39 - 14:42E o computador ainda comete erros.
-
14:42 - 14:46(Vídeo) Computador: Um gato deitado
numa cama com um cobertor. (Risos) -
14:46 - 14:49FFL: É claro, quando ele vê muitos gatos,
-
14:49 - 14:52ele acha que tudo se parece com um gato.
-
14:53 - 14:56(Vídeo) Computador: Um garoto
está segurando um taco de beisebol. -
14:56 - 14:58(Risos)
-
14:58 - 15:02FFL: Se nunca viu uma escova de dentes,
ele a confunde com um taco de beisebol. -
15:03 - 15:07(Vídeo) Computador: Um homem monta
um cavalo na rua, próximo a um edifício. -
15:07 - 15:09(Risos)
-
15:09 - 15:12FFL: Não ensinamos Arte 101
aos computadores. -
15:14 - 15:17(Vídeo) Computador: Uma zebra
num campo gramado. -
15:17 - 15:20FFL: E ele não aprendeu a apreciar
a deslumbrante beleza da natureza -
15:20 - 15:22como nós apreciamos.
-
15:22 - 15:25Tem sido uma longa jornada.
-
15:25 - 15:29Ir da idade zero a três foi difícil.
-
15:29 - 15:35O verdadeiro desafio é ir
dos 3 aos 13 e além disso. -
15:35 - 15:39Vejam esta foto do garoto
com o bolo novamente. -
15:39 - 15:44Até então, ensinamos
o computador a ver objetos -
15:44 - 15:47ou mesmo contar-nos uma simples
história quando vê uma foto. -
15:47 - 15:52(Vídeo) Computador: Uma pessoa
sentada à mesa com um bolo. -
15:52 - 15:54FFL: Mas há muito mais nesta foto
-
15:54 - 15:56do que apenas uma pessoa e um bolo.
-
15:56 - 16:01O que o computador não vê
é que esta é uma colomba -
16:01 - 16:04que é servida apenas durante a Páscoa.
-
16:04 - 16:07O garoto está vestindo
a sua camiseta preferida, -
16:07 - 16:11que lhe foi dada de presente
pelo pai após uma viagem a Sydney. -
16:11 - 16:15E nós podemos ver a felicidade dele,
-
16:15 - 16:18e o que está se passando em sua mente
exatamente naquele momento. -
16:19 - 16:22Este é o meu filho Leo.
-
16:22 - 16:24Em minha busca pela inteligência visual,
-
16:24 - 16:27penso nele constantemente
-
16:27 - 16:30e no mundo futuro em que ele viverá.
-
16:30 - 16:32Quando as máquinas puderem ver,
-
16:32 - 16:37médicos e enfermeiros terão
pares extras de olhos incansáveis -
16:37 - 16:41para ajudá-los a diagnosticar
e cuidar de pacientes. -
16:41 - 16:45Os carros funcionarão de forma
mais inteligente e segura nas estradas. -
16:45 - 16:48Robôs, não apenas seres humanos,
-
16:48 - 16:51nos ajudarão a realizar buscas
em áreas de desastres -
16:51 - 16:53e a salvar pessoas soterradas e feridas.
-
16:53 - 16:58Descobriremos novas espécies,
materiais melhores -
16:58 - 17:02e exploraremos lugares que não podemos ver
com a ajuda das máquinas. -
17:03 - 17:07Pouco a pouco, estamos dando
visão às máquinas. -
17:07 - 17:10Primeiro, as ensinamos a ver,
-
17:10 - 17:13então elas nos ajudam a ver melhor.
-
17:13 - 17:14Pela primeira vez,
-
17:14 - 17:20os olhos humanos não serão os únicos
ponderando e explorando nosso mundo. -
17:20 - 17:23Não usaremos as máquinas
apenas pela sua inteligência; -
17:23 - 17:29colaboraremos também com elas
de uma maneira que nem sequer imaginamos. -
17:29 - 17:32Esta é a minha busca:
-
17:32 - 17:34dar aos computadores inteligência visual
-
17:34 - 17:39e criar um futuro melhor
para o Leo e para o mundo. -
17:39 - 17:40Obrigada.
-
17:40 - 17:43(Aplausos)
- Title:
- Como estamos ensinando os computadores a compreender fotos
- Speaker:
- Fei-Fei Li
- Description:
-
Quando uma criancinha olha para uma foto, ela consegue identificar elementos simples: "gato", "livro", "cadeira". Bem, os computadores estão ficando inteligentes o suficiente para fazer isso também. O que vem a seguir? Em uma palestra animada, a especialista em visão computacional Fei-Fei Li fala sobre tecnologia de ponta - incluindo um banco de dados de 15 milhões de fotos que a sua equipe reuniu para "ensinar" um computador a compreender fotos - e sobre ideias importantes que estão por vir.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Leonardo Silva approved Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Leonardo Silva edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Maricene Crus edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Maricene Crus edited Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures | ||
Maricene Crus accepted Portuguese, Brazilian subtitles for How we're teaching computers to understand pictures |