Return to Video

Como estamos a ensinar os computadores a entender imagens

  • 0:04 - 0:06
    Vou mostrar-vos uma coisa.
  • 0:06 - 0:10
    (Vídeo) Menina: Isto é um gato
    sentado numa cama.
  • 0:10 - 0:13
    O rapaz está a fazer festas ao elefante.
  • 0:15 - 0:18
    Isso são pessoas a ir para um avião.
  • 0:19 - 0:21
    É um grande avião.
  • 0:21 - 0:24
    Fei-Fei Li: Esta é uma criança de 3 anos
  • 0:24 - 0:27
    a descrever o que vê num
    conjunto de fotografias.
  • 0:27 - 0:30
    Ela poderá ter ainda muito
    para aprender neste mundo,
  • 0:30 - 0:35
    mas já é especialista
    numa tarefa muito importante:
  • 0:35 - 0:37
    dar sentido ao que vê.
  • 0:38 - 0:42
    A nossa sociedade
    está mais avançada do que nunca.
  • 0:42 - 0:46
    Enviamos pessoas para a lua,
    fazemos telefones que falam connosco
  • 0:46 - 0:51
    ou personalizamos estações de rádio
    que apenas tocam música de que gostamos.
  • 0:51 - 0:55
    No entanto, as nossas máquinas
    e computadores mais avançados
  • 0:55 - 0:58
    ainda têm dificuldade
    em realizar esta tarefa.
  • 0:58 - 1:01
    Por isso estou aqui hoje,
    para vos dar um relato
  • 1:01 - 1:05
    sobre os últimos avanços do nosso trabalho
    em visão computacional,
  • 1:05 - 1:10
    uma das tecnologias mais inovadoras
    e potencialmente mais revolucionárias
  • 1:10 - 1:12
    da ciência informática.
  • 1:13 - 1:17
    É verdade que já temos protótipos
    de carros que conduzem sozinhos,
  • 1:17 - 1:21
    mas sem visão inteligente,
    eles não conseguem distinguir
  • 1:21 - 1:25
    entre um saco de papel amarrotado,
    que o carro pode atropelar,
  • 1:25 - 1:29
    e uma pedra do mesmo tamanho,
    que deve ser evitada.
  • 1:29 - 1:33
    Criámos fabulosas câmaras de megapixéis,
  • 1:33 - 1:37
    mas não conseguimos devolver
    a visão a pessoas cegas.
  • 1:36 - 1:40
    Os drones conseguem voar
    sobre uma área extensa de terra,
  • 1:40 - 1:42
    mas não têm a tecnologia
    de visualização
  • 1:42 - 1:45
    necessária para detetar
    alterações nas florestas tropicais
  • 1:45 - 1:48
    Temos câmaras de segurança
    por todo o lado,
  • 1:48 - 1:53
    mas elas não nos alertam quando uma
    criança se está a afogar numa piscina.
  • 1:54 - 1:58
    As fotografias e os vídeos
    estão a tornar-se
  • 1:58 - 2:00
    parte integrante da vida em todo o mundo.
  • 2:00 - 2:04
    São gerados a um ritmo muito mais rápido
    do que qualquer ser humano,
  • 2:04 - 2:07
    ou equipas de seres humanos
    poderiam esperar ver.
  • 2:07 - 2:11
    Nós estamos neste momento a contribuir
    para este fenómeno, com este evento TED.
  • 2:11 - 2:16
    No entanto, até o software mais avançado
    tem ainda dificuldades em compreender
  • 2:16 - 2:20
    e gerir uma quantidade
    de dados tão grande.
  • 2:20 - 2:24
    Por outras palavras, enquanto sociedade,
  • 2:24 - 2:27
    nós somos bastante cegos,
  • 2:27 - 2:30
    porque as nossas máquinas
    mais inteligentes ainda são cegas.
  • 2:32 - 2:34
    "Porque é isto tão difícil?"
    poderão perguntar.
  • 2:34 - 2:37
    As câmaras fotográficas
    tiram fotografias como esta,
  • 2:37 - 2:41
    convertendo luzes
    numa tabela com números,
  • 2:41 - 2:43
    conhecidos como pixéis,
  • 2:43 - 2:45
    mas são apenas números sem vida.
  • 2:45 - 2:48
    Por si só não têm significado.
  • 2:48 - 2:52
    Pela mesma razão que ouvir
    não é o mesmo que escutar,
  • 2:52 - 2:57
    tirar fotografias
    não é o mesmo que ver,
  • 2:57 - 3:00
    e por ver entenda-se compreender.
  • 3:01 - 3:07
    Na verdade, a Mãe Natureza precisou
    de 540 milhões de anos de trabalho duro
  • 3:07 - 3:09
    para realizar esta tarefa.
  • 3:09 - 3:11
    Muito desse esforço
  • 3:11 - 3:17
    foi para o desenvolvimento do mecanismo
    de processamento visual do cérebro,
  • 3:17 - 3:19
    e não para os olhos.
  • 3:19 - 3:22
    Portanto, a visão começa nos olhos,
  • 3:22 - 3:25
    mas onde realmente acontece é no cérebro.
  • 3:27 - 3:31
    Há já 15 anos, desde
    o meu doutoramento em Caltech,
  • 3:31 - 3:34
    e depois como diretora
    do laboratório Stanford's Vision,
  • 3:34 - 3:39
    tenho trabalhado com os meus mentores,
    colaboradores e estudantes
  • 3:39 - 3:42
    para ensinar os computadores a ver.
  • 3:42 - 3:44
    A nossa área de investigação chama-se
  • 3:44 - 3:46
    visão computacional
    e aprendizagem automática.
  • 3:46 - 3:50
    Faz parte do campo mais geral
    da inteligência artificial.
  • 3:51 - 3:56
    Em ultima análise, queremos ensinar
    as máquinas a ver, tal como nós vemos:
  • 3:56 - 4:02
    nomear objetos, identificar pessoas,
    inferir a geometria 3D das coisas,
  • 4:02 - 4:07
    entender relações, emoções,
    ações e intenções.
  • 4:08 - 4:14
    Todos imaginamos e criamos histórias
    sobre pessoas, lugares e objetos
  • 4:14 - 4:16
    mal lhes deitamos a vista em cima.
  • 4:17 - 4:23
    O primeiro passo para este objetivo
    é ensinar um computador a ver objetos,
  • 4:23 - 4:25
    os blocos de construção do mundo visual.
  • 4:26 - 4:30
    Na sua forma mais simples, imaginem
    este processo de ensinar os computadores
  • 4:30 - 4:33
    como o ato de lhes mostrar
    imagens de um dado objeto
  • 4:33 - 4:37
    para treino, por exemplo gatos,
  • 4:37 - 4:41
    e conceber um modelo que aprende
    a partir dessas imagens para treino.
  • 4:41 - 4:43
    Quão difícil será fazer isto?
  • 4:43 - 4:47
    Afinal de contas, um gato não é mais
    que um conjunto de formas e cores,
  • 4:47 - 4:52
    e foi o que fizemos nos primeiros
    tempos da modelação de objetos.
  • 4:52 - 4:55
    Dizíamos ao algoritmo do computador,
    em linguagem matemática,
  • 4:55 - 4:59
    que um gato tem uma face redonda,
    um corpo volumoso,
  • 4:59 - 5:01
    duas orelhas pontiagudas,
    uma cauda comprida,
  • 5:01 - 5:03
    e esse modelo parecia bem assim.
  • 5:03 - 5:05
    Mas o que acontece com este gato?
  • 5:05 - 5:07
    (Risos)
  • 5:07 - 5:08
    Está todo enrolado.
  • 5:08 - 5:12
    Agora vamos ter de adicionar
    outra forma e perspetiva ao modelo.
  • 5:12 - 5:15
    E se os gatos estiverem escondidos?
  • 5:15 - 5:18
    E quanto a estes gatos patetas?
  • 5:19 - 5:22
    Agora compreendem o meu problema.
  • 5:22 - 5:25
    Até mesmo algo tão simples
    quanto um animal doméstico
  • 5:25 - 5:29
    pode ter um número infinito
    de variações relativamente ao modelo
  • 5:29 - 5:32
    e estamos a falar de um único objeto.
  • 5:33 - 5:35
    Então, há cerca de oito anos,
  • 5:35 - 5:40
    uma observação muito simples e profunda
    mudou a minha forma de pensar.
  • 5:41 - 5:44
    Ninguém diz a uma criança como se vê,
  • 5:44 - 5:46
    especialmente nos primeiros anos de vida.
  • 5:46 - 5:51
    As crianças aprendem isso através
    de experiências e exemplos da vida real.
  • 5:51 - 5:54
    Se considerarmos os olhos de uma criança
  • 5:54 - 5:57
    como duas máquinas fotográficas biológicas,
  • 5:57 - 6:01
    elas tiram uma fotografia a cada
    200 millisegundos aproximadamente,
  • 6:01 - 6:04
    o tempo médio que demora
    um movimento ocular.
  • 6:04 - 6:10
    Assim, aos três anos, uma criança
    terá visto centenas de milhões de imagens
  • 6:10 - 6:11
    do mundo real.
  • 6:11 - 6:14
    São imensos exemplos para treino.
  • 6:14 - 6:20
    Deste modo, em vez de me focar apenas
    em algoritmos cada vez melhores,
  • 6:20 - 6:26
    a minha ideia foi treinar os algoritmos
    com o mesmo tipo de dados
  • 6:26 - 6:29
    que uma criança recebe
    através das suas experiências,
  • 6:29 - 6:32
    tanto em quantidade como qualidade.
  • 6:33 - 6:35
    Depois de percebermos isto,
  • 6:35 - 6:38
    sabíamos que teríamos de reunir
    um conjunto de dados
  • 6:38 - 6:42
    com muito mais imagens
    do que alguma vez tínhamos tido,
  • 6:42 - 6:45
    talvez mesmo milhares de vezes mais.
  • 6:45 - 6:49
    Juntamente com o Professor Kai Li
    na Universidade de Princeton,
  • 6:49 - 6:53
    iniciámos o projeto ImageNet, em 2007.
  • 6:54 - 6:57
    Felizmente, não precisámos de montar
    uma câmara na cabeça
  • 6:57 - 6:59
    e esperar vários anos.
  • 6:59 - 7:01
    Recorremos à Internet,
  • 7:01 - 7:05
    o maior tesouro de imagens
    que o Homem alguma vez criou.
  • 7:05 - 7:08
    Descarregámos cerca
    de mil milhões de imagens
  • 7:08 - 7:12
    e utilizámos tecnologias
    de contribuição voluntária,
  • 7:12 - 7:14
    como a plataforma Amazon Mechanical Turk,
  • 7:14 - 7:16
    para nos ajudar a rotular essas imagens.
  • 7:17 - 7:21
    No seu auge, o ImageNet
    era um dos maiores empregadores
  • 7:21 - 7:24
    da Amazon Mechanical Turk.
  • 7:24 - 7:29
    No total, quase 50 mil trabalhadores
  • 7:29 - 7:32
    de 167 países de todo o mundo
  • 7:32 - 7:36
    ajudaram-nos a limpar, ordenar e rotular
  • 7:36 - 7:40
    cerca de mil milhões
    de imagens candidatas.
  • 7:41 - 7:44
    Foi quanto custou captar
  • 7:44 - 7:47
    uma fração de todas as imagens
  • 7:47 - 7:51
    que uma criança vê nos seus
    primeiros anos de desenvolvimento.
  • 7:52 - 7:56
    Em retrospetiva, esta ideia
    de usar grandes volumes de dados
  • 7:56 - 8:01
    para treinar algoritmos em computadores
    pode hoje parecer óbvia,
  • 8:01 - 8:04
    mas em 2007 não era assim tão óbvia.
  • 8:05 - 8:09
    Estivemos sozinhos neste percurso
    durante algum tempo.
  • 8:09 - 8:14
    Alguns colegas amáveis aconselharam-me
    a fazer algo mais útil no meu mandato,
  • 8:14 - 8:18
    e estávamos constantemente a lutar
    por financiamento para a investigação.
  • 8:18 - 8:20
    Uma vez até disse, a brincar,
    aos meus alunos
  • 8:20 - 8:23
    que ia reabrir a minha loja
    de limpeza a seco,
  • 8:23 - 8:25
    para financiar o ImageNet.
  • 8:25 - 8:27
    Afinal de contas,
    foi assim que eu financiei
  • 8:27 - 8:29
    os meus estudos na universidade.
  • 8:29 - 8:31
    E assim continuámos o trabalho.
  • 8:31 - 8:35
    Em 2009, o ImageNet disponibilizou
  • 8:35 - 8:39
    uma base de dado
    com 15 milhões de imagens
  • 8:39 - 8:44
    ao longo de 22 mil classes
    de objetos e coisas,
  • 8:44 - 8:47
    organizados por palavras
    inglesas de uso comum.
  • 8:47 - 8:50
    Tanto em quantidade como em qualidade,
  • 8:50 - 8:53
    tratou-se de uma escala sem precedentes.
  • 8:54 - 8:57
    Como exemplo disto temos,
    no caso dos gatos,
  • 8:57 - 8:59
    mais de 62 mil gatos
  • 8:59 - 9:03
    de todos os tipos e em variadas poses,
  • 9:03 - 9:08
    assim como todas as espécies
    de gatos domésticos e selvagens.
  • 9:08 - 9:12
    Estávamos muito entusiasmados
    por termos construído o ImageNet
  • 9:12 - 9:16
    e queríamos que toda a pesquisa mundial
    pudesse beneficiar dele,
  • 9:16 - 9:20
    por isso, à boa maneira do TED,
    disponibilizámos toda a base de dados
  • 9:20 - 9:23
    para a comunidade de pesquisa
    mundial, gratuitamente.
  • 9:24 - 9:27
    (Aplausos)
  • 9:29 - 9:34
    Agora que já temos os dados para alimentar
    o cérebro do nosso computador,
  • 9:34 - 9:37
    estamos prontos para voltar
    a trabalhar nos algoritmos.
  • 9:38 - 9:43
    Como se veio a perceber, a riqueza
    de informações fornecidas pelo ImageNet
  • 9:43 - 9:48
    era perfeita para uma classe particular
    de algoritmos de aprendizagem automática
  • 9:48 - 9:50
    designada por "rede neural convoluta",
  • 9:50 - 9:55
    lançada por Kunihiko Fukushima,
    Geoff Hinton e Yann LeCun,
  • 9:55 - 9:58
    nos anos 70 e 80.
  • 9:59 - 10:01
    À semelhança do cérebro,
  • 10:01 - 10:05
    formado por milhares de milhões
    de neurónios altamente ligados,
  • 10:05 - 10:08
    uma operação unitária básica
    numa rede neural
  • 10:08 - 10:11
    é idêntica a um nodo de neurónios.
  • 10:11 - 10:13
    Esse nodo recebe e envia informações
  • 10:13 - 10:16
    de outros nodos e para outros nodos.
  • 10:16 - 10:21
    Além disso, essas centenas de milhares
    ou mesmo milhões de nodos
  • 10:21 - 10:24
    estão organizados em camadas hierárquicas,
  • 10:24 - 10:27
    à semelhança do que se passa no cérebro.
  • 10:27 - 10:29
    Numa rede neural típica que usamos,
  • 10:29 - 10:32
    para treinar o modelo
    de reconhecimento de objetos
  • 10:32 - 10:35
    existem 24 milhões de nodos,
  • 10:35 - 10:37
    140 milhões de parâmetros
  • 10:37 - 10:40
    e 15 mil milhões de ligações.
  • 10:41 - 10:43
    É um modelo enorme.
  • 10:43 - 10:47
    Abastecido pelos imensos dados do ImageNet
  • 10:47 - 10:52
    dos CPUs e GPUs modernos para treinar
    um modelo tão pesado quanto este,
  • 10:52 - 10:55
    a rede neural convoluta
  • 10:55 - 10:58
    floresceu de um modo que ninguém esperava.
  • 10:58 - 11:02
    Tornou-se na arquitetura vencedora
  • 11:02 - 11:05
    para a geração de resultados
    sensacionais no reconhecimento de objetos.
  • 11:06 - 11:09
    Aqui temos um computador a dizer-nos
  • 11:09 - 11:11
    que esta imagem tem um gato
  • 11:11 - 11:13
    e a localização do gato na imagem.
  • 11:13 - 11:15
    É claro que há mais coisas além de gatos,
  • 11:15 - 11:18
    e assim temos aqui um algoritmo
    de computador a dizer-nos
  • 11:18 - 11:21
    que a imagem contém um rapaz
    e um ursinho de peluche,
  • 11:21 - 11:25
    um cão, uma pessoa
    e um pequeno papagaio ao fundo,
  • 11:25 - 11:28
    ou uma imagem com muitos elementos,
  • 11:28 - 11:33
    tais como um homem, um "skate",
    grades, um poste de iluminação, etc.
  • 11:33 - 11:39
    Por vezes, quando o computador
    não está seguro do que vê,
  • 11:39 - 11:42
    ensinámo-lo a ser
    suficientemente inteligente
  • 11:42 - 11:46
    para nos dar uma resposta segura
    em vez de se comprometer demasiado,
  • 11:46 - 11:47
    tal como nós faríamos.
  • 11:48 - 11:53
    Mas outras vezes o nosso algoritmo
    é brilhante a dizer exatamente
  • 11:53 - 11:55
    quais são os objetos na imagem,
  • 11:55 - 11:59
    como a marca, o modelo
    e o ano de fabrico dos carros.
  • 11:59 - 12:04
    Aplicámos este algoritmo a milhões
    de imagens do Google Street View
  • 12:04 - 12:07
    a centenas de cidades norte-americanas
  • 12:07 - 12:10
    e aprendemos algo muito interessante:
  • 12:10 - 12:14
    primeiro, confirmou a sabedoria comum
  • 12:14 - 12:17
    que diz que os preços dos carros
    estão fortemente correlacionados
  • 12:17 - 12:19
    com os rendimentos familiares.
  • 12:19 - 12:24
    Mas, surpreendentemente, os preços
    dos carros também estão correlacionados
  • 12:24 - 12:26
    com as taxas de criminalidade em cidades,
  • 12:27 - 12:30
    ou padrões de votação por código postal.
  • 12:32 - 12:34
    Mas esperem. É mesmo assim?
  • 12:34 - 12:39
    O computador já conseguiu mesmo igualar
    ou até ultrapassar as capacidades humanas?
  • 12:40 - 12:42
    Vamos com calma.
  • 12:42 - 12:46
    Até agora, apenas ensinámos
    o computador a ver objetos.
  • 12:46 - 12:51
    Isto é o equivalente a uma criança
    que aprende a pronunciar alguns nomes.
  • 12:51 - 12:54
    É um feito incrível,
  • 12:54 - 12:56
    mas é apenas o primeiro passo.
  • 12:56 - 13:00
    As crianças atingem rapidamente
    um novo marco no seu desenvolvimento,
  • 13:00 - 13:03
    começando a comunicar com frases.
  • 13:05 - 13:08
    Ou seja, em vez de dizer
    que há um gato na imagem,
  • 13:08 - 13:12
    já ouvimos a menina dizer-nos
    que é um gato deitado numa cama.
  • 13:13 - 13:18
    Para ensinar um computador
    a gerar frases a partir de uma imagem,
  • 13:18 - 13:20
    é agora preciso que o casamento
  • 13:20 - 13:23
    entre o volume de dados
    e a aprendizagem automática
  • 13:23 - 13:24
    dê mais um passo.
  • 13:25 - 13:29
    Agora, o computador terá que aprender,
    não só a partir de imagens,
  • 13:29 - 13:32
    como também frases naturais da linguagem
  • 13:32 - 13:34
    geradas pelos seres humanos.
  • 13:35 - 13:39
    Tal como o cérebro integra
    a visão e a linguagem,
  • 13:39 - 13:44
    nós desenvolvemos um modelo
    que relaciona partes de coisas visuais,
  • 13:44 - 13:46
    tais como fragmentos visuais,
  • 13:46 - 13:50
    com palavras e expressões em frases.
  • 13:51 - 13:53
    Há cerca de 4 meses,
  • 13:53 - 13:56
    conseguimos finalmente conjugar tudo isto
  • 13:56 - 13:59
    e produzir um dos primeiros
    modelos de visão computacional
  • 13:59 - 14:03
    capaz de gerar uma frase semelhante
    à gerada por um ser humano,
  • 14:03 - 14:06
    quando vê uma imagem pela primeira vez.
  • 14:07 - 14:12
    Agora, estou pronta para vos mostrar
    o que o computador diz
  • 14:12 - 14:14
    quando vê a imagem
  • 14:14 - 14:17
    que a menina viu no início desta palestra.
  • 14:19 - 14:22
    (Vídeo) Computador:
    Um homem está ao pé de um elefante.
  • 14:24 - 14:28
    Um avião de grande porte
    poisado na pista de um aeroporto.
  • 14:29 - 14:33
    FFL: Claro que ainda estamos a trabalhar
    arduamente para melhorar os algoritmos,
  • 14:33 - 14:36
    e o computador ainda tem
    muito que aprender.
  • 14:36 - 14:39
    (Aplausos)
  • 14:40 - 14:42
    O computador ainda faz erros.
  • 14:43 - 14:46
    (Vídeo) Computador:
    Um gato deitado numa cama num cobertor.
  • 14:46 - 14:49
    FFL: Claro que, depois de ver
    muitos gatos,
  • 14:49 - 14:51
    ele pensa que tudo é um gato.
  • 14:53 - 14:56
    (Video) Computador: Um menino
    segura um taco de basebol.
  • 14:56 - 14:58
    (Risos)
  • 14:58 - 15:01
    FFL: Ou, se o computador
    nunca viu uma escova de dentes,
  • 15:01 - 15:04
    confunde-a com um taco de basebol.
  • 15:03 - 15:07
    (Vídeo) Computador: Um homem a cavalo
    desce uma rua ao pé de um edifício.
  • 15:07 - 15:09
    (Risos)
  • 15:09 - 15:12
    FFL: Não ensinámos aos computadores
    a disciplina de Introdução à Arte.
  • 15:14 - 15:16
    (Vídeo) Computador:
    Uma zebra num relvado.
  • 15:17 - 15:21
    FFL: Também não aprenderam ainda
    a apreciar o esplendor da natureza,
  • 15:21 - 15:22
    como vocês e eu fazemos.
  • 15:22 - 15:25
    Portanto, tem sido um longo percurso.
  • 15:25 - 15:29
    Ir dos zero aos três anos foi difícil.
  • 15:29 - 15:35
    O verdadeiro desafio será ir
    dos três anos aos treze e para além disso.
  • 15:36 - 15:39
    Vou mostrar-vos novamente
    esta imagem do rapaz e do bolo.
  • 15:39 - 15:44
    Até agora, ensinámos
    o computador a ver objetos
  • 15:44 - 15:48
    ou mesmo a contar-nos uma pequena história
    quando vê uma imagem.
  • 15:48 - 15:51
    (Vídeo) Computador: Uma pessoa
    sentada à mesa com um bolo.
  • 15:52 - 15:55
    FFL: Mas há muito mais nesta imagem
  • 15:55 - 15:56
    do que somente uma pessoa e um bolo.
  • 15:56 - 16:01
    O que o computador não consegue ver
    é que se trata de um bolo italiano especial
  • 16:01 - 16:04
    que só se serve durante a Páscoa.
  • 16:04 - 16:07
    O rapaz está a usar
    a sua T-shirt preferida
  • 16:07 - 16:12
    que o pai lhe ofereceu
    após uma viagem a Sydney.
  • 16:11 - 16:15
    Tanto eu como vocês conseguimos ver
    como o rapaz está feliz
  • 16:15 - 16:18
    e o que se passa exatamente
    na sua mente nesse momento.
  • 16:19 - 16:22
    Este é o meu filho Leo.
  • 16:22 - 16:25
    Na minha busca pela inteligência visual,
  • 16:25 - 16:27
    penso frequentemente no Leo
  • 16:27 - 16:30
    e no mundo em que ele viverá no futuro.
  • 16:30 - 16:32
    Quando as máquinas conseguirem ver,
  • 16:32 - 16:37
    médicos e enfermeiros irão ter
    um par adicional de olhos incansáveis
  • 16:37 - 16:41
    para os ajudar a diagnosticar
    e cuidar dos seus doentes.
  • 16:41 - 16:45
    Os automóveis irão andar na estrada
    de modo mais inteligente e seguro.
  • 16:46 - 16:48
    Os robôs, não apenas os seres humanos,
  • 16:48 - 16:50
    irão ajudar-nos a enfrentar
  • 16:50 - 16:53
    zonas de catástrofe,
    salvando feridos e encarcerados.
  • 16:54 - 16:58
    Iremos descobrir novas espécies,
    melhores materiais,
  • 16:58 - 17:02
    e explorar limites nunca antes vistos
    com a ajuda de máquinas.
  • 17:03 - 17:07
    Pouco a pouco, estamos a dar
    às máquinas a capacidade de ver.
  • 17:07 - 17:10
    Primeiro, ensinamo-las a ver.
  • 17:10 - 17:13
    Depois, elas ajudam-nos a ver melhor.
  • 17:13 - 17:17
    Pela primeira vez, os olhos humanos
    não estarão sozinhos
  • 17:17 - 17:20
    na exploração e compreensão
    do nosso mundo.
  • 17:20 - 17:23
    Iremos usar máquinas
    não somente pela sua inteligência,
  • 17:23 - 17:26
    mas também para colaborar com elas
  • 17:26 - 17:29
    de formas que ainda
    não conseguimos imaginar.
  • 17:30 - 17:32
    Esta é a minha missão:
  • 17:32 - 17:35
    dar inteligência visual aos computadores
  • 17:35 - 17:39
    e criar um futuro melhor
    para o Leo e para o mundo.
  • 17:39 - 17:41
    Obrigada.
  • 17:41 - 17:44
    (Aplausos)
Title:
Como estamos a ensinar os computadores a entender imagens
Speaker:
Fei-Fei Li
Description:

Quando uma criança muito pequena olha para uma imagem, consegue identificar elementos simples: "gato", "livro", "cadeira". Os computadores estão a ficar suficientemente inteligentes para também fazerem isso. O que é que há de novo? Numa palestra emocionante, Fei-Fei Li, especialista de visão de computadores, descreve a última geração — incluindo a base de dados de 15 milhões de fotos que a sua equipa criou para "ensinar" um computador a entender imagens — e as perceções fundamentais que ainda pertencem ao futuro.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Portuguese subtitles

Revisions