Return to Video

Como estamos ensinando os computadores a compreender fotos

  • 0:03 - 0:06
    Deixem-me lhes mostrar algo.
  • 0:06 - 0:10
    (Vídeo) Garota: Certo, isso é um gato
    sentado sobre a cama.
  • 0:10 - 0:14
    O garoto está acariciando o elefante.
  • 0:14 - 0:18
    Aquelas são pessoas
    que estão entrando num avião.
  • 0:18 - 0:21
    É um avião grande!
  • 0:21 - 0:24
    Fei-Fei Li: Esta é uma criança
    de três anos de idade
  • 0:24 - 0:27
    descrevendo o que vê numa série de fotos.
  • 0:27 - 0:30
    Ela ainda tem muito
    o que aprender sobre este mundo,
  • 0:30 - 0:35
    mas já é uma especialista
    numa importante tarefa:
  • 0:35 - 0:38
    dar sentido ao que vê.
  • 0:38 - 0:42
    Nossa sociedade está mais
    tecnologicamente avançada do que nunca.
  • 0:42 - 0:46
    Mandamos pessoas para a Lua,
    fazemos telefones que falam conosco
  • 0:46 - 0:51
    ou personalizamos estações de rádio
    para tocar só as músicas de que gostamos.
  • 0:51 - 0:55
    No entanto, nossas máquinas
    mais avançadas e computadores
  • 0:55 - 0:58
    ainda lutam para realizar esta tarefa.
  • 0:58 - 1:01
    Então, estou aqui hoje
    para dar um relatório do progresso
  • 1:01 - 1:05
    sobre os últimos avanços
    em nossa pesquisa em visão computacional,
  • 1:05 - 1:10
    uma das tecnologias mais inovadoras
    e potencialmente revolucionárias
  • 1:10 - 1:13
    na ciência da computação.
  • 1:13 - 1:17
    Sim, temos protótipos de carros
    que podem dirigir sozinhos,
  • 1:17 - 1:21
    mas sem uma visão inteligente,
    não conseguem notar a diferença
  • 1:21 - 1:25
    entre um saco de papel amassado
    na estrada, que pode ser atropelado,
  • 1:25 - 1:29
    e uma pedra daquele tamanho,
    que deve ser evitada.
  • 1:29 - 1:33
    Fizemos câmeras incríveis de megapixel,
  • 1:33 - 1:36
    mas não demos visão aos cegos.
  • 1:36 - 1:40
    Os "drones" podem voar
    sobre a terra firme,
  • 1:40 - 1:42
    mas não têm a tecnologia
    de visão suficiente
  • 1:42 - 1:45
    para nos ajudar a rastrear
    as mudanças das florestas tropicais.
  • 1:45 - 1:48
    As câmeras de segurança
    estão em toda parte,
  • 1:48 - 1:54
    mas não nos alertam quando uma criança
    está se afogando numa piscina.
  • 1:54 - 2:00
    Fotos e vídeos estão se tornando
    partes integrais da vida global.
  • 2:00 - 2:04
    Estão sendo gerados a um ritmo
    muito além do que qualquer humano,
  • 2:04 - 2:07
    -- ou grupos de seres humanos --
    poderia esperar ver.
  • 2:07 - 2:11
    E vocês e eu estamos contribuindo
    para isto nesta palestra TED.
  • 2:11 - 2:16
    No entanto, nosso software mais avançado
    ainda tem dificuldade para compreender
  • 2:16 - 2:20
    e administrar este conteúdo enorme.
  • 2:20 - 2:24
    Então, em outras palavras,
    coletivamente como sociedade,
  • 2:24 - 2:26
    somos muito cegos,
  • 2:26 - 2:30
    porque nossas máquinas
    mais inteligentes ainda são cegas.
  • 2:31 - 2:34
    "Por que isto é tão difícil?",
    vocês podem perguntar.
  • 2:34 - 2:37
    As câmeras podem tirar fotos como esta,
  • 2:37 - 2:41
    convertendo luzes numa matriz
    bidimensional de números
  • 2:41 - 2:43
    conhecida como pixels,
  • 2:43 - 2:45
    mas estes são apenas números sem vida,
  • 2:45 - 2:48
    não carregam significado em si mesmos.
  • 2:48 - 2:52
    Assim como ouvir
    não é o mesmo que escutar,
  • 2:52 - 2:57
    tirar fotos não é o mesmo que ver,
  • 2:57 - 3:01
    e por ver, queremos dizer, compreender.
  • 3:01 - 3:07
    Na verdade, a mãe natureza levou
    540 milhões de anos de trabalho pesado
  • 3:07 - 3:09
    para realizar esta tarefa,
  • 3:09 - 3:11
    e muito deste esforço
  • 3:11 - 3:17
    foi para desenvolver o aparelho
    de processamento visual do nosso cérebro,
  • 3:17 - 3:19
    não os olhos em si.
  • 3:19 - 3:22
    Então, a visão começa com os olhos,
  • 3:22 - 3:26
    mas acontece de fato no cérebro.
  • 3:26 - 3:31
    Então, por 15 anos, começando
    com o meu doutorado na Caltech
  • 3:31 - 3:34
    e depois liderando
    o Stanford's Vision Lab,
  • 3:34 - 3:39
    venho trabalhando com os meus mentores,
    colaboradores e alunos
  • 3:39 - 3:42
    para ensinar os computadores a ver.
  • 3:42 - 3:46
    Nosso campo de pesquisa chama-se visão
    computacional e aprendizado de máquina.
  • 3:46 - 3:50
    É parte do campo geral
    da inteligência artificial.
  • 3:51 - 3:56
    Basicamente, queremos ensinar
    as máquinas a ver como nós:
  • 3:56 - 4:02
    nomear objetos, identificar pessoas,
    perceber a geometria 3D das coisas,
  • 4:02 - 4:08
    compreender relações, emoções,
    ações e intenções.
  • 4:08 - 4:14
    Nós tecemos juntos histórias completas
    das pessoas, lugares e coisas
  • 4:14 - 4:16
    no momento em que os vemos.
  • 4:17 - 4:23
    O primeiro passo rumo a este objetivo,
    é ensinar um computador a ver objetos,
  • 4:23 - 4:25
    o bloco de construção do mundo visual.
  • 4:25 - 4:30
    De modo bem simples,
    imaginem este processo de ensino
  • 4:30 - 4:33
    como mostrar aos computadores
    algumas imagens de treinamento
  • 4:33 - 4:37
    de um objeto em particular, digamos gatos,
  • 4:37 - 4:41
    e projetar um modelo que aprenda
    a partir destas imagens de treinamento.
  • 4:41 - 4:43
    Qual é a dificuldade disto?
  • 4:43 - 4:47
    Afinal de contas, um gato é apenas
    uma coleção de forma e cores,
  • 4:47 - 4:51
    e foi o que fizemos nos primeiro dias
    de modelagem de objetos.
  • 4:51 - 4:55
    Falamos ao algoritmo computacional,
    numa linguagem matemática,
  • 4:55 - 4:59
    que um gato tem o rosto
    arredondado, corpo gordinho,
  • 4:59 - 5:01
    duas orelhas pontudas e uma cauda longa,
  • 5:01 - 5:02
    e parecia tudo bem.
  • 5:02 - 5:05
    Mas, e este gato?
  • 5:05 - 5:06
    (Risos)
  • 5:06 - 5:08
    Ele está todo torto.
  • 5:08 - 5:12
    Agora é preciso adicionar outra forma
    e outro ponto de vista ao objeto modelo.
  • 5:12 - 5:15
    Mas, e se os gatos estiverem escondidos?
  • 5:15 - 5:17
    E estes gatos bobos?
  • 5:19 - 5:22
    Agora vocês sabem do que estou falando.
  • 5:22 - 5:25
    Mesmo algo simples,
    como um animal doméstico,
  • 5:25 - 5:29
    pode apresentar um número infinito
    de variações ao objeto modelo,
  • 5:29 - 5:32
    e isto é só um objeto.
  • 5:33 - 5:35
    Então, há oito anos,
  • 5:35 - 5:40
    uma observação bem simples
    e profunda mudou o meu pensamento.
  • 5:41 - 5:44
    Ninguém diz a uma criança como ver,
  • 5:44 - 5:46
    especialmente nos primeiros anos.
  • 5:46 - 5:51
    Elas aprendem através das experiências
    e exemplos do mundo real.
  • 5:51 - 5:54
    Se considerarmos os olhos de uma criança
  • 5:54 - 5:57
    como um par de câmeras biológicas,
  • 5:57 - 6:01
    eles tiram uma foto
    a cada 200 milissegundos,
  • 6:01 - 6:04
    o tempo médio em que o movimento
    do olho é feito.
  • 6:04 - 6:10
    Então, aos três anos, uma criança
    terá visto centenas de milhões de fotos
  • 6:10 - 6:11
    do mundo real.
  • 6:11 - 6:14
    São muitos exemplos de treinamento.
  • 6:14 - 6:20
    Então, em vez de focar
    somente algoritmos melhores,
  • 6:20 - 6:26
    minha ideia foi dar-lhes
    os tipos de dados de treinamento
  • 6:26 - 6:29
    que uma criança obtém
    através das experiências,
  • 6:29 - 6:33
    tanto em quantidade quanto em qualidade.
  • 6:33 - 6:35
    Uma vez compreendendo isso,
  • 6:35 - 6:38
    sabíamos que precisávamos
    coletar um conjunto de dados
  • 6:38 - 6:42
    que tivesse mais imagens
    do que tínhamos antes,
  • 6:42 - 6:45
    talvez milhares de vezes mais,
  • 6:45 - 6:49
    e juntamente com o professor Kai Li,
    da Universidade de Princeton,
  • 6:49 - 6:54
    lançamos o projeto ImageNet em 2007.
  • 6:54 - 6:57
    Felizmente, não tínhamos que colocar
    uma câmera em nossas cabeças
  • 6:57 - 6:59
    e esperar por vários anos.
  • 6:59 - 7:01
    Fomos à internet,
  • 7:01 - 7:05
    o maior tesouro de imagens
    que os humanos já criaram.
  • 7:05 - 7:08
    Baixamos aproximadamente
    um bilhão de imagens
  • 7:08 - 7:14
    e usamos tecnologia de "crowdsourcing",
    como a plataforma Amazon Mechanical Turk,
  • 7:14 - 7:16
    para nos ajudar
    a classificar essas imagens.
  • 7:16 - 7:21
    No seu auge, o ImageNet foi
    um dos maiores empregadores
  • 7:21 - 7:24
    de trabalhadores
    da Amazon Mechanical Turk.
  • 7:24 - 7:28
    Juntos, quase 50 mil trabalhadores
  • 7:28 - 7:32
    de 167 países do mundo,
  • 7:32 - 7:36
    nos ajudaram a limpar,
    separar e classificar
  • 7:36 - 7:40
    aproximadamente um bilhão
    de candidatas a imagens.
  • 7:41 - 7:43
    Esse foi o tamanho do empenho
  • 7:43 - 7:47
    para capturar até mesmo
    uma fração das imagens
  • 7:47 - 7:51
    que a mente de uma criança capta
    nos primeiros anos de desenvolvimento.
  • 7:51 - 7:56
    Em retrospecto,
    esta ideia de usar dados extensos
  • 7:56 - 8:01
    para treinar os algoritmos
    computacionais pode parecer óbvia agora,
  • 8:01 - 8:05
    mas em 2007, não era tão óbvia assim.
  • 8:05 - 8:09
    Estivemos praticamente sós
    nessa jornada por um bom tempo.
  • 8:09 - 8:14
    Alguns colegas próximos me aconselharam
    a fazer algo mais útil pelo meu mandato,
  • 8:14 - 8:18
    e lutávamos constantemente para conseguir
    financiamento para a pesquisa.
  • 8:18 - 8:20
    Uma vez, eu brinquei
    com os meus alunos de graduação
  • 8:20 - 8:24
    que iria reabrir minha loja de lavagem
    a seco para financiar o ImageNet.
  • 8:24 - 8:29
    Afinal de contas, foi assim
    que financiei minha faculdade.
  • 8:29 - 8:31
    Então seguimos em frente.
  • 8:31 - 8:35
    Em 2009, o projeto ImageNet entregou
  • 8:35 - 8:39
    um banco de dados
    de 15 milhões de imagens,
  • 8:39 - 8:44
    entre 22 mil classes de objetos e coisas,
  • 8:44 - 8:47
    organizadas pelas palavras
    cotidianas em inglês.
  • 8:47 - 8:50
    Tanto em quantidade quanto em qualidade,
  • 8:50 - 8:53
    isso foi uma escala sem precedentes.
  • 8:53 - 8:56
    Como exemplo, no caso dos gatos,
  • 8:56 - 8:59
    temos mais de 62 mil gatos
  • 8:59 - 9:03
    de todos os aspectos e poses;
  • 9:03 - 9:08
    e todas as espécies
    de gatos domésticos e selvagens.
  • 9:08 - 9:12
    Ficamos muito felizes em criar o ImageNet
  • 9:12 - 9:15
    e queríamos que todo o mundo das pesquisas
    se beneficiasse com ele.
  • 9:15 - 9:20
    Assim, à moda TED, abrimos
    todo o conjunto de dados
  • 9:20 - 9:23
    para a comunidade mundial
    de pesquisa gratuitamente.
  • 9:23 - 9:27
    (Aplausos)
  • 9:29 - 9:34
    Agora que temos os dados para alimentar
    o cérebro do nosso computador,
  • 9:34 - 9:38
    estamos prontos para retornar
    aos algoritmos em si.
  • 9:38 - 9:43
    Como se viu, a riqueza de informações
    fornecidas pelo ImageNet
  • 9:43 - 9:48
    foi um ajuste perfeito para uma classe
    de algoritmos de aprendizado de máquina
  • 9:48 - 9:50
    chamada "rede neural convolucional",
  • 9:50 - 9:55
    iniciada por Kunihiko Fukushima,
    Geoff Hinton e Yann LeCun
  • 9:55 - 9:58
    nos anos 1970 e 1980.
  • 9:59 - 10:05
    Assim como o cérebro é composto de bilhões
    de neurônios altamente conectados,
  • 10:05 - 10:08
    uma unidade operacional básica
    numa rede neural
  • 10:08 - 10:11
    é como um nó neuronal.
  • 10:11 - 10:13
    Ela obtém informações de outros nós
  • 10:13 - 10:16
    e envia dados para outros.
  • 10:16 - 10:21
    Além disso, essas centenas de milhares,
    ou mesmo milhões de nós,
  • 10:21 - 10:24
    são organizadas em camadas hierárquicas,
  • 10:24 - 10:27
    parecidas com o cérebro.
  • 10:27 - 10:31
    Numa rede neural que usamos para treinar
    nosso modelo de reconhecimento de objetos
  • 10:31 - 10:35
    há 24 milhões de nós,
  • 10:35 - 10:37
    140 milhões de parâmetros
  • 10:37 - 10:40
    e 15 bilhões de conexões.
  • 10:40 - 10:43
    É um modelo enorme.
  • 10:43 - 10:47
    Alimentada pelos dados
    consideráveis do ImageNet
  • 10:47 - 10:52
    e os modernos CPUs e GPUs
    para treinar um modelo colossal,
  • 10:52 - 10:54
    a rede neural convolucional
  • 10:54 - 10:58
    floresceu de um modo que ninguém esperava.
  • 10:58 - 11:01
    Tornou-se a arquitetura vencedora
  • 11:01 - 11:06
    para gerar novos resultados animadores
    em reconhecimento de objetos.
  • 11:06 - 11:09
    Isto é um computador nos dizendo
  • 11:09 - 11:11
    que esta foto contém um gato
  • 11:11 - 11:13
    e onde ele está.
  • 11:13 - 11:15
    É claro que há mais coisas além de gatos.
  • 11:15 - 11:18
    Aqui está um algoritmo
    computacional nos dizendo
  • 11:18 - 11:21
    que a foto contém um garoto
    e um urso de pelúcia;
  • 11:21 - 11:25
    um cão, uma pessoa
    e uma pequena pipa ao fundo;
  • 11:25 - 11:28
    ou uma foto com muitas informações
  • 11:28 - 11:33
    como um homem, um skate, corrimãos,
    um poste de luz, e assim por diante.
  • 11:33 - 11:34
    Às vezes,
  • 11:34 - 11:37
    quando o computador
    não tem certeza do que vê,
  • 11:37 - 11:39
    (Risos)
  • 11:39 - 11:42
    nós o ensinamos
    a ser inteligente o bastante
  • 11:42 - 11:46
    para nos dar uma resposta segura
    em vez de ficar deduzindo muito,
  • 11:46 - 11:48
    como nós faríamos.
  • 11:48 - 11:53
    Mas outras vezes, nosso algoritmo
    computacional é notável aos nos dizer
  • 11:53 - 11:55
    exatamente o que são os objetos,
  • 11:55 - 11:59
    como a marca, o modelo e o ano dos carros.
  • 11:59 - 12:04
    Nós cruzamos esse algoritmo com milhões
    de imagens do Google Street View
  • 12:04 - 12:07
    em centenas de cidades americanas
  • 12:07 - 12:10
    e descobrimos algo muito interessante:
  • 12:10 - 12:14
    primeiro, confirmou-se
    a nossa sabedoria popular
  • 12:14 - 12:17
    de que preços de carros estão relacionados
  • 12:17 - 12:19
    ao rendimento das famílias.
  • 12:19 - 12:24
    Mas surpreendentemente,
    o preço dos carros também se relaciona
  • 12:24 - 12:26
    com as taxas de crimes nas cidades,
  • 12:26 - 12:30
    ou padrões de votos pelo CEPs.
  • 12:32 - 12:34
    Espere um pouco. É isso mesmo?
  • 12:34 - 12:39
    Os computadores já igualaram ou mesmo
    superaram as capacidades humanas?
  • 12:39 - 12:42
    Não tão rápido.
  • 12:42 - 12:46
    Até agora, apenas ensinamos
    os computadores a ver objetos.
  • 12:46 - 12:51
    É como uma criancinha aprendendo
    a pronunciar algumas palavras.
  • 12:51 - 12:54
    É um feito incrível,
  • 12:54 - 12:56
    mas é apenas o primeiro passo.
  • 12:56 - 13:00
    Em breve, outro marco
    de desenvolvimento será atingido,
  • 13:00 - 13:04
    e as crianças começam
    a se comunicar por meio de frases.
  • 13:04 - 13:08
    Então, em vez de dizer
    que isto é um gato na foto,
  • 13:08 - 13:13
    vocês ouviram a garotinha nos dizendo
    que isto é um gato deitado na cama.
  • 13:13 - 13:18
    Então, para ensinar um computador
    a ver uma foto e criar frases,
  • 13:18 - 13:22
    o casamento entre os dados
    e o algoritmo de aprendizado de máquina
  • 13:22 - 13:25
    deve dar outro passo.
  • 13:25 - 13:29
    Agora, o computador tem que aprender
    tanto com as fotos
  • 13:29 - 13:32
    quanto com as frases em linguagem natural
  • 13:32 - 13:35
    geradas por humanos.
  • 13:35 - 13:39
    Assim como o cérebro integra
    visão e linguagem,
  • 13:39 - 13:44
    nós desenvolvemos um modelo
    que conecta partes de coisas visuais,
  • 13:44 - 13:46
    como fragmentos visuais,
  • 13:46 - 13:50
    com palavras e ideias em frases.
  • 13:51 - 13:53
    Há uns quatro meses,
  • 13:53 - 13:56
    finalmente juntamos tudo isso,
  • 13:56 - 13:59
    e produzimos um dos primeiros
    modelos de visão computacional
  • 13:59 - 14:03
    capaz de gerar frases do jeito humano
  • 14:03 - 14:07
    quando vê uma foto pela primeira vez.
  • 14:07 - 14:12
    Agora, vou mostrar o que o computador diz
  • 14:12 - 14:14
    quando vê a foto
  • 14:14 - 14:17
    que a garotinha viu,
    no início desta palestra.
  • 14:19 - 14:22
    (Vídeo) Computador: Um homem está
    em pé, próximo a um elefante.
  • 14:24 - 14:28
    Um grande avião sentado em cima
    de uma pista de aeroporto.
  • 14:29 - 14:33
    FFL: Claro, estamos trabalhando com afinco
    para melhorar nossos algoritmos,
  • 14:33 - 14:36
    e ele ainda tem muito o que aprender.
  • 14:36 - 14:38
    (Aplausos)
  • 14:39 - 14:42
    E o computador ainda comete erros.
  • 14:42 - 14:46
    (Vídeo) Computador: Um gato deitado
    numa cama com um cobertor. (Risos)
  • 14:46 - 14:49
    FFL: É claro, quando ele vê muitos gatos,
  • 14:49 - 14:52
    ele acha que tudo se parece com um gato.
  • 14:53 - 14:56
    (Vídeo) Computador: Um garoto
    está segurando um taco de beisebol.
  • 14:56 - 14:58
    (Risos)
  • 14:58 - 15:02
    FFL: Se nunca viu uma escova de dentes,
    ele a confunde com um taco de beisebol.
  • 15:03 - 15:07
    (Vídeo) Computador: Um homem monta
    um cavalo na rua, próximo a um edifício.
  • 15:07 - 15:09
    (Risos)
  • 15:09 - 15:12
    FFL: Não ensinamos Arte 101
    aos computadores.
  • 15:14 - 15:17
    (Vídeo) Computador: Uma zebra
    num campo gramado.
  • 15:17 - 15:20
    FFL: E ele não aprendeu a apreciar
    a deslumbrante beleza da natureza
  • 15:20 - 15:22
    como nós apreciamos.
  • 15:22 - 15:25
    Tem sido uma longa jornada.
  • 15:25 - 15:29
    Ir da idade zero a três foi difícil.
  • 15:29 - 15:35
    O verdadeiro desafio é ir
    dos 3 aos 13 e além disso.
  • 15:35 - 15:39
    Vejam esta foto do garoto
    com o bolo novamente.
  • 15:39 - 15:44
    Até então, ensinamos
    o computador a ver objetos
  • 15:44 - 15:47
    ou mesmo contar-nos uma simples
    história quando vê uma foto.
  • 15:47 - 15:52
    (Vídeo) Computador: Uma pessoa
    sentada à mesa com um bolo.
  • 15:52 - 15:54
    FFL: Mas há muito mais nesta foto
  • 15:54 - 15:56
    do que apenas uma pessoa e um bolo.
  • 15:56 - 16:01
    O que o computador não vê
    é que esta é uma colomba
  • 16:01 - 16:04
    que é servida apenas durante a Páscoa.
  • 16:04 - 16:07
    O garoto está vestindo
    a sua camiseta preferida,
  • 16:07 - 16:11
    que lhe foi dada de presente
    pelo pai após uma viagem a Sydney.
  • 16:11 - 16:15
    E nós podemos ver a felicidade dele,
  • 16:15 - 16:18
    e o que está se passando em sua mente
    exatamente naquele momento.
  • 16:19 - 16:22
    Este é o meu filho Leo.
  • 16:22 - 16:24
    Em minha busca pela inteligência visual,
  • 16:24 - 16:27
    penso nele constantemente
  • 16:27 - 16:30
    e no mundo futuro em que ele viverá.
  • 16:30 - 16:32
    Quando as máquinas puderem ver,
  • 16:32 - 16:37
    médicos e enfermeiros terão
    pares extras de olhos incansáveis
  • 16:37 - 16:41
    para ajudá-los a diagnosticar
    e cuidar de pacientes.
  • 16:41 - 16:45
    Os carros funcionarão de forma
    mais inteligente e segura nas estradas.
  • 16:45 - 16:48
    Robôs, não apenas seres humanos,
  • 16:48 - 16:51
    nos ajudarão a realizar buscas
    em áreas de desastres
  • 16:51 - 16:53
    e a salvar pessoas soterradas e feridas.
  • 16:53 - 16:58
    Descobriremos novas espécies,
    materiais melhores
  • 16:58 - 17:02
    e exploraremos lugares que não podemos ver
    com a ajuda das máquinas.
  • 17:03 - 17:07
    Pouco a pouco, estamos dando
    visão às máquinas.
  • 17:07 - 17:10
    Primeiro, as ensinamos a ver,
  • 17:10 - 17:13
    então elas nos ajudam a ver melhor.
  • 17:13 - 17:14
    Pela primeira vez,
  • 17:14 - 17:20
    os olhos humanos não serão os únicos
    ponderando e explorando nosso mundo.
  • 17:20 - 17:23
    Não usaremos as máquinas
    apenas pela sua inteligência;
  • 17:23 - 17:29
    colaboraremos também com elas
    de uma maneira que nem sequer imaginamos.
  • 17:29 - 17:32
    Esta é a minha busca:
  • 17:32 - 17:34
    dar aos computadores inteligência visual
  • 17:34 - 17:39
    e criar um futuro melhor
    para o Leo e para o mundo.
  • 17:39 - 17:40
    Obrigada.
  • 17:40 - 17:43
    (Aplausos)
Title:
Como estamos ensinando os computadores a compreender fotos
Speaker:
Fei-Fei Li
Description:

Quando uma criancinha olha para uma foto, ela consegue identificar elementos simples: "gato", "livro", "cadeira". Bem, os computadores estão ficando inteligentes o suficiente para fazer isso também. O que vem a seguir? Em uma palestra animada, a especialista em visão computacional Fei-Fei Li fala sobre tecnologia de ponta - incluindo um banco de dados de 15 milhões de fotos que a sua equipe reuniu para "ensinar" um computador a compreender fotos - e sobre ideias importantes que estão por vir.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Portuguese, Brazilian subtitles

Revisions Compare revisions