Return to Video

Como um computador aprende a reconhecer objetos instantaneamente

  • 0:01 - 0:03
    Há dez anos, os investigadores
    de visão computacional
  • 0:03 - 0:05
    pensavam que fazer
    com que um computador
  • 0:05 - 0:07
    percebesse a diferença
    entre um gato e um cão
  • 0:08 - 0:09
    seria praticamente impossível,
  • 0:10 - 0:13
    mesmo com o avanço significativo
    no campo da inteligência artificial.
  • 0:13 - 0:17
    Agora, podemos fazê-lo
    com uma precisão superior a 99%.
  • 0:18 - 0:19
    Isto chama-se classificação de imagem:
  • 0:19 - 0:23
    dar ao computador uma imagem,
    atribuirmos-lhe um rótulo,
  • 0:23 - 0:26
    e os computadores reconhecem
    milhares de outras categorias também.
  • 0:27 - 0:30
    Sou um aluno de pós-graduação
    da Universidade de Washington,
  • 0:30 - 0:32
    e trabalho num projeto chamado "Darknet",
  • 0:32 - 0:33
    que é uma estrutura de rede neural
  • 0:33 - 0:36
    para treinar e testar modelos
    de visão computacional.
  • 0:36 - 0:39
    Então, vamos ver o que a "Darknet" pensa
  • 0:40 - 0:41
    desta imagem que temos.
  • 0:43 - 0:46
    Quando usamos
    o nosso classificador nesta imagem,
  • 0:46 - 0:49
    não ficamos somente a saber
    se é um cão ou um gato,
  • 0:49 - 0:51
    mas obtemos a raça específica.
  • 0:51 - 0:53
    Este é o nível de detalhe que temos agora.
  • 0:53 - 0:55
    E está correto.
  • 0:55 - 0:57
    O meu cão é, de facto, um malamute.
  • 0:57 - 1:01
    Então, fizemos incríveis avanços
    na classificação de imagem,
  • 1:01 - 1:05
    mas o que acontece quando usamos
    o classificador numa imagem como esta?
  • 1:07 - 1:08
    Bem...
  • 1:13 - 1:16
    Vemos que o classificador retorna com
    uma predição muito similar.
  • 1:17 - 1:20
    E está correta, há um malamute na imagem,
  • 1:20 - 1:23
    mas só através deste rótulo,
    não conseguimos saber muito
  • 1:23 - 1:25
    sobre o que se passa na imagem.
  • 1:25 - 1:27
    Precisamos de algo mais eficaz.
  • 1:27 - 1:30
    Eu trabalho numa questão
    chamada deteção de objetos,
  • 1:30 - 1:33
    em que analisamos uma imagem
    e tentamos achar todos os objetos,
  • 1:33 - 1:35
    colocamos caixas delimitadoras
    à volta deles
  • 1:35 - 1:37
    e dizemos que objetos são aqueles.
  • 1:37 - 1:40
    Isto é o que acontece quando
    usamos um detetor nesta imagem.
  • 1:41 - 1:43
    Com este tipo de resultado,
  • 1:43 - 1:46
    podemos fazer muito mais com os nossos
    algoritmos de visão computacional.
  • 1:46 - 1:49
    Vemos que o detetor sabe
    que está ali um gato e um cão.
  • 1:49 - 1:52
    Ele sabe quais as suas posições relativas,
    o tamanho deles.
  • 1:53 - 1:55
    Pode até saber alguma informação extra:
  • 1:55 - 1:57
    está um livro ali ao fundo.
  • 1:57 - 2:01
    E se quisermos construir um sistema
    a partir da visão computacional,
  • 2:01 - 2:04
    digamos, um veículo autónomo
    ou um sistema robótico,
  • 2:04 - 2:06
    este é o tipo de informação que queremos.
  • 2:07 - 2:10
    Precisamos de algo que possa
    interagir com o mundo físico.
  • 2:11 - 2:13
    Quando comecei a trabalhar
    em deteção de objetos,
  • 2:13 - 2:16
    levava 20 segundos para
    processar uma única imagem.
  • 2:16 - 2:20
    E para terem uma noção de como a
    velocidade é tão importante neste campo,
  • 2:21 - 2:24
    este é um exemplo
    de um detetor de objetos
  • 2:24 - 2:26
    que leva dois segundos
    para processar uma imagem.
  • 2:26 - 2:29
    Isto é, 10 vezes mais rápido
  • 2:29 - 2:32
    que o detetor de 20-segundos-por-imagem.
  • 2:32 - 2:35
    Podem ver que. no tempo
    que demora a fazer predições,
  • 2:35 - 2:37
    tudo mudou.
  • 2:38 - 2:41
    Isso não seria muito útil
    para uma aplicação.
  • 2:42 - 2:44
    Se aumentarmos a velocidade 10 vezes mais,
  • 2:44 - 2:47
    este é um detetor
    a cinco quadros por segundo.
  • 2:47 - 2:49
    Isto é muito melhor
  • 2:49 - 2:51
    mas, por exemplo,
  • 2:51 - 2:53
    se houver qualquer
    movimento significativo,
  • 2:53 - 2:56
    eu não quereria um sistema
    como este a conduzir o meu carro.
  • 2:57 - 3:01
    Este é o nosso sistema de deteção
    em tempo-real no meu portátil.
  • 3:01 - 3:04
    Ele acompanha-me suavemente
    enquanto me movo à volta do quadro,
  • 3:04 - 3:08
    e é potente para uma grande variedade
    de mudanças de tamanho,
  • 3:09 - 3:11
    de posição,
  • 3:11 - 3:14
    para a frente, para trás,
    isto é uma maravilha.
  • 3:14 - 3:16
    É disto que realmente precisamos
  • 3:16 - 3:19
    se formos construir sistemas
    a partir de visão computacional.
  • 3:20 - 3:23
    (Aplausos)
  • 3:24 - 3:26
    Apenas nalguns anos,
  • 3:26 - 3:29
    mudámos de 20 segundos por imagem
  • 3:29 - 3:33
    para 20 milissegundos por imagem,
    mil vezes mais rápido.
  • 3:33 - 3:34
    Como chegámos lá?
  • 3:34 - 3:37
    Bom, no passado,
    os sistemas de deteção de objetos
  • 3:37 - 3:39
    agarrariam numa imagem assim
  • 3:39 - 3:42
    e dividi-la-iam num punhado de regiões
  • 3:42 - 3:45
    e depois rodariam um classificador
    em cada uma destas regiões.
  • 3:45 - 3:47
    As pontuações altas
    para aquele classificador
  • 3:47 - 3:51
    seriam consideradas deteções na imagem.
  • 3:51 - 3:55
    Mas isto envolvia rodar o classificador
    milhares de vezes numa imagem,
  • 3:55 - 3:58
    milhares de avaliações de redes neurais
    para produzir deteção.
  • 3:59 - 4:04
    Em vez disso, treinamos uma única rede
    para fazer toda a deteção por nós.
  • 4:04 - 4:08
    Ela produz todas as caixas limitadoras e
    probabilidades de classe simultaneamente.
  • 4:09 - 4:12
    Com o nosso sistema, em vez de
    olhar para uma imagem milhares de vezes
  • 4:12 - 4:14
    para produzir deteção,
  • 4:14 - 4:15
    olhamos apenas para uma.
  • 4:15 - 4:18
    É por isso que lhe chamamos
    o método YOLO de deteção de objetos.
  • 4:19 - 4:23
    Então com essa velocidade,
    não estamos limitados apenas a imagens;
  • 4:23 - 4:26
    podemos processar vídeos em tempo real.
  • 4:26 - 4:29
    E agora, em vez de ver
    um gato e um cão,
  • 4:29 - 4:32
    podemos vê-los moverem-se
    e interagirem um com o outro.
  • 4:35 - 4:37
    Este é um detetor que treinámos
  • 4:37 - 4:41
    em 80 classes diferentes
  • 4:41 - 4:44
    no conjunto de dados COCO, da Microsoft.
  • 4:44 - 4:48
    Ele tem todo o tipo de coisas,
    como colher e garfo, tigela,
  • 4:48 - 4:50
    objetos comuns como esses.
  • 4:50 - 4:53
    Tem uma variedade
    de coisas mais exóticas:
  • 4:53 - 4:56
    animais, carros, zebras, girafas.
  • 4:57 - 4:58
    E agora vamos fazer algo divertido.
  • 4:58 - 5:02
    Vamos até à audiência e ver
    que tipos de coisas podemos detetar.
  • 5:02 - 5:04
    Alguém quer um animal de peluche?
  • 5:06 - 5:08
    Há por aqui uns ursinhos.
  • 5:10 - 5:15
    Podemos diminuir o nosso limiar
    de deteção por um momento,
  • 5:15 - 5:18
    para podemos detetar
    mais pessoas na audiência.
  • 5:20 - 5:22
    Vamos ver se conseguimos
    detetar essas placas.
  • 5:22 - 5:24
    Achámos umas mochilas.
  • 5:26 - 5:28
    Vamos ampliar um pouco.
  • 5:30 - 5:32
    E isso é ótimo.
  • 5:32 - 5:35
    Todo o processamento
    está a ocorrer em tempo real
  • 5:35 - 5:36
    no portátil.
  • 5:37 - 5:38
    E é importante lembrarem-se
  • 5:39 - 5:42
    que este é um sistema
    de deteção de propósito geral,
  • 5:42 - 5:47
    e assim podemos treiná-lo para
    qualquer domínio de imagens.
  • 5:48 - 5:51
    O mesmo código que usamos
  • 5:51 - 5:53
    para encontrar sinais de stop
    ou pedestres,
  • 5:53 - 5:55
    bicicletas num veículo automotor,
  • 5:56 - 5:58
    pode ser usado para encontrar
    células cancerígenas
  • 5:58 - 6:01
    numa biópsia de tecido.
  • 6:01 - 6:06
    Há investigadores por todo o mundo
    que já usam esta tecnologia
  • 6:06 - 6:10
    para progredirem em coisas
    como a medicina, a robótica.
  • 6:10 - 6:11
    Hoje de manhã, li um artigo
  • 6:11 - 6:14
    que dizia que estavam a fazer
    um recenseamento de animais
  • 6:14 - 6:16
    no Parque Nacional Nairobi
  • 6:16 - 6:19
    com YOLO como parte
    deste sistema de deteção.
  • 6:19 - 6:22
    Isto é possível porque a Darknet
    é de código aberto
  • 6:22 - 6:25
    e está sob domínio público,
    livre para qualquer um usar.
  • 6:26 - 6:29
    (Aplausos)
  • 6:31 - 6:36
    Mas queríamos tornar a deteção
    ainda mais acessível e utilizável,
  • 6:36 - 6:40
    então através de uma combinação
    de otimização de modelos,
  • 6:40 - 6:43
    binarização de redes e aproximação,
  • 6:43 - 6:47
    conseguimos fazer a deteção
    de objetos rodar num telemóvel.
  • 6:54 - 6:57
    (Aplausos)
  • 6:59 - 7:04
    Estou realmente ansioso porque
    agora temos uma solução muito poderosa
  • 7:04 - 7:07
    para este problema de
    visão computacional de baixo-nível,
  • 7:07 - 7:10
    e todos podem tomá-lo
    e fazer algo com ele.
  • 7:11 - 7:13
    Agora o resto é com todos vocês
  • 7:13 - 7:16
    e com as pessoas em todo o mundo
    com acesso a este software.
  • 7:16 - 7:20
    Não posso esperar para ver o que as
    pessoas construirão com esta tecnologia.
  • 7:20 - 7:21
    Obrigado.
  • 7:21 - 7:25
    (Aplausos)
Title:
Como um computador aprende a reconhecer objetos instantaneamente
Speaker:
Joseph Redmon
Description:

Dez anos atrás, pesquisadores pensavam que fazer um computador dizer a diferença entre um gato e um cachorro seria quase impossível. Hoje, sistemas de visão computacional o fazem com mais de 99 por cento de precisão. Como? Joseph Redmon trabalha no sistema YOLO (You Only Look Once), um método de código aberto para detecção de objetos que consegue identificar objetos em imagens e vídeos - de zebras a placas - de maneira extremamente rápida. Em uma memorável demonstração ao vivo, Redmon mostra este importante passo à frente para aplicações como carros auto-motores, robótica e ainda detecção de câncer.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Portuguese subtitles

Revisions