Como um computador aprende a reconhecer objetos instantaneamente
-
0:01 - 0:03Há dez anos, os investigadores
de visão computacional -
0:03 - 0:05pensavam que fazer
com que um computador -
0:05 - 0:07percebesse a diferença
entre um gato e um cão -
0:08 - 0:09seria praticamente impossível,
-
0:10 - 0:13mesmo com o avanço significativo
no campo da inteligência artificial. -
0:13 - 0:17Agora, podemos fazê-lo
com uma precisão superior a 99%. -
0:18 - 0:19Isto chama-se classificação de imagem:
-
0:19 - 0:23dar ao computador uma imagem,
atribuirmos-lhe um rótulo, -
0:23 - 0:26e os computadores reconhecem
milhares de outras categorias também. -
0:27 - 0:30Sou um aluno de pós-graduação
da Universidade de Washington, -
0:30 - 0:32e trabalho num projeto chamado "Darknet",
-
0:32 - 0:33que é uma estrutura de rede neural
-
0:33 - 0:36para treinar e testar modelos
de visão computacional. -
0:36 - 0:39Então, vamos ver o que a "Darknet" pensa
-
0:40 - 0:41desta imagem que temos.
-
0:43 - 0:46Quando usamos
o nosso classificador nesta imagem, -
0:46 - 0:49não ficamos somente a saber
se é um cão ou um gato, -
0:49 - 0:51mas obtemos a raça específica.
-
0:51 - 0:53Este é o nível de detalhe que temos agora.
-
0:53 - 0:55E está correto.
-
0:55 - 0:57O meu cão é, de facto, um malamute.
-
0:57 - 1:01Então, fizemos incríveis avanços
na classificação de imagem, -
1:01 - 1:05mas o que acontece quando usamos
o classificador numa imagem como esta? -
1:07 - 1:08Bem...
-
1:13 - 1:16Vemos que o classificador retorna com
uma predição muito similar. -
1:17 - 1:20E está correta, há um malamute na imagem,
-
1:20 - 1:23mas só através deste rótulo,
não conseguimos saber muito -
1:23 - 1:25sobre o que se passa na imagem.
-
1:25 - 1:27Precisamos de algo mais eficaz.
-
1:27 - 1:30Eu trabalho numa questão
chamada deteção de objetos, -
1:30 - 1:33em que analisamos uma imagem
e tentamos achar todos os objetos, -
1:33 - 1:35colocamos caixas delimitadoras
à volta deles -
1:35 - 1:37e dizemos que objetos são aqueles.
-
1:37 - 1:40Isto é o que acontece quando
usamos um detetor nesta imagem. -
1:41 - 1:43Com este tipo de resultado,
-
1:43 - 1:46podemos fazer muito mais com os nossos
algoritmos de visão computacional. -
1:46 - 1:49Vemos que o detetor sabe
que está ali um gato e um cão. -
1:49 - 1:52Ele sabe quais as suas posições relativas,
o tamanho deles. -
1:53 - 1:55Pode até saber alguma informação extra:
-
1:55 - 1:57está um livro ali ao fundo.
-
1:57 - 2:01E se quisermos construir um sistema
a partir da visão computacional, -
2:01 - 2:04digamos, um veículo autónomo
ou um sistema robótico, -
2:04 - 2:06este é o tipo de informação que queremos.
-
2:07 - 2:10Precisamos de algo que possa
interagir com o mundo físico. -
2:11 - 2:13Quando comecei a trabalhar
em deteção de objetos, -
2:13 - 2:16levava 20 segundos para
processar uma única imagem. -
2:16 - 2:20E para terem uma noção de como a
velocidade é tão importante neste campo, -
2:21 - 2:24este é um exemplo
de um detetor de objetos -
2:24 - 2:26que leva dois segundos
para processar uma imagem. -
2:26 - 2:29Isto é, 10 vezes mais rápido
-
2:29 - 2:32que o detetor de 20-segundos-por-imagem.
-
2:32 - 2:35Podem ver que. no tempo
que demora a fazer predições, -
2:35 - 2:37tudo mudou.
-
2:38 - 2:41Isso não seria muito útil
para uma aplicação. -
2:42 - 2:44Se aumentarmos a velocidade 10 vezes mais,
-
2:44 - 2:47este é um detetor
a cinco quadros por segundo. -
2:47 - 2:49Isto é muito melhor
-
2:49 - 2:51mas, por exemplo,
-
2:51 - 2:53se houver qualquer
movimento significativo, -
2:53 - 2:56eu não quereria um sistema
como este a conduzir o meu carro. -
2:57 - 3:01Este é o nosso sistema de deteção
em tempo-real no meu portátil. -
3:01 - 3:04Ele acompanha-me suavemente
enquanto me movo à volta do quadro, -
3:04 - 3:08e é potente para uma grande variedade
de mudanças de tamanho, -
3:09 - 3:11de posição,
-
3:11 - 3:14para a frente, para trás,
isto é uma maravilha. -
3:14 - 3:16É disto que realmente precisamos
-
3:16 - 3:19se formos construir sistemas
a partir de visão computacional. -
3:20 - 3:23(Aplausos)
-
3:24 - 3:26Apenas nalguns anos,
-
3:26 - 3:29mudámos de 20 segundos por imagem
-
3:29 - 3:33para 20 milissegundos por imagem,
mil vezes mais rápido. -
3:33 - 3:34Como chegámos lá?
-
3:34 - 3:37Bom, no passado,
os sistemas de deteção de objetos -
3:37 - 3:39agarrariam numa imagem assim
-
3:39 - 3:42e dividi-la-iam num punhado de regiões
-
3:42 - 3:45e depois rodariam um classificador
em cada uma destas regiões. -
3:45 - 3:47As pontuações altas
para aquele classificador -
3:47 - 3:51seriam consideradas deteções na imagem.
-
3:51 - 3:55Mas isto envolvia rodar o classificador
milhares de vezes numa imagem, -
3:55 - 3:58milhares de avaliações de redes neurais
para produzir deteção. -
3:59 - 4:04Em vez disso, treinamos uma única rede
para fazer toda a deteção por nós. -
4:04 - 4:08Ela produz todas as caixas limitadoras e
probabilidades de classe simultaneamente. -
4:09 - 4:12Com o nosso sistema, em vez de
olhar para uma imagem milhares de vezes -
4:12 - 4:14para produzir deteção,
-
4:14 - 4:15olhamos apenas para uma.
-
4:15 - 4:18É por isso que lhe chamamos
o método YOLO de deteção de objetos. -
4:19 - 4:23Então com essa velocidade,
não estamos limitados apenas a imagens; -
4:23 - 4:26podemos processar vídeos em tempo real.
-
4:26 - 4:29E agora, em vez de ver
um gato e um cão, -
4:29 - 4:32podemos vê-los moverem-se
e interagirem um com o outro. -
4:35 - 4:37Este é um detetor que treinámos
-
4:37 - 4:41em 80 classes diferentes
-
4:41 - 4:44no conjunto de dados COCO, da Microsoft.
-
4:44 - 4:48Ele tem todo o tipo de coisas,
como colher e garfo, tigela, -
4:48 - 4:50objetos comuns como esses.
-
4:50 - 4:53Tem uma variedade
de coisas mais exóticas: -
4:53 - 4:56animais, carros, zebras, girafas.
-
4:57 - 4:58E agora vamos fazer algo divertido.
-
4:58 - 5:02Vamos até à audiência e ver
que tipos de coisas podemos detetar. -
5:02 - 5:04Alguém quer um animal de peluche?
-
5:06 - 5:08Há por aqui uns ursinhos.
-
5:10 - 5:15Podemos diminuir o nosso limiar
de deteção por um momento, -
5:15 - 5:18para podemos detetar
mais pessoas na audiência. -
5:20 - 5:22Vamos ver se conseguimos
detetar essas placas. -
5:22 - 5:24Achámos umas mochilas.
-
5:26 - 5:28Vamos ampliar um pouco.
-
5:30 - 5:32E isso é ótimo.
-
5:32 - 5:35Todo o processamento
está a ocorrer em tempo real -
5:35 - 5:36no portátil.
-
5:37 - 5:38E é importante lembrarem-se
-
5:39 - 5:42que este é um sistema
de deteção de propósito geral, -
5:42 - 5:47e assim podemos treiná-lo para
qualquer domínio de imagens. -
5:48 - 5:51O mesmo código que usamos
-
5:51 - 5:53para encontrar sinais de stop
ou pedestres, -
5:53 - 5:55bicicletas num veículo automotor,
-
5:56 - 5:58pode ser usado para encontrar
células cancerígenas -
5:58 - 6:01numa biópsia de tecido.
-
6:01 - 6:06Há investigadores por todo o mundo
que já usam esta tecnologia -
6:06 - 6:10para progredirem em coisas
como a medicina, a robótica. -
6:10 - 6:11Hoje de manhã, li um artigo
-
6:11 - 6:14que dizia que estavam a fazer
um recenseamento de animais -
6:14 - 6:16no Parque Nacional Nairobi
-
6:16 - 6:19com YOLO como parte
deste sistema de deteção. -
6:19 - 6:22Isto é possível porque a Darknet
é de código aberto -
6:22 - 6:25e está sob domínio público,
livre para qualquer um usar. -
6:26 - 6:29(Aplausos)
-
6:31 - 6:36Mas queríamos tornar a deteção
ainda mais acessível e utilizável, -
6:36 - 6:40então através de uma combinação
de otimização de modelos, -
6:40 - 6:43binarização de redes e aproximação,
-
6:43 - 6:47conseguimos fazer a deteção
de objetos rodar num telemóvel. -
6:54 - 6:57(Aplausos)
-
6:59 - 7:04Estou realmente ansioso porque
agora temos uma solução muito poderosa -
7:04 - 7:07para este problema de
visão computacional de baixo-nível, -
7:07 - 7:10e todos podem tomá-lo
e fazer algo com ele. -
7:11 - 7:13Agora o resto é com todos vocês
-
7:13 - 7:16e com as pessoas em todo o mundo
com acesso a este software. -
7:16 - 7:20Não posso esperar para ver o que as
pessoas construirão com esta tecnologia. -
7:20 - 7:21Obrigado.
-
7:21 - 7:25(Aplausos)
- Title:
- Como um computador aprende a reconhecer objetos instantaneamente
- Speaker:
- Joseph Redmon
- Description:
-
Dez anos atrás, pesquisadores pensavam que fazer um computador dizer a diferença entre um gato e um cachorro seria quase impossível. Hoje, sistemas de visão computacional o fazem com mais de 99 por cento de precisão. Como? Joseph Redmon trabalha no sistema YOLO (You Only Look Once), um método de código aberto para detecção de objetos que consegue identificar objetos em imagens e vídeos - de zebras a placas - de maneira extremamente rápida. Em uma memorável demonstração ao vivo, Redmon mostra este importante passo à frente para aplicações como carros auto-motores, robótica e ainda detecção de câncer.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
Margarida Ferreira approved Portuguese subtitles for How computers learn to recognize objects instantly | ||
Margarida Ferreira accepted Portuguese subtitles for How computers learn to recognize objects instantly | ||
Margarida Ferreira edited Portuguese subtitles for How computers learn to recognize objects instantly | ||
Margarida Ferreira edited Portuguese subtitles for How computers learn to recognize objects instantly | ||
Diana Almeida edited Portuguese subtitles for How computers learn to recognize objects instantly | ||
Mauricio Antero edited Portuguese subtitles for How computers learn to recognize objects instantly | ||
Mauricio Antero edited Portuguese subtitles for How computers learn to recognize objects instantly | ||
Mauricio Antero edited Portuguese subtitles for How computers learn to recognize objects instantly |