Como um computador aprende a reconhecer objetos instantaneamente

0:01 - 0:03

Há dez anos, os investigadores
de visão computacional
0:03 - 0:05

pensavam que fazer
com que um computador
0:05 - 0:07

percebesse a diferença
entre um gato e um cão
0:08 - 0:09

seria praticamente impossível,
0:10 - 0:13

mesmo com o avanço significativo
no campo da inteligência artificial.
0:13 - 0:17

Agora, podemos fazê-lo
com uma precisão superior a 99%.
0:18 - 0:19

Isto chama-se classificação de imagem:
0:19 - 0:23

dar ao computador uma imagem,
atribuirmos-lhe um rótulo,
0:23 - 0:26

e os computadores reconhecem
milhares de outras categorias também.
0:27 - 0:30

Sou um aluno de pós-graduação
da Universidade de Washington,
0:30 - 0:32

e trabalho num projeto chamado "Darknet",
0:32 - 0:33

que é uma estrutura de rede neural
0:33 - 0:36

para treinar e testar modelos
de visão computacional.
0:36 - 0:39

Então, vamos ver o que a "Darknet" pensa
0:40 - 0:41

desta imagem que temos.
0:43 - 0:46

Quando usamos
o nosso classificador nesta imagem,
0:46 - 0:49

não ficamos somente a saber
se é um cão ou um gato,
0:49 - 0:51

mas obtemos a raça específica.
0:51 - 0:53

Este é o nível de detalhe que temos agora.
0:53 - 0:55

E está correto.
0:55 - 0:57

O meu cão é, de facto, um malamute.
0:57 - 1:01

Então, fizemos incríveis avanços
na classificação de imagem,
1:01 - 1:05

mas o que acontece quando usamos
o classificador numa imagem como esta?
1:07 - 1:08

Bem...
1:13 - 1:16

Vemos que o classificador retorna com
uma predição muito similar.
1:17 - 1:20

E está correta, há um malamute na imagem,
1:20 - 1:23

mas só através deste rótulo,
não conseguimos saber muito
1:23 - 1:25

sobre o que se passa na imagem.
1:25 - 1:27

Precisamos de algo mais eficaz.
1:27 - 1:30

Eu trabalho numa questão
chamada deteção de objetos,
1:30 - 1:33

em que analisamos uma imagem
e tentamos achar todos os objetos,
1:33 - 1:35

colocamos caixas delimitadoras
à volta deles
1:35 - 1:37

e dizemos que objetos são aqueles.
1:37 - 1:40

Isto é o que acontece quando
usamos um detetor nesta imagem.
1:41 - 1:43

Com este tipo de resultado,
1:43 - 1:46

podemos fazer muito mais com os nossos
algoritmos de visão computacional.
1:46 - 1:49

Vemos que o detetor sabe
que está ali um gato e um cão.
1:49 - 1:52

Ele sabe quais as suas posições relativas,
o tamanho deles.
1:53 - 1:55

Pode até saber alguma informação extra:
1:55 - 1:57

está um livro ali ao fundo.
1:57 - 2:01

E se quisermos construir um sistema
a partir da visão computacional,
2:01 - 2:04

digamos, um veículo autónomo
ou um sistema robótico,
2:04 - 2:06

este é o tipo de informação que queremos.
2:07 - 2:10

Precisamos de algo que possa
interagir com o mundo físico.
2:11 - 2:13

Quando comecei a trabalhar
em deteção de objetos,
2:13 - 2:16

levava 20 segundos para
processar uma única imagem.
2:16 - 2:20

E para terem uma noção de como a
velocidade é tão importante neste campo,
2:21 - 2:24

este é um exemplo
de um detetor de objetos
2:24 - 2:26

que leva dois segundos
para processar uma imagem.
2:26 - 2:29

Isto é, 10 vezes mais rápido
2:29 - 2:32

que o detetor de 20-segundos-por-imagem.
2:32 - 2:35

Podem ver que. no tempo
que demora a fazer predições,
2:35 - 2:37

tudo mudou.
2:38 - 2:41

Isso não seria muito útil
para uma aplicação.
2:42 - 2:44

Se aumentarmos a velocidade 10 vezes mais,
2:44 - 2:47

este é um detetor
a cinco quadros por segundo.
2:47 - 2:49

Isto é muito melhor
2:49 - 2:51

mas, por exemplo,
2:51 - 2:53

se houver qualquer
movimento significativo,
2:53 - 2:56

eu não quereria um sistema
como este a conduzir o meu carro.
2:57 - 3:01

Este é o nosso sistema de deteção
em tempo-real no meu portátil.
3:01 - 3:04

Ele acompanha-me suavemente
enquanto me movo à volta do quadro,
3:04 - 3:08

e é potente para uma grande variedade
de mudanças de tamanho,
3:09 - 3:11

de posição,
3:11 - 3:14

para a frente, para trás,
isto é uma maravilha.
3:14 - 3:16

É disto que realmente precisamos
3:16 - 3:19

se formos construir sistemas
a partir de visão computacional.
3:20 - 3:23

(Aplausos)
3:24 - 3:26

Apenas nalguns anos,
3:26 - 3:29

mudámos de 20 segundos por imagem
3:29 - 3:33

para 20 milissegundos por imagem,
mil vezes mais rápido.
3:33 - 3:34

Como chegámos lá?
3:34 - 3:37

Bom, no passado,
os sistemas de deteção de objetos
3:37 - 3:39

agarrariam numa imagem assim
3:39 - 3:42

e dividi-la-iam num punhado de regiões
3:42 - 3:45

e depois rodariam um classificador
em cada uma destas regiões.
3:45 - 3:47

As pontuações altas
para aquele classificador
3:47 - 3:51

seriam consideradas deteções na imagem.
3:51 - 3:55

Mas isto envolvia rodar o classificador
milhares de vezes numa imagem,
3:55 - 3:58

milhares de avaliações de redes neurais
para produzir deteção.
3:59 - 4:04

Em vez disso, treinamos uma única rede
para fazer toda a deteção por nós.
4:04 - 4:08

Ela produz todas as caixas limitadoras e
probabilidades de classe simultaneamente.
4:09 - 4:12

Com o nosso sistema, em vez de
olhar para uma imagem milhares de vezes
4:12 - 4:14

para produzir deteção,
4:14 - 4:15

olhamos apenas para uma.
4:15 - 4:18

É por isso que lhe chamamos
o método YOLO de deteção de objetos.
4:19 - 4:23

Então com essa velocidade,
não estamos limitados apenas a imagens;
4:23 - 4:26

podemos processar vídeos em tempo real.
4:26 - 4:29

E agora, em vez de ver
um gato e um cão,
4:29 - 4:32

podemos vê-los moverem-se
e interagirem um com o outro.
4:35 - 4:37

Este é um detetor que treinámos
4:37 - 4:41

em 80 classes diferentes
4:41 - 4:44

no conjunto de dados COCO, da Microsoft.
4:44 - 4:48

Ele tem todo o tipo de coisas,
como colher e garfo, tigela,
4:48 - 4:50

objetos comuns como esses.
4:50 - 4:53

Tem uma variedade
de coisas mais exóticas:
4:53 - 4:56

animais, carros, zebras, girafas.
4:57 - 4:58

E agora vamos fazer algo divertido.
4:58 - 5:02

Vamos até à audiência e ver
que tipos de coisas podemos detetar.
5:02 - 5:04

Alguém quer um animal de peluche?
5:06 - 5:08

Há por aqui uns ursinhos.
5:10 - 5:15

Podemos diminuir o nosso limiar
de deteção por um momento,
5:15 - 5:18

para podemos detetar
mais pessoas na audiência.
5:20 - 5:22

Vamos ver se conseguimos
detetar essas placas.
5:22 - 5:24

Achámos umas mochilas.
5:26 - 5:28

Vamos ampliar um pouco.
5:30 - 5:32

E isso é ótimo.
5:32 - 5:35

Todo o processamento
está a ocorrer em tempo real
5:35 - 5:36

no portátil.
5:37 - 5:38

E é importante lembrarem-se
5:39 - 5:42

que este é um sistema
de deteção de propósito geral,
5:42 - 5:47

e assim podemos treiná-lo para
qualquer domínio de imagens.
5:48 - 5:51

O mesmo código que usamos
5:51 - 5:53

para encontrar sinais de stop
ou pedestres,
5:53 - 5:55

bicicletas num veículo automotor,
5:56 - 5:58

pode ser usado para encontrar
células cancerígenas
5:58 - 6:01

numa biópsia de tecido.
6:01 - 6:06

Há investigadores por todo o mundo
que já usam esta tecnologia
6:06 - 6:10

para progredirem em coisas
como a medicina, a robótica.
6:10 - 6:11

Hoje de manhã, li um artigo
6:11 - 6:14

que dizia que estavam a fazer
um recenseamento de animais
6:14 - 6:16

no Parque Nacional Nairobi
6:16 - 6:19

com YOLO como parte
deste sistema de deteção.
6:19 - 6:22

Isto é possível porque a Darknet
é de código aberto
6:22 - 6:25

e está sob domínio público,
livre para qualquer um usar.
6:26 - 6:29

(Aplausos)
6:31 - 6:36

Mas queríamos tornar a deteção
ainda mais acessível e utilizável,
6:36 - 6:40

então através de uma combinação
de otimização de modelos,
6:40 - 6:43

binarização de redes e aproximação,
6:43 - 6:47

conseguimos fazer a deteção
de objetos rodar num telemóvel.
6:54 - 6:57

(Aplausos)
6:59 - 7:04

Estou realmente ansioso porque
agora temos uma solução muito poderosa
7:04 - 7:07

para este problema de
visão computacional de baixo-nível,
7:07 - 7:10

e todos podem tomá-lo
e fazer algo com ele.
7:11 - 7:13

Agora o resto é com todos vocês
7:13 - 7:16

e com as pessoas em todo o mundo
com acesso a este software.
7:16 - 7:20

Não posso esperar para ver o que as
pessoas construirão com esta tecnologia.
7:20 - 7:21

Obrigado.
7:21 - 7:25

(Aplausos)

Title:: Como um computador aprende a reconhecer objetos instantaneamente
Speaker:: Joseph Redmon
Description:: Dez anos atrás, pesquisadores pensavam que fazer um computador dizer a diferença entre um gato e um cachorro seria quase impossível. Hoje, sistemas de visão computacional o fazem com mais de 99 por cento de precisão. Como? Joseph Redmon trabalha no sistema YOLO (You Only Look Once), um método de código aberto para detecção de objetos que consegue identificar objetos em imagens e vídeos - de zebras a placas - de maneira extremamente rápida. Em uma memorável demonstração ao vivo, Redmon mostra este importante passo à frente para aplicações como carros auto-motores, robótica e ainda detecção de câncer.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Margarida Ferreira approved Portuguese subtitles for How computers learn to recognize objects instantly
	Margarida Ferreira accepted Portuguese subtitles for How computers learn to recognize objects instantly
	Margarida Ferreira edited Portuguese subtitles for How computers learn to recognize objects instantly
	Margarida Ferreira edited Portuguese subtitles for How computers learn to recognize objects instantly
	Diana Almeida edited Portuguese subtitles for How computers learn to recognize objects instantly
	Mauricio Antero edited Portuguese subtitles for How computers learn to recognize objects instantly
	Mauricio Antero edited Portuguese subtitles for How computers learn to recognize objects instantly
	Mauricio Antero edited Portuguese subtitles for How computers learn to recognize objects instantly

Show all

Portuguese subtitles

Revisions

Revision 34 Edited

Margarida Ferreira

Como um computador aprende a reconhecer objetos instantaneamente

Revisions

Our website uses cookies

Operating cookies (Required)