Como aprenden os ordenadores a recoñecer obxectos instantaneamente

0:01 - 0:02

Hai dez anos,
0:02 - 0:05

os expertos en visión artificial
crían que lograr que un ordenador
0:05 - 0:07

distinguise entre un gato e un can
0:08 - 0:09

sería practicamente imposible
0:10 - 0:13

malia os considerables progresos
en intelixencia artificial.
0:13 - 0:17

Hoxe podemos facelo cunha precisión
superior ao 99 por cento.
0:18 - 0:20

Isto chámase clasificación de imaxes:
0:20 - 0:23

dada unha imaxe, asígnalle unha etiqueta.
0:23 - 0:26

E os ordenadores coñecen ademais
miles doutras categorías.
0:27 - 0:29

Son estudante de posgrao
na Universidade de Washington,
0:29 - 0:31

e traballo nun proxecto chamado Darknet,
0:31 - 0:34

un contorno de traballo de rede neural
0:34 - 0:36

para adestrar e probar
modelos de visión artificial.
0:37 - 0:39

Imos ver o que pensa Darknet
0:39 - 0:41

desta imaxe que temos aquí.
0:43 - 0:45

Ao aplicarlle o noso clasificador
0:45 - 0:46

a esta imaxe,
0:46 - 0:49

vemos que non se limita a predicir
can ou gato;
0:49 - 0:51

de feito, dános tamén razas concretas.
0:51 - 0:53

Ese é o nivel de granularidade
que temos agora.
0:53 - 0:55

E é correcto.
0:55 - 0:57

O meu can é efectivamente un malamute.
0:57 - 1:01

Así que demos xa pasos enormes
na clasificación de imaxes,
1:01 - 1:04

pero que acontece se executamos
o noso clasificador
1:04 - 1:05

sobre unha imaxe coma esta?
1:07 - 1:08

Ben...
1:13 - 1:17

Vemos que o clasificador nos devolve
unha predición bastante similar.
1:17 - 1:20

E é correcta: hai un malamute na imaxe,
1:20 - 1:23

pero con só esa etiqueta,
en realidade, non sabemos moito
1:23 - 1:25

sobre o que ocorre nela.
1:25 - 1:27

Necesitamos algo máis potente.
1:27 - 1:30

Eu traballo nun problema denominado
detección de obxectos,
1:30 - 1:33

no que vemos unha imaxe e tratamos
de atopar todos os obxectos,
1:33 - 1:34

encerrámolos en caixas
1:34 - 1:36

e dicimos que son eses obxectos.
1:36 - 1:40

Isto é o que acontece cando lle aplicamos
un detector a esta imaxe.
1:41 - 1:43

Ben, con este tipo de resultado
1:43 - 1:47

podemos facer moito máis cos nosos
algoritmos de visión artificial.
1:47 - 1:49

Vemos que sabe que hai
un gato e un can.
1:49 - 1:51

Sabe a súa posición relativa,
1:52 - 1:53

o seu tamaño.
1:53 - 1:55

Mesmo pode coñecer
algúns datos adicionais.
1:55 - 1:57

Hai un libro ao fondo.
1:57 - 2:01

E se queremos construír un sistema
baseado na visión artificial,
2:01 - 2:04

por exemplo, un vehículo autónomo
ou un sistema robótico,
2:04 - 2:06

esta é a clase de información
que necesitamos.
2:07 - 2:10

Necesitamos algo que faga posible
interactuar co mundo físico.
2:10 - 2:13

Cando eu comecei a traballar
coa detección de obxectos,
2:13 - 2:16

tardábase 20 segundos
en procesar unha soa imaxe.
2:16 - 2:20

Para darvos unha idea da importancia
da velocidade neste ámbito,
2:21 - 2:24

este é un exemplo dun detector de obxectos
2:24 - 2:26

que tarda dous segundos
en procesar unha imaxe.
2:26 - 2:29

É dicir, é 10 veces máis rápido
2:29 - 2:32

có dos 20 segundos por imaxe,
2:32 - 2:35

e, como vedes, cando fai a súa predición,
2:35 - 2:37

a situación xa mudou por completo,
2:38 - 2:40

o cal non sería moi útil
2:40 - 2:42

para ningunha aplicación.
2:42 - 2:44

Se multiplicamos a velocidade por 10,
2:44 - 2:47

temos un detector que vai
a cinco imaxes por segundo.
2:47 - 2:49

É moito mellor,
2:49 - 2:51

pero, por exemplo,
2:51 - 2:53

se hai un movemento grande,
2:53 - 2:56

a min non me gustaría que un sistema
coma este conducise o meu coche.
2:57 - 3:01

Este é o noso sistema de detección
funcionando en tempo real no meu portátil.
3:01 - 3:04

Segue sen saltos
os meus desprazamentos pola imaxe,
3:04 - 3:08

e responde de forma fiable
a moi diversos cambios de tamaño,
3:09 - 3:11

postura,
3:11 - 3:13

avance, retroceso.
3:13 - 3:14

É fantástico.
3:14 - 3:16

Isto é o que necesitamos
3:16 - 3:19

se pretendemos construír sistemas
baseados na visión artificial.
3:19 - 3:23

(Aplausos)
3:24 - 3:26

Así que en apenas uns anos,
3:26 - 3:29

pasamos de 20 segundos por imaxe
3:29 - 3:32

a 20 milisegundos por imaxe,
mil veces máis rápido.
3:33 - 3:34

Como chegamos ata aquí?
3:34 - 3:37

Ben, os anteriores sistemas
de detección de obxectos
3:37 - 3:39

collían unha imaxe coma esta,
3:39 - 3:42

dividíana nunha serie de rexións
3:42 - 3:45

e executaban un clasificador
en cada unha desas rexións,
3:45 - 3:47

e os valores altos nun clasificador dado
3:47 - 3:51

interpretábanse como deteccións na imaxe.
3:51 - 3:55

Pero isto supoñía executar un clasificador
miles de veces sobre unha imaxe.
3:55 - 3:58

miles de avaliacións por redes neurais
para producir unha detección.
3:59 - 4:04

Nós, en cambio, adestramos unha soa rede
para que fixese todo o proceso.
4:04 - 4:08

Produce simultaneamente todas as caixas
e as probabilidades de clase.
4:09 - 4:12

Co noso sistema, no canto de analizar
unha imaxe miles de veces
4:12 - 4:14

para producir unha detección,
4:14 - 4:15

só é necesario mirala unha vez.
4:15 - 4:18

Chamámoslle método YOLO
de detección de obxectos.
4:20 - 4:23

Con esta velocidade, non estamos
limitados ás imaxes estáticas;
4:23 - 4:26

podemos procesar vídeo en tempo real.
4:26 - 4:29

Agora, no canto de simplemente
ver o gato e o can,
4:29 - 4:32

podemos velos moverse e interactuar.
4:35 - 4:37

Este é un detector que adestramos
4:37 - 4:41

con 80 categorías distintas
4:41 - 4:44

do banco de datos COCO de Microsoft.
4:44 - 4:48

Contén todo tipo de cousas,
como culler e garfo, cunca,
4:48 - 4:49

obxectos comúns.
4:50 - 4:53

Ten outras cousas máis exóticas:
4:53 - 4:57

animais, coches, cebras, xirafas.
4:57 - 4:59

Agora imos facer algo divertido.
4:59 - 5:01

Ímonos achegar ao público
5:01 - 5:03

para ver que podemos detectar.
5:03 - 5:04

Alguén quere unha peluche?
5:06 - 5:08

Hai por aí uns cantos osos de peluche.
5:10 - 5:15

Podemos baixar un pouquiño
o limiar de detección,
5:15 - 5:18

para atopar máis cousas entre o público.
5:20 - 5:22

A ver se podemos localizar
eses sinais de stop.
5:22 - 5:24

Atopamos algunhas mochilas.
5:26 - 5:28

Démoslle un pouco ao zoom.
5:30 - 5:32

Isto é fantástico.
5:32 - 5:35

E todo ese procesamento
estase realizando en tempo real
5:35 - 5:36

no portátil.
5:37 - 5:39

Cómpre lembrar
5:39 - 5:42

que este é un sistema de detección
de uso xeral,
5:42 - 5:47

polo que podemos adestralo
para calquera ámbito.
5:48 - 5:51

O mesmo código que empregamos
5:51 - 5:53

para detectar sinais de stop, peóns
5:53 - 5:55

ou bicicletas nun vehículo autónomo
5:55 - 5:58

pódese empregar para detectar
células cancerosas
5:58 - 6:01

nunha biopsia de tecido.
6:01 - 6:05

Hai investigadores por todo o mundo
que xa están a usar esta tecnoloxía
6:06 - 6:10

para lograr novos avances en campos
como a medicina ou a robótica.
6:10 - 6:11

Esta mañá lin un artigo
6:11 - 6:16

no que falan dun censo dos animais
do Parque Nacional de Nairobi
6:16 - 6:19

no que están empregando YOLO como parte
do sistema de detección.
6:19 - 6:22

Porque Darknet é código aberto,
6:22 - 6:24

é público para que calquera
poida usalo libremente.
6:26 - 6:31

(Aplausos)
6:31 - 6:36

Pero queriamos facer a detección
máis accesible e práctica,
6:36 - 6:40

así que combinando
a optimización de modelos,
6:40 - 6:43

a binarización e aproximación de redes,
6:43 - 6:47

logramos que a detección de obxectos
funcionase nun teléfono.
6:53 - 6:58

(Aplausos)
6:59 - 7:04

Estou entusiasmado porque agora temos
unha solución bastante potente
7:04 - 7:07

para este problema
de visión artificial de baixo nivel,
7:07 - 7:10

e calquera pode usala
para facer algo con ela.
7:10 - 7:13

A partir de aquí depende de todos vós
7:13 - 7:16

e doutros por todo o mundo
con acceso a este software,
7:16 - 7:20

e estou desexando ver o que
construirán con esta tecnoloxía.
7:20 - 7:21

Grazas.
7:21 - 7:25

(Aplausos)

Title:: Como aprenden os ordenadores a recoñecer obxectos instantaneamente
Speaker:: Joseph Redmon
Description:: Hai dez anos, os investigadores pensaban que lograr que un ordenador distinguise entre un gato e un can sería practicamente imposible. Hoxe os sistemas de visión artificial poden facelo cunha precisión superior ao 99 por cento. Como? Joseph Redmon traballa no sistema YOLO ("Só se vive unha vez"), un método de detección de obxectos de código aberto capaz de identificar obxectos en imaxes estáticas e vídeo --desde unha cebra a un sinal de stop-- coa velocidade dun lóstrego. Na súa magnífica demostración en directo, Redmon presenta orgulloso este avance de enorme importancia para aplicacións como os coches autónomos, a robótica ou mesmo a detección do cancro.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Xusto Rodriguez approved Galician subtitles for How computers learn to recognize objects instantly
	Xusto Rodriguez accepted Galician subtitles for How computers learn to recognize objects instantly
	Xusto Rodriguez edited Galician subtitles for How computers learn to recognize objects instantly
	Xusto Rodriguez edited Galician subtitles for How computers learn to recognize objects instantly
	Mario Cal edited Galician subtitles for How computers learn to recognize objects instantly
	Mario Cal edited Galician subtitles for How computers learn to recognize objects instantly
	Mario Cal edited Galician subtitles for How computers learn to recognize objects instantly
	Mario Cal edited Galician subtitles for How computers learn to recognize objects instantly

Show all

Galician subtitles

Revisions

Revision 10 Edited

Xusto Rodriguez

Como aprenden os ordenadores a recoñecer obxectos instantaneamente

Revisions

Our website uses cookies

Operating cookies (Required)