Return to Video

Como aprenden os ordenadores a recoñecer obxectos instantaneamente

  • 0:01 - 0:02
    Hai dez anos,
  • 0:02 - 0:05
    os expertos en visión artificial
    crían que lograr que un ordenador
  • 0:05 - 0:07
    distinguise entre un gato e un can
  • 0:08 - 0:09
    sería practicamente imposible
  • 0:10 - 0:13
    malia os considerables progresos
    en intelixencia artificial.
  • 0:13 - 0:17
    Hoxe podemos facelo cunha precisión
    superior ao 99 por cento.
  • 0:18 - 0:20
    Isto chámase clasificación de imaxes:
  • 0:20 - 0:23
    dada unha imaxe, asígnalle unha etiqueta.
  • 0:23 - 0:26
    E os ordenadores coñecen ademais
    miles doutras categorías.
  • 0:27 - 0:29
    Son estudante de posgrao
    na Universidade de Washington,
  • 0:29 - 0:31
    e traballo nun proxecto chamado Darknet,
  • 0:31 - 0:34
    un contorno de traballo de rede neural
  • 0:34 - 0:36
    para adestrar e probar
    modelos de visión artificial.
  • 0:37 - 0:39
    Imos ver o que pensa Darknet
  • 0:39 - 0:41
    desta imaxe que temos aquí.
  • 0:43 - 0:45
    Ao aplicarlle o noso clasificador
  • 0:45 - 0:46
    a esta imaxe,
  • 0:46 - 0:49
    vemos que non se limita a predicir
    can ou gato;
  • 0:49 - 0:51
    de feito, dános tamén razas concretas.
  • 0:51 - 0:53
    Ese é o nivel de granularidade
    que temos agora.
  • 0:53 - 0:55
    E é correcto.
  • 0:55 - 0:57
    O meu can é efectivamente un malamute.
  • 0:57 - 1:01
    Así que demos xa pasos enormes
    na clasificación de imaxes,
  • 1:01 - 1:04
    pero que acontece se executamos
    o noso clasificador
  • 1:04 - 1:05
    sobre unha imaxe coma esta?
  • 1:07 - 1:08
    Ben...
  • 1:13 - 1:17
    Vemos que o clasificador nos devolve
    unha predición bastante similar.
  • 1:17 - 1:20
    E é correcta: hai un malamute na imaxe,
  • 1:20 - 1:23
    pero con só esa etiqueta,
    en realidade, non sabemos moito
  • 1:23 - 1:25
    sobre o que ocorre nela.
  • 1:25 - 1:27
    Necesitamos algo máis potente.
  • 1:27 - 1:30
    Eu traballo nun problema denominado
    detección de obxectos,
  • 1:30 - 1:33
    no que vemos unha imaxe e tratamos
    de atopar todos os obxectos,
  • 1:33 - 1:34
    encerrámolos en caixas
  • 1:34 - 1:36
    e dicimos que son eses obxectos.
  • 1:36 - 1:40
    Isto é o que acontece cando lle aplicamos
    un detector a esta imaxe.
  • 1:41 - 1:43
    Ben, con este tipo de resultado
  • 1:43 - 1:47
    podemos facer moito máis cos nosos
    algoritmos de visión artificial.
  • 1:47 - 1:49
    Vemos que sabe que hai
    un gato e un can.
  • 1:49 - 1:51
    Sabe a súa posición relativa,
  • 1:52 - 1:53
    o seu tamaño.
  • 1:53 - 1:55
    Mesmo pode coñecer
    algúns datos adicionais.
  • 1:55 - 1:57
    Hai un libro ao fondo.
  • 1:57 - 2:01
    E se queremos construír un sistema
    baseado na visión artificial,
  • 2:01 - 2:04
    por exemplo, un vehículo autónomo
    ou un sistema robótico,
  • 2:04 - 2:06
    esta é a clase de información
    que necesitamos.
  • 2:07 - 2:10
    Necesitamos algo que faga posible
    interactuar co mundo físico.
  • 2:10 - 2:13
    Cando eu comecei a traballar
    coa detección de obxectos,
  • 2:13 - 2:16
    tardábase 20 segundos
    en procesar unha soa imaxe.
  • 2:16 - 2:20
    Para darvos unha idea da importancia
    da velocidade neste ámbito,
  • 2:21 - 2:24
    este é un exemplo dun detector de obxectos
  • 2:24 - 2:26
    que tarda dous segundos
    en procesar unha imaxe.
  • 2:26 - 2:29
    É dicir, é 10 veces máis rápido
  • 2:29 - 2:32
    có dos 20 segundos por imaxe,
  • 2:32 - 2:35
    e, como vedes, cando fai a súa predición,
  • 2:35 - 2:37
    a situación xa mudou por completo,
  • 2:38 - 2:40
    o cal non sería moi útil
  • 2:40 - 2:42
    para ningunha aplicación.
  • 2:42 - 2:44
    Se multiplicamos a velocidade por 10,
  • 2:44 - 2:47
    temos un detector que vai
    a cinco imaxes por segundo.
  • 2:47 - 2:49
    É moito mellor,
  • 2:49 - 2:51
    pero, por exemplo,
  • 2:51 - 2:53
    se hai un movemento grande,
  • 2:53 - 2:56
    a min non me gustaría que un sistema
    coma este conducise o meu coche.
  • 2:57 - 3:01
    Este é o noso sistema de detección
    funcionando en tempo real no meu portátil.
  • 3:01 - 3:04
    Segue sen saltos
    os meus desprazamentos pola imaxe,
  • 3:04 - 3:08
    e responde de forma fiable
    a moi diversos cambios de tamaño,
  • 3:09 - 3:11
    postura,
  • 3:11 - 3:13
    avance, retroceso.
  • 3:13 - 3:14
    É fantástico.
  • 3:14 - 3:16
    Isto é o que necesitamos
  • 3:16 - 3:19
    se pretendemos construír sistemas
    baseados na visión artificial.
  • 3:19 - 3:23
    (Aplausos)
  • 3:24 - 3:26
    Así que en apenas uns anos,
  • 3:26 - 3:29
    pasamos de 20 segundos por imaxe
  • 3:29 - 3:32
    a 20 milisegundos por imaxe,
    mil veces máis rápido.
  • 3:33 - 3:34
    Como chegamos ata aquí?
  • 3:34 - 3:37
    Ben, os anteriores sistemas
    de detección de obxectos
  • 3:37 - 3:39
    collían unha imaxe coma esta,
  • 3:39 - 3:42
    dividíana nunha serie de rexións
  • 3:42 - 3:45
    e executaban un clasificador
    en cada unha desas rexións,
  • 3:45 - 3:47
    e os valores altos nun clasificador dado
  • 3:47 - 3:51
    interpretábanse como deteccións na imaxe.
  • 3:51 - 3:55
    Pero isto supoñía executar un clasificador
    miles de veces sobre unha imaxe.
  • 3:55 - 3:58
    miles de avaliacións por redes neurais
    para producir unha detección.
  • 3:59 - 4:04
    Nós, en cambio, adestramos unha soa rede
    para que fixese todo o proceso.
  • 4:04 - 4:08
    Produce simultaneamente todas as caixas
    e as probabilidades de clase.
  • 4:09 - 4:12
    Co noso sistema, no canto de analizar
    unha imaxe miles de veces
  • 4:12 - 4:14
    para producir unha detección,
  • 4:14 - 4:15
    só é necesario mirala unha vez.
  • 4:15 - 4:18
    Chamámoslle método YOLO
    de detección de obxectos.
  • 4:20 - 4:23
    Con esta velocidade, non estamos
    limitados ás imaxes estáticas;
  • 4:23 - 4:26
    podemos procesar vídeo en tempo real.
  • 4:26 - 4:29
    Agora, no canto de simplemente
    ver o gato e o can,
  • 4:29 - 4:32
    podemos velos moverse e interactuar.
  • 4:35 - 4:37
    Este é un detector que adestramos
  • 4:37 - 4:41
    con 80 categorías distintas
  • 4:41 - 4:44
    do banco de datos COCO de Microsoft.
  • 4:44 - 4:48
    Contén todo tipo de cousas,
    como culler e garfo, cunca,
  • 4:48 - 4:49
    obxectos comúns.
  • 4:50 - 4:53
    Ten outras cousas máis exóticas:
  • 4:53 - 4:57
    animais, coches, cebras, xirafas.
  • 4:57 - 4:59
    Agora imos facer algo divertido.
  • 4:59 - 5:01
    Ímonos achegar ao público
  • 5:01 - 5:03
    para ver que podemos detectar.
  • 5:03 - 5:04
    Alguén quere unha peluche?
  • 5:06 - 5:08
    Hai por aí uns cantos osos de peluche.
  • 5:10 - 5:15
    Podemos baixar un pouquiño
    o limiar de detección,
  • 5:15 - 5:18
    para atopar máis cousas entre o público.
  • 5:20 - 5:22
    A ver se podemos localizar
    eses sinais de stop.
  • 5:22 - 5:24
    Atopamos algunhas mochilas.
  • 5:26 - 5:28
    Démoslle un pouco ao zoom.
  • 5:30 - 5:32
    Isto é fantástico.
  • 5:32 - 5:35
    E todo ese procesamento
    estase realizando en tempo real
  • 5:35 - 5:36
    no portátil.
  • 5:37 - 5:39
    Cómpre lembrar
  • 5:39 - 5:42
    que este é un sistema de detección
    de uso xeral,
  • 5:42 - 5:47
    polo que podemos adestralo
    para calquera ámbito.
  • 5:48 - 5:51
    O mesmo código que empregamos
  • 5:51 - 5:53
    para detectar sinais de stop, peóns
  • 5:53 - 5:55
    ou bicicletas nun vehículo autónomo
  • 5:55 - 5:58
    pódese empregar para detectar
    células cancerosas
  • 5:58 - 6:01
    nunha biopsia de tecido.
  • 6:01 - 6:05
    Hai investigadores por todo o mundo
    que xa están a usar esta tecnoloxía
  • 6:06 - 6:10
    para lograr novos avances en campos
    como a medicina ou a robótica.
  • 6:10 - 6:11
    Esta mañá lin un artigo
  • 6:11 - 6:16
    no que falan dun censo dos animais
    do Parque Nacional de Nairobi
  • 6:16 - 6:19
    no que están empregando YOLO como parte
    do sistema de detección.
  • 6:19 - 6:22
    Porque Darknet é código aberto,
  • 6:22 - 6:24
    é público para que calquera
    poida usalo libremente.
  • 6:26 - 6:31
    (Aplausos)
  • 6:31 - 6:36
    Pero queriamos facer a detección
    máis accesible e práctica,
  • 6:36 - 6:40
    así que combinando
    a optimización de modelos,
  • 6:40 - 6:43
    a binarización e aproximación de redes,
  • 6:43 - 6:47
    logramos que a detección de obxectos
    funcionase nun teléfono.
  • 6:53 - 6:58
    (Aplausos)
  • 6:59 - 7:04
    Estou entusiasmado porque agora temos
    unha solución bastante potente
  • 7:04 - 7:07
    para este problema
    de visión artificial de baixo nivel,
  • 7:07 - 7:10
    e calquera pode usala
    para facer algo con ela.
  • 7:10 - 7:13
    A partir de aquí depende de todos vós
  • 7:13 - 7:16
    e doutros por todo o mundo
    con acceso a este software,
  • 7:16 - 7:20
    e estou desexando ver o que
    construirán con esta tecnoloxía.
  • 7:20 - 7:21
    Grazas.
  • 7:21 - 7:25
    (Aplausos)
Title:
Como aprenden os ordenadores a recoñecer obxectos instantaneamente
Speaker:
Joseph Redmon
Description:

Hai dez anos, os investigadores pensaban que lograr que un ordenador distinguise entre un gato e un can sería practicamente imposible. Hoxe os sistemas de visión artificial poden facelo cunha precisión superior ao 99 por cento. Como? Joseph Redmon traballa no sistema YOLO ("Só se vive unha vez"), un método de detección de obxectos de código aberto capaz de identificar obxectos en imaxes estáticas e vídeo --desde unha cebra a un sinal de stop-- coa velocidade dun lóstrego. Na súa magnífica demostración en directo, Redmon presenta orgulloso este avance de enorme importancia para aplicacións como os coches autónomos, a robótica ou mesmo a detección do cancro.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Galician subtitles

Revisions