Return to Video

Cómo las computadoras aprenden a reconocer objetos al instante

  • 0:00 - 0:03
    Hace diez años los investigadores
    de la visión artificial
  • 0:03 - 0:05
    pensaban que hacer que una computadora
  • 0:05 - 0:07
    distinguiera un gato de un perro
  • 0:08 - 0:09
    sería casi imposible,
  • 0:10 - 0:13
    incluso con el avance significativo
    de la inteligencia artificial.
  • 0:13 - 0:17
    Ahora podemos hacerlo con un nivel
    superior al 99 % de precisión.
  • 0:18 - 0:20
    Esto se llama clasificación de imagen.
  • 0:20 - 0:23
    Esto es, poner una etiqueta a esa imagen.
  • 0:23 - 0:26
    Y las computadoras conocen miles
    de otras categorías también.
  • 0:27 - 0:29
    Soy estudiante de posgrado
    en la Universidad de Washington,
  • 0:29 - 0:31
    y trabajo en un proyecto llamado Darknet,
  • 0:32 - 0:33
    que es un framework de red neuronal
  • 0:33 - 0:37
    para la capacitación y ensayo
    de modelos de visión artificial,
  • 0:37 - 0:39
    Así que veamos lo que piensa Darknet
  • 0:39 - 0:41
    de esta imagen que tenemos aquí.
  • 0:43 - 0:45
    Cuando ejecutamos nuestro clasificador
  • 0:45 - 0:46
    en esta imagen,
  • 0:46 - 0:49
    vemos que no solo se obtiene
    una predicción de perro o gato,
  • 0:49 - 0:51
    en realidad, obtenemos
    predicciones de raza específicas.
  • 0:51 - 0:53
    Ese es el nivel de granularidad actual.
  • 0:53 - 0:55
    Y es correcto.
  • 0:55 - 0:57
    Mi perro es de hecho un malamute.
  • 0:57 - 1:01
    Hemos hecho avances increíbles
    en la clasificación de imágenes,
  • 1:01 - 1:04
    pero ¿qué pasa
    al ejecutar nuestro clasificador
  • 1:04 - 1:06
    en una imagen así?
  • 1:07 - 1:08
    Bien...
  • 1:13 - 1:17
    Vemos que el clasificador vuelve
    con una predicción bastante similar.
  • 1:17 - 1:20
    Y es correcto,
    hay un malamute en la imagen,
  • 1:20 - 1:23
    pero solo con esta etiqueta,
    en realidad, no sabemos mucho
  • 1:23 - 1:25
    sobre lo que pasa en la imagen.
  • 1:25 - 1:27
    Necesitamos algo más potente.
  • 1:27 - 1:30
    Trabajo en un problema
    llamado detección de objetos,
  • 1:30 - 1:33
    donde miramos una imagen e
    intentamos encontrar todos los objetos,
  • 1:33 - 1:35
    poniendo cajas delimitadoras
    alrededor de ellos
  • 1:35 - 1:37
    y averiguar qué son esos objetos.
  • 1:37 - 1:40
    Así que esto es lo que ocurre
    al ejecutar un detector en esta imagen.
  • 1:41 - 1:43
    Ahora, con este tipo de resultado,
  • 1:43 - 1:47
    podemos hacer mucho más con nuestros
    algoritmos de visión artificial.
  • 1:47 - 1:49
    Vemos que sabe que hay un gato y un perro.
  • 1:49 - 1:51
    Conoce sus ubicaciones relativas,
  • 1:52 - 1:53
    su tamaño.
  • 1:53 - 1:55
    Incluso puede saber
    alguna información adicional.
  • 1:55 - 1:57
    Hay un libro en el fondo.
  • 1:57 - 2:01
    Y si desea construir un sistema con base
    en la visión artificial
  • 2:01 - 2:04
    por ejemplo, un vehículo autodirigido
    o un sistema robótico,
  • 2:04 - 2:06
    este es el tipo de información
    que necesita.
  • 2:07 - 2:10
    Algo para interactuar con el mundo físico.
  • 2:10 - 2:13
    Cuando empecé a trabajar
    en la detección de objetos,
  • 2:13 - 2:16
    se tardaba 20 segundos
    en procesar una sola imagen.
  • 2:16 - 2:20
    Y para entender por qué la velocidad
    es tan importante en este ámbito,
  • 2:21 - 2:24
    este es un ejemplo
    de un detector de objetos
  • 2:24 - 2:26
    que tarda dos segundos
    en procesar una imagen.
  • 2:26 - 2:29
    Así que esto es 10 veces más rápido
  • 2:29 - 2:32
    que el detector de 20 segundos por imagen,
  • 2:32 - 2:35
    y se puede ver que, en el momento
    de hacer las predicciones,
  • 2:35 - 2:38
    el estado entero del mundo ha cambiado,
  • 2:38 - 2:40
    y esto no sería muy útil
  • 2:40 - 2:42
    para una aplicación.
  • 2:42 - 2:44
    Si aceleramos esto por otro factor de 10,
  • 2:44 - 2:47
    esto es un detector que funciona
    en cinco fotogramas por segundo.
  • 2:47 - 2:49
    Esto es mucho mejor
  • 2:49 - 2:51
    pero, por ejemplo,
  • 2:51 - 2:53
    si hay algún movimiento significativo,
  • 2:53 - 2:56
    yo no quisiera un sistema como este
    conduciendo mi auto.
  • 2:57 - 3:01
    Este es nuestro sistema de detección que
    se ejecuta en tiempo real en mi portátil.
  • 3:01 - 3:04
    Así que suavemente me sigue
    mientras me muevo en la imagen,
  • 3:04 - 3:08
    y es robusto con una amplia variedad
    de cambios de tamaño,
  • 3:09 - 3:11
    poses,
  • 3:11 - 3:13
    hacia adelante, hacia atrás.
  • 3:13 - 3:14
    Esto es genial.
  • 3:14 - 3:16
    Esto es lo que realmente necesitamos
  • 3:16 - 3:20
    si vamos a construir sistemas
    con base en visión artificial.
  • 3:20 - 3:23
    (Aplausos)
  • 3:24 - 3:26
    Así que en solo unos pocos años,
  • 3:26 - 3:29
    hemos pasado de 20 segundos por imagen
  • 3:29 - 3:33
    a 20 milisegundos por imagen,
    mil veces más rápido.
  • 3:33 - 3:34
    ¿Cómo llegamos hasta aquí?
  • 3:34 - 3:37
    Bueno, en el pasado,
    los sistemas de detección de objetos
  • 3:37 - 3:39
    tomaban una imagen como esta
  • 3:39 - 3:42
    y la dividían en un montón de regiones
  • 3:42 - 3:45
    y luego ejecutaban un clasificador
    en cada una de estas regiones,
  • 3:45 - 3:47
    y las puntuaciones altas
    de ese clasificador
  • 3:47 - 3:51
    se consideraban detecciones de la imagen.
  • 3:51 - 3:55
    Pero eso implicaba ejecutar un clasificador
    miles de veces sobre una imagen,
  • 3:55 - 3:58
    miles de evaluaciones de redes neuronales
    para producir detección.
  • 3:59 - 4:04
    En cambio, nosotros hemos entrenado
    una sola red para hacer toda la detección.
  • 4:04 - 4:08
    Produce todas las cajas delimitadoras
    y ordena las probabilidades en simultáneo.
  • 4:09 - 4:12
    Con nuestro sistema, en lugar
    de mirar una imagen miles de veces
  • 4:12 - 4:14
    para hacer la detección,
  • 4:14 - 4:15
    se mira tan solo una vez,
  • 4:15 - 4:18
    y por eso lo llamamos
    método YOLO de detección de objetos.
  • 4:19 - 4:23
    Así que con esta velocidad,
    no estamos limitados a las imágenes;
  • 4:23 - 4:26
    podemos procesar el video en tiempo real.
  • 4:26 - 4:29
    Y ahora, en lugar de solo ver
    a ese gato y perro,
  • 4:29 - 4:32
    podemos verlos moverse
    e interactuar unos con otros.
  • 4:35 - 4:37
    Este es un detector que entrenamos
  • 4:37 - 4:41
    en 80 clases diferentes
  • 4:41 - 4:44
    en el conjunto de datos COCO de Microsoft.
  • 4:44 - 4:48
    Tiene todo tipo de cosas
    como cuchara y tenedor, cuenco,
  • 4:48 - 4:49
    objetos comunes como esos.
  • 4:50 - 4:53
    Tiene una variedad de cosas más exóticas:
  • 4:53 - 4:57
    animales, autos, cebras, jirafas.
  • 4:57 - 4:59
    Y ahora vamos a hacer algo divertido.
  • 4:59 - 5:01
    Solo vamos a ir a la audiencia
  • 5:01 - 5:03
    y ver qué tipo de cosas podemos detectar.
  • 5:03 - 5:04
    ¿Alguien quiere un peluche?
  • 5:06 - 5:08
    Hay algunos osos de peluche por aquí.
  • 5:10 - 5:15
    Y podemos reducir
    nuestro umbral de detección un poco,
  • 5:15 - 5:18
    así podemos encontrar
    a más de Uds. en la audiencia.
  • 5:19 - 5:22
    Vamos a ver si podemos obtener
    estas señales de stop.
  • 5:22 - 5:24
    Encontramos algunas mochilas.
  • 5:26 - 5:28
    Vamos a acercarnos un poco.
  • 5:30 - 5:32
    Y esto es genial.
  • 5:32 - 5:35
    Y todo el procesamiento
    está sucediendo en tiempo real
  • 5:35 - 5:36
    en la computadora portátil.
  • 5:37 - 5:39
    Y es importante recordar
  • 5:39 - 5:42
    que se trata de un sistema de
    detección de objetos de propósito general,
  • 5:42 - 5:47
    así que podemos entrenar esto
    para cualquier dominio de la imagen.
  • 5:48 - 5:51
    El mismo código que usamos
  • 5:51 - 5:53
    para encontrar señales
    de stop o de peatones,
  • 5:53 - 5:55
    bicicletas en un vehículo autodirigido,
  • 5:55 - 5:58
    puede usarse
    para encontrar células cancerosas
  • 5:58 - 6:01
    en una biopsia de tejido.
  • 6:01 - 6:05
    Y hay investigadores de todo el mundo
    que ya usan esta tecnología
  • 6:06 - 6:10
    para avances en cosas
    como la medicina, la robótica.
  • 6:10 - 6:11
    Esta mañana leí un periódico
  • 6:11 - 6:16
    sobre un censo de animales que estaban
    haciendo en el Parque Nacional de Nairobi
  • 6:16 - 6:19
    que usa YOLO como parte
    de este sistema de detección.
  • 6:19 - 6:22
    Y eso es posible,
    porque Darknet es de código abierto
  • 6:22 - 6:25
    y de dominio público y libre para
    que lo use cualquier persona.
  • 6:26 - 6:31
    (Aplausos)
  • 6:31 - 6:36
    Pero queríamos que la detección
    fuera aún más accesible y usable,
  • 6:36 - 6:40
    por eso, mediante una combinación
    de optimización de modelos,
  • 6:40 - 6:43
    binarización de red y aproximación,
  • 6:43 - 6:47
    tenemos un reconocimiento de objetos
    que funciona en un teléfono.
  • 6:53 - 6:58
    (Aplausos)
  • 6:59 - 7:04
    Y estoy muy contento porque ahora
    tenemos una solución bastante potente
  • 7:04 - 7:06
    a este problema de visión artificial
    de bajo nivel,
  • 7:06 - 7:10
    y cualquiera puede usarlo
    y hacer algo con esto.
  • 7:10 - 7:13
    Así que ahora el resto depende de Uds.
  • 7:13 - 7:16
    y de personas de todo el mundo
    con acceso a este software,
  • 7:16 - 7:20
    y estoy impaciente por ver qué construirá
    la gente con esta tecnología.
  • 7:20 - 7:21
    Gracias.
  • 7:21 - 7:25
    (Aplausos)
Title:
Cómo las computadoras aprenden a reconocer objetos al instante
Speaker:
Joseph Redmon
Description:

Hace diez años los investigadores pensaban que inventar una computadora que distinguiera un gato de un perro sería casi imposible. Hoy en día los sistemas de visión artificial lo hacen con una precisión superior al 99 %. ¿Cómo? Joseph Redmon trabaja en el sistema YOLO (You Only Look Once), un método de detección de objetos de código abierto que puede identificar objetos en imágenes y video, desde cebras hasta señales de stop, a una gran velocidad. En una demostración en vivo memorable, Redmon muestra este importante avance con aplicaciones en la autoconducción de autos, robótica e incluso en la detección del cáncer.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Spanish subtitles

Revisions