Cómo las computadoras aprenden a reconocer objetos al instante
-
0:00 - 0:03Hace diez años los investigadores
de la visión artificial -
0:03 - 0:05pensaban que hacer que una computadora
-
0:05 - 0:07distinguiera un gato de un perro
-
0:08 - 0:09sería casi imposible,
-
0:10 - 0:13incluso con el avance significativo
de la inteligencia artificial. -
0:13 - 0:17Ahora podemos hacerlo con un nivel
superior al 99 % de precisión. -
0:18 - 0:20Esto se llama clasificación de imagen.
-
0:20 - 0:23Esto es, poner una etiqueta a esa imagen.
-
0:23 - 0:26Y las computadoras conocen miles
de otras categorías también. -
0:27 - 0:29Soy estudiante de posgrado
en la Universidad de Washington, -
0:29 - 0:31y trabajo en un proyecto llamado Darknet,
-
0:32 - 0:33que es un framework de red neuronal
-
0:33 - 0:37para la capacitación y ensayo
de modelos de visión artificial, -
0:37 - 0:39Así que veamos lo que piensa Darknet
-
0:39 - 0:41de esta imagen que tenemos aquí.
-
0:43 - 0:45Cuando ejecutamos nuestro clasificador
-
0:45 - 0:46en esta imagen,
-
0:46 - 0:49vemos que no solo se obtiene
una predicción de perro o gato, -
0:49 - 0:51en realidad, obtenemos
predicciones de raza específicas. -
0:51 - 0:53Ese es el nivel de granularidad actual.
-
0:53 - 0:55Y es correcto.
-
0:55 - 0:57Mi perro es de hecho un malamute.
-
0:57 - 1:01Hemos hecho avances increíbles
en la clasificación de imágenes, -
1:01 - 1:04pero ¿qué pasa
al ejecutar nuestro clasificador -
1:04 - 1:06en una imagen así?
-
1:07 - 1:08Bien...
-
1:13 - 1:17Vemos que el clasificador vuelve
con una predicción bastante similar. -
1:17 - 1:20Y es correcto,
hay un malamute en la imagen, -
1:20 - 1:23pero solo con esta etiqueta,
en realidad, no sabemos mucho -
1:23 - 1:25sobre lo que pasa en la imagen.
-
1:25 - 1:27Necesitamos algo más potente.
-
1:27 - 1:30Trabajo en un problema
llamado detección de objetos, -
1:30 - 1:33donde miramos una imagen e
intentamos encontrar todos los objetos, -
1:33 - 1:35poniendo cajas delimitadoras
alrededor de ellos -
1:35 - 1:37y averiguar qué son esos objetos.
-
1:37 - 1:40Así que esto es lo que ocurre
al ejecutar un detector en esta imagen. -
1:41 - 1:43Ahora, con este tipo de resultado,
-
1:43 - 1:47podemos hacer mucho más con nuestros
algoritmos de visión artificial. -
1:47 - 1:49Vemos que sabe que hay un gato y un perro.
-
1:49 - 1:51Conoce sus ubicaciones relativas,
-
1:52 - 1:53su tamaño.
-
1:53 - 1:55Incluso puede saber
alguna información adicional. -
1:55 - 1:57Hay un libro en el fondo.
-
1:57 - 2:01Y si desea construir un sistema con base
en la visión artificial -
2:01 - 2:04por ejemplo, un vehículo autodirigido
o un sistema robótico, -
2:04 - 2:06este es el tipo de información
que necesita. -
2:07 - 2:10Algo para interactuar con el mundo físico.
-
2:10 - 2:13Cuando empecé a trabajar
en la detección de objetos, -
2:13 - 2:16se tardaba 20 segundos
en procesar una sola imagen. -
2:16 - 2:20Y para entender por qué la velocidad
es tan importante en este ámbito, -
2:21 - 2:24este es un ejemplo
de un detector de objetos -
2:24 - 2:26que tarda dos segundos
en procesar una imagen. -
2:26 - 2:29Así que esto es 10 veces más rápido
-
2:29 - 2:32que el detector de 20 segundos por imagen,
-
2:32 - 2:35y se puede ver que, en el momento
de hacer las predicciones, -
2:35 - 2:38el estado entero del mundo ha cambiado,
-
2:38 - 2:40y esto no sería muy útil
-
2:40 - 2:42para una aplicación.
-
2:42 - 2:44Si aceleramos esto por otro factor de 10,
-
2:44 - 2:47esto es un detector que funciona
en cinco fotogramas por segundo. -
2:47 - 2:49Esto es mucho mejor
-
2:49 - 2:51pero, por ejemplo,
-
2:51 - 2:53si hay algún movimiento significativo,
-
2:53 - 2:56yo no quisiera un sistema como este
conduciendo mi auto. -
2:57 - 3:01Este es nuestro sistema de detección que
se ejecuta en tiempo real en mi portátil. -
3:01 - 3:04Así que suavemente me sigue
mientras me muevo en la imagen, -
3:04 - 3:08y es robusto con una amplia variedad
de cambios de tamaño, -
3:09 - 3:11poses,
-
3:11 - 3:13hacia adelante, hacia atrás.
-
3:13 - 3:14Esto es genial.
-
3:14 - 3:16Esto es lo que realmente necesitamos
-
3:16 - 3:20si vamos a construir sistemas
con base en visión artificial. -
3:20 - 3:23(Aplausos)
-
3:24 - 3:26Así que en solo unos pocos años,
-
3:26 - 3:29hemos pasado de 20 segundos por imagen
-
3:29 - 3:33a 20 milisegundos por imagen,
mil veces más rápido. -
3:33 - 3:34¿Cómo llegamos hasta aquí?
-
3:34 - 3:37Bueno, en el pasado,
los sistemas de detección de objetos -
3:37 - 3:39tomaban una imagen como esta
-
3:39 - 3:42y la dividían en un montón de regiones
-
3:42 - 3:45y luego ejecutaban un clasificador
en cada una de estas regiones, -
3:45 - 3:47y las puntuaciones altas
de ese clasificador -
3:47 - 3:51se consideraban detecciones de la imagen.
-
3:51 - 3:55Pero eso implicaba ejecutar un clasificador
miles de veces sobre una imagen, -
3:55 - 3:58miles de evaluaciones de redes neuronales
para producir detección. -
3:59 - 4:04En cambio, nosotros hemos entrenado
una sola red para hacer toda la detección. -
4:04 - 4:08Produce todas las cajas delimitadoras
y ordena las probabilidades en simultáneo. -
4:09 - 4:12Con nuestro sistema, en lugar
de mirar una imagen miles de veces -
4:12 - 4:14para hacer la detección,
-
4:14 - 4:15se mira tan solo una vez,
-
4:15 - 4:18y por eso lo llamamos
método YOLO de detección de objetos. -
4:19 - 4:23Así que con esta velocidad,
no estamos limitados a las imágenes; -
4:23 - 4:26podemos procesar el video en tiempo real.
-
4:26 - 4:29Y ahora, en lugar de solo ver
a ese gato y perro, -
4:29 - 4:32podemos verlos moverse
e interactuar unos con otros. -
4:35 - 4:37Este es un detector que entrenamos
-
4:37 - 4:41en 80 clases diferentes
-
4:41 - 4:44en el conjunto de datos COCO de Microsoft.
-
4:44 - 4:48Tiene todo tipo de cosas
como cuchara y tenedor, cuenco, -
4:48 - 4:49objetos comunes como esos.
-
4:50 - 4:53Tiene una variedad de cosas más exóticas:
-
4:53 - 4:57animales, autos, cebras, jirafas.
-
4:57 - 4:59Y ahora vamos a hacer algo divertido.
-
4:59 - 5:01Solo vamos a ir a la audiencia
-
5:01 - 5:03y ver qué tipo de cosas podemos detectar.
-
5:03 - 5:04¿Alguien quiere un peluche?
-
5:06 - 5:08Hay algunos osos de peluche por aquí.
-
5:10 - 5:15Y podemos reducir
nuestro umbral de detección un poco, -
5:15 - 5:18así podemos encontrar
a más de Uds. en la audiencia. -
5:19 - 5:22Vamos a ver si podemos obtener
estas señales de stop. -
5:22 - 5:24Encontramos algunas mochilas.
-
5:26 - 5:28Vamos a acercarnos un poco.
-
5:30 - 5:32Y esto es genial.
-
5:32 - 5:35Y todo el procesamiento
está sucediendo en tiempo real -
5:35 - 5:36en la computadora portátil.
-
5:37 - 5:39Y es importante recordar
-
5:39 - 5:42que se trata de un sistema de
detección de objetos de propósito general, -
5:42 - 5:47así que podemos entrenar esto
para cualquier dominio de la imagen. -
5:48 - 5:51El mismo código que usamos
-
5:51 - 5:53para encontrar señales
de stop o de peatones, -
5:53 - 5:55bicicletas en un vehículo autodirigido,
-
5:55 - 5:58puede usarse
para encontrar células cancerosas -
5:58 - 6:01en una biopsia de tejido.
-
6:01 - 6:05Y hay investigadores de todo el mundo
que ya usan esta tecnología -
6:06 - 6:10para avances en cosas
como la medicina, la robótica. -
6:10 - 6:11Esta mañana leí un periódico
-
6:11 - 6:16sobre un censo de animales que estaban
haciendo en el Parque Nacional de Nairobi -
6:16 - 6:19que usa YOLO como parte
de este sistema de detección. -
6:19 - 6:22Y eso es posible,
porque Darknet es de código abierto -
6:22 - 6:25y de dominio público y libre para
que lo use cualquier persona. -
6:26 - 6:31(Aplausos)
-
6:31 - 6:36Pero queríamos que la detección
fuera aún más accesible y usable, -
6:36 - 6:40por eso, mediante una combinación
de optimización de modelos, -
6:40 - 6:43binarización de red y aproximación,
-
6:43 - 6:47tenemos un reconocimiento de objetos
que funciona en un teléfono. -
6:53 - 6:58(Aplausos)
-
6:59 - 7:04Y estoy muy contento porque ahora
tenemos una solución bastante potente -
7:04 - 7:06a este problema de visión artificial
de bajo nivel, -
7:06 - 7:10y cualquiera puede usarlo
y hacer algo con esto. -
7:10 - 7:13Así que ahora el resto depende de Uds.
-
7:13 - 7:16y de personas de todo el mundo
con acceso a este software, -
7:16 - 7:20y estoy impaciente por ver qué construirá
la gente con esta tecnología. -
7:20 - 7:21Gracias.
-
7:21 - 7:25(Aplausos)
- Title:
- Cómo las computadoras aprenden a reconocer objetos al instante
- Speaker:
- Joseph Redmon
- Description:
-
Hace diez años los investigadores pensaban que inventar una computadora que distinguiera un gato de un perro sería casi imposible. Hoy en día los sistemas de visión artificial lo hacen con una precisión superior al 99 %. ¿Cómo? Joseph Redmon trabaja en el sistema YOLO (You Only Look Once), un método de detección de objetos de código abierto que puede identificar objetos en imágenes y video, desde cebras hasta señales de stop, a una gran velocidad. En una demostración en vivo memorable, Redmon muestra este importante avance con aplicaciones en la autoconducción de autos, robótica e incluso en la detección del cáncer.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
Sebastian Betti approved Spanish subtitles for How computers learn to recognize objects instantly | ||
Sebastian Betti edited Spanish subtitles for How computers learn to recognize objects instantly | ||
Sebastian Betti edited Spanish subtitles for How computers learn to recognize objects instantly | ||
Sebastian Betti accepted Spanish subtitles for How computers learn to recognize objects instantly | ||
Sebastian Betti edited Spanish subtitles for How computers learn to recognize objects instantly | ||
Sebastian Betti edited Spanish subtitles for How computers learn to recognize objects instantly | ||
Lidia Cámara de la Fuente edited Spanish subtitles for How computers learn to recognize objects instantly | ||
Lidia Cámara de la Fuente edited Spanish subtitles for How computers learn to recognize objects instantly |