Cómo estamos enseñando a las computadoras a entender imágenes
-
0:02 - 0:06Les mostraré algo.
-
0:06 - 0:10(Video) Niña: Eso es un gato
sentado en una cama. -
0:10 - 0:14El niño está acariciando al elefante.
-
0:14 - 0:19Esas son personas que van en un avión.
-
0:19 - 0:21Ese es un avión grande.
-
0:21 - 0:24Fei-Fei Li: Así describe una niña
-
0:24 - 0:27de 3 años lo que ve
en una serie de fotos. -
0:27 - 0:30Tal vez le falta mucho
por aprender sobre este mundo, -
0:30 - 0:35pero ya es experta
en algo importante: -
0:35 - 0:38entender lo que ve.
-
0:38 - 0:42Tecnológicamente, nuestra sociedad
está más avanzada que nunca. -
0:42 - 0:46Enviamos personas a la luna,
nuestros teléfonos nos hablan -
0:46 - 0:51o personalizan radios para reproducir
solo la música que nos gusta. -
0:51 - 0:55Sin embargo, nuestras máquinas
y computadoras más avanzadas -
0:55 - 0:58aún tienen problemas en ese aspecto.
-
0:58 - 1:01Hoy estoy aquí
para darles un reporte -
1:01 - 1:05de nuestros últimos avances
en visión artificial, -
1:05 - 1:10una de las tecnologías potencialmente
más revolucionarias -
1:10 - 1:13en la ciencia de la computación.
-
1:13 - 1:17Es cierto, hemos inventado autos
que conducen solos, -
1:17 - 1:21pero sin una visión inteligente,
realmente no pueden distinguir -
1:21 - 1:25entre una bolsa arrugada de papel
en el camino, que puede uno pisar, -
1:25 - 1:29y una roca del mismo tamaño,
que debemos evitar. -
1:29 - 1:33Hemos creado fabulosas cámaras
de muchos megapíxeles, -
1:33 - 1:36pero aún no podemos devolverle
la vista a un ciego. -
1:36 - 1:40Los drones pueden volar sobre
grandes superficies de tierra, -
1:40 - 1:41pero no tienen tecnología
-
1:41 - 1:42de visión suficiente
-
1:42 - 1:45para ayudarnos a monitorear los
cambios en los bosques tropicales. -
1:45 - 1:48Hay cámaras de seguridad en todas partes,
-
1:48 - 1:53pero no nos alertan cuando un niño
se está ahogando en una piscina. -
1:54 - 2:00Las fotos y los videos se están volviendo
parte integral de la vida global. -
2:00 - 2:04Se generan a un ritmo mucho mayor
de lo que cualquier humano, -
2:04 - 2:07o equipo de humanos, podría ver,
-
2:07 - 2:11y Uds. y yo contribuimos
a eso en este TED. -
2:11 - 2:16Aun así, nuestro software más avanzado
tiene problemas para entender -
2:16 - 2:20y gestionar este enorme contenido.
-
2:20 - 2:25En otras palabras, colectivamente
como una sociedad, -
2:25 - 2:27somos muy ciegos,
-
2:27 - 2:30porque nuestras máquinas
más inteligentes aún son ciegas. -
2:32 - 2:34Se preguntarán:
"¿Por qué es tan difícil?" -
2:34 - 2:37Las cámaras pueden tomar fotos como esta
-
2:37 - 2:41convirtiendo luz en matrices
numéricas bidimensionales -
2:41 - 2:43conocidas como pixeles,
-
2:43 - 2:45pero estos son solo números vacíos.
-
2:45 - 2:48En sí mismos no tienen significado.
-
2:48 - 2:52Al igual que oír no es
lo mismo que escuchar, -
2:52 - 2:57tomar fotografías
no es lo mismo que ver; -
2:57 - 3:00y solo viendo podemos realmente entender.
-
3:01 - 3:07De hecho, le tomó a la Madre Naturaleza
540 millones de años de arduo trabajo -
3:07 - 3:09lograr esta tarea,
-
3:09 - 3:11y mucho de ese esfuerzo
-
3:11 - 3:17consistió en desarrollar el sistema
de procesamiento visual en el cerebro, -
3:17 - 3:19no los ojos en sí.
-
3:19 - 3:22La visión empieza en los ojos,
-
3:22 - 3:26pero, en realidad,
ocurre en nuestro cerebro. -
3:26 - 3:31Durante 15 años, empezando
desde mi doctorado en Caltech -
3:31 - 3:34y luego al frente del laboratorio
Stanford Vision Lab, -
3:34 - 3:39he trabajado con mis mentores,
colaboradores y estudiantes -
3:39 - 3:42para enseñar a las computadoras a ver.
-
3:42 - 3:44Nuestro campo de investigación se llama
-
3:44 - 3:47"visión artificial
y aprendizaje automático". -
3:47 - 3:50Es parte del campo de
la inteligencia artificial. -
3:51 - 3:56Queremos enseñar a las máquinas
a ver tal como nosotros lo hacemos: -
3:56 - 4:02nombrar objetos, identificar personas,
inferir la geometría 3D de las cosas, -
4:02 - 4:08entender relaciones, emociones,
acciones e intenciones. -
4:08 - 4:14Nosotros tejemos historias completas
de la gente, los lugares y las cosas -
4:14 - 4:16simplemente con mirarlas.
-
4:17 - 4:23El primer paso hacia esta meta es
enseñar a una computadora a ver objetos, -
4:23 - 4:26la unidad básica del mundo visual.
-
4:26 - 4:30En términos más simples,
imaginen este proceso -
4:30 - 4:33mostrando a las computadoras
algunas imágenes de entrenamiento -
4:33 - 4:37de un objeto en particular,
digamos gatos, -
4:37 - 4:41y diseñar un modelo que
aprenda de estas imágenes. -
4:41 - 4:43¿Qué tan difícil puede ser esto?
-
4:43 - 4:47A fin de cuentas, un gato es solo
un conjunto de formas y colores, -
4:47 - 4:52y eso fue lo que hacíamos en los inicios
de la modelización de objetos. -
4:52 - 4:54Decíamos al algoritmo
de la computadora -
4:54 - 4:56en un lenguaje matemático
-
4:56 - 4:59que un gato tiene cara redonda,
cuerpo regordete, -
4:59 - 5:01dos orejas puntiagudas
y cola larga, -
5:01 - 5:02y así quedaba bien.
-
5:03 - 5:05Pero ¿qué me dicen de este gato?
-
5:05 - 5:06(Risas)
-
5:06 - 5:08Está todo retorcido.
-
5:08 - 5:12Se debe agregar otra figura y otra
perspectiva al modelo del objeto. -
5:12 - 5:14¿Y si los gatos están escondidos?
-
5:15 - 5:17¿Qué tal estos gatos tontos?
-
5:19 - 5:22Ahora entienden mi idea.
-
5:22 - 5:25Incluso algo tan simple
como una mascota -
5:25 - 5:29puede tener un número infinito de
variaciones en el modelo del objeto, -
5:29 - 5:32y eso es solo un objeto.
-
5:33 - 5:35Así que hace unos 8 años,
-
5:35 - 5:40una observación simple y profunda
cambió mi perspectiva. -
5:41 - 5:44Nadie le dice al niño cómo ver,
-
5:44 - 5:46menos aún en los primeros años.
-
5:46 - 5:51Ellos aprenden a través de ejemplos
y experiencias del mundo real. -
5:51 - 5:54Si consideramos los ojos de un niño
-
5:54 - 5:57como un par de cámaras biológicas,
-
5:57 - 6:01toman una foto cada 200 milisegundos,
-
6:01 - 6:04el tiempo promedio en que el ojo
hace un movimiento. -
6:04 - 6:10Entonces, a los 3 años un niño ha visto
cientos de millones de fotografías -
6:10 - 6:11del mundo real.
-
6:11 - 6:14Esos son muchos ejemplares
de entrenamiento. -
6:14 - 6:20Así que en lugar de enfocarnos
solo en mejorar los algoritmos, -
6:20 - 6:26mi intención fue dotar a los algoritmos
con los datos de entrenamiento -
6:26 - 6:29que un niño adquiere con la experiencia
-
6:29 - 6:33tanto en cantidad como en calidad.
-
6:33 - 6:35Al conocer esto
-
6:35 - 6:38supimos que necesitábamos recolectar
-
6:38 - 6:42muchas más imágenes que nunca,
-
6:42 - 6:45tal vez miles de veces más;
-
6:45 - 6:49y junto con el profesor Kai Li
en la Universidad de Princeton, -
6:49 - 6:54lanzamos el proyecto ImageNet en 2007.
-
6:54 - 6:57Por suerte, no tuvimos que ponernos
una cámara en la cabeza -
6:57 - 6:59y esperar muchos años.
-
6:59 - 7:01Entramos a Internet,
-
7:01 - 7:05el banco de imágenes más grande
creado por la humanidad. -
7:05 - 7:08Descargamos casi
1000 millones de imágenes -
7:08 - 7:14y usamos tecnología de crowdsourcing
como la plataforma Amazon Mechanical Turk -
7:14 - 7:16para etiquetar estas imágenes.
-
7:16 - 7:21En su mejor momento, ImageNet fue
uno de los empleadores más importantes -
7:21 - 7:24de trabajadores en
Amazon Mechanical Turk: -
7:24 - 7:28Casi 50 000 trabajadores
-
7:28 - 7:32de 167 países del mundo
-
7:32 - 7:36nos ayudaron a limpiar,
separar y etiquetar -
7:36 - 7:40casi 1000 millones
de imágenes candidatas. -
7:41 - 7:43Se necesitó todo ese esfuerzo
-
7:43 - 7:47para capturar apenas una fracción
de todas las imágenes -
7:47 - 7:51que un niño asimila en sus
primeros años de desarrollo. -
7:52 - 7:56Viendo en retrospectiva,
esta idea de usar muchos datos -
7:56 - 8:01para entrenar algoritmos
puede parecer obvia ahora. -
8:01 - 8:05Sin embargo, en 2007
no era tan evidente. -
8:05 - 8:09Estuvimos solos en este viaje
por un buen rato. -
8:09 - 8:14Algunos colegas me sugerían
hacer algo más útil para mi cátedra, -
8:14 - 8:18y con frecuencia teníamos problemas
para conseguir financiamiento. -
8:18 - 8:20Incluso llegué a decir
a mis alumnos, como broma, -
8:20 - 8:24que tendría que reabrir mi tintorería
para financiar ImageNet. -
8:24 - 8:29Después de todo, así fue como
financié mis años de universidad. -
8:29 - 8:31Seguimos adelante.
-
8:31 - 8:35En 2009, el proyecto ImageNet juntó
-
8:35 - 8:39una base de datos con
15 millones de imágenes -
8:39 - 8:44de 22 000 tipos de objetos
-
8:44 - 8:47organizados por palabra
en inglés de uso cotidiano. -
8:47 - 8:50En cantidad y calidad,
-
8:50 - 8:53tuvieron una escala sin precedentes.
-
8:53 - 8:56Por ejemplo, en el caso de los gatos,
-
8:56 - 8:59tenemos más de 62 000 gatos
-
8:59 - 9:03con todo tipo de apariencias y poses
-
9:03 - 9:08y todo tipo de gatos
domésticos y salvajes. -
9:08 - 9:12Estábamos entusiasmados
por haber creado ImageNet -
9:12 - 9:16y queríamos que todo el mundo de
la investigación se beneficiara, -
9:16 - 9:20así que, al estilo TED,
abrimos toda la base de datos -
9:20 - 9:23a la comunidad mundial de
investigadores de forma gratuita. -
9:25 - 9:29(Aplausos)
-
9:29 - 9:34Ahora que tenemos los datos para nutrir
el cerebro de nuestra computadora, -
9:34 - 9:38estamos listos para volver
a los algoritmos. -
9:38 - 9:43La abundancia de información
aportada por ImageNet -
9:43 - 9:48fue el complemento perfecto para
un tipo particular de algoritmos -
9:48 - 9:50de aprendizaje automático llamado
red neuronal convolucional, -
9:50 - 9:55ideado por Kunihiko Fukushima,
Geoff Hinton y Yann LeCun -
9:55 - 9:59en los años 70 y 80.
-
9:59 - 10:05Como el cerebro que tiene miles de
millones de neuronas muy bien conectadas, -
10:05 - 10:08la unidad operativa fundamental
en una red neuronal -
10:08 - 10:11es un nodo con forma de neurona.
-
10:11 - 10:13Toma datos de otros nodos
-
10:13 - 10:16los procesa y los manda
a otros nodos. -
10:16 - 10:21Además, estos cientos de miles
o incluso millones de nodos -
10:21 - 10:24se organizan en capas jerárquicas,
-
10:24 - 10:27algo parecido al cerebro.
-
10:27 - 10:29En una red neuronal típica
que usamos para entrenar -
10:29 - 10:32nuestro modelo de
reconocimiento de objetos -
10:32 - 10:35hay 24 millones de nodos,
-
10:35 - 10:38140 millones de parámetros
-
10:38 - 10:41y 15 000 millones de conexiones.
-
10:41 - 10:43Es un modelo enorme.
-
10:43 - 10:47Alimentado por la información
masiva de ImageNet -
10:47 - 10:52y las CPUs y GPUs modernas que
entrenan este inmenso modelo, -
10:52 - 10:55la red neuronal convolucional
-
10:55 - 10:58tuvo un éxito inesperado.
-
10:58 - 11:01Se volvió la ingeniería ganadora
-
11:01 - 11:06para generar nuevos y emocionantes
resultados en reconocimiento de objetos. -
11:06 - 11:09Esta es una computadora que nos dice
-
11:09 - 11:11que la foto tiene un gato
-
11:11 - 11:13y dónde está el gato.
-
11:13 - 11:15Desde luego hay más cosas
aparte de los gatos -
11:15 - 11:18así que hay un algoritmo
informático que nos dice -
11:18 - 11:21que hay un niño y un oso
de peluche en la foto; -
11:21 - 11:25un perro, una persona
y un papalote al fondo; -
11:25 - 11:28o una foto de cosas muy ocupadas
-
11:28 - 11:33como un hombre, una patineta,
un barandal, una lámpara etc. -
11:33 - 11:38A veces, cuando la computadora
no está segura de lo que ve, -
11:39 - 11:42le hemos enseñado
-
11:42 - 11:46a darnos una respuesta segura
en lugar de comprometer su respuesta, -
11:46 - 11:48tal como lo haríamos nosotros.
-
11:48 - 11:53Pero otras veces nuestro algoritmo
informático es muy acertado al decirnos -
11:53 - 11:55qué son los objetos exactamente,
-
11:55 - 11:59como la marca, modelo
y año de los coches. -
11:59 - 12:04Aplicamos este algoritmo a millones
de imágenes de Google Street View -
12:04 - 12:07de cientos de ciudades
de Estados Unidos -
12:07 - 12:10y hemos aprendido algo muy interesante:
-
12:10 - 12:14primero, confirmó nuestra idea
-
12:14 - 12:17de que los precios de los autos
se relacionan bien -
12:17 - 12:19con los ingresos del hogar.
-
12:19 - 12:24Pero sorprendentemente, los precios
de los autos se relacionan también -
12:24 - 12:26con las tasas de criminalidad
en la ciudades -
12:27 - 12:31o los patrones de votación
por código postal. -
12:32 - 12:34Un minuto. ¿Eso es todo?
-
12:34 - 12:39¿Acaso la computadora ya sobrepasó
las capacidades humanas? -
12:39 - 12:42No tan rápido.
-
12:42 - 12:46Hasta ahora solo hemos enseñado
a la computadora a ver objetos. -
12:46 - 12:51Es como un niño pequeño
que aprende a decir palabras. -
12:51 - 12:54Es un logro increíble,
-
12:54 - 12:56pero es apenas el primer paso.
-
12:56 - 13:00Pronto daremos otro paso
-
13:00 - 13:03y los niños empiezan
a comunicarse con frases. -
13:03 - 13:08Así que en lugar de decir
que hay un gato en la foto, -
13:08 - 13:13la niña ya dice que el gato
está sobre la cama. -
13:13 - 13:18Así que para enseñar a una computadora
a ver una foto y generar frases -
13:18 - 13:22la conjunción de mucha información
y el algoritmo de aprendizaje automático -
13:22 - 13:25debe dar otro paso.
-
13:25 - 13:29Ahora, la computadora tiene
que aprender de fotografías -
13:29 - 13:32así como de frases en lenguaje natural
-
13:32 - 13:35generado por humanos.
-
13:35 - 13:39De la forma en que el cerebro
integra visión y lenguaje, -
13:39 - 13:44desarrollamos un modelo que
conecta partes de cosas visuales -
13:44 - 13:46como fragmentos visuales
-
13:46 - 13:50con palabras y frases en oraciones.
-
13:50 - 13:53Hace unos 4 meses
-
13:53 - 13:56finalmente juntamos todo esto
-
13:56 - 13:59y produjimos uno de los primeros
modelos de visión artificial -
13:59 - 14:03que puede generar frases
como las de un humano -
14:03 - 14:07cuando ve una foto por primera vez.
-
14:07 - 14:12Ahora estoy lista para mostrarles
lo que dice la computadora -
14:12 - 14:14cuando ve la fotografía
-
14:14 - 14:17que la niña vio al inicio de esta charla.
-
14:20 - 14:23(Video) Computadora:
Un hombre está junto a un elefante. -
14:24 - 14:28Un avión grande está encima
de una pista de aeropuerto. -
14:29 - 14:33FFL: Desde luego, seguimos
trabajando para mejorar los algoritmos -
14:33 - 14:36y aún tiene mucho que aprender.
-
14:36 - 14:38(Aplausos)
-
14:40 - 14:43Y la computadora aún comete errores.
-
14:43 - 14:46(Video) Computadora: Un gato
recostado en la cama en una sábana. -
14:46 - 14:49FFL: Y cuando ha visto
demasiados gatos, -
14:49 - 14:52cree que todo lo que ve
parece un gato. -
14:53 - 14:56(Video) Computadora: Un niño
tiene un bate de béisbol. -
14:56 - 14:58(Risas)
-
14:58 - 15:01FFL: O si nunca ha visto
un cepillo de dientes, -
15:01 - 15:04lo confunde con un bate de béisbol.
-
15:04 - 15:07(Video) Computadora: Un hombre
montando un caballo junto a un edificio. -
15:07 - 15:09(Risas)
-
15:09 - 15:12FFL: No le hemos enseñado
arte elemental a las computadoras. -
15:14 - 15:17(Video) Computadora: Una cebra
en un campo de hierba. -
15:17 - 15:20FFL: Y no ha aprendido a apreciar
la belleza deslumbrante -
15:20 - 15:22de la naturaleza,
como lo hacemos nosotros. -
15:22 - 15:25Así que ha sido un largo camino.
-
15:25 - 15:30Pasar de los 0 a los 3 años fue difícil.
-
15:30 - 15:35El verdadero reto es llegar
a los 13 y mucho más todavía. -
15:35 - 15:39Recordemos nuevamente esta foto
del niño y el pastel. -
15:39 - 15:44Hasta ahora, le hemos enseñado
a la computadora a ver objetos -
15:44 - 15:48o incluso darnos una pequeña
historia cuando ve la foto. -
15:48 - 15:52(Video) Computadora: Una persona sentada
a la mesa con un pastel. -
15:52 - 15:54FFL: Pero hay mucho más
en esta fotografía -
15:54 - 15:56que simplemente una persona y un pastel.
-
15:56 - 16:01Lo que la computadora no ve es que
este es un pastel especial italiano -
16:01 - 16:04exclusivo de Pascua.
-
16:04 - 16:07El niño viste su camiseta favorita,
-
16:07 - 16:11que le regaló su papá
tras un viaje a Sídney, -
16:11 - 16:15y nosotros podemos decir
qué tan feliz está -
16:15 - 16:18y qué pasa por su mente
en ese momento. -
16:19 - 16:22Ese es mi hijo Leo.
-
16:22 - 16:25En mi búsqueda de inteligencia visual,
-
16:25 - 16:27pienso constantemente en él
-
16:27 - 16:30y en el futuro en que va a vivir.
-
16:30 - 16:32Cuando las máquinas puedan ver,
-
16:32 - 16:37los médicos y enfermeras tendrán
un par extra de ojos incansables -
16:37 - 16:41para ayudarlos a diagnosticar
y cuidar de los pacientes. -
16:41 - 16:45Los autos andarán de forma
inteligente y segura en los caminos. -
16:45 - 16:48Robots, y no solo humanos,
-
16:48 - 16:53nos ayudarán a desafiar zonas de desastre
para salvar heridos y atrapados. -
16:54 - 16:58Descubriremos nuevas especies,
mejores materiales, -
16:58 - 17:02y exploraremos fronteras nunca vistas
con ayuda de las máquinas. -
17:03 - 17:07Poco a poco, damos a las máquinas
el don de la vista. -
17:07 - 17:10Primero les enseñamos a ver.
-
17:10 - 17:13Luego ellas nos ayudarán a ver mejor.
-
17:13 - 17:17Por primera vez, los ojos humanos
no serán los únicos -
17:17 - 17:20que exploren nuestro mundo.
-
17:20 - 17:23No solo usaremos máquinas
por su inteligencia, -
17:23 - 17:30también colaboraremos con ellas de
formas que ni siquiera imaginamos. -
17:30 - 17:32Esta es mi misión:
-
17:32 - 17:34dar a las computadoras
inteligencia visual -
17:34 - 17:40y crear un mejor futuro
para Leo y para el mundo. -
17:40 - 17:41Gracias.
-
17:41 - 17:45(Aplausos)
- Title:
- Cómo estamos enseñando a las computadoras a entender imágenes
- Speaker:
- Fei-Fei Li
- Description:
-
Cuando un niño muy pequeño mira una foto, puede identificar dibujos simples: "gato", "libro", "silla". Ahora las computadoras tienen la inteligencia suficiente para hacer eso también. ¿Qué sigue? En esta charla emocionante, Fei-Fei Li, experta en visión artificial, describe lo más reciente —incluyendo la base de datos de 15 millones de fotos que su equipo construyó para "enseñar" a una computadora a entender dibujos— y lo que aún está por venir.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Sebastian Betti approved Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti accepted Spanish subtitles for How we're teaching computers to understand pictures | ||
Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures |