Cómo estamos enseñando a las computadoras a entender imágenes

0:02 - 0:06

Les mostraré algo.
0:06 - 0:10

(Video) Niña: Eso es un gato
sentado en una cama.
0:10 - 0:14

El niño está acariciando al elefante.
0:14 - 0:19

Esas son personas que van en un avión.
0:19 - 0:21

Ese es un avión grande.
0:21 - 0:24

Fei-Fei Li: Así describe una niña
0:24 - 0:27

de 3 años lo que ve
en una serie de fotos.
0:27 - 0:30

Tal vez le falta mucho
por aprender sobre este mundo,
0:30 - 0:35

pero ya es experta
en algo importante:
0:35 - 0:38

entender lo que ve.
0:38 - 0:42

Tecnológicamente, nuestra sociedad
está más avanzada que nunca.
0:42 - 0:46

Enviamos personas a la luna,
nuestros teléfonos nos hablan
0:46 - 0:51

o personalizan radios para reproducir
solo la música que nos gusta.
0:51 - 0:55

Sin embargo, nuestras máquinas
y computadoras más avanzadas
0:55 - 0:58

aún tienen problemas en ese aspecto.
0:58 - 1:01

Hoy estoy aquí
para darles un reporte
1:01 - 1:05

de nuestros últimos avances
en visión artificial,
1:05 - 1:10

una de las tecnologías potencialmente
más revolucionarias
1:10 - 1:13

en la ciencia de la computación.
1:13 - 1:17

Es cierto, hemos inventado autos
que conducen solos,
1:17 - 1:21

pero sin una visión inteligente,
realmente no pueden distinguir
1:21 - 1:25

entre una bolsa arrugada de papel
en el camino, que puede uno pisar,
1:25 - 1:29

y una roca del mismo tamaño,
que debemos evitar.
1:29 - 1:33

Hemos creado fabulosas cámaras
de muchos megapíxeles,
1:33 - 1:36

pero aún no podemos devolverle
la vista a un ciego.
1:36 - 1:40

Los drones pueden volar sobre
grandes superficies de tierra,
1:40 - 1:41

pero no tienen tecnología
1:41 - 1:42

de visión suficiente
1:42 - 1:45

para ayudarnos a monitorear los
cambios en los bosques tropicales.
1:45 - 1:48

Hay cámaras de seguridad en todas partes,
1:48 - 1:53

pero no nos alertan cuando un niño
se está ahogando en una piscina.
1:54 - 2:00

Las fotos y los videos se están volviendo
parte integral de la vida global.
2:00 - 2:04

Se generan a un ritmo mucho mayor
de lo que cualquier humano,
2:04 - 2:07

o equipo de humanos, podría ver,
2:07 - 2:11

y Uds. y yo contribuimos
a eso en este TED.
2:11 - 2:16

Aun así, nuestro software más avanzado
tiene problemas para entender
2:16 - 2:20

y gestionar este enorme contenido.
2:20 - 2:25

En otras palabras, colectivamente
como una sociedad,
2:25 - 2:27

somos muy ciegos,
2:27 - 2:30

porque nuestras máquinas
más inteligentes aún son ciegas.
2:32 - 2:34

Se preguntarán:
"¿Por qué es tan difícil?"
2:34 - 2:37

Las cámaras pueden tomar fotos como esta
2:37 - 2:41

convirtiendo luz en matrices
numéricas bidimensionales
2:41 - 2:43

conocidas como pixeles,
2:43 - 2:45

pero estos son solo números vacíos.
2:45 - 2:48

En sí mismos no tienen significado.
2:48 - 2:52

Al igual que oír no es
lo mismo que escuchar,
2:52 - 2:57

tomar fotografías
no es lo mismo que ver;
2:57 - 3:00

y solo viendo podemos realmente entender.
3:01 - 3:07

De hecho, le tomó a la Madre Naturaleza
540 millones de años de arduo trabajo
3:07 - 3:09

lograr esta tarea,
3:09 - 3:11

y mucho de ese esfuerzo
3:11 - 3:17

consistió en desarrollar el sistema
de procesamiento visual en el cerebro,
3:17 - 3:19

no los ojos en sí.
3:19 - 3:22

La visión empieza en los ojos,
3:22 - 3:26

pero, en realidad,
ocurre en nuestro cerebro.
3:26 - 3:31

Durante 15 años, empezando
desde mi doctorado en Caltech
3:31 - 3:34

y luego al frente del laboratorio
Stanford Vision Lab,
3:34 - 3:39

he trabajado con mis mentores,
colaboradores y estudiantes
3:39 - 3:42

para enseñar a las computadoras a ver.
3:42 - 3:44

Nuestro campo de investigación se llama
3:44 - 3:47

"visión artificial
y aprendizaje automático".
3:47 - 3:50

Es parte del campo de
la inteligencia artificial.
3:51 - 3:56

Queremos enseñar a las máquinas
a ver tal como nosotros lo hacemos:
3:56 - 4:02

nombrar objetos, identificar personas,
inferir la geometría 3D de las cosas,
4:02 - 4:08

entender relaciones, emociones,
acciones e intenciones.
4:08 - 4:14

Nosotros tejemos historias completas
de la gente, los lugares y las cosas
4:14 - 4:16

simplemente con mirarlas.
4:17 - 4:23

El primer paso hacia esta meta es
enseñar a una computadora a ver objetos,
4:23 - 4:26

la unidad básica del mundo visual.
4:26 - 4:30

En términos más simples,
imaginen este proceso
4:30 - 4:33

mostrando a las computadoras
algunas imágenes de entrenamiento
4:33 - 4:37

de un objeto en particular,
digamos gatos,
4:37 - 4:41

y diseñar un modelo que
aprenda de estas imágenes.
4:41 - 4:43

¿Qué tan difícil puede ser esto?
4:43 - 4:47

A fin de cuentas, un gato es solo
un conjunto de formas y colores,
4:47 - 4:52

y eso fue lo que hacíamos en los inicios
de la modelización de objetos.
4:52 - 4:54

Decíamos al algoritmo
de la computadora
4:54 - 4:56

en un lenguaje matemático
4:56 - 4:59

que un gato tiene cara redonda,
cuerpo regordete,
4:59 - 5:01

dos orejas puntiagudas
y cola larga,
5:01 - 5:02

y así quedaba bien.
5:03 - 5:05

Pero ¿qué me dicen de este gato?
5:05 - 5:06

(Risas)
5:06 - 5:08

Está todo retorcido.
5:08 - 5:12

Se debe agregar otra figura y otra
perspectiva al modelo del objeto.
5:12 - 5:14

¿Y si los gatos están escondidos?
5:15 - 5:17

¿Qué tal estos gatos tontos?
5:19 - 5:22

Ahora entienden mi idea.
5:22 - 5:25

Incluso algo tan simple
como una mascota
5:25 - 5:29

puede tener un número infinito de
variaciones en el modelo del objeto,
5:29 - 5:32

y eso es solo un objeto.
5:33 - 5:35

Así que hace unos 8 años,
5:35 - 5:40

una observación simple y profunda
cambió mi perspectiva.
5:41 - 5:44

Nadie le dice al niño cómo ver,
5:44 - 5:46

menos aún en los primeros años.
5:46 - 5:51

Ellos aprenden a través de ejemplos
y experiencias del mundo real.
5:51 - 5:54

Si consideramos los ojos de un niño
5:54 - 5:57

como un par de cámaras biológicas,
5:57 - 6:01

toman una foto cada 200 milisegundos,
6:01 - 6:04

el tiempo promedio en que el ojo
hace un movimiento.
6:04 - 6:10

Entonces, a los 3 años un niño ha visto
cientos de millones de fotografías
6:10 - 6:11

del mundo real.
6:11 - 6:14

Esos son muchos ejemplares
de entrenamiento.
6:14 - 6:20

Así que en lugar de enfocarnos
solo en mejorar los algoritmos,
6:20 - 6:26

mi intención fue dotar a los algoritmos
con los datos de entrenamiento
6:26 - 6:29

que un niño adquiere con la experiencia
6:29 - 6:33

tanto en cantidad como en calidad.
6:33 - 6:35

Al conocer esto
6:35 - 6:38

supimos que necesitábamos recolectar
6:38 - 6:42

muchas más imágenes que nunca,
6:42 - 6:45

tal vez miles de veces más;
6:45 - 6:49

y junto con el profesor Kai Li
en la Universidad de Princeton,
6:49 - 6:54

lanzamos el proyecto ImageNet en 2007.
6:54 - 6:57

Por suerte, no tuvimos que ponernos
una cámara en la cabeza
6:57 - 6:59

y esperar muchos años.
6:59 - 7:01

Entramos a Internet,
7:01 - 7:05

el banco de imágenes más grande
creado por la humanidad.
7:05 - 7:08

Descargamos casi
1000 millones de imágenes
7:08 - 7:14

y usamos tecnología de crowdsourcing
como la plataforma Amazon Mechanical Turk
7:14 - 7:16

para etiquetar estas imágenes.
7:16 - 7:21

En su mejor momento, ImageNet fue
uno de los empleadores más importantes
7:21 - 7:24

de trabajadores en
Amazon Mechanical Turk:
7:24 - 7:28

Casi 50 000 trabajadores
7:28 - 7:32

de 167 países del mundo
7:32 - 7:36

nos ayudaron a limpiar,
separar y etiquetar
7:36 - 7:40

casi 1000 millones
de imágenes candidatas.
7:41 - 7:43

Se necesitó todo ese esfuerzo
7:43 - 7:47

para capturar apenas una fracción
de todas las imágenes
7:47 - 7:51

que un niño asimila en sus
primeros años de desarrollo.
7:52 - 7:56

Viendo en retrospectiva,
esta idea de usar muchos datos
7:56 - 8:01

para entrenar algoritmos
puede parecer obvia ahora.
8:01 - 8:05

Sin embargo, en 2007
no era tan evidente.
8:05 - 8:09

Estuvimos solos en este viaje
por un buen rato.
8:09 - 8:14

Algunos colegas me sugerían
hacer algo más útil para mi cátedra,
8:14 - 8:18

y con frecuencia teníamos problemas
para conseguir financiamiento.
8:18 - 8:20

Incluso llegué a decir
a mis alumnos, como broma,
8:20 - 8:24

que tendría que reabrir mi tintorería
para financiar ImageNet.
8:24 - 8:29

Después de todo, así fue como
financié mis años de universidad.
8:29 - 8:31

Seguimos adelante.
8:31 - 8:35

En 2009, el proyecto ImageNet juntó
8:35 - 8:39

una base de datos con
15 millones de imágenes
8:39 - 8:44

de 22 000 tipos de objetos
8:44 - 8:47

organizados por palabra
en inglés de uso cotidiano.
8:47 - 8:50

En cantidad y calidad,
8:50 - 8:53

tuvieron una escala sin precedentes.
8:53 - 8:56

Por ejemplo, en el caso de los gatos,
8:56 - 8:59

tenemos más de 62 000 gatos
8:59 - 9:03

con todo tipo de apariencias y poses
9:03 - 9:08

y todo tipo de gatos
domésticos y salvajes.
9:08 - 9:12

Estábamos entusiasmados
por haber creado ImageNet
9:12 - 9:16

y queríamos que todo el mundo de
la investigación se beneficiara,
9:16 - 9:20

así que, al estilo TED,
abrimos toda la base de datos
9:20 - 9:23

a la comunidad mundial de
investigadores de forma gratuita.
9:25 - 9:29

(Aplausos)
9:29 - 9:34

Ahora que tenemos los datos para nutrir
el cerebro de nuestra computadora,
9:34 - 9:38

estamos listos para volver
a los algoritmos.
9:38 - 9:43

La abundancia de información
aportada por ImageNet
9:43 - 9:48

fue el complemento perfecto para
un tipo particular de algoritmos
9:48 - 9:50

de aprendizaje automático llamado
red neuronal convolucional,
9:50 - 9:55

ideado por Kunihiko Fukushima,
Geoff Hinton y Yann LeCun
9:55 - 9:59

en los años 70 y 80.
9:59 - 10:05

Como el cerebro que tiene miles de
millones de neuronas muy bien conectadas,
10:05 - 10:08

la unidad operativa fundamental
en una red neuronal
10:08 - 10:11

es un nodo con forma de neurona.
10:11 - 10:13

Toma datos de otros nodos
10:13 - 10:16

los procesa y los manda
a otros nodos.
10:16 - 10:21

Además, estos cientos de miles
o incluso millones de nodos
10:21 - 10:24

se organizan en capas jerárquicas,
10:24 - 10:27

algo parecido al cerebro.
10:27 - 10:29

En una red neuronal típica
que usamos para entrenar
10:29 - 10:32

nuestro modelo de
reconocimiento de objetos
10:32 - 10:35

hay 24 millones de nodos,
10:35 - 10:38

140 millones de parámetros
10:38 - 10:41

y 15 000 millones de conexiones.
10:41 - 10:43

Es un modelo enorme.
10:43 - 10:47

Alimentado por la información
masiva de ImageNet
10:47 - 10:52

y las CPUs y GPUs modernas que
entrenan este inmenso modelo,
10:52 - 10:55

la red neuronal convolucional
10:55 - 10:58

tuvo un éxito inesperado.
10:58 - 11:01

Se volvió la ingeniería ganadora
11:01 - 11:06

para generar nuevos y emocionantes
resultados en reconocimiento de objetos.
11:06 - 11:09

Esta es una computadora que nos dice
11:09 - 11:11

que la foto tiene un gato
11:11 - 11:13

y dónde está el gato.
11:13 - 11:15

Desde luego hay más cosas
aparte de los gatos
11:15 - 11:18

así que hay un algoritmo
informático que nos dice
11:18 - 11:21

que hay un niño y un oso
de peluche en la foto;
11:21 - 11:25

un perro, una persona
y un papalote al fondo;
11:25 - 11:28

o una foto de cosas muy ocupadas
11:28 - 11:33

como un hombre, una patineta,
un barandal, una lámpara etc.
11:33 - 11:38

A veces, cuando la computadora
no está segura de lo que ve,
11:39 - 11:42

le hemos enseñado
11:42 - 11:46

a darnos una respuesta segura
en lugar de comprometer su respuesta,
11:46 - 11:48

tal como lo haríamos nosotros.
11:48 - 11:53

Pero otras veces nuestro algoritmo
informático es muy acertado al decirnos
11:53 - 11:55

qué son los objetos exactamente,
11:55 - 11:59

como la marca, modelo
y año de los coches.
11:59 - 12:04

Aplicamos este algoritmo a millones
de imágenes de Google Street View
12:04 - 12:07

de cientos de ciudades
de Estados Unidos
12:07 - 12:10

y hemos aprendido algo muy interesante:
12:10 - 12:14

primero, confirmó nuestra idea
12:14 - 12:17

de que los precios de los autos
se relacionan bien
12:17 - 12:19

con los ingresos del hogar.
12:19 - 12:24

Pero sorprendentemente, los precios
de los autos se relacionan también
12:24 - 12:26

con las tasas de criminalidad
en la ciudades
12:27 - 12:31

o los patrones de votación
por código postal.
12:32 - 12:34

Un minuto. ¿Eso es todo?
12:34 - 12:39

¿Acaso la computadora ya sobrepasó
las capacidades humanas?
12:39 - 12:42

No tan rápido.
12:42 - 12:46

Hasta ahora solo hemos enseñado
a la computadora a ver objetos.
12:46 - 12:51

Es como un niño pequeño
que aprende a decir palabras.
12:51 - 12:54

Es un logro increíble,
12:54 - 12:56

pero es apenas el primer paso.
12:56 - 13:00

Pronto daremos otro paso
13:00 - 13:03

y los niños empiezan
a comunicarse con frases.
13:03 - 13:08

Así que en lugar de decir
que hay un gato en la foto,
13:08 - 13:13

la niña ya dice que el gato
está sobre la cama.
13:13 - 13:18

Así que para enseñar a una computadora
a ver una foto y generar frases
13:18 - 13:22

la conjunción de mucha información
y el algoritmo de aprendizaje automático
13:22 - 13:25

debe dar otro paso.
13:25 - 13:29

Ahora, la computadora tiene
que aprender de fotografías
13:29 - 13:32

así como de frases en lenguaje natural
13:32 - 13:35

generado por humanos.
13:35 - 13:39

De la forma en que el cerebro
integra visión y lenguaje,
13:39 - 13:44

desarrollamos un modelo que
conecta partes de cosas visuales
13:44 - 13:46

como fragmentos visuales
13:46 - 13:50

con palabras y frases en oraciones.
13:50 - 13:53

Hace unos 4 meses
13:53 - 13:56

finalmente juntamos todo esto
13:56 - 13:59

y produjimos uno de los primeros
modelos de visión artificial
13:59 - 14:03

que puede generar frases
como las de un humano
14:03 - 14:07

cuando ve una foto por primera vez.
14:07 - 14:12

Ahora estoy lista para mostrarles
lo que dice la computadora
14:12 - 14:14

cuando ve la fotografía
14:14 - 14:17

que la niña vio al inicio de esta charla.
14:20 - 14:23

(Video) Computadora:
Un hombre está junto a un elefante.
14:24 - 14:28

Un avión grande está encima
de una pista de aeropuerto.
14:29 - 14:33

FFL: Desde luego, seguimos
trabajando para mejorar los algoritmos
14:33 - 14:36

y aún tiene mucho que aprender.
14:36 - 14:38

(Aplausos)
14:40 - 14:43

Y la computadora aún comete errores.
14:43 - 14:46

(Video) Computadora: Un gato
recostado en la cama en una sábana.
14:46 - 14:49

FFL: Y cuando ha visto
demasiados gatos,
14:49 - 14:52

cree que todo lo que ve
parece un gato.
14:53 - 14:56

(Video) Computadora: Un niño
tiene un bate de béisbol.
14:56 - 14:58

(Risas)
14:58 - 15:01

FFL: O si nunca ha visto
un cepillo de dientes,
15:01 - 15:04

lo confunde con un bate de béisbol.
15:04 - 15:07

(Video) Computadora: Un hombre
montando un caballo junto a un edificio.
15:07 - 15:09

(Risas)
15:09 - 15:12

FFL: No le hemos enseñado
arte elemental a las computadoras.
15:14 - 15:17

(Video) Computadora: Una cebra
en un campo de hierba.
15:17 - 15:20

FFL: Y no ha aprendido a apreciar
la belleza deslumbrante
15:20 - 15:22

de la naturaleza,
como lo hacemos nosotros.
15:22 - 15:25

Así que ha sido un largo camino.
15:25 - 15:30

Pasar de los 0 a los 3 años fue difícil.
15:30 - 15:35

El verdadero reto es llegar
a los 13 y mucho más todavía.
15:35 - 15:39

Recordemos nuevamente esta foto
del niño y el pastel.
15:39 - 15:44

Hasta ahora, le hemos enseñado
a la computadora a ver objetos
15:44 - 15:48

o incluso darnos una pequeña
historia cuando ve la foto.
15:48 - 15:52

(Video) Computadora: Una persona sentada
a la mesa con un pastel.
15:52 - 15:54

FFL: Pero hay mucho más
en esta fotografía
15:54 - 15:56

que simplemente una persona y un pastel.
15:56 - 16:01

Lo que la computadora no ve es que
este es un pastel especial italiano
16:01 - 16:04

exclusivo de Pascua.
16:04 - 16:07

El niño viste su camiseta favorita,
16:07 - 16:11

que le regaló su papá
tras un viaje a Sídney,
16:11 - 16:15

y nosotros podemos decir
qué tan feliz está
16:15 - 16:18

y qué pasa por su mente
en ese momento.
16:19 - 16:22

Ese es mi hijo Leo.
16:22 - 16:25

En mi búsqueda de inteligencia visual,
16:25 - 16:27

pienso constantemente en él
16:27 - 16:30

y en el futuro en que va a vivir.
16:30 - 16:32

Cuando las máquinas puedan ver,
16:32 - 16:37

los médicos y enfermeras tendrán
un par extra de ojos incansables
16:37 - 16:41

para ayudarlos a diagnosticar
y cuidar de los pacientes.
16:41 - 16:45

Los autos andarán de forma
inteligente y segura en los caminos.
16:45 - 16:48

Robots, y no solo humanos,
16:48 - 16:53

nos ayudarán a desafiar zonas de desastre
para salvar heridos y atrapados.
16:54 - 16:58

Descubriremos nuevas especies,
mejores materiales,
16:58 - 17:02

y exploraremos fronteras nunca vistas
con ayuda de las máquinas.
17:03 - 17:07

Poco a poco, damos a las máquinas
el don de la vista.
17:07 - 17:10

Primero les enseñamos a ver.
17:10 - 17:13

Luego ellas nos ayudarán a ver mejor.
17:13 - 17:17

Por primera vez, los ojos humanos
no serán los únicos
17:17 - 17:20

que exploren nuestro mundo.
17:20 - 17:23

No solo usaremos máquinas
por su inteligencia,
17:23 - 17:30

también colaboraremos con ellas de
formas que ni siquiera imaginamos.
17:30 - 17:32

Esta es mi misión:
17:32 - 17:34

dar a las computadoras
inteligencia visual
17:34 - 17:40

y crear un mejor futuro
para Leo y para el mundo.
17:40 - 17:41

Gracias.
17:41 - 17:45

(Aplausos)

Title:: Cómo estamos enseñando a las computadoras a entender imágenes
Speaker:: Fei-Fei Li
Description:: Cuando un niño muy pequeño mira una foto, puede identificar dibujos simples: "gato", "libro", "silla". Ahora las computadoras tienen la inteligencia suficiente para hacer eso también. ¿Qué sigue? En esta charla emocionante, Fei-Fei Li, experta en visión artificial, describe lo más reciente —incluyendo la base de datos de 15 millones de fotos que su equipo construyó para "enseñar" a una computadora a entender dibujos— y lo que aún está por venir.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	Sebastian Betti approved Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti accepted Spanish subtitles for How we're teaching computers to understand pictures
	Sebastian Betti edited Spanish subtitles for How we're teaching computers to understand pictures

Show all

Spanish subtitles

Revisions

Revision 12 Edited

Sebastian Betti

Cómo estamos enseñando a las computadoras a entender imágenes

Revisions

Our website uses cookies

Operating cookies (Required)