Come insegniamo ai computer a capire immagini

0:03 - 0:06

Lasciate che vi mostri qualcosa.
0:06 - 0:10

Ok, è un gatto seduto sul letto.
0:10 - 0:13

Il ragazzo sta accarezzando l'elefante.
0:14 - 0:18

Sono persone
che salgono su un aereo.
0:18 - 0:21

È un grande aereo.
0:21 - 0:23

È una bambina di tre anni
0:23 - 0:27

che descrive ciò
che vede nelle foto.
0:27 - 0:30

Anche se ha ancora tanto da imparare,
0:30 - 0:35

è già un'esperta in
un compito importante:
0:35 - 0:38

capire ciò che vede.
0:38 - 0:42

La tecnologia nella nostra
società è più sviluppata che mai.
0:42 - 0:46

Mandiamo persone sulla Luna,
creiamo cellulari che ci parlano
0:46 - 0:51

o personalizziamo le stazioni radio
per ascoltare la musica che ci piace.
0:51 - 0:55

Eppure, i computer
e i dispositivi più avanzati
0:55 - 0:58

non sono ancora in grado
di svolgere questo compito.
0:58 - 1:01

Oggi vi mostrerò
un rapporto di avanzamento
1:01 - 1:05

sui progressi della nostra
ricerca sulla visione artificiale,
1:05 - 1:10

una delle tecnologie informatiche
1:10 - 1:13

più rivoluzionarie.
1:13 - 1:17

Sì, abbiamo prototipi
di auto che si guidano da sole,
1:17 - 1:21

ma senza la smart vision,
non riescono a distinguere fra
1:21 - 1:25

un sacchetto spiegazzato sulla
strada che può essere investito
1:25 - 1:29

e una pietra che sarebbe da evitare.
1:29 - 1:33

Abbiamo creato favolose
fotocamere con megapixel,
1:33 - 1:36

ma non abbiamo
ancora ridato la vista ai ciechi.
1:36 - 1:40

I droni volano su
grandi parti di terra,
1:40 - 1:43

ma la loro tecnologia visiva non basta
1:43 - 1:45

a monitorare
le variazioni delle foreste pluviali.
1:45 - 1:48

Ci sono telecamere
a circuito chiuso ovunque,
1:48 - 1:53

che però non ci avvertono quando
un bambino sta affogando in una piscina.
1:54 - 2:00

Video e foto stanno diventando
parte integrante della vita globale.
2:00 - 2:04

Sono generati a un ritmo
più veloce di quello che ogni uomo
2:04 - 2:07

o gruppi di uomini spera di poter avere,
2:07 - 2:11

e vi contribuiamo in questo TED.
2:11 - 2:16

Eppure il nostro software più
avanzato non riesce ancora a capire
2:16 - 2:20

e amministrare quest'enorme contenuto.
2:20 - 2:22

In altri termini collettivamente
2:22 - 2:26

siamo una società di ciechi
2:26 - 2:30

perché le nostre macchine più
intelligenti sono ancora cieche.
2:31 - 2:34

Vi chiederete perché sia così difficile.
2:34 - 2:37

Le fotocamere scattano foto come questa,
2:37 - 2:41

trasformando le luci in
una matrice bidimensionale di numeri,
2:41 - 2:43

i pixels,
2:43 - 2:45

però sono solo numeri senza vita.
2:45 - 2:48

Non hanno alcun significato di per sé.
2:48 - 2:52

Proprio come udire non è come ascoltare,
2:52 - 2:56

scattare foto non è come vedere,
2:56 - 3:00

e con vedere intendiamo capire.
3:01 - 3:07

In effetti, ci sono voluti 540 milioni
anni di duro lavoro a Madre Natura
3:07 - 3:09

per completare questo compito,
3:09 - 3:11

e gran parte di questo sforzo
3:11 - 3:16

è andato allo sviluppo
dell'elaborazione ottica del cervello,
3:16 - 3:19

non agli occhi.
3:19 - 3:22

Quindi la visione inizia con gli occhi,
3:22 - 3:26

ma in realtà avviene nel cervello.
3:27 - 3:31

Dunque da 15 anni,
prima con il Ph.D al Caltech
3:31 - 3:34

e poi a capo del Vision Lab di Stanford,
3:34 - 3:39

lavoro con i miei
mentori, collaboratori e studenti
3:39 - 3:42

per insegnare ai computer a vedere.
3:42 - 3:46

Il campo di ricerca si chiama visione
artificiale e apprendimento automatico.
3:46 - 3:51

Fa parte del campo
generale dell'intelligenza artificiale.
3:51 - 3:56

Allora in sostanza, vogliamo insegnare
alle macchine a vedere proprio come noi:
3:56 - 4:02

indicare cose, riconoscere persone,
dedurre la geometria 3D degli oggetti,
4:02 - 4:08

comprendere relazioni,
emozioni, azioni e intenzioni.
4:08 - 4:14

Tessiamo intere storie
di persone, luoghi e cose
4:14 - 4:17

quando fissiamo lo sguardo su di loro.
4:17 - 4:23

Il primo passo verso questo scopo è
insegnare a un computer a vedere cose,
4:23 - 4:26

il mattone del mondo visivo.
4:26 - 4:30

In parole povere immaginate
questo processo d'insegnamento
4:30 - 4:33

come mostrare ai computer immagini
4:33 - 4:37

di un oggetto specifico, come gatti,
4:37 - 4:41

e creare un modello che
impara da queste immagini.
4:41 - 4:43

Quanto può essere difficile?
4:43 - 4:48

Dopotutto, un gatto è solo
un insieme di forme e colori,
4:48 - 4:51

e l'abbiamo fatto nella prima
fase di realizzazione dei modelli.
4:51 - 4:55

Abbiamo detto all'algoritmo
con un linguaggio matematico
4:55 - 4:58

che un gatto ha una
faccia tonda, un corpo paffuto,
4:58 - 5:01

due orecchie a punta e una coda lunga,
5:01 - 5:02

e fin qui tutto ok.
5:03 - 5:05

Ma che dire di questo gatto?
5:05 - 5:06

(Risate)
5:06 - 5:07

È tutto accartocciato.
5:07 - 5:12

Ora si deve aggiungere un'altra
forma e punto di vista al modello.
5:12 - 5:14

Ma se i gatti sono nascosti?
5:15 - 5:17

Che dire di questi gatti sciocchi?
5:20 - 5:22

Ora mi capite.
5:22 - 5:25

Anche qualcosa di semplice
come un animale domestico
5:25 - 5:29

può presentare
un numero infinito di variazioni,
5:29 - 5:32

ed è un oggetto solo.
5:33 - 5:35

Allora otto anni fa,
5:35 - 5:40

un'osservazione molto semplice
e profonda ha cambiato il mio parere.
5:41 - 5:44

Nessuno dice a un bambino come vedere,
5:44 - 5:46

soprattutto nei primi anni.
5:46 - 5:51

Lo imparano con
esperienze e esempi del mondo reale.
5:51 - 5:54

Se considerate gli occhi di un bambino
5:54 - 5:57

come un paio di fotocamere biologiche,
5:57 - 6:01

scattano una foto ogni 200 millisecondi,
6:01 - 6:04

il tempo medio di
un movimento dell'occhio.
6:04 - 6:09

Dunque entro i 3 anni, un bambino
vede centinaia di migliaia di immagini
6:09 - 6:11

del mondo reale.
6:11 - 6:14

Questi sono tanti esempi d'insegnamento.
6:14 - 6:20

Così invece di concentrarci
solo su algoritmi sempre migliori,
6:20 - 6:26

la mia idea era dare
agli algoritmi dati d'insegnamento
6:26 - 6:29

come quelli che
un bambino ottiene con le esperienze
6:29 - 6:33

con la stessa qualità e quantità.
6:33 - 6:35

Una volta capito questo,
6:35 - 6:38

dovevamo accumulare un set di dati
6:38 - 6:42

che aveva più immagini che mai,
6:42 - 6:45

forse migliaia di volte di più,
6:45 - 6:49

e con il Professore Kai Li
dell'Università di Princeton,
6:49 - 6:54

abbiamo lanciato
il progetto ImageNet nel 2007.
6:54 - 6:57

Per fortuna non abbiamo dovuto
montare una videocamera in testa
6:57 - 6:59

e aspettare tanti anni.
6:59 - 7:01

Siamo andati su Internet,
7:01 - 7:05

il più grande tesoro d'immagini
che gli uomini abbiano mai creato.
7:05 - 7:08

Abbiamo scaricato
quasi un miliardo d'immagini
7:08 - 7:14

e usato il crowdsourcing
come Amazon Mechanical Turk
7:14 - 7:16

per aiutarci a etichettarle.
7:16 - 7:22

Al suo culumine ImageNet era
uno dei maggiori datori di lavoro
7:22 - 7:24

di Amazon Mechanical Turk:
7:24 - 7:28

insieme, quasi 50.000 dipendenti
7:28 - 7:32

di 167 paesi in tutto il mondo
7:32 - 7:36

ci hanno aiutato a
pulire, smistare e etichettare
7:36 - 7:40

quasi un miliardo di aspiranti immagini.
7:40 - 7:43

Ecco lo sforzo che c'è voluto
7:43 - 7:47

a catturare persino
una frazione delle immagini
7:47 - 7:51

della mente infantile
nei primi anni di sviluppo.
7:52 - 7:56

A cose fatte l'idea di usare Big Data
7:56 - 8:00

per addestrare algoritmi
informatici forse oggi sembra ovvia,
8:00 - 8:04

però nel 2007 non lo era così tanto.
8:04 - 8:08

Per un bel po' siamo
stati soli in questo viaggio.
8:08 - 8:12

Dei colleghi mi hanno consigliato di
fare qualcosa di più utile all'incarico
8:12 - 8:18

e avevamo di continuo
difficoltà con il finanziamento.
8:18 - 8:20

Una volta ho scherzato con i miei studenti
8:20 - 8:24

dicendo che avrei riaperto
la lavanderia per finanziare ImageNet.
8:24 - 8:29

Alla fine in questo modo
ho finanziato i miei anni al college.
8:29 - 8:31

Allora abbiamo continuato.
8:31 - 8:35

Nel 2009 ImageNet project ha consegnato
8:35 - 8:39

un database di 15 milioni d'immagini
8:39 - 8:44

in 22.000 categorie di oggetti e cose
8:44 - 8:47

organizzate in parole di uso quotidiano.
8:47 - 8:50

Sia in quantità sia in qualità
8:50 - 8:54

era una scala senza precedenti.
8:54 - 8:57

Per esempio, nel caso dei gatti,
8:57 - 8:59

abbiamo più di 62.000 gatti
8:59 - 9:03

di tutti i tipi di aspetto e pose
9:03 - 9:08

e in tutte le specie
di gatti domestici e selvatici.
9:08 - 9:12

Eravamo emozionati per il
completamento di ImageNet,
9:12 - 9:15

e volevamo che tutto
il mondo di ricerca ne beneficiasse,
9:15 - 9:19

così come TED abbiamo
aperto gratis tutto il set di dati
9:19 - 9:23

alla comunità di ricerca mondiale.
9:25 - 9:29

(Applausi)
9:29 - 9:34

Ora grazie ai dati per nutrire
il cervello del nostro computer
9:34 - 9:38

siamo pronti a ritornare agli algoritmi.
9:38 - 9:43

Infatti, la ricchezza
d'informazioni di ImageNet
9:43 - 9:48

era perfetta per una particolare classe
di algoritmi di apprendimento automatico
9:48 - 9:50

chiamata rete neurale,
9:50 - 9:55

innovazione di Kunihiko
Fukushima, Geoff Hinton e Yann LeCun
9:55 - 9:59

negli anni '70 e '80.
9:59 - 10:05

Proprio come il cervello è fatto
di miliardi di neuroni ben collegati,
10:05 - 10:08

un'unità operativa
elementare in una rete neurale
10:08 - 10:11

è un nodo tipo neurone.
10:11 - 10:13

Prende input di altri nodi
10:13 - 10:16

e invia output a altri.
10:16 - 10:21

Inoltre quelle centinaia
di migliaia o persino milioni di nodi
10:21 - 10:24

sono organizzate in strati gerarchici,
10:24 - 10:26

anche simili al cervello.
10:26 - 10:31

In una tipica rete neurale usata per
addestrare il modello di riconoscimento
10:31 - 10:35

ci sono 24 milioni di nodi,
10:35 - 10:37

140 milioni di parametri
10:37 - 10:40

e 15 miliardi di connessioni.
10:40 - 10:43

È un modello enorme.
10:43 - 10:47

Alimentata dai dati di ImageNet
10:47 - 10:52

e dalle moderne CPU e GPU
per addestrare un modello così immenso,
10:52 - 10:54

la rete neurale convoluzionale
10:54 - 10:58

è sbocciata in un modo
che nessuno si aspettava.
10:58 - 11:01

È diventata l'architettura vincente
11:01 - 11:06

che genera risultati eclatanti
nel riconoscimento degli oggetti.
11:06 - 11:09

Questo è un computer che ci dice
11:09 - 11:11

che in questa foto c'è un gatto
11:11 - 11:13

e dov'è il gatto.
11:13 - 11:15

Certo ci sono anche
altre cose oltre ai gatti
11:15 - 11:17

quindi ecco
un algoritmo informatico che ci dice
11:17 - 11:21

che nella foto ci sono
un ragazzo e un orsacchiotto;
11:21 - 11:25

un cane, una persona e
un aquilone sullo sfondo;
11:25 - 11:28

o una foto di molte cose curiose
11:28 - 11:33

come un uomo, uno skateboard,
ringhiere, un lampione e così via.
11:33 - 11:38

A volte quando il computer non
è tanto sicuro di quello che vede,
11:39 - 11:42

gli insegnamo a
essere abbastanza intelligente
11:42 - 11:45

da darci una risposta
sicura invece d'impegnarsi troppo,
11:45 - 11:48

proprio come faremmo noi,
11:48 - 11:53

ma altre volte gli algoritmi ci
dicono in modo eccezionale
11:53 - 11:55

esattamente che oggetti sono,
11:55 - 11:59

come tipo, modello,
anno delle macchine.
11:59 - 12:04

Abbiamo applicato questi algoritmi
a tante immagini di Google Street View
12:04 - 12:07

in centinaia di città americane
12:07 - 12:10

e abbiamo imparato
una cosa molto interessante:
12:10 - 12:14

primo, ha confermato
il nostro sapere comune
12:14 - 12:17

che i prezzi delle auto
sono legati molto bene
12:17 - 12:19

ai redditi familiari.
12:19 - 12:24

Ma stupisce che i prezzi
delle auto siano legati bene anche
12:24 - 12:27

al tasso di criminalità nelle città,
12:27 - 12:31

o agli schemi di
votazione con codici postali.
12:32 - 12:34

Allora aspettate. Ce l'abbiamo fatta?
12:34 - 12:40

Il computer ha già le stesse
capacità dell'uomo o perfino migliori?
12:40 - 12:42

Non ancora.
12:42 - 12:46

Finora abbiamo insegnato
ai computer a vedere oggetti.
12:46 - 12:51

È come un bambino piccolo che
impara a pronunciare alcuni sostantivi.
12:51 - 12:54

È un risultato incredibile,
12:54 - 12:56

ma è solo il primo passo.
12:56 - 13:00

Presto raggiungeremo
un'altra pietra miliare dello sviluppo
13:00 - 13:04

e i bambini inizieranno
a comunicare con frasi.
13:04 - 13:08

Allora invece di dire
che c'è un gatto nella foto,
13:08 - 13:13

avete sentito la ragazzina dire
che è un gatto sdraiato sul letto.
13:13 - 13:18

Quindi per insegnare al computer
a vedere una foto e generare frasi,
13:18 - 13:22

il connubio fra Big Data e
algoritmo di apprendimento automatico
13:22 - 13:24

deve fare un altro passo.
13:24 - 13:29

Ora il computer deve
imparare sia dalle foto
13:29 - 13:32

che dalle frasi naturali
13:32 - 13:35

generate dagli uomini.
13:35 - 13:39

Proprio come il cervello
integra lingua e visione,
13:39 - 13:44

abbiamo sviluppato un modello
che collega parti di oggetti ottici
13:44 - 13:46

come frammenti ottici
13:46 - 13:51

a parole e espressioni nelle frasi.
13:51 - 13:53

Circa quattro mesi fa,
13:53 - 13:55

abbiamo finalmente provato tutto insieme
13:55 - 13:59

e prodotto uno dei primi
modelli di visione artificiale
13:59 - 14:04

capace di generare
una frase tipo quella umana
14:04 - 14:07

quando vede
una foto per la prima volta.
14:07 - 14:12

Ora sono pronta
a mostrarvi cosa dice il computer
14:12 - 14:13

quando vede la foto
14:13 - 14:17

che la ragazzina ha visto
all'inizio di questa conferenza.
14:19 - 14:23

Un uomo in piedi
vicino a un elefante.
14:24 - 14:28

Un grande aereo
sulla pista di un aeroporto.
14:29 - 14:33

Certo, lavoriamo duro
per migliorare i nostri algoritmi
14:33 - 14:36

e ci sono ancora molte cose da imparare.
14:36 - 14:38

(Applausi)
14:39 - 14:43

E il computer fa ancora errori.
14:43 - 14:46

Un gatto sdraiato
a letto con una coperta.
14:46 - 14:48

Quindi quando vede troppi gatti,
14:48 - 14:52

crede che tutto
somigli a un gatto.
14:53 - 14:56

Un ragazzino con una mazza da baseball.
14:56 - 14:57

(Risate)
14:57 - 15:03

Se non ha mai visto uno spazzolino
lo confonde con una mazza da baseball.
15:03 - 15:07

Un uomo a cavallo
in una strada vicino a un edificio.
15:07 - 15:08

(Risate)
15:08 - 15:12

Non abbiamo
insegnato l'Art. 101 ai computer.
15:13 - 15:16

Una zebra in una prateria.
15:16 - 15:20

E non ha imparato a apprezzare
la magnifica bellezza della natura
15:20 - 15:22

come me e voi.
15:22 - 15:25

Quindi è un lungo vaggio.
15:25 - 15:29

Andare dall'età zero
all'età tre era faticoso.
15:29 - 15:35

La vera sfida è andare
da 3 a 13 e più lontano.
15:35 - 15:39

Ripensate alla foto
del bambino con la torta.
15:39 - 15:44

Finora abbiamo insegnato
al computer a vedere oggetti
15:44 - 15:48

o a raccontarci una semplice
storia quando vede un'immagine.
15:48 - 15:52

Una persona seduta
a tavola con una torta.
15:52 - 15:54

Ma c'è molto di più in questa foto
15:54 - 15:56

di una persona con una torta.
15:56 - 16:01

Ciò che il computer non vede è
che è una torta italiana speciale
16:01 - 16:04

che si serve solo a Pasqua.
16:04 - 16:07

Il bambino indossa
la sua t-shirt preferita
16:07 - 16:11

regalatagli dal padre
dopo un viaggio a Sidney,
16:11 - 16:15

e possiamo notare quanto sia felice
16:15 - 16:18

e cosa c'è di preciso
nella sua mente in quel momento.
16:19 - 16:22

Questo è mio figlio Leo.
16:22 - 16:25

Nella mia ricerca
dell'intelligenza ottica,
16:25 - 16:27

penso a Leo di continuo
16:27 - 16:30

e al mondo futuro in cui vivrà.
16:30 - 16:32

Quando le macchine potranno vedere,
16:32 - 16:37

i medici e gli infermieri avranno
un paio extra di occhi instancabili
16:37 - 16:41

a aiutarli
con diagnosi e cura dei pazienti.
16:41 - 16:45

Le auto saranno più
intelligenti e sicure sulla strada.
16:45 - 16:48

I robot, non solo gli umani,
16:48 - 16:53

ci aiuteranno a salvare
persone intrappolate e ferite.
16:53 - 16:58

Scopriremo nuove
specie, materiali migliori,
16:58 - 17:02

e esploreremo frontiere
invisibili con l'aiuto delle macchine.
17:03 - 17:07

Un po' alla volta
diamo la vista alle macchine.
17:07 - 17:10

In primo luogo le insegnamo a vedere.
17:10 - 17:13

Poi ci aiutano a vedere meglio.
17:13 - 17:17

Per la prima volta
gli occhi umani non saranno i soli
17:17 - 17:20

a meditare e esplorare il nostro mondo.
17:20 - 17:23

Useremo le macchine non
solo per la loro intelligenza,
17:23 - 17:29

ma collaboreremo anche con loro
in modi che neanche immaginiamo.
17:29 - 17:32

Questa è la mia ricerca:
17:32 - 17:35

dare ai computer intelligenza ottica
17:35 - 17:39

e creare un futuro
migliore per Leo e per il mondo.
17:39 - 17:41

Grazie.
17:41 - 17:45

(Applausi)

Title:: Come insegniamo ai computer a capire immagini
Speaker:: Fei-Fei Li
Description:: Quando una bambina guarda una foto, può identificare semplici elementi: “gatto“, “libro“, “sedia“. Oggi, i computer diventano intelligenti al punto di fare la stessa cosa. Dove andremo a finire? In una conferenza emozionante, Fei-Fei Li, esperta di visione artificiale, descrive una tecnologia all'avanguardia — compreso il database di 15 milioni di foto che il suo team ha creato per “insegnare“ a un computer a capire immagini ― e le conoscenze chiave che verranno.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	TED Translators admin approved Italian subtitles for How we're teaching computers to understand pictures
	Kevin Álvarez accepted Italian subtitles for How we're teaching computers to understand pictures
	Kevin Álvarez edited Italian subtitles for How we're teaching computers to understand pictures
	Kevin Álvarez edited Italian subtitles for How we're teaching computers to understand pictures
	Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures
	Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures
	Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures
	Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures

Show all

Italian subtitles

Revisions

Revision 49 Edited

Kevin Álvarez

Come insegniamo ai computer a capire immagini

Revisions

Our website uses cookies

Operating cookies (Required)