Come insegniamo ai computer a capire immagini
-
0:03 - 0:06Lasciate che vi mostri qualcosa.
-
0:06 - 0:10Ok, è un gatto seduto sul letto.
-
0:10 - 0:13Il ragazzo sta accarezzando l'elefante.
-
0:14 - 0:18Sono persone
che salgono su un aereo. -
0:18 - 0:21È un grande aereo.
-
0:21 - 0:23È una bambina di tre anni
-
0:23 - 0:27che descrive ciò
che vede nelle foto. -
0:27 - 0:30Anche se ha ancora tanto da imparare,
-
0:30 - 0:35è già un'esperta in
un compito importante: -
0:35 - 0:38capire ciò che vede.
-
0:38 - 0:42La tecnologia nella nostra
società è più sviluppata che mai. -
0:42 - 0:46Mandiamo persone sulla Luna,
creiamo cellulari che ci parlano -
0:46 - 0:51o personalizziamo le stazioni radio
per ascoltare la musica che ci piace. -
0:51 - 0:55Eppure, i computer
e i dispositivi più avanzati -
0:55 - 0:58non sono ancora in grado
di svolgere questo compito. -
0:58 - 1:01Oggi vi mostrerò
un rapporto di avanzamento -
1:01 - 1:05sui progressi della nostra
ricerca sulla visione artificiale, -
1:05 - 1:10una delle tecnologie informatiche
-
1:10 - 1:13più rivoluzionarie.
-
1:13 - 1:17Sì, abbiamo prototipi
di auto che si guidano da sole, -
1:17 - 1:21ma senza la smart vision,
non riescono a distinguere fra -
1:21 - 1:25un sacchetto spiegazzato sulla
strada che può essere investito -
1:25 - 1:29e una pietra che sarebbe da evitare.
-
1:29 - 1:33Abbiamo creato favolose
fotocamere con megapixel, -
1:33 - 1:36ma non abbiamo
ancora ridato la vista ai ciechi. -
1:36 - 1:40I droni volano su
grandi parti di terra, -
1:40 - 1:43ma la loro tecnologia visiva non basta
-
1:43 - 1:45a monitorare
le variazioni delle foreste pluviali. -
1:45 - 1:48Ci sono telecamere
a circuito chiuso ovunque, -
1:48 - 1:53che però non ci avvertono quando
un bambino sta affogando in una piscina. -
1:54 - 2:00Video e foto stanno diventando
parte integrante della vita globale. -
2:00 - 2:04Sono generati a un ritmo
più veloce di quello che ogni uomo -
2:04 - 2:07o gruppi di uomini spera di poter avere,
-
2:07 - 2:11e vi contribuiamo in questo TED.
-
2:11 - 2:16Eppure il nostro software più
avanzato non riesce ancora a capire -
2:16 - 2:20e amministrare quest'enorme contenuto.
-
2:20 - 2:22In altri termini collettivamente
-
2:22 - 2:26siamo una società di ciechi
-
2:26 - 2:30perché le nostre macchine più
intelligenti sono ancora cieche. -
2:31 - 2:34Vi chiederete perché sia così difficile.
-
2:34 - 2:37Le fotocamere scattano foto come questa,
-
2:37 - 2:41trasformando le luci in
una matrice bidimensionale di numeri, -
2:41 - 2:43i pixels,
-
2:43 - 2:45però sono solo numeri senza vita.
-
2:45 - 2:48Non hanno alcun significato di per sé.
-
2:48 - 2:52Proprio come udire non è come ascoltare,
-
2:52 - 2:56scattare foto non è come vedere,
-
2:56 - 3:00e con vedere intendiamo capire.
-
3:01 - 3:07In effetti, ci sono voluti 540 milioni
anni di duro lavoro a Madre Natura -
3:07 - 3:09per completare questo compito,
-
3:09 - 3:11e gran parte di questo sforzo
-
3:11 - 3:16è andato allo sviluppo
dell'elaborazione ottica del cervello, -
3:16 - 3:19non agli occhi.
-
3:19 - 3:22Quindi la visione inizia con gli occhi,
-
3:22 - 3:26ma in realtà avviene nel cervello.
-
3:27 - 3:31Dunque da 15 anni,
prima con il Ph.D al Caltech -
3:31 - 3:34e poi a capo del Vision Lab di Stanford,
-
3:34 - 3:39lavoro con i miei
mentori, collaboratori e studenti -
3:39 - 3:42per insegnare ai computer a vedere.
-
3:42 - 3:46Il campo di ricerca si chiama visione
artificiale e apprendimento automatico. -
3:46 - 3:51Fa parte del campo
generale dell'intelligenza artificiale. -
3:51 - 3:56Allora in sostanza, vogliamo insegnare
alle macchine a vedere proprio come noi: -
3:56 - 4:02indicare cose, riconoscere persone,
dedurre la geometria 3D degli oggetti, -
4:02 - 4:08comprendere relazioni,
emozioni, azioni e intenzioni. -
4:08 - 4:14Tessiamo intere storie
di persone, luoghi e cose -
4:14 - 4:17quando fissiamo lo sguardo su di loro.
-
4:17 - 4:23Il primo passo verso questo scopo è
insegnare a un computer a vedere cose, -
4:23 - 4:26il mattone del mondo visivo.
-
4:26 - 4:30In parole povere immaginate
questo processo d'insegnamento -
4:30 - 4:33come mostrare ai computer immagini
-
4:33 - 4:37di un oggetto specifico, come gatti,
-
4:37 - 4:41e creare un modello che
impara da queste immagini. -
4:41 - 4:43Quanto può essere difficile?
-
4:43 - 4:48Dopotutto, un gatto è solo
un insieme di forme e colori, -
4:48 - 4:51e l'abbiamo fatto nella prima
fase di realizzazione dei modelli. -
4:51 - 4:55Abbiamo detto all'algoritmo
con un linguaggio matematico -
4:55 - 4:58che un gatto ha una
faccia tonda, un corpo paffuto, -
4:58 - 5:01due orecchie a punta e una coda lunga,
-
5:01 - 5:02e fin qui tutto ok.
-
5:03 - 5:05Ma che dire di questo gatto?
-
5:05 - 5:06(Risate)
-
5:06 - 5:07È tutto accartocciato.
-
5:07 - 5:12Ora si deve aggiungere un'altra
forma e punto di vista al modello. -
5:12 - 5:14Ma se i gatti sono nascosti?
-
5:15 - 5:17Che dire di questi gatti sciocchi?
-
5:20 - 5:22Ora mi capite.
-
5:22 - 5:25Anche qualcosa di semplice
come un animale domestico -
5:25 - 5:29può presentare
un numero infinito di variazioni, -
5:29 - 5:32ed è un oggetto solo.
-
5:33 - 5:35Allora otto anni fa,
-
5:35 - 5:40un'osservazione molto semplice
e profonda ha cambiato il mio parere. -
5:41 - 5:44Nessuno dice a un bambino come vedere,
-
5:44 - 5:46soprattutto nei primi anni.
-
5:46 - 5:51Lo imparano con
esperienze e esempi del mondo reale. -
5:51 - 5:54Se considerate gli occhi di un bambino
-
5:54 - 5:57come un paio di fotocamere biologiche,
-
5:57 - 6:01scattano una foto ogni 200 millisecondi,
-
6:01 - 6:04il tempo medio di
un movimento dell'occhio. -
6:04 - 6:09Dunque entro i 3 anni, un bambino
vede centinaia di migliaia di immagini -
6:09 - 6:11del mondo reale.
-
6:11 - 6:14Questi sono tanti esempi d'insegnamento.
-
6:14 - 6:20Così invece di concentrarci
solo su algoritmi sempre migliori, -
6:20 - 6:26la mia idea era dare
agli algoritmi dati d'insegnamento -
6:26 - 6:29come quelli che
un bambino ottiene con le esperienze -
6:29 - 6:33con la stessa qualità e quantità.
-
6:33 - 6:35Una volta capito questo,
-
6:35 - 6:38dovevamo accumulare un set di dati
-
6:38 - 6:42che aveva più immagini che mai,
-
6:42 - 6:45forse migliaia di volte di più,
-
6:45 - 6:49e con il Professore Kai Li
dell'Università di Princeton, -
6:49 - 6:54abbiamo lanciato
il progetto ImageNet nel 2007. -
6:54 - 6:57Per fortuna non abbiamo dovuto
montare una videocamera in testa -
6:57 - 6:59e aspettare tanti anni.
-
6:59 - 7:01Siamo andati su Internet,
-
7:01 - 7:05il più grande tesoro d'immagini
che gli uomini abbiano mai creato. -
7:05 - 7:08Abbiamo scaricato
quasi un miliardo d'immagini -
7:08 - 7:14e usato il crowdsourcing
come Amazon Mechanical Turk -
7:14 - 7:16per aiutarci a etichettarle.
-
7:16 - 7:22Al suo culumine ImageNet era
uno dei maggiori datori di lavoro -
7:22 - 7:24di Amazon Mechanical Turk:
-
7:24 - 7:28insieme, quasi 50.000 dipendenti
-
7:28 - 7:32di 167 paesi in tutto il mondo
-
7:32 - 7:36ci hanno aiutato a
pulire, smistare e etichettare -
7:36 - 7:40quasi un miliardo di aspiranti immagini.
-
7:40 - 7:43Ecco lo sforzo che c'è voluto
-
7:43 - 7:47a catturare persino
una frazione delle immagini -
7:47 - 7:51della mente infantile
nei primi anni di sviluppo. -
7:52 - 7:56A cose fatte l'idea di usare Big Data
-
7:56 - 8:00per addestrare algoritmi
informatici forse oggi sembra ovvia, -
8:00 - 8:04però nel 2007 non lo era così tanto.
-
8:04 - 8:08Per un bel po' siamo
stati soli in questo viaggio. -
8:08 - 8:12Dei colleghi mi hanno consigliato di
fare qualcosa di più utile all'incarico -
8:12 - 8:18e avevamo di continuo
difficoltà con il finanziamento. -
8:18 - 8:20Una volta ho scherzato con i miei studenti
-
8:20 - 8:24dicendo che avrei riaperto
la lavanderia per finanziare ImageNet. -
8:24 - 8:29Alla fine in questo modo
ho finanziato i miei anni al college. -
8:29 - 8:31Allora abbiamo continuato.
-
8:31 - 8:35Nel 2009 ImageNet project ha consegnato
-
8:35 - 8:39un database di 15 milioni d'immagini
-
8:39 - 8:44in 22.000 categorie di oggetti e cose
-
8:44 - 8:47organizzate in parole di uso quotidiano.
-
8:47 - 8:50Sia in quantità sia in qualità
-
8:50 - 8:54era una scala senza precedenti.
-
8:54 - 8:57Per esempio, nel caso dei gatti,
-
8:57 - 8:59abbiamo più di 62.000 gatti
-
8:59 - 9:03di tutti i tipi di aspetto e pose
-
9:03 - 9:08e in tutte le specie
di gatti domestici e selvatici. -
9:08 - 9:12Eravamo emozionati per il
completamento di ImageNet, -
9:12 - 9:15e volevamo che tutto
il mondo di ricerca ne beneficiasse, -
9:15 - 9:19così come TED abbiamo
aperto gratis tutto il set di dati -
9:19 - 9:23alla comunità di ricerca mondiale.
-
9:25 - 9:29(Applausi)
-
9:29 - 9:34Ora grazie ai dati per nutrire
il cervello del nostro computer -
9:34 - 9:38siamo pronti a ritornare agli algoritmi.
-
9:38 - 9:43Infatti, la ricchezza
d'informazioni di ImageNet -
9:43 - 9:48era perfetta per una particolare classe
di algoritmi di apprendimento automatico -
9:48 - 9:50chiamata rete neurale,
-
9:50 - 9:55innovazione di Kunihiko
Fukushima, Geoff Hinton e Yann LeCun -
9:55 - 9:59negli anni '70 e '80.
-
9:59 - 10:05Proprio come il cervello è fatto
di miliardi di neuroni ben collegati, -
10:05 - 10:08un'unità operativa
elementare in una rete neurale -
10:08 - 10:11è un nodo tipo neurone.
-
10:11 - 10:13Prende input di altri nodi
-
10:13 - 10:16e invia output a altri.
-
10:16 - 10:21Inoltre quelle centinaia
di migliaia o persino milioni di nodi -
10:21 - 10:24sono organizzate in strati gerarchici,
-
10:24 - 10:26anche simili al cervello.
-
10:26 - 10:31In una tipica rete neurale usata per
addestrare il modello di riconoscimento -
10:31 - 10:35ci sono 24 milioni di nodi,
-
10:35 - 10:37140 milioni di parametri
-
10:37 - 10:40e 15 miliardi di connessioni.
-
10:40 - 10:43È un modello enorme.
-
10:43 - 10:47Alimentata dai dati di ImageNet
-
10:47 - 10:52e dalle moderne CPU e GPU
per addestrare un modello così immenso, -
10:52 - 10:54la rete neurale convoluzionale
-
10:54 - 10:58è sbocciata in un modo
che nessuno si aspettava. -
10:58 - 11:01È diventata l'architettura vincente
-
11:01 - 11:06che genera risultati eclatanti
nel riconoscimento degli oggetti. -
11:06 - 11:09Questo è un computer che ci dice
-
11:09 - 11:11che in questa foto c'è un gatto
-
11:11 - 11:13e dov'è il gatto.
-
11:13 - 11:15Certo ci sono anche
altre cose oltre ai gatti -
11:15 - 11:17quindi ecco
un algoritmo informatico che ci dice -
11:17 - 11:21che nella foto ci sono
un ragazzo e un orsacchiotto; -
11:21 - 11:25un cane, una persona e
un aquilone sullo sfondo; -
11:25 - 11:28o una foto di molte cose curiose
-
11:28 - 11:33come un uomo, uno skateboard,
ringhiere, un lampione e così via. -
11:33 - 11:38A volte quando il computer non
è tanto sicuro di quello che vede, -
11:39 - 11:42gli insegnamo a
essere abbastanza intelligente -
11:42 - 11:45da darci una risposta
sicura invece d'impegnarsi troppo, -
11:45 - 11:48proprio come faremmo noi,
-
11:48 - 11:53ma altre volte gli algoritmi ci
dicono in modo eccezionale -
11:53 - 11:55esattamente che oggetti sono,
-
11:55 - 11:59come tipo, modello,
anno delle macchine. -
11:59 - 12:04Abbiamo applicato questi algoritmi
a tante immagini di Google Street View -
12:04 - 12:07in centinaia di città americane
-
12:07 - 12:10e abbiamo imparato
una cosa molto interessante: -
12:10 - 12:14primo, ha confermato
il nostro sapere comune -
12:14 - 12:17che i prezzi delle auto
sono legati molto bene -
12:17 - 12:19ai redditi familiari.
-
12:19 - 12:24Ma stupisce che i prezzi
delle auto siano legati bene anche -
12:24 - 12:27al tasso di criminalità nelle città,
-
12:27 - 12:31o agli schemi di
votazione con codici postali. -
12:32 - 12:34Allora aspettate. Ce l'abbiamo fatta?
-
12:34 - 12:40Il computer ha già le stesse
capacità dell'uomo o perfino migliori? -
12:40 - 12:42Non ancora.
-
12:42 - 12:46Finora abbiamo insegnato
ai computer a vedere oggetti. -
12:46 - 12:51È come un bambino piccolo che
impara a pronunciare alcuni sostantivi. -
12:51 - 12:54È un risultato incredibile,
-
12:54 - 12:56ma è solo il primo passo.
-
12:56 - 13:00Presto raggiungeremo
un'altra pietra miliare dello sviluppo -
13:00 - 13:04e i bambini inizieranno
a comunicare con frasi. -
13:04 - 13:08Allora invece di dire
che c'è un gatto nella foto, -
13:08 - 13:13avete sentito la ragazzina dire
che è un gatto sdraiato sul letto. -
13:13 - 13:18Quindi per insegnare al computer
a vedere una foto e generare frasi, -
13:18 - 13:22il connubio fra Big Data e
algoritmo di apprendimento automatico -
13:22 - 13:24deve fare un altro passo.
-
13:24 - 13:29Ora il computer deve
imparare sia dalle foto -
13:29 - 13:32che dalle frasi naturali
-
13:32 - 13:35generate dagli uomini.
-
13:35 - 13:39Proprio come il cervello
integra lingua e visione, -
13:39 - 13:44abbiamo sviluppato un modello
che collega parti di oggetti ottici -
13:44 - 13:46come frammenti ottici
-
13:46 - 13:51a parole e espressioni nelle frasi.
-
13:51 - 13:53Circa quattro mesi fa,
-
13:53 - 13:55abbiamo finalmente provato tutto insieme
-
13:55 - 13:59e prodotto uno dei primi
modelli di visione artificiale -
13:59 - 14:04capace di generare
una frase tipo quella umana -
14:04 - 14:07quando vede
una foto per la prima volta. -
14:07 - 14:12Ora sono pronta
a mostrarvi cosa dice il computer -
14:12 - 14:13quando vede la foto
-
14:13 - 14:17che la ragazzina ha visto
all'inizio di questa conferenza. -
14:19 - 14:23Un uomo in piedi
vicino a un elefante. -
14:24 - 14:28Un grande aereo
sulla pista di un aeroporto. -
14:29 - 14:33Certo, lavoriamo duro
per migliorare i nostri algoritmi -
14:33 - 14:36e ci sono ancora molte cose da imparare.
-
14:36 - 14:38(Applausi)
-
14:39 - 14:43E il computer fa ancora errori.
-
14:43 - 14:46Un gatto sdraiato
a letto con una coperta. -
14:46 - 14:48Quindi quando vede troppi gatti,
-
14:48 - 14:52crede che tutto
somigli a un gatto. -
14:53 - 14:56Un ragazzino con una mazza da baseball.
-
14:56 - 14:57(Risate)
-
14:57 - 15:03Se non ha mai visto uno spazzolino
lo confonde con una mazza da baseball. -
15:03 - 15:07Un uomo a cavallo
in una strada vicino a un edificio. -
15:07 - 15:08(Risate)
-
15:08 - 15:12Non abbiamo
insegnato l'Art. 101 ai computer. -
15:13 - 15:16Una zebra in una prateria.
-
15:16 - 15:20E non ha imparato a apprezzare
la magnifica bellezza della natura -
15:20 - 15:22come me e voi.
-
15:22 - 15:25Quindi è un lungo vaggio.
-
15:25 - 15:29Andare dall'età zero
all'età tre era faticoso. -
15:29 - 15:35La vera sfida è andare
da 3 a 13 e più lontano. -
15:35 - 15:39Ripensate alla foto
del bambino con la torta. -
15:39 - 15:44Finora abbiamo insegnato
al computer a vedere oggetti -
15:44 - 15:48o a raccontarci una semplice
storia quando vede un'immagine. -
15:48 - 15:52Una persona seduta
a tavola con una torta. -
15:52 - 15:54Ma c'è molto di più in questa foto
-
15:54 - 15:56di una persona con una torta.
-
15:56 - 16:01Ciò che il computer non vede è
che è una torta italiana speciale -
16:01 - 16:04che si serve solo a Pasqua.
-
16:04 - 16:07Il bambino indossa
la sua t-shirt preferita -
16:07 - 16:11regalatagli dal padre
dopo un viaggio a Sidney, -
16:11 - 16:15e possiamo notare quanto sia felice
-
16:15 - 16:18e cosa c'è di preciso
nella sua mente in quel momento. -
16:19 - 16:22Questo è mio figlio Leo.
-
16:22 - 16:25Nella mia ricerca
dell'intelligenza ottica, -
16:25 - 16:27penso a Leo di continuo
-
16:27 - 16:30e al mondo futuro in cui vivrà.
-
16:30 - 16:32Quando le macchine potranno vedere,
-
16:32 - 16:37i medici e gli infermieri avranno
un paio extra di occhi instancabili -
16:37 - 16:41a aiutarli
con diagnosi e cura dei pazienti. -
16:41 - 16:45Le auto saranno più
intelligenti e sicure sulla strada. -
16:45 - 16:48I robot, non solo gli umani,
-
16:48 - 16:53ci aiuteranno a salvare
persone intrappolate e ferite. -
16:53 - 16:58Scopriremo nuove
specie, materiali migliori, -
16:58 - 17:02e esploreremo frontiere
invisibili con l'aiuto delle macchine. -
17:03 - 17:07Un po' alla volta
diamo la vista alle macchine. -
17:07 - 17:10In primo luogo le insegnamo a vedere.
-
17:10 - 17:13Poi ci aiutano a vedere meglio.
-
17:13 - 17:17Per la prima volta
gli occhi umani non saranno i soli -
17:17 - 17:20a meditare e esplorare il nostro mondo.
-
17:20 - 17:23Useremo le macchine non
solo per la loro intelligenza, -
17:23 - 17:29ma collaboreremo anche con loro
in modi che neanche immaginiamo. -
17:29 - 17:32Questa è la mia ricerca:
-
17:32 - 17:35dare ai computer intelligenza ottica
-
17:35 - 17:39e creare un futuro
migliore per Leo e per il mondo. -
17:39 - 17:41Grazie.
-
17:41 - 17:45(Applausi)
- Title:
- Come insegniamo ai computer a capire immagini
- Speaker:
- Fei-Fei Li
- Description:
-
Quando una bambina guarda una foto, può identificare semplici elementi: “gatto“, “libro“, “sedia“. Oggi, i computer diventano intelligenti al punto di fare la stessa cosa. Dove andremo a finire? In una conferenza emozionante, Fei-Fei Li, esperta di visione artificiale, descrive una tecnologia all'avanguardia — compreso il database di 15 milioni di foto che il suo team ha creato per “insegnare“ a un computer a capire immagini ― e le conoscenze chiave che verranno.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
TED Translators admin approved Italian subtitles for How we're teaching computers to understand pictures | ||
Kevin Álvarez accepted Italian subtitles for How we're teaching computers to understand pictures | ||
Kevin Álvarez edited Italian subtitles for How we're teaching computers to understand pictures | ||
Kevin Álvarez edited Italian subtitles for How we're teaching computers to understand pictures | ||
Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures | ||
Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures | ||
Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures | ||
Silvia Littarru edited Italian subtitles for How we're teaching computers to understand pictures |