Return to Video

Come insegniamo ai computer a capire immagini

  • 0:03 - 0:06
    Lasciate che vi mostri qualcosa.
  • 0:06 - 0:10
    Ok, è un gatto seduto sul letto.
  • 0:10 - 0:13
    Il ragazzo sta accarezzando l'elefante.
  • 0:14 - 0:18
    Sono persone
    che salgono su un aereo.
  • 0:18 - 0:21
    È un grande aereo.
  • 0:21 - 0:23
    È una bambina di tre anni
  • 0:23 - 0:27
    che descrive ciò
    che vede nelle foto.
  • 0:27 - 0:30
    Anche se ha ancora tanto da imparare,
  • 0:30 - 0:35
    è già un'esperta in
    un compito importante:
  • 0:35 - 0:38
    capire ciò che vede.
  • 0:38 - 0:42
    La tecnologia nella nostra
    società è più sviluppata che mai.
  • 0:42 - 0:46
    Mandiamo persone sulla Luna,
    creiamo cellulari che ci parlano
  • 0:46 - 0:51
    o personalizziamo le stazioni radio
    per ascoltare la musica che ci piace.
  • 0:51 - 0:55
    Eppure, i computer
    e i dispositivi più avanzati
  • 0:55 - 0:58
    non sono ancora in grado
    di svolgere questo compito.
  • 0:58 - 1:01
    Oggi vi mostrerò
    un rapporto di avanzamento
  • 1:01 - 1:05
    sui progressi della nostra
    ricerca sulla visione artificiale,
  • 1:05 - 1:10
    una delle tecnologie informatiche
  • 1:10 - 1:13
    più rivoluzionarie.
  • 1:13 - 1:17
    Sì, abbiamo prototipi
    di auto che si guidano da sole,
  • 1:17 - 1:21
    ma senza la smart vision,
    non riescono a distinguere fra
  • 1:21 - 1:25
    un sacchetto spiegazzato sulla
    strada che può essere investito
  • 1:25 - 1:29
    e una pietra che sarebbe da evitare.
  • 1:29 - 1:33
    Abbiamo creato favolose
    fotocamere con megapixel,
  • 1:33 - 1:36
    ma non abbiamo
    ancora ridato la vista ai ciechi.
  • 1:36 - 1:40
    I droni volano su
    grandi parti di terra,
  • 1:40 - 1:43
    ma la loro tecnologia visiva non basta
  • 1:43 - 1:45
    a monitorare
    le variazioni delle foreste pluviali.
  • 1:45 - 1:48
    Ci sono telecamere
    a circuito chiuso ovunque,
  • 1:48 - 1:53
    che però non ci avvertono quando
    un bambino sta affogando in una piscina.
  • 1:54 - 2:00
    Video e foto stanno diventando
    parte integrante della vita globale.
  • 2:00 - 2:04
    Sono generati a un ritmo
    più veloce di quello che ogni uomo
  • 2:04 - 2:07
    o gruppi di uomini spera di poter avere,
  • 2:07 - 2:11
    e vi contribuiamo in questo TED.
  • 2:11 - 2:16
    Eppure il nostro software più
    avanzato non riesce ancora a capire
  • 2:16 - 2:20
    e amministrare quest'enorme contenuto.
  • 2:20 - 2:22
    In altri termini collettivamente
  • 2:22 - 2:26
    siamo una società di ciechi
  • 2:26 - 2:30
    perché le nostre macchine più
    intelligenti sono ancora cieche.
  • 2:31 - 2:34
    Vi chiederete perché sia così difficile.
  • 2:34 - 2:37
    Le fotocamere scattano foto come questa,
  • 2:37 - 2:41
    trasformando le luci in
    una matrice bidimensionale di numeri,
  • 2:41 - 2:43
    i pixels,
  • 2:43 - 2:45
    però sono solo numeri senza vita.
  • 2:45 - 2:48
    Non hanno alcun significato di per sé.
  • 2:48 - 2:52
    Proprio come udire non è come ascoltare,
  • 2:52 - 2:56
    scattare foto non è come vedere,
  • 2:56 - 3:00
    e con vedere intendiamo capire.
  • 3:01 - 3:07
    In effetti, ci sono voluti 540 milioni
    anni di duro lavoro a Madre Natura
  • 3:07 - 3:09
    per completare questo compito,
  • 3:09 - 3:11
    e gran parte di questo sforzo
  • 3:11 - 3:16
    è andato allo sviluppo
    dell'elaborazione ottica del cervello,
  • 3:16 - 3:19
    non agli occhi.
  • 3:19 - 3:22
    Quindi la visione inizia con gli occhi,
  • 3:22 - 3:26
    ma in realtà avviene nel cervello.
  • 3:27 - 3:31
    Dunque da 15 anni,
    prima con il Ph.D al Caltech
  • 3:31 - 3:34
    e poi a capo del Vision Lab di Stanford,
  • 3:34 - 3:39
    lavoro con i miei
    mentori, collaboratori e studenti
  • 3:39 - 3:42
    per insegnare ai computer a vedere.
  • 3:42 - 3:46
    Il campo di ricerca si chiama visione
    artificiale e apprendimento automatico.
  • 3:46 - 3:51
    Fa parte del campo
    generale dell'intelligenza artificiale.
  • 3:51 - 3:56
    Allora in sostanza, vogliamo insegnare
    alle macchine a vedere proprio come noi:
  • 3:56 - 4:02
    indicare cose, riconoscere persone,
    dedurre la geometria 3D degli oggetti,
  • 4:02 - 4:08
    comprendere relazioni,
    emozioni, azioni e intenzioni.
  • 4:08 - 4:14
    Tessiamo intere storie
    di persone, luoghi e cose
  • 4:14 - 4:17
    quando fissiamo lo sguardo su di loro.
  • 4:17 - 4:23
    Il primo passo verso questo scopo è
    insegnare a un computer a vedere cose,
  • 4:23 - 4:26
    il mattone del mondo visivo.
  • 4:26 - 4:30
    In parole povere immaginate
    questo processo d'insegnamento
  • 4:30 - 4:33
    come mostrare ai computer immagini
  • 4:33 - 4:37
    di un oggetto specifico, come gatti,
  • 4:37 - 4:41
    e creare un modello che
    impara da queste immagini.
  • 4:41 - 4:43
    Quanto può essere difficile?
  • 4:43 - 4:48
    Dopotutto, un gatto è solo
    un insieme di forme e colori,
  • 4:48 - 4:51
    e l'abbiamo fatto nella prima
    fase di realizzazione dei modelli.
  • 4:51 - 4:55
    Abbiamo detto all'algoritmo
    con un linguaggio matematico
  • 4:55 - 4:58
    che un gatto ha una
    faccia tonda, un corpo paffuto,
  • 4:58 - 5:01
    due orecchie a punta e una coda lunga,
  • 5:01 - 5:02
    e fin qui tutto ok.
  • 5:03 - 5:05
    Ma che dire di questo gatto?
  • 5:05 - 5:06
    (Risate)
  • 5:06 - 5:07
    È tutto accartocciato.
  • 5:07 - 5:12
    Ora si deve aggiungere un'altra
    forma e punto di vista al modello.
  • 5:12 - 5:14
    Ma se i gatti sono nascosti?
  • 5:15 - 5:17
    Che dire di questi gatti sciocchi?
  • 5:20 - 5:22
    Ora mi capite.
  • 5:22 - 5:25
    Anche qualcosa di semplice
    come un animale domestico
  • 5:25 - 5:29
    può presentare
    un numero infinito di variazioni,
  • 5:29 - 5:32
    ed è un oggetto solo.
  • 5:33 - 5:35
    Allora otto anni fa,
  • 5:35 - 5:40
    un'osservazione molto semplice
    e profonda ha cambiato il mio parere.
  • 5:41 - 5:44
    Nessuno dice a un bambino come vedere,
  • 5:44 - 5:46
    soprattutto nei primi anni.
  • 5:46 - 5:51
    Lo imparano con
    esperienze e esempi del mondo reale.
  • 5:51 - 5:54
    Se considerate gli occhi di un bambino
  • 5:54 - 5:57
    come un paio di fotocamere biologiche,
  • 5:57 - 6:01
    scattano una foto ogni 200 millisecondi,
  • 6:01 - 6:04
    il tempo medio di
    un movimento dell'occhio.
  • 6:04 - 6:09
    Dunque entro i 3 anni, un bambino
    vede centinaia di migliaia di immagini
  • 6:09 - 6:11
    del mondo reale.
  • 6:11 - 6:14
    Questi sono tanti esempi d'insegnamento.
  • 6:14 - 6:20
    Così invece di concentrarci
    solo su algoritmi sempre migliori,
  • 6:20 - 6:26
    la mia idea era dare
    agli algoritmi dati d'insegnamento
  • 6:26 - 6:29
    come quelli che
    un bambino ottiene con le esperienze
  • 6:29 - 6:33
    con la stessa qualità e quantità.
  • 6:33 - 6:35
    Una volta capito questo,
  • 6:35 - 6:38
    dovevamo accumulare un set di dati
  • 6:38 - 6:42
    che aveva più immagini che mai,
  • 6:42 - 6:45
    forse migliaia di volte di più,
  • 6:45 - 6:49
    e con il Professore Kai Li
    dell'Università di Princeton,
  • 6:49 - 6:54
    abbiamo lanciato
    il progetto ImageNet nel 2007.
  • 6:54 - 6:57
    Per fortuna non abbiamo dovuto
    montare una videocamera in testa
  • 6:57 - 6:59
    e aspettare tanti anni.
  • 6:59 - 7:01
    Siamo andati su Internet,
  • 7:01 - 7:05
    il più grande tesoro d'immagini
    che gli uomini abbiano mai creato.
  • 7:05 - 7:08
    Abbiamo scaricato
    quasi un miliardo d'immagini
  • 7:08 - 7:14
    e usato il crowdsourcing
    come Amazon Mechanical Turk
  • 7:14 - 7:16
    per aiutarci a etichettarle.
  • 7:16 - 7:22
    Al suo culumine ImageNet era
    uno dei maggiori datori di lavoro
  • 7:22 - 7:24
    di Amazon Mechanical Turk:
  • 7:24 - 7:28
    insieme, quasi 50.000 dipendenti
  • 7:28 - 7:32
    di 167 paesi in tutto il mondo
  • 7:32 - 7:36
    ci hanno aiutato a
    pulire, smistare e etichettare
  • 7:36 - 7:40
    quasi un miliardo di aspiranti immagini.
  • 7:40 - 7:43
    Ecco lo sforzo che c'è voluto
  • 7:43 - 7:47
    a catturare persino
    una frazione delle immagini
  • 7:47 - 7:51
    della mente infantile
    nei primi anni di sviluppo.
  • 7:52 - 7:56
    A cose fatte l'idea di usare Big Data
  • 7:56 - 8:00
    per addestrare algoritmi
    informatici forse oggi sembra ovvia,
  • 8:00 - 8:04
    però nel 2007 non lo era così tanto.
  • 8:04 - 8:08
    Per un bel po' siamo
    stati soli in questo viaggio.
  • 8:08 - 8:12
    Dei colleghi mi hanno consigliato di
    fare qualcosa di più utile all'incarico
  • 8:12 - 8:18
    e avevamo di continuo
    difficoltà con il finanziamento.
  • 8:18 - 8:20
    Una volta ho scherzato con i miei studenti
  • 8:20 - 8:24
    dicendo che avrei riaperto
    la lavanderia per finanziare ImageNet.
  • 8:24 - 8:29
    Alla fine in questo modo
    ho finanziato i miei anni al college.
  • 8:29 - 8:31
    Allora abbiamo continuato.
  • 8:31 - 8:35
    Nel 2009 ImageNet project ha consegnato
  • 8:35 - 8:39
    un database di 15 milioni d'immagini
  • 8:39 - 8:44
    in 22.000 categorie di oggetti e cose
  • 8:44 - 8:47
    organizzate in parole di uso quotidiano.
  • 8:47 - 8:50
    Sia in quantità sia in qualità
  • 8:50 - 8:54
    era una scala senza precedenti.
  • 8:54 - 8:57
    Per esempio, nel caso dei gatti,
  • 8:57 - 8:59
    abbiamo più di 62.000 gatti
  • 8:59 - 9:03
    di tutti i tipi di aspetto e pose
  • 9:03 - 9:08
    e in tutte le specie
    di gatti domestici e selvatici.
  • 9:08 - 9:12
    Eravamo emozionati per il
    completamento di ImageNet,
  • 9:12 - 9:15
    e volevamo che tutto
    il mondo di ricerca ne beneficiasse,
  • 9:15 - 9:19
    così come TED abbiamo
    aperto gratis tutto il set di dati
  • 9:19 - 9:23
    alla comunità di ricerca mondiale.
  • 9:25 - 9:29
    (Applausi)
  • 9:29 - 9:34
    Ora grazie ai dati per nutrire
    il cervello del nostro computer
  • 9:34 - 9:38
    siamo pronti a ritornare agli algoritmi.
  • 9:38 - 9:43
    Infatti, la ricchezza
    d'informazioni di ImageNet
  • 9:43 - 9:48
    era perfetta per una particolare classe
    di algoritmi di apprendimento automatico
  • 9:48 - 9:50
    chiamata rete neurale,
  • 9:50 - 9:55
    innovazione di Kunihiko
    Fukushima, Geoff Hinton e Yann LeCun
  • 9:55 - 9:59
    negli anni '70 e '80.
  • 9:59 - 10:05
    Proprio come il cervello è fatto
    di miliardi di neuroni ben collegati,
  • 10:05 - 10:08
    un'unità operativa
    elementare in una rete neurale
  • 10:08 - 10:11
    è un nodo tipo neurone.
  • 10:11 - 10:13
    Prende input di altri nodi
  • 10:13 - 10:16
    e invia output a altri.
  • 10:16 - 10:21
    Inoltre quelle centinaia
    di migliaia o persino milioni di nodi
  • 10:21 - 10:24
    sono organizzate in strati gerarchici,
  • 10:24 - 10:26
    anche simili al cervello.
  • 10:26 - 10:31
    In una tipica rete neurale usata per
    addestrare il modello di riconoscimento
  • 10:31 - 10:35
    ci sono 24 milioni di nodi,
  • 10:35 - 10:37
    140 milioni di parametri
  • 10:37 - 10:40
    e 15 miliardi di connessioni.
  • 10:40 - 10:43
    È un modello enorme.
  • 10:43 - 10:47
    Alimentata dai dati di ImageNet
  • 10:47 - 10:52
    e dalle moderne CPU e GPU
    per addestrare un modello così immenso,
  • 10:52 - 10:54
    la rete neurale convoluzionale
  • 10:54 - 10:58
    è sbocciata in un modo
    che nessuno si aspettava.
  • 10:58 - 11:01
    È diventata l'architettura vincente
  • 11:01 - 11:06
    che genera risultati eclatanti
    nel riconoscimento degli oggetti.
  • 11:06 - 11:09
    Questo è un computer che ci dice
  • 11:09 - 11:11
    che in questa foto c'è un gatto
  • 11:11 - 11:13
    e dov'è il gatto.
  • 11:13 - 11:15
    Certo ci sono anche
    altre cose oltre ai gatti
  • 11:15 - 11:17
    quindi ecco
    un algoritmo informatico che ci dice
  • 11:17 - 11:21
    che nella foto ci sono
    un ragazzo e un orsacchiotto;
  • 11:21 - 11:25
    un cane, una persona e
    un aquilone sullo sfondo;
  • 11:25 - 11:28
    o una foto di molte cose curiose
  • 11:28 - 11:33
    come un uomo, uno skateboard,
    ringhiere, un lampione e così via.
  • 11:33 - 11:38
    A volte quando il computer non
    è tanto sicuro di quello che vede,
  • 11:39 - 11:42
    gli insegnamo a
    essere abbastanza intelligente
  • 11:42 - 11:45
    da darci una risposta
    sicura invece d'impegnarsi troppo,
  • 11:45 - 11:48
    proprio come faremmo noi,
  • 11:48 - 11:53
    ma altre volte gli algoritmi ci
    dicono in modo eccezionale
  • 11:53 - 11:55
    esattamente che oggetti sono,
  • 11:55 - 11:59
    come tipo, modello,
    anno delle macchine.
  • 11:59 - 12:04
    Abbiamo applicato questi algoritmi
    a tante immagini di Google Street View
  • 12:04 - 12:07
    in centinaia di città americane
  • 12:07 - 12:10
    e abbiamo imparato
    una cosa molto interessante:
  • 12:10 - 12:14
    primo, ha confermato
    il nostro sapere comune
  • 12:14 - 12:17
    che i prezzi delle auto
    sono legati molto bene
  • 12:17 - 12:19
    ai redditi familiari.
  • 12:19 - 12:24
    Ma stupisce che i prezzi
    delle auto siano legati bene anche
  • 12:24 - 12:27
    al tasso di criminalità nelle città,
  • 12:27 - 12:31
    o agli schemi di
    votazione con codici postali.
  • 12:32 - 12:34
    Allora aspettate. Ce l'abbiamo fatta?
  • 12:34 - 12:40
    Il computer ha già le stesse
    capacità dell'uomo o perfino migliori?
  • 12:40 - 12:42
    Non ancora.
  • 12:42 - 12:46
    Finora abbiamo insegnato
    ai computer a vedere oggetti.
  • 12:46 - 12:51
    È come un bambino piccolo che
    impara a pronunciare alcuni sostantivi.
  • 12:51 - 12:54
    È un risultato incredibile,
  • 12:54 - 12:56
    ma è solo il primo passo.
  • 12:56 - 13:00
    Presto raggiungeremo
    un'altra pietra miliare dello sviluppo
  • 13:00 - 13:04
    e i bambini inizieranno
    a comunicare con frasi.
  • 13:04 - 13:08
    Allora invece di dire
    che c'è un gatto nella foto,
  • 13:08 - 13:13
    avete sentito la ragazzina dire
    che è un gatto sdraiato sul letto.
  • 13:13 - 13:18
    Quindi per insegnare al computer
    a vedere una foto e generare frasi,
  • 13:18 - 13:22
    il connubio fra Big Data e
    algoritmo di apprendimento automatico
  • 13:22 - 13:24
    deve fare un altro passo.
  • 13:24 - 13:29
    Ora il computer deve
    imparare sia dalle foto
  • 13:29 - 13:32
    che dalle frasi naturali
  • 13:32 - 13:35
    generate dagli uomini.
  • 13:35 - 13:39
    Proprio come il cervello
    integra lingua e visione,
  • 13:39 - 13:44
    abbiamo sviluppato un modello
    che collega parti di oggetti ottici
  • 13:44 - 13:46
    come frammenti ottici
  • 13:46 - 13:51
    a parole e espressioni nelle frasi.
  • 13:51 - 13:53
    Circa quattro mesi fa,
  • 13:53 - 13:55
    abbiamo finalmente provato tutto insieme
  • 13:55 - 13:59
    e prodotto uno dei primi
    modelli di visione artificiale
  • 13:59 - 14:04
    capace di generare
    una frase tipo quella umana
  • 14:04 - 14:07
    quando vede
    una foto per la prima volta.
  • 14:07 - 14:12
    Ora sono pronta
    a mostrarvi cosa dice il computer
  • 14:12 - 14:13
    quando vede la foto
  • 14:13 - 14:17
    che la ragazzina ha visto
    all'inizio di questa conferenza.
  • 14:19 - 14:23
    Un uomo in piedi
    vicino a un elefante.
  • 14:24 - 14:28
    Un grande aereo
    sulla pista di un aeroporto.
  • 14:29 - 14:33
    Certo, lavoriamo duro
    per migliorare i nostri algoritmi
  • 14:33 - 14:36
    e ci sono ancora molte cose da imparare.
  • 14:36 - 14:38
    (Applausi)
  • 14:39 - 14:43
    E il computer fa ancora errori.
  • 14:43 - 14:46
    Un gatto sdraiato
    a letto con una coperta.
  • 14:46 - 14:48
    Quindi quando vede troppi gatti,
  • 14:48 - 14:52
    crede che tutto
    somigli a un gatto.
  • 14:53 - 14:56
    Un ragazzino con una mazza da baseball.
  • 14:56 - 14:57
    (Risate)
  • 14:57 - 15:03
    Se non ha mai visto uno spazzolino
    lo confonde con una mazza da baseball.
  • 15:03 - 15:07
    Un uomo a cavallo
    in una strada vicino a un edificio.
  • 15:07 - 15:08
    (Risate)
  • 15:08 - 15:12
    Non abbiamo
    insegnato l'Art. 101 ai computer.
  • 15:13 - 15:16
    Una zebra in una prateria.
  • 15:16 - 15:20
    E non ha imparato a apprezzare
    la magnifica bellezza della natura
  • 15:20 - 15:22
    come me e voi.
  • 15:22 - 15:25
    Quindi è un lungo vaggio.
  • 15:25 - 15:29
    Andare dall'età zero
    all'età tre era faticoso.
  • 15:29 - 15:35
    La vera sfida è andare
    da 3 a 13 e più lontano.
  • 15:35 - 15:39
    Ripensate alla foto
    del bambino con la torta.
  • 15:39 - 15:44
    Finora abbiamo insegnato
    al computer a vedere oggetti
  • 15:44 - 15:48
    o a raccontarci una semplice
    storia quando vede un'immagine.
  • 15:48 - 15:52
    Una persona seduta
    a tavola con una torta.
  • 15:52 - 15:54
    Ma c'è molto di più in questa foto
  • 15:54 - 15:56
    di una persona con una torta.
  • 15:56 - 16:01
    Ciò che il computer non vede è
    che è una torta italiana speciale
  • 16:01 - 16:04
    che si serve solo a Pasqua.
  • 16:04 - 16:07
    Il bambino indossa
    la sua t-shirt preferita
  • 16:07 - 16:11
    regalatagli dal padre
    dopo un viaggio a Sidney,
  • 16:11 - 16:15
    e possiamo notare quanto sia felice
  • 16:15 - 16:18
    e cosa c'è di preciso
    nella sua mente in quel momento.
  • 16:19 - 16:22
    Questo è mio figlio Leo.
  • 16:22 - 16:25
    Nella mia ricerca
    dell'intelligenza ottica,
  • 16:25 - 16:27
    penso a Leo di continuo
  • 16:27 - 16:30
    e al mondo futuro in cui vivrà.
  • 16:30 - 16:32
    Quando le macchine potranno vedere,
  • 16:32 - 16:37
    i medici e gli infermieri avranno
    un paio extra di occhi instancabili
  • 16:37 - 16:41
    a aiutarli
    con diagnosi e cura dei pazienti.
  • 16:41 - 16:45
    Le auto saranno più
    intelligenti e sicure sulla strada.
  • 16:45 - 16:48
    I robot, non solo gli umani,
  • 16:48 - 16:53
    ci aiuteranno a salvare
    persone intrappolate e ferite.
  • 16:53 - 16:58
    Scopriremo nuove
    specie, materiali migliori,
  • 16:58 - 17:02
    e esploreremo frontiere
    invisibili con l'aiuto delle macchine.
  • 17:03 - 17:07
    Un po' alla volta
    diamo la vista alle macchine.
  • 17:07 - 17:10
    In primo luogo le insegnamo a vedere.
  • 17:10 - 17:13
    Poi ci aiutano a vedere meglio.
  • 17:13 - 17:17
    Per la prima volta
    gli occhi umani non saranno i soli
  • 17:17 - 17:20
    a meditare e esplorare il nostro mondo.
  • 17:20 - 17:23
    Useremo le macchine non
    solo per la loro intelligenza,
  • 17:23 - 17:29
    ma collaboreremo anche con loro
    in modi che neanche immaginiamo.
  • 17:29 - 17:32
    Questa è la mia ricerca:
  • 17:32 - 17:35
    dare ai computer intelligenza ottica
  • 17:35 - 17:39
    e creare un futuro
    migliore per Leo e per il mondo.
  • 17:39 - 17:41
    Grazie.
  • 17:41 - 17:45
    (Applausi)
Title:
Come insegniamo ai computer a capire immagini
Speaker:
Fei-Fei Li
Description:

Quando una bambina guarda una foto, può identificare semplici elementi: “gatto“, “libro“, “sedia“. Oggi, i computer diventano intelligenti al punto di fare la stessa cosa. Dove andremo a finire? In una conferenza emozionante, Fei-Fei Li, esperta di visione artificiale, descrive una tecnologia all'avanguardia — compreso il database di 15 milioni di foto che il suo team ha creato per “insegnare“ a un computer a capire immagini ― e le conoscenze chiave che verranno.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Italian subtitles

Revisions