Return to Video

Come un computer impara a riconoscere gli oggetti istantaneamente

  • 0:01 - 0:02
    Dieci anni fa,
  • 0:02 - 0:04
    i ricercatori di visione artificiale
    pensavano
  • 0:04 - 0:05
    che fare in modo che un computer
  • 0:05 - 0:07
    riuscisse a differenziare
    un gatto e un cane
  • 0:08 - 0:09
    sarebbe stato quasi impossibile,
  • 0:10 - 0:13
    nonostante il progresso significativo
    nel campo dell'intelligenza artificiale.
  • 0:13 - 0:17
    Ora possiamo farlo a un livello
    di precisione superiore al 99 per cento.
  • 0:17 - 0:20
    Questa è chiamata
    classificazione d'immagini --
  • 0:20 - 0:23
    dategli un'immagine,
    etichettate quell'immagine --
  • 0:23 - 0:26
    e i computer riconoscono
    anche migliaia di altre categorie.
  • 0:27 - 0:30
    Sono un dottorando
    della University of Washington,
  • 0:30 - 0:32
    e lavoro su un progetto
    chiamato Darknet,
  • 0:32 - 0:33
    che è un framework di rete neurale
  • 0:33 - 0:36
    per sviluppare e testare
    i modelli di visione artificiale.
  • 0:36 - 0:39
    Quindi vediamo cosa ne pensa Darknet
  • 0:39 - 0:41
    di quest'immagine.
  • 0:43 - 0:45
    Quando eseguiamo il nostro classificatore
  • 0:45 - 0:46
    su quest'immagine,
  • 0:46 - 0:49
    vediamo che non otteniamo solo
    la previsione di un cane o di un gatto,
  • 0:49 - 0:51
    ma la previsione
    della razza specifica.
  • 0:51 - 0:53
    Questo è il livello di precisione attuale.
  • 0:53 - 0:55
    Ed è corretto.
  • 0:55 - 0:57
    Infatti, il mio cane è
    un Alaskan Malamute.
  • 0:57 - 1:01
    Abbiamo fatto dei passi da gigante
    nella classificazione di immagini,
  • 1:01 - 1:04
    ma cosa succede quando passiamo
    il nostro classificatore
  • 1:04 - 1:06
    su un'immagine come questa?
  • 1:07 - 1:08
    Beh...
  • 1:13 - 1:17
    Vediamo che il classificatore ritorna
    con una predizione abbastanza simile.
  • 1:17 - 1:20
    Ed è corretto,
    c'è un Alaskan Malamute sull'immagine,
  • 1:20 - 1:23
    ma con questa sola etichetta,
    non ne sappiamo poi molto
  • 1:23 - 1:25
    di quello che succede nell'immagine.
  • 1:25 - 1:27
    Abbiamo bisogno di qualcosa
    di più potente.
  • 1:27 - 1:30
    Io lavoro su un problema
    chiamato riconoscimento di oggetti,
  • 1:30 - 1:33
    dove guardiamo un'immagine
    e cerchiamo di trovare gli oggetti,
  • 1:33 - 1:35
    li delimitiamo con dei "bounding boxes"
  • 1:35 - 1:36
    e definiamo quegli oggetti.
  • 1:36 - 1:38
    Questo è quello che succede
  • 1:38 - 1:40
    quando passiamo un rilevatore
    su quest'immagine.
  • 1:41 - 1:43
    Ora, con questo tipo di risultato,
  • 1:43 - 1:45
    possiamo fare molto di più
  • 1:45 - 1:47
    con i nostri algoritmi
    di visione artificiale.
  • 1:47 - 1:49
    Vediamo che riconosce
    che ci sono un gatto e un cane.
  • 1:49 - 1:51
    Conosce la loro posizione,
  • 1:52 - 1:53
    la loro taglia.
  • 1:53 - 1:55
    Potrebbe addirittura conoscere
    informazioni extra.
  • 1:55 - 1:57
    C'è un libro sullo sfondo.
  • 1:57 - 2:01
    Se vuoi costruire un sistema
    basato sulla visione artificiale,
  • 2:01 - 2:04
    diciamo un'auto senza pilota
    o un sistema robotico,
  • 2:04 - 2:06
    questo è il tipo di informazione che vuoi.
  • 2:07 - 2:10
    Vuoi qualcosa per poter interagire
    con il mondo fisico.
  • 2:10 - 2:13
    Quando ho iniziato a lavorare
    sul riconoscimento di oggetti,
  • 2:13 - 2:16
    servivano 20 secondi
    per processare una sola immagine.
  • 2:16 - 2:20
    E per capire quanto è importante
    la velocità in questo settore,
  • 2:21 - 2:24
    ecco un esempio
    di un rilevatore di oggetti
  • 2:24 - 2:26
    che impiega due secondi
    per processare un'immagine.
  • 2:26 - 2:29
    Quindi questo è 10 volte più veloce
  • 2:29 - 2:32
    del rilevatore a 20 secondi a immagine,
  • 2:32 - 2:35
    e potete vedere che nel momento in cui
    fa le sue predizioni
  • 2:35 - 2:37
    l'aspetto del mondo è cambiato,
  • 2:38 - 2:40
    e questo non sarebbe utile
  • 2:40 - 2:42
    per un'applicazione.
  • 2:42 - 2:44
    Se velocizziamo di un altro fattore 10,
  • 2:44 - 2:47
    questo è un rilevatore che funziona
    a cinque immagini al secondo.
  • 2:47 - 2:49
    È molto meglio,
  • 2:49 - 2:51
    ma, ad esempio,
  • 2:51 - 2:53
    se c'è un qualsiasi
    movimento significativo,
  • 2:53 - 2:56
    non vorrei un sistema come questo
    mentre guido.
  • 2:57 - 2:59
    Questo è il nostro sistema
    di riconoscimento
  • 2:59 - 3:01
    in funzione in tempo reale
    sul mio computer.
  • 3:01 - 3:04
    Quindi mi identifica senza problemi
    mentre mi muovo sull'immagine,
  • 3:04 - 3:08
    ed è efficace anche quando
    cambiano la taglia,
  • 3:09 - 3:11
    la posa,
  • 3:11 - 3:13
    avanti, indietro.
  • 3:13 - 3:14
    È fantastico.
  • 3:14 - 3:16
    Questo è ciò di cui
    abbiamo davvero bisogno
  • 3:16 - 3:19
    se vogliamo costruire sistemi
    basati sulla visione artificiale.
  • 3:19 - 3:23
    (Applausi)
  • 3:24 - 3:26
    Quindi in pochi anni,
  • 3:26 - 3:29
    siamo passati da 20 secondi a immagine
  • 3:29 - 3:33
    a 20 millisecondi a immagine,
    mille volte più veloce.
  • 3:33 - 3:34
    Come ci siamo riusciti?
  • 3:34 - 3:37
    In passato, i sistemi
    di riconoscimento di oggetti
  • 3:37 - 3:39
    avrebbero preso
    un'immagine come questa
  • 3:39 - 3:42
    e l'avrebbero divisa
    in un insieme di regioni
  • 3:42 - 3:45
    e poi passato un classificatore
    su ognuna di queste regioni,
  • 3:45 - 3:47
    e punteggi elevati per quel classificatore
  • 3:47 - 3:51
    sarebbero stati considerati
    come riconoscimenti nell'immagine.
  • 3:51 - 3:52
    Ma questo voleva dire
  • 3:52 - 3:55
    passare un classificatore
    migliaia di volte su un'immagine,
  • 3:55 - 3:58
    migliaia di valutazioni di rete neurale
    per produrre il riconoscimento.
  • 3:59 - 4:04
    Invece, abbiamo allenato una singola rete
    a fare tutto il riconoscimento per noi.
  • 4:04 - 4:08
    Produce tutti i bounding boxes
    e ordina le probabilità simultaneamente.
  • 4:09 - 4:12
    Con il nostro sistema, invece di guardare
    un'immagine migliaia di volte
  • 4:12 - 4:14
    per ottenere il riconoscimento,
  • 4:14 - 4:15
    guardi una volta sola,
  • 4:15 - 4:17
    ed è per questo che lo chiamiamo
  • 4:17 - 4:19
    il metodo YOLO
    del riconoscimento d'oggetti.
  • 4:19 - 4:23
    Con questa velocità possiamo quindi
    non limitarci alle immagini;
  • 4:23 - 4:26
    ma possiamo processare video
    in tempo reale.
  • 4:26 - 4:29
    E ora, invece di vedere solo
    il cane e il gatto,
  • 4:29 - 4:32
    possiamo vederli muovere
    e interagire tra loro.
  • 4:35 - 4:37
    Questo è un rilevatore
    che abbiamo allenato
  • 4:37 - 4:41
    su 80 classi diverse
  • 4:41 - 4:44
    nel dataset COCO di Microsoft.
  • 4:44 - 4:48
    Contiene di tutto come cucchiaio
    e forchetta, ciotola,
  • 4:48 - 4:49
    oggetti comuni come questi.
  • 4:50 - 4:53
    Ma anche una varietà di cose più esotiche:
  • 4:53 - 4:57
    animali, auto, zebre, giraffe.
  • 4:57 - 4:59
    E adesso facciamo qualcosa di divertente.
  • 4:59 - 5:01
    Ci metteremo in mezzo al pubblico
  • 5:01 - 5:03
    per vedere che tipo di oggetti
    possiamo identificare.
  • 5:03 - 5:05
    Qualcuno vuole un peluche?
  • 5:06 - 5:08
    Ci sono degli orsacchiotti lì in mezzo.
  • 5:10 - 5:15
    E possiamo abbassare un po'
    la nostra soglia di riconoscimento,
  • 5:15 - 5:18
    così possiamo riconoscervi meglio
    in mezzo al pubblico.
  • 5:20 - 5:22
    Vediamo se riusciamo a trovare
    dei segnali di stop.
  • 5:22 - 5:24
    Troviamo degli zaini.
  • 5:26 - 5:28
    Facciamo uno zoom.
  • 5:30 - 5:32
    Ed è fantastico.
  • 5:32 - 5:35
    E tutto il processo
    avviene in tempo reale
  • 5:35 - 5:36
    sul computer.
  • 5:37 - 5:38
    Ed è importante ricordare
  • 5:38 - 5:41
    che questo è un sistema
    di riconoscimento di oggetti
  • 5:41 - 5:42
    di uso generale,
  • 5:42 - 5:47
    quindi lo possiamo allenare
    per qualsiasi settore di immagini.
  • 5:48 - 5:51
    Lo stesso codice che usiamo
  • 5:51 - 5:53
    per trovare segnali di stop o pedoni,
  • 5:53 - 5:56
    biciclette in un veicolo
    con pilota automatico,
  • 5:56 - 5:58
    può essere usato per trovare
    cellule cancerose
  • 5:58 - 6:01
    durante una biopsia.
  • 6:01 - 6:05
    E ci sono ricercatori in tutto il mondo
    che stanno già usando questa tecnologia
  • 6:06 - 6:10
    per fare passi avanti in campi
    come la medicina, la robotica.
  • 6:10 - 6:11
    Questa mattina, ho letto un articolo
  • 6:11 - 6:16
    in cui si parlava di un censimento
    degli animali al Nairobi National Park
  • 6:16 - 6:19
    con YOLO integrato
    nel sistema di riconoscimento.
  • 6:19 - 6:22
    Ed è perché Darknet è open source
  • 6:22 - 6:25
    ed è di dominio pubblico,
    e chiunque può utilizzarlo liberamente.
  • 6:26 - 6:31
    (Applausi)
  • 6:31 - 6:36
    Ma volevamo rendere il riconoscimento
    ancora più accessibile e fruibile,
  • 6:36 - 6:40
    e attraverso una combinazione
    di ottimizzazione del modello,
  • 6:40 - 6:43
    binarizzazione di rete e approssimazione,
  • 6:43 - 6:47
    abbiamo un riconoscimento di oggetti
    che funziona su un telefono.
  • 6:53 - 6:58
    (Applausi)
  • 6:59 - 7:04
    E sono davvero contento perché
    abbiamo una soluzione piuttosto efficace
  • 7:04 - 7:07
    a questo problema di visione
    di computer di basso livello,
  • 7:07 - 7:10
    e chiunque può prenderlo
    e costruirci qualcosa.
  • 7:10 - 7:13
    Quindi il resto è nelle vostre mani
  • 7:13 - 7:16
    e in quelle delle persone nel mondo
    che hanno accesso a questo software,
  • 7:16 - 7:18
    e sono impaziente di vedere
  • 7:18 - 7:20
    cosa le persone faranno
    con questa tecnologia.
  • 7:20 - 7:22
    Grazie.
  • 7:22 - 7:25
    (Applausi)
Title:
Come un computer impara a riconoscere gli oggetti istantaneamente
Speaker:
Joseph Redmon
Description:

Dieci anni fa, i ricercatori pensavano che sarebbe stato quasi impossibile per un computer riconoscere la differenza tra un gatto e un cane. Oggi, i sistemi di visione computerizzati lo fanno con una precisione superiore al 99%. Come?
Joseph Redmon lavora al sistema YOLO (You Only Look Once), un metodo di riconoscimento di oggetti open-source che può identificare immagini e video -- dalle zebre ai segnali di stop -- in un batter d'occhio. In una notevole live demo, Redmon sfoggia gli importanti passi avanti fatti, in ambiti come le auto senza pilota, la robotica e la diagnosi del cancro.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Italian subtitles

Revisions