Come un computer impara a riconoscere gli oggetti istantaneamente
-
0:01 - 0:02Dieci anni fa,
-
0:02 - 0:04i ricercatori di visione artificiale
pensavano -
0:04 - 0:05che fare in modo che un computer
-
0:05 - 0:07riuscisse a differenziare
un gatto e un cane -
0:08 - 0:09sarebbe stato quasi impossibile,
-
0:10 - 0:13nonostante il progresso significativo
nel campo dell'intelligenza artificiale. -
0:13 - 0:17Ora possiamo farlo a un livello
di precisione superiore al 99 per cento. -
0:17 - 0:20Questa è chiamata
classificazione d'immagini -- -
0:20 - 0:23dategli un'immagine,
etichettate quell'immagine -- -
0:23 - 0:26e i computer riconoscono
anche migliaia di altre categorie. -
0:27 - 0:30Sono un dottorando
della University of Washington, -
0:30 - 0:32e lavoro su un progetto
chiamato Darknet, -
0:32 - 0:33che è un framework di rete neurale
-
0:33 - 0:36per sviluppare e testare
i modelli di visione artificiale. -
0:36 - 0:39Quindi vediamo cosa ne pensa Darknet
-
0:39 - 0:41di quest'immagine.
-
0:43 - 0:45Quando eseguiamo il nostro classificatore
-
0:45 - 0:46su quest'immagine,
-
0:46 - 0:49vediamo che non otteniamo solo
la previsione di un cane o di un gatto, -
0:49 - 0:51ma la previsione
della razza specifica. -
0:51 - 0:53Questo è il livello di precisione attuale.
-
0:53 - 0:55Ed è corretto.
-
0:55 - 0:57Infatti, il mio cane è
un Alaskan Malamute. -
0:57 - 1:01Abbiamo fatto dei passi da gigante
nella classificazione di immagini, -
1:01 - 1:04ma cosa succede quando passiamo
il nostro classificatore -
1:04 - 1:06su un'immagine come questa?
-
1:07 - 1:08Beh...
-
1:13 - 1:17Vediamo che il classificatore ritorna
con una predizione abbastanza simile. -
1:17 - 1:20Ed è corretto,
c'è un Alaskan Malamute sull'immagine, -
1:20 - 1:23ma con questa sola etichetta,
non ne sappiamo poi molto -
1:23 - 1:25di quello che succede nell'immagine.
-
1:25 - 1:27Abbiamo bisogno di qualcosa
di più potente. -
1:27 - 1:30Io lavoro su un problema
chiamato riconoscimento di oggetti, -
1:30 - 1:33dove guardiamo un'immagine
e cerchiamo di trovare gli oggetti, -
1:33 - 1:35li delimitiamo con dei "bounding boxes"
-
1:35 - 1:36e definiamo quegli oggetti.
-
1:36 - 1:38Questo è quello che succede
-
1:38 - 1:40quando passiamo un rilevatore
su quest'immagine. -
1:41 - 1:43Ora, con questo tipo di risultato,
-
1:43 - 1:45possiamo fare molto di più
-
1:45 - 1:47con i nostri algoritmi
di visione artificiale. -
1:47 - 1:49Vediamo che riconosce
che ci sono un gatto e un cane. -
1:49 - 1:51Conosce la loro posizione,
-
1:52 - 1:53la loro taglia.
-
1:53 - 1:55Potrebbe addirittura conoscere
informazioni extra. -
1:55 - 1:57C'è un libro sullo sfondo.
-
1:57 - 2:01Se vuoi costruire un sistema
basato sulla visione artificiale, -
2:01 - 2:04diciamo un'auto senza pilota
o un sistema robotico, -
2:04 - 2:06questo è il tipo di informazione che vuoi.
-
2:07 - 2:10Vuoi qualcosa per poter interagire
con il mondo fisico. -
2:10 - 2:13Quando ho iniziato a lavorare
sul riconoscimento di oggetti, -
2:13 - 2:16servivano 20 secondi
per processare una sola immagine. -
2:16 - 2:20E per capire quanto è importante
la velocità in questo settore, -
2:21 - 2:24ecco un esempio
di un rilevatore di oggetti -
2:24 - 2:26che impiega due secondi
per processare un'immagine. -
2:26 - 2:29Quindi questo è 10 volte più veloce
-
2:29 - 2:32del rilevatore a 20 secondi a immagine,
-
2:32 - 2:35e potete vedere che nel momento in cui
fa le sue predizioni -
2:35 - 2:37l'aspetto del mondo è cambiato,
-
2:38 - 2:40e questo non sarebbe utile
-
2:40 - 2:42per un'applicazione.
-
2:42 - 2:44Se velocizziamo di un altro fattore 10,
-
2:44 - 2:47questo è un rilevatore che funziona
a cinque immagini al secondo. -
2:47 - 2:49È molto meglio,
-
2:49 - 2:51ma, ad esempio,
-
2:51 - 2:53se c'è un qualsiasi
movimento significativo, -
2:53 - 2:56non vorrei un sistema come questo
mentre guido. -
2:57 - 2:59Questo è il nostro sistema
di riconoscimento -
2:59 - 3:01in funzione in tempo reale
sul mio computer. -
3:01 - 3:04Quindi mi identifica senza problemi
mentre mi muovo sull'immagine, -
3:04 - 3:08ed è efficace anche quando
cambiano la taglia, -
3:09 - 3:11la posa,
-
3:11 - 3:13avanti, indietro.
-
3:13 - 3:14È fantastico.
-
3:14 - 3:16Questo è ciò di cui
abbiamo davvero bisogno -
3:16 - 3:19se vogliamo costruire sistemi
basati sulla visione artificiale. -
3:19 - 3:23(Applausi)
-
3:24 - 3:26Quindi in pochi anni,
-
3:26 - 3:29siamo passati da 20 secondi a immagine
-
3:29 - 3:33a 20 millisecondi a immagine,
mille volte più veloce. -
3:33 - 3:34Come ci siamo riusciti?
-
3:34 - 3:37In passato, i sistemi
di riconoscimento di oggetti -
3:37 - 3:39avrebbero preso
un'immagine come questa -
3:39 - 3:42e l'avrebbero divisa
in un insieme di regioni -
3:42 - 3:45e poi passato un classificatore
su ognuna di queste regioni, -
3:45 - 3:47e punteggi elevati per quel classificatore
-
3:47 - 3:51sarebbero stati considerati
come riconoscimenti nell'immagine. -
3:51 - 3:52Ma questo voleva dire
-
3:52 - 3:55passare un classificatore
migliaia di volte su un'immagine, -
3:55 - 3:58migliaia di valutazioni di rete neurale
per produrre il riconoscimento. -
3:59 - 4:04Invece, abbiamo allenato una singola rete
a fare tutto il riconoscimento per noi. -
4:04 - 4:08Produce tutti i bounding boxes
e ordina le probabilità simultaneamente. -
4:09 - 4:12Con il nostro sistema, invece di guardare
un'immagine migliaia di volte -
4:12 - 4:14per ottenere il riconoscimento,
-
4:14 - 4:15guardi una volta sola,
-
4:15 - 4:17ed è per questo che lo chiamiamo
-
4:17 - 4:19il metodo YOLO
del riconoscimento d'oggetti. -
4:19 - 4:23Con questa velocità possiamo quindi
non limitarci alle immagini; -
4:23 - 4:26ma possiamo processare video
in tempo reale. -
4:26 - 4:29E ora, invece di vedere solo
il cane e il gatto, -
4:29 - 4:32possiamo vederli muovere
e interagire tra loro. -
4:35 - 4:37Questo è un rilevatore
che abbiamo allenato -
4:37 - 4:41su 80 classi diverse
-
4:41 - 4:44nel dataset COCO di Microsoft.
-
4:44 - 4:48Contiene di tutto come cucchiaio
e forchetta, ciotola, -
4:48 - 4:49oggetti comuni come questi.
-
4:50 - 4:53Ma anche una varietà di cose più esotiche:
-
4:53 - 4:57animali, auto, zebre, giraffe.
-
4:57 - 4:59E adesso facciamo qualcosa di divertente.
-
4:59 - 5:01Ci metteremo in mezzo al pubblico
-
5:01 - 5:03per vedere che tipo di oggetti
possiamo identificare. -
5:03 - 5:05Qualcuno vuole un peluche?
-
5:06 - 5:08Ci sono degli orsacchiotti lì in mezzo.
-
5:10 - 5:15E possiamo abbassare un po'
la nostra soglia di riconoscimento, -
5:15 - 5:18così possiamo riconoscervi meglio
in mezzo al pubblico. -
5:20 - 5:22Vediamo se riusciamo a trovare
dei segnali di stop. -
5:22 - 5:24Troviamo degli zaini.
-
5:26 - 5:28Facciamo uno zoom.
-
5:30 - 5:32Ed è fantastico.
-
5:32 - 5:35E tutto il processo
avviene in tempo reale -
5:35 - 5:36sul computer.
-
5:37 - 5:38Ed è importante ricordare
-
5:38 - 5:41che questo è un sistema
di riconoscimento di oggetti -
5:41 - 5:42di uso generale,
-
5:42 - 5:47quindi lo possiamo allenare
per qualsiasi settore di immagini. -
5:48 - 5:51Lo stesso codice che usiamo
-
5:51 - 5:53per trovare segnali di stop o pedoni,
-
5:53 - 5:56biciclette in un veicolo
con pilota automatico, -
5:56 - 5:58può essere usato per trovare
cellule cancerose -
5:58 - 6:01durante una biopsia.
-
6:01 - 6:05E ci sono ricercatori in tutto il mondo
che stanno già usando questa tecnologia -
6:06 - 6:10per fare passi avanti in campi
come la medicina, la robotica. -
6:10 - 6:11Questa mattina, ho letto un articolo
-
6:11 - 6:16in cui si parlava di un censimento
degli animali al Nairobi National Park -
6:16 - 6:19con YOLO integrato
nel sistema di riconoscimento. -
6:19 - 6:22Ed è perché Darknet è open source
-
6:22 - 6:25ed è di dominio pubblico,
e chiunque può utilizzarlo liberamente. -
6:26 - 6:31(Applausi)
-
6:31 - 6:36Ma volevamo rendere il riconoscimento
ancora più accessibile e fruibile, -
6:36 - 6:40e attraverso una combinazione
di ottimizzazione del modello, -
6:40 - 6:43binarizzazione di rete e approssimazione,
-
6:43 - 6:47abbiamo un riconoscimento di oggetti
che funziona su un telefono. -
6:53 - 6:58(Applausi)
-
6:59 - 7:04E sono davvero contento perché
abbiamo una soluzione piuttosto efficace -
7:04 - 7:07a questo problema di visione
di computer di basso livello, -
7:07 - 7:10e chiunque può prenderlo
e costruirci qualcosa. -
7:10 - 7:13Quindi il resto è nelle vostre mani
-
7:13 - 7:16e in quelle delle persone nel mondo
che hanno accesso a questo software, -
7:16 - 7:18e sono impaziente di vedere
-
7:18 - 7:20cosa le persone faranno
con questa tecnologia. -
7:20 - 7:22Grazie.
-
7:22 - 7:25(Applausi)
- Title:
- Come un computer impara a riconoscere gli oggetti istantaneamente
- Speaker:
- Joseph Redmon
- Description:
-
Dieci anni fa, i ricercatori pensavano che sarebbe stato quasi impossibile per un computer riconoscere la differenza tra un gatto e un cane. Oggi, i sistemi di visione computerizzati lo fanno con una precisione superiore al 99%. Come?
Joseph Redmon lavora al sistema YOLO (You Only Look Once), un metodo di riconoscimento di oggetti open-source che può identificare immagini e video -- dalle zebre ai segnali di stop -- in un batter d'occhio. In una notevole live demo, Redmon sfoggia gli importanti passi avanti fatti, in ambiti come le auto senza pilota, la robotica e la diagnosi del cancro. - Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
Anna Cristiana Minoli approved Italian subtitles for How computers learn to recognize objects instantly | ||
Anna Cristiana Minoli edited Italian subtitles for How computers learn to recognize objects instantly | ||
Maria Carmina Distratto accepted Italian subtitles for How computers learn to recognize objects instantly | ||
Elisabetta Siagri edited Italian subtitles for How computers learn to recognize objects instantly | ||
Maria Carmina Distratto declined Italian subtitles for How computers learn to recognize objects instantly | ||
Maria Carmina Distratto edited Italian subtitles for How computers learn to recognize objects instantly | ||
Simone Morandi edited Italian subtitles for How computers learn to recognize objects instantly | ||
Elisabetta Siagri edited Italian subtitles for How computers learn to recognize objects instantly |