Come un computer impara a riconoscere gli oggetti istantaneamente

0:01 - 0:02

Dieci anni fa,
0:02 - 0:04

i ricercatori di visione artificiale
pensavano
0:04 - 0:05

che fare in modo che un computer
0:05 - 0:07

riuscisse a differenziare
un gatto e un cane
0:08 - 0:09

sarebbe stato quasi impossibile,
0:10 - 0:13

nonostante il progresso significativo
nel campo dell'intelligenza artificiale.
0:13 - 0:17

Ora possiamo farlo a un livello
di precisione superiore al 99 per cento.
0:17 - 0:20

Questa è chiamata
classificazione d'immagini --
0:20 - 0:23

dategli un'immagine,
etichettate quell'immagine --
0:23 - 0:26

e i computer riconoscono
anche migliaia di altre categorie.
0:27 - 0:30

Sono un dottorando
della University of Washington,
0:30 - 0:32

e lavoro su un progetto
chiamato Darknet,
0:32 - 0:33

che è un framework di rete neurale
0:33 - 0:36

per sviluppare e testare
i modelli di visione artificiale.
0:36 - 0:39

Quindi vediamo cosa ne pensa Darknet
0:39 - 0:41

di quest'immagine.
0:43 - 0:45

Quando eseguiamo il nostro classificatore
0:45 - 0:46

su quest'immagine,
0:46 - 0:49

vediamo che non otteniamo solo
la previsione di un cane o di un gatto,
0:49 - 0:51

ma la previsione
della razza specifica.
0:51 - 0:53

Questo è il livello di precisione attuale.
0:53 - 0:55

Ed è corretto.
0:55 - 0:57

Infatti, il mio cane è
un Alaskan Malamute.
0:57 - 1:01

Abbiamo fatto dei passi da gigante
nella classificazione di immagini,
1:01 - 1:04

ma cosa succede quando passiamo
il nostro classificatore
1:04 - 1:06

su un'immagine come questa?
1:07 - 1:08

Beh...
1:13 - 1:17

Vediamo che il classificatore ritorna
con una predizione abbastanza simile.
1:17 - 1:20

Ed è corretto,
c'è un Alaskan Malamute sull'immagine,
1:20 - 1:23

ma con questa sola etichetta,
non ne sappiamo poi molto
1:23 - 1:25

di quello che succede nell'immagine.
1:25 - 1:27

Abbiamo bisogno di qualcosa
di più potente.
1:27 - 1:30

Io lavoro su un problema
chiamato riconoscimento di oggetti,
1:30 - 1:33

dove guardiamo un'immagine
e cerchiamo di trovare gli oggetti,
1:33 - 1:35

li delimitiamo con dei "bounding boxes"
1:35 - 1:36

e definiamo quegli oggetti.
1:36 - 1:38

Questo è quello che succede
1:38 - 1:40

quando passiamo un rilevatore
su quest'immagine.
1:41 - 1:43

Ora, con questo tipo di risultato,
1:43 - 1:45

possiamo fare molto di più
1:45 - 1:47

con i nostri algoritmi
di visione artificiale.
1:47 - 1:49

Vediamo che riconosce
che ci sono un gatto e un cane.
1:49 - 1:51

Conosce la loro posizione,
1:52 - 1:53

la loro taglia.
1:53 - 1:55

Potrebbe addirittura conoscere
informazioni extra.
1:55 - 1:57

C'è un libro sullo sfondo.
1:57 - 2:01

Se vuoi costruire un sistema
basato sulla visione artificiale,
2:01 - 2:04

diciamo un'auto senza pilota
o un sistema robotico,
2:04 - 2:06

questo è il tipo di informazione che vuoi.
2:07 - 2:10

Vuoi qualcosa per poter interagire
con il mondo fisico.
2:10 - 2:13

Quando ho iniziato a lavorare
sul riconoscimento di oggetti,
2:13 - 2:16

servivano 20 secondi
per processare una sola immagine.
2:16 - 2:20

E per capire quanto è importante
la velocità in questo settore,
2:21 - 2:24

ecco un esempio
di un rilevatore di oggetti
2:24 - 2:26

che impiega due secondi
per processare un'immagine.
2:26 - 2:29

Quindi questo è 10 volte più veloce
2:29 - 2:32

del rilevatore a 20 secondi a immagine,
2:32 - 2:35

e potete vedere che nel momento in cui
fa le sue predizioni
2:35 - 2:37

l'aspetto del mondo è cambiato,
2:38 - 2:40

e questo non sarebbe utile
2:40 - 2:42

per un'applicazione.
2:42 - 2:44

Se velocizziamo di un altro fattore 10,
2:44 - 2:47

questo è un rilevatore che funziona
a cinque immagini al secondo.
2:47 - 2:49

È molto meglio,
2:49 - 2:51

ma, ad esempio,
2:51 - 2:53

se c'è un qualsiasi
movimento significativo,
2:53 - 2:56

non vorrei un sistema come questo
mentre guido.
2:57 - 2:59

Questo è il nostro sistema
di riconoscimento
2:59 - 3:01

in funzione in tempo reale
sul mio computer.
3:01 - 3:04

Quindi mi identifica senza problemi
mentre mi muovo sull'immagine,
3:04 - 3:08

ed è efficace anche quando
cambiano la taglia,
3:09 - 3:11

la posa,
3:11 - 3:13

avanti, indietro.
3:13 - 3:14

È fantastico.
3:14 - 3:16

Questo è ciò di cui
abbiamo davvero bisogno
3:16 - 3:19

se vogliamo costruire sistemi
basati sulla visione artificiale.
3:19 - 3:23

(Applausi)
3:24 - 3:26

Quindi in pochi anni,
3:26 - 3:29

siamo passati da 20 secondi a immagine
3:29 - 3:33

a 20 millisecondi a immagine,
mille volte più veloce.
3:33 - 3:34

Come ci siamo riusciti?
3:34 - 3:37

In passato, i sistemi
di riconoscimento di oggetti
3:37 - 3:39

avrebbero preso
un'immagine come questa
3:39 - 3:42

e l'avrebbero divisa
in un insieme di regioni
3:42 - 3:45

e poi passato un classificatore
su ognuna di queste regioni,
3:45 - 3:47

e punteggi elevati per quel classificatore
3:47 - 3:51

sarebbero stati considerati
come riconoscimenti nell'immagine.
3:51 - 3:52

Ma questo voleva dire
3:52 - 3:55

passare un classificatore
migliaia di volte su un'immagine,
3:55 - 3:58

migliaia di valutazioni di rete neurale
per produrre il riconoscimento.
3:59 - 4:04

Invece, abbiamo allenato una singola rete
a fare tutto il riconoscimento per noi.
4:04 - 4:08

Produce tutti i bounding boxes
e ordina le probabilità simultaneamente.
4:09 - 4:12

Con il nostro sistema, invece di guardare
un'immagine migliaia di volte
4:12 - 4:14

per ottenere il riconoscimento,
4:14 - 4:15

guardi una volta sola,
4:15 - 4:17

ed è per questo che lo chiamiamo
4:17 - 4:19

il metodo YOLO
del riconoscimento d'oggetti.
4:19 - 4:23

Con questa velocità possiamo quindi
non limitarci alle immagini;
4:23 - 4:26

ma possiamo processare video
in tempo reale.
4:26 - 4:29

E ora, invece di vedere solo
il cane e il gatto,
4:29 - 4:32

possiamo vederli muovere
e interagire tra loro.
4:35 - 4:37

Questo è un rilevatore
che abbiamo allenato
4:37 - 4:41

su 80 classi diverse
4:41 - 4:44

nel dataset COCO di Microsoft.
4:44 - 4:48

Contiene di tutto come cucchiaio
e forchetta, ciotola,
4:48 - 4:49

oggetti comuni come questi.
4:50 - 4:53

Ma anche una varietà di cose più esotiche:
4:53 - 4:57

animali, auto, zebre, giraffe.
4:57 - 4:59

E adesso facciamo qualcosa di divertente.
4:59 - 5:01

Ci metteremo in mezzo al pubblico
5:01 - 5:03

per vedere che tipo di oggetti
possiamo identificare.
5:03 - 5:05

Qualcuno vuole un peluche?
5:06 - 5:08

Ci sono degli orsacchiotti lì in mezzo.
5:10 - 5:15

E possiamo abbassare un po'
la nostra soglia di riconoscimento,
5:15 - 5:18

così possiamo riconoscervi meglio
in mezzo al pubblico.
5:20 - 5:22

Vediamo se riusciamo a trovare
dei segnali di stop.
5:22 - 5:24

Troviamo degli zaini.
5:26 - 5:28

Facciamo uno zoom.
5:30 - 5:32

Ed è fantastico.
5:32 - 5:35

E tutto il processo
avviene in tempo reale
5:35 - 5:36

sul computer.
5:37 - 5:38

Ed è importante ricordare
5:38 - 5:41

che questo è un sistema
di riconoscimento di oggetti
5:41 - 5:42

di uso generale,
5:42 - 5:47

quindi lo possiamo allenare
per qualsiasi settore di immagini.
5:48 - 5:51

Lo stesso codice che usiamo
5:51 - 5:53

per trovare segnali di stop o pedoni,
5:53 - 5:56

biciclette in un veicolo
con pilota automatico,
5:56 - 5:58

può essere usato per trovare
cellule cancerose
5:58 - 6:01

durante una biopsia.
6:01 - 6:05

E ci sono ricercatori in tutto il mondo
che stanno già usando questa tecnologia
6:06 - 6:10

per fare passi avanti in campi
come la medicina, la robotica.
6:10 - 6:11

Questa mattina, ho letto un articolo
6:11 - 6:16

in cui si parlava di un censimento
degli animali al Nairobi National Park
6:16 - 6:19

con YOLO integrato
nel sistema di riconoscimento.
6:19 - 6:22

Ed è perché Darknet è open source
6:22 - 6:25

ed è di dominio pubblico,
e chiunque può utilizzarlo liberamente.
6:26 - 6:31

(Applausi)
6:31 - 6:36

Ma volevamo rendere il riconoscimento
ancora più accessibile e fruibile,
6:36 - 6:40

e attraverso una combinazione
di ottimizzazione del modello,
6:40 - 6:43

binarizzazione di rete e approssimazione,
6:43 - 6:47

abbiamo un riconoscimento di oggetti
che funziona su un telefono.
6:53 - 6:58

(Applausi)
6:59 - 7:04

E sono davvero contento perché
abbiamo una soluzione piuttosto efficace
7:04 - 7:07

a questo problema di visione
di computer di basso livello,
7:07 - 7:10

e chiunque può prenderlo
e costruirci qualcosa.
7:10 - 7:13

Quindi il resto è nelle vostre mani
7:13 - 7:16

e in quelle delle persone nel mondo
che hanno accesso a questo software,
7:16 - 7:18

e sono impaziente di vedere
7:18 - 7:20

cosa le persone faranno
con questa tecnologia.
7:20 - 7:22

Grazie.
7:22 - 7:25

(Applausi)

Title:: Come un computer impara a riconoscere gli oggetti istantaneamente
Speaker:: Joseph Redmon
Description:: Dieci anni fa, i ricercatori pensavano che sarebbe stato quasi impossibile per un computer riconoscere la differenza tra un gatto e un cane. Oggi, i sistemi di visione computerizzati lo fanno con una precisione superiore al 99%. Come?
Joseph Redmon lavora al sistema YOLO (You Only Look Once), un metodo di riconoscimento di oggetti open-source che può identificare immagini e video -- dalle zebre ai segnali di stop -- in un batter d'occhio. In una notevole live demo, Redmon sfoggia gli importanti passi avanti fatti, in ambiti come le auto senza pilota, la robotica e la diagnosi del cancro.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Anna Cristiana Minoli approved Italian subtitles for How computers learn to recognize objects instantly
	Anna Cristiana Minoli edited Italian subtitles for How computers learn to recognize objects instantly
	Maria Carmina Distratto accepted Italian subtitles for How computers learn to recognize objects instantly
	Elisabetta Siagri edited Italian subtitles for How computers learn to recognize objects instantly
	Maria Carmina Distratto declined Italian subtitles for How computers learn to recognize objects instantly
	Maria Carmina Distratto edited Italian subtitles for How computers learn to recognize objects instantly
	Simone Morandi edited Italian subtitles for How computers learn to recognize objects instantly
	Elisabetta Siagri edited Italian subtitles for How computers learn to recognize objects instantly

Show all

Italian subtitles

Revisions

Revision 9 Edited

Anna Cristiana Minoli

Come un computer impara a riconoscere gli oggetti istantaneamente

Revisions

Our website uses cookies

Operating cookies (Required)