WEBVTT
00:00:03.466 --> 00:00:06.104
Lasciate che vi mostri qualcosa.
NOTE Paragraph
00:00:06.104 --> 00:00:09.730
Ok, è un gatto seduto sul letto.
00:00:10.150 --> 00:00:13.110
Il ragazzo sta accarezzando l'elefante.
00:00:14.380 --> 00:00:18.474
Sono persone
che salgono su un aereo.
00:00:18.474 --> 00:00:21.214
È un grande aereo.
NOTE Paragraph
00:00:21.214 --> 00:00:23.460
È una bambina di tre anni
00:00:23.460 --> 00:00:27.349
che descrive ciò
che vede nelle foto.
00:00:27.349 --> 00:00:30.314
Anche se ha ancora tanto da imparare,
NOTE Paragraph
00:00:30.314 --> 00:00:34.973
è già un'esperta in
un compito importante:
00:00:34.973 --> 00:00:37.589
capire ciò che vede.
00:00:37.999 --> 00:00:42.405
La tecnologia nella nostra
società è più sviluppata che mai.
00:00:42.405 --> 00:00:46.084
Mandiamo persone sulla Luna,
creiamo cellulari che ci parlano
00:00:46.084 --> 00:00:51.140
o personalizziamo le stazioni radio
per ascoltare la musica che ci piace.
00:00:51.140 --> 00:00:55.085
Eppure, i computer
e i dispositivi più avanzati
00:00:55.085 --> 00:00:57.898
non sono ancora in grado
di svolgere questo compito.
00:00:57.898 --> 00:01:01.497
Oggi vi mostrerò
un rapporto di avanzamento
00:01:01.497 --> 00:01:05.494
sui progressi della nostra
ricerca sulla visione artificiale,
00:01:05.494 --> 00:01:09.655
una delle tecnologie informatiche
00:01:09.655 --> 00:01:12.861
più rivoluzionarie.
NOTE Paragraph
00:01:12.861 --> 00:01:17.412
Sì, abbiamo prototipi
di auto che si guidano da sole,
00:01:17.412 --> 00:01:21.265
ma senza la smart vision,
non riescono a distinguere fra
00:01:21.265 --> 00:01:25.315
un sacchetto spiegazzato sulla
strada che può essere investito
00:01:25.315 --> 00:01:28.575
e una pietra che sarebbe da evitare.
00:01:29.365 --> 00:01:32.945
Abbiamo creato favolose
fotocamere con megapixel,
00:01:32.945 --> 00:01:35.940
ma non abbiamo
ancora ridato la vista ai ciechi.
00:01:36.420 --> 00:01:39.505
I droni volano su
grandi parti di terra,
00:01:39.505 --> 00:01:42.729
ma la loro tecnologia visiva non basta
00:01:42.729 --> 00:01:45.370
a monitorare
le variazioni delle foreste pluviali.
00:01:45.370 --> 00:01:48.420
Ci sono telecamere
a circuito chiuso ovunque,
00:01:48.420 --> 00:01:53.337
che però non ci avvertono quando
un bambino sta affogando in una piscina.
NOTE Paragraph
00:01:54.167 --> 00:01:59.622
Video e foto stanno diventando
parte integrante della vita globale.
00:01:59.622 --> 00:02:03.849
Sono generati a un ritmo
più veloce di quello che ogni uomo
00:02:03.849 --> 00:02:06.822
o gruppi di uomini spera di poter avere,
00:02:06.822 --> 00:02:10.633
e vi contribuiamo in questo TED.
00:02:10.633 --> 00:02:15.785
Eppure il nostro software più
avanzato non riesce ancora a capire
00:02:15.785 --> 00:02:19.661
e amministrare quest'enorme contenuto.
00:02:19.661 --> 00:02:21.883
In altri termini collettivamente
00:02:22.033 --> 00:02:26.319
siamo una società di ciechi
00:02:26.319 --> 00:02:30.436
perché le nostre macchine più
intelligenti sono ancora cieche.
NOTE Paragraph
00:02:31.456 --> 00:02:34.192
Vi chiederete perché sia così difficile.
00:02:34.192 --> 00:02:36.855
Le fotocamere scattano foto come questa,
00:02:36.855 --> 00:02:40.809
trasformando le luci in
una matrice bidimensionale di numeri,
00:02:40.809 --> 00:02:42.789
i pixels,
00:02:42.789 --> 00:02:45.040
però sono solo numeri senza vita.
00:02:45.040 --> 00:02:48.151
Non hanno alcun significato di per sé.
00:02:48.151 --> 00:02:52.394
Proprio come udire non è come ascoltare,
00:02:52.394 --> 00:02:56.424
scattare foto non è come vedere,
00:02:56.424 --> 00:03:00.363
e con vedere intendiamo capire.
00:03:01.293 --> 00:03:07.470
In effetti, ci sono voluti 540 milioni
anni di duro lavoro a Madre Natura
00:03:07.470 --> 00:03:09.443
per completare questo compito,
00:03:09.443 --> 00:03:11.254
e gran parte di questo sforzo
00:03:11.254 --> 00:03:16.385
è andato allo sviluppo
dell'elaborazione ottica del cervello,
00:03:16.385 --> 00:03:19.022
non agli occhi.
00:03:19.022 --> 00:03:21.989
Quindi la visione inizia con gli occhi,
00:03:21.989 --> 00:03:25.507
ma in realtà avviene nel cervello.
NOTE Paragraph
00:03:26.507 --> 00:03:31.057
Dunque da 15 anni,
prima con il Ph.D al Caltech
00:03:31.057 --> 00:03:33.873
e poi a capo del Vision Lab di Stanford,
00:03:33.873 --> 00:03:38.959
lavoro con i miei
mentori, collaboratori e studenti
00:03:38.959 --> 00:03:41.558
per insegnare ai computer a vedere.
00:03:42.358 --> 00:03:46.062
Il campo di ricerca si chiama visione
artificiale e apprendimento automatico.
00:03:46.062 --> 00:03:51.300
Fa parte del campo
generale dell'intelligenza artificiale.
00:03:51.300 --> 00:03:56.393
Allora in sostanza, vogliamo insegnare
alle macchine a vedere proprio come noi:
00:03:56.393 --> 00:04:01.880
indicare cose, riconoscere persone,
dedurre la geometria 3D degli oggetti,
00:04:01.880 --> 00:04:07.568
comprendere relazioni,
emozioni, azioni e intenzioni.
00:04:07.568 --> 00:04:13.801
Tessiamo intere storie
di persone, luoghi e cose
00:04:13.801 --> 00:04:17.365
quando fissiamo lo sguardo su di loro.
NOTE Paragraph
00:04:17.365 --> 00:04:22.648
Il primo passo verso questo scopo è
insegnare a un computer a vedere cose,
00:04:22.648 --> 00:04:25.966
il mattone del mondo visivo.
00:04:25.966 --> 00:04:30.340
In parole povere immaginate
questo processo d'insegnamento
00:04:30.340 --> 00:04:33.405
come mostrare ai computer immagini
00:04:33.405 --> 00:04:36.776
di un oggetto specifico, come gatti,
00:04:36.776 --> 00:04:41.393
e creare un modello che
impara da queste immagini.
00:04:41.393 --> 00:04:43.137
Quanto può essere difficile?
00:04:43.137 --> 00:04:47.679
Dopotutto, un gatto è solo
un insieme di forme e colori,
00:04:47.679 --> 00:04:51.435
e l'abbiamo fatto nella prima
fase di realizzazione dei modelli.
00:04:51.435 --> 00:04:55.197
Abbiamo detto all'algoritmo
con un linguaggio matematico
00:04:55.197 --> 00:04:58.430
che un gatto ha una
faccia tonda, un corpo paffuto,
00:04:58.430 --> 00:05:00.619
due orecchie a punta e una coda lunga,
00:05:00.619 --> 00:05:02.249
e fin qui tutto ok.
00:05:02.669 --> 00:05:04.972
Ma che dire di questo gatto?
00:05:04.972 --> 00:05:05.913
(Risate)
00:05:05.913 --> 00:05:07.339
È tutto accartocciato.
00:05:07.339 --> 00:05:12.338
Ora si deve aggiungere un'altra
forma e punto di vista al modello.
00:05:12.338 --> 00:05:14.123
Ma se i gatti sono nascosti?
00:05:15.143 --> 00:05:17.362
Che dire di questi gatti sciocchi?
00:05:19.522 --> 00:05:21.529
Ora mi capite.
00:05:21.529 --> 00:05:24.896
Anche qualcosa di semplice
come un animale domestico
00:05:24.896 --> 00:05:29.170
può presentare
un numero infinito di variazioni,
00:05:29.170 --> 00:05:31.633
ed è un oggetto solo.
NOTE Paragraph
00:05:32.573 --> 00:05:35.065
Allora otto anni fa,
00:05:35.065 --> 00:05:40.095
un'osservazione molto semplice
e profonda ha cambiato il mio parere.
00:05:41.425 --> 00:05:44.050
Nessuno dice a un bambino come vedere,
00:05:44.050 --> 00:05:46.201
soprattutto nei primi anni.
00:05:46.201 --> 00:05:51.371
Lo imparano con
esperienze e esempi del mondo reale.
00:05:51.371 --> 00:05:53.921
Se considerate gli occhi di un bambino
00:05:53.921 --> 00:05:56.625
come un paio di fotocamere biologiche,
00:05:56.625 --> 00:06:00.615
scattano una foto ogni 200 millisecondi,
00:06:00.615 --> 00:06:03.869
il tempo medio di
un movimento dell'occhio.
00:06:03.869 --> 00:06:09.259
Dunque entro i 3 anni, un bambino
vede centinaia di migliaia di immagini
00:06:09.259 --> 00:06:11.053
del mondo reale.
00:06:11.053 --> 00:06:13.643
Questi sono tanti esempi d'insegnamento.
00:06:14.293 --> 00:06:20.232
Così invece di concentrarci
solo su algoritmi sempre migliori,
00:06:20.232 --> 00:06:25.814
la mia idea era dare
agli algoritmi dati d'insegnamento
00:06:25.814 --> 00:06:28.793
come quelli che
un bambino ottiene con le esperienze
00:06:28.793 --> 00:06:32.841
con la stessa qualità e quantità.
NOTE Paragraph
00:06:32.841 --> 00:06:34.579
Una volta capito questo,
00:06:34.579 --> 00:06:37.670
dovevamo accumulare un set di dati
00:06:37.670 --> 00:06:41.799
che aveva più immagini che mai,
00:06:41.799 --> 00:06:44.706
forse migliaia di volte di più,
00:06:44.706 --> 00:06:48.817
e con il Professore Kai Li
dell'Università di Princeton,
00:06:48.817 --> 00:06:54.049
abbiamo lanciato
il progetto ImageNet nel 2007.
00:06:54.049 --> 00:06:57.167
Per fortuna non abbiamo dovuto
montare una videocamera in testa
00:06:57.167 --> 00:06:58.951
e aspettare tanti anni.
00:06:58.951 --> 00:07:00.634
Siamo andati su Internet,
00:07:00.634 --> 00:07:05.310
il più grande tesoro d'immagini
che gli uomini abbiano mai creato.
00:07:05.310 --> 00:07:08.111
Abbiamo scaricato
quasi un miliardo d'immagini
00:07:08.111 --> 00:07:13.781
e usato il crowdsourcing
come Amazon Mechanical Turk
00:07:13.781 --> 00:07:16.330
per aiutarci a etichettarle.
00:07:16.330 --> 00:07:21.540
Al suo culumine ImageNet era
uno dei maggiori datori di lavoro
00:07:21.540 --> 00:07:24.396
di Amazon Mechanical Turk:
00:07:24.396 --> 00:07:28.480
insieme, quasi 50.000 dipendenti
00:07:28.480 --> 00:07:32.120
di 167 paesi in tutto il mondo
00:07:32.120 --> 00:07:36.067
ci hanno aiutato a
pulire, smistare e etichettare
00:07:36.067 --> 00:07:40.012
quasi un miliardo di aspiranti immagini.
00:07:40.492 --> 00:07:43.265
Ecco lo sforzo che c'è voluto
00:07:43.265 --> 00:07:46.965
a catturare persino
una frazione delle immagini
00:07:46.965 --> 00:07:51.336
della mente infantile
nei primi anni di sviluppo.
NOTE Paragraph
00:07:51.888 --> 00:07:56.190
A cose fatte l'idea di usare Big Data
00:07:56.190 --> 00:08:00.350
per addestrare algoritmi
informatici forse oggi sembra ovvia,
00:08:00.350 --> 00:08:04.410
però nel 2007 non lo era così tanto.
00:08:04.410 --> 00:08:08.398
Per un bel po' siamo
stati soli in questo viaggio.
00:08:08.398 --> 00:08:12.111
Dei colleghi mi hanno consigliato di
fare qualcosa di più utile all'incarico
00:08:12.111 --> 00:08:17.603
e avevamo di continuo
difficoltà con il finanziamento.
00:08:17.603 --> 00:08:20.308
Una volta ho scherzato con i miei studenti
00:08:20.308 --> 00:08:24.331
dicendo che avrei riaperto
la lavanderia per finanziare ImageNet.
00:08:24.331 --> 00:08:28.992
Alla fine in questo modo
ho finanziato i miei anni al college.
NOTE Paragraph
00:08:28.992 --> 00:08:30.728
Allora abbiamo continuato.
00:08:30.728 --> 00:08:34.943
Nel 2009 ImageNet project ha consegnato
00:08:34.943 --> 00:08:38.625
un database di 15 milioni d'immagini
00:08:38.625 --> 00:08:43.780
in 22.000 categorie di oggetti e cose
00:08:43.780 --> 00:08:46.720
organizzate in parole di uso quotidiano.
00:08:46.720 --> 00:08:49.726
Sia in quantità sia in qualità
00:08:49.726 --> 00:08:53.588
era una scala senza precedenti.
00:08:53.588 --> 00:08:56.579
Per esempio, nel caso dei gatti,
00:08:56.579 --> 00:08:59.358
abbiamo più di 62.000 gatti
00:08:59.358 --> 00:09:03.118
di tutti i tipi di aspetto e pose
00:09:03.118 --> 00:09:08.321
e in tutte le specie
di gatti domestici e selvatici.
00:09:08.321 --> 00:09:11.635
Eravamo emozionati per il
completamento di ImageNet,
00:09:11.635 --> 00:09:15.313
e volevamo che tutto
il mondo di ricerca ne beneficiasse,
00:09:15.313 --> 00:09:19.384
così come TED abbiamo
aperto gratis tutto il set di dati
00:09:19.384 --> 00:09:23.196
alla comunità di ricerca mondiale.
00:09:24.636 --> 00:09:28.636
(Applausi)
NOTE Paragraph
00:09:29.276 --> 00:09:33.724
Ora grazie ai dati per nutrire
il cervello del nostro computer
00:09:33.724 --> 00:09:37.541
siamo pronti a ritornare agli algoritmi.
00:09:37.541 --> 00:09:42.639
Infatti, la ricchezza
d'informazioni di ImageNet
00:09:42.639 --> 00:09:47.675
era perfetta per una particolare classe
di algoritmi di apprendimento automatico
00:09:47.675 --> 00:09:50.090
chiamata rete neurale,
00:09:50.090 --> 00:09:55.268
innovazione di Kunihiko
Fukushima, Geoff Hinton e Yann LeCun
00:09:55.268 --> 00:09:58.983
negli anni '70 e '80.
00:09:58.983 --> 00:10:04.602
Proprio come il cervello è fatto
di miliardi di neuroni ben collegati,
00:10:04.602 --> 00:10:08.456
un'unità operativa
elementare in una rete neurale
00:10:08.456 --> 00:10:10.681
è un nodo tipo neurone.
00:10:10.681 --> 00:10:13.255
Prende input di altri nodi
00:10:13.255 --> 00:10:16.033
e invia output a altri.
00:10:16.033 --> 00:10:20.856
Inoltre quelle centinaia
di migliaia o persino milioni di nodi
00:10:20.856 --> 00:10:23.973
sono organizzate in strati gerarchici,
00:10:23.973 --> 00:10:26.387
anche simili al cervello.
00:10:26.387 --> 00:10:30.520
In una tipica rete neurale usata per
addestrare il modello di riconoscimento
00:10:30.520 --> 00:10:34.601
ci sono 24 milioni di nodi,
00:10:34.601 --> 00:10:37.328
140 milioni di parametri
00:10:37.328 --> 00:10:40.271
e 15 miliardi di connessioni.
00:10:40.271 --> 00:10:43.076
È un modello enorme.
00:10:43.076 --> 00:10:46.937
Alimentata dai dati di ImageNet
00:10:46.937 --> 00:10:52.170
e dalle moderne CPU e GPU
per addestrare un modello così immenso,
00:10:52.170 --> 00:10:54.199
la rete neurale convoluzionale
00:10:54.199 --> 00:10:58.075
è sbocciata in un modo
che nessuno si aspettava.
00:10:58.075 --> 00:11:01.013
È diventata l'architettura vincente
00:11:01.013 --> 00:11:06.063
che genera risultati eclatanti
nel riconoscimento degli oggetti.
00:11:06.063 --> 00:11:08.793
Questo è un computer che ci dice
00:11:08.793 --> 00:11:11.173
che in questa foto c'è un gatto
00:11:11.173 --> 00:11:12.736
e dov'è il gatto.
00:11:12.736 --> 00:11:15.128
Certo ci sono anche
altre cose oltre ai gatti
00:11:15.128 --> 00:11:17.436
quindi ecco
un algoritmo informatico che ci dice
00:11:17.436 --> 00:11:20.600
che nella foto ci sono
un ragazzo e un orsacchiotto;
00:11:20.600 --> 00:11:25.046
un cane, una persona e
un aquilone sullo sfondo;
00:11:25.046 --> 00:11:28.401
o una foto di molte cose curiose
00:11:28.401 --> 00:11:33.435
come un uomo, uno skateboard,
ringhiere, un lampione e così via.
00:11:33.435 --> 00:11:38.338
A volte quando il computer non
è tanto sicuro di quello che vede,
00:11:39.498 --> 00:11:42.074
gli insegnamo a
essere abbastanza intelligente
00:11:42.074 --> 00:11:45.342
da darci una risposta
sicura invece d'impegnarsi troppo,
00:11:45.342 --> 00:11:48.103
proprio come faremmo noi,
00:11:48.103 --> 00:11:53.009
ma altre volte gli algoritmi ci
dicono in modo eccezionale
00:11:53.009 --> 00:11:55.172
esattamente che oggetti sono,
00:11:55.172 --> 00:11:58.818
come tipo, modello,
anno delle macchine.
NOTE Paragraph
00:11:58.818 --> 00:12:04.014
Abbiamo applicato questi algoritmi
a tante immagini di Google Street View
00:12:04.014 --> 00:12:07.049
in centinaia di città americane
00:12:07.049 --> 00:12:10.315
e abbiamo imparato
una cosa molto interessante:
00:12:10.315 --> 00:12:13.585
primo, ha confermato
il nostro sapere comune
00:12:13.585 --> 00:12:16.875
che i prezzi delle auto
sono legati molto bene
00:12:16.875 --> 00:12:19.020
ai redditi familiari.
00:12:19.020 --> 00:12:23.597
Ma stupisce che i prezzi
delle auto siano legati bene anche
00:12:23.597 --> 00:12:26.517
al tasso di criminalità nelle città,
00:12:26.517 --> 00:12:30.970
o agli schemi di
votazione con codici postali.
NOTE Paragraph
00:12:31.650 --> 00:12:34.096
Allora aspettate. Ce l'abbiamo fatta?
00:12:34.096 --> 00:12:39.629
Il computer ha già le stesse
capacità dell'uomo o perfino migliori?
00:12:39.629 --> 00:12:41.557
Non ancora.
00:12:41.557 --> 00:12:46.480
Finora abbiamo insegnato
ai computer a vedere oggetti.
00:12:46.480 --> 00:12:51.074
È come un bambino piccolo che
impara a pronunciare alcuni sostantivi.
00:12:51.074 --> 00:12:53.604
È un risultato incredibile,
00:12:53.604 --> 00:12:56.254
ma è solo il primo passo.
00:12:56.254 --> 00:12:59.906
Presto raggiungeremo
un'altra pietra miliare dello sviluppo
00:12:59.906 --> 00:13:03.917
e i bambini inizieranno
a comunicare con frasi.
00:13:03.917 --> 00:13:07.701
Allora invece di dire
che c'è un gatto nella foto,
00:13:07.701 --> 00:13:13.283
avete sentito la ragazzina dire
che è un gatto sdraiato sul letto.
NOTE Paragraph
00:13:13.283 --> 00:13:18.498
Quindi per insegnare al computer
a vedere una foto e generare frasi,
00:13:18.498 --> 00:13:22.246
il connubio fra Big Data e
algoritmo di apprendimento automatico
00:13:22.246 --> 00:13:24.271
deve fare un altro passo.
00:13:24.271 --> 00:13:28.877
Ora il computer deve
imparare sia dalle foto
00:13:28.877 --> 00:13:31.733
che dalle frasi naturali
00:13:31.733 --> 00:13:35.055
generate dagli uomini.
00:13:35.055 --> 00:13:39.188
Proprio come il cervello
integra lingua e visione,
00:13:39.188 --> 00:13:44.109
abbiamo sviluppato un modello
che collega parti di oggetti ottici
00:13:44.109 --> 00:13:45.923
come frammenti ottici
00:13:45.923 --> 00:13:51.026
a parole e espressioni nelle frasi.
NOTE Paragraph
00:13:51.026 --> 00:13:52.789
Circa quattro mesi fa,
00:13:52.789 --> 00:13:55.356
abbiamo finalmente provato tutto insieme
00:13:55.356 --> 00:13:59.310
e prodotto uno dei primi
modelli di visione artificiale
00:13:59.310 --> 00:14:03.554
capace di generare
una frase tipo quella umana
00:14:03.554 --> 00:14:07.080
quando vede
una foto per la prima volta.
00:14:07.080 --> 00:14:11.554
Ora sono pronta
a mostrarvi cosa dice il computer
00:14:11.554 --> 00:14:13.359
quando vede la foto
00:14:13.359 --> 00:14:17.359
che la ragazzina ha visto
all'inizio di questa conferenza.
NOTE Paragraph
00:14:18.879 --> 00:14:22.863
Un uomo in piedi
vicino a un elefante.
00:14:24.333 --> 00:14:28.027
Un grande aereo
sulla pista di un aeroporto.
NOTE Paragraph
00:14:28.977 --> 00:14:33.269
Certo, lavoriamo duro
per migliorare i nostri algoritmi
00:14:33.269 --> 00:14:35.865
e ci sono ancora molte cose da imparare.
00:14:35.865 --> 00:14:38.156
(Applausi)
NOTE Paragraph
00:14:39.416 --> 00:14:42.707
E il computer fa ancora errori.
NOTE Paragraph
00:14:42.707 --> 00:14:45.958
Un gatto sdraiato
a letto con una coperta.
NOTE Paragraph
00:14:45.958 --> 00:14:48.431
Quindi quando vede troppi gatti,
00:14:48.431 --> 00:14:51.747
crede che tutto
somigli a un gatto.
NOTE Paragraph
00:14:53.317 --> 00:14:56.181
Un ragazzino con una mazza da baseball.
00:14:56.181 --> 00:14:57.426
(Risate)
NOTE Paragraph
00:14:57.426 --> 00:15:02.529
Se non ha mai visto uno spazzolino
lo confonde con una mazza da baseball.
NOTE Paragraph
00:15:03.139 --> 00:15:06.743
Un uomo a cavallo
in una strada vicino a un edificio.
00:15:06.743 --> 00:15:08.366
(Risate)
NOTE Paragraph
00:15:08.366 --> 00:15:12.318
Non abbiamo
insegnato l'Art. 101 ai computer.
NOTE Paragraph
00:15:13.428 --> 00:15:16.302
Una zebra in una prateria.
NOTE Paragraph
00:15:16.302 --> 00:15:20.019
E non ha imparato a apprezzare
la magnifica bellezza della natura
00:15:20.019 --> 00:15:22.147
come me e voi.
NOTE Paragraph
00:15:22.147 --> 00:15:25.049
Quindi è un lungo vaggio.
00:15:25.049 --> 00:15:29.245
Andare dall'età zero
all'età tre era faticoso.
00:15:29.245 --> 00:15:35.111
La vera sfida è andare
da 3 a 13 e più lontano.
00:15:35.111 --> 00:15:39.326
Ripensate alla foto
del bambino con la torta.
00:15:39.326 --> 00:15:43.770
Finora abbiamo insegnato
al computer a vedere oggetti
00:15:43.770 --> 00:15:47.758
o a raccontarci una semplice
storia quando vede un'immagine.
NOTE Paragraph
00:15:47.758 --> 00:15:51.574
Una persona seduta
a tavola con una torta.
NOTE Paragraph
00:15:51.574 --> 00:15:53.714
Ma c'è molto di più in questa foto
00:15:53.714 --> 00:15:56.044
di una persona con una torta.
00:15:56.044 --> 00:16:00.941
Ciò che il computer non vede è
che è una torta italiana speciale
00:16:00.941 --> 00:16:03.868
che si serve solo a Pasqua.
00:16:03.868 --> 00:16:07.003
Il bambino indossa
la sua t-shirt preferita
00:16:07.003 --> 00:16:11.333
regalatagli dal padre
dopo un viaggio a Sidney,
00:16:11.333 --> 00:16:15.001
e possiamo notare quanto sia felice
00:16:15.001 --> 00:16:18.344
e cosa c'è di preciso
nella sua mente in quel momento.
NOTE Paragraph
00:16:18.974 --> 00:16:22.109
Questo è mio figlio Leo.
00:16:22.109 --> 00:16:24.693
Nella mia ricerca
dell'intelligenza ottica,
00:16:24.693 --> 00:16:27.024
penso a Leo di continuo
00:16:27.024 --> 00:16:29.887
e al mondo futuro in cui vivrà.
00:16:29.887 --> 00:16:32.068
Quando le macchine potranno vedere,
00:16:32.068 --> 00:16:36.990
i medici e gli infermieri avranno
un paio extra di occhi instancabili
00:16:36.990 --> 00:16:41.082
a aiutarli
con diagnosi e cura dei pazienti.
00:16:41.082 --> 00:16:45.465
Le auto saranno più
intelligenti e sicure sulla strada.
00:16:45.465 --> 00:16:48.049
I robot, non solo gli umani,
00:16:48.049 --> 00:16:53.008
ci aiuteranno a salvare
persone intrappolate e ferite.
00:16:53.368 --> 00:16:57.594
Scopriremo nuove
specie, materiali migliori,
00:16:57.594 --> 00:17:02.103
e esploreremo frontiere
invisibili con l'aiuto delle macchine.
NOTE Paragraph
00:17:02.883 --> 00:17:07.280
Un po' alla volta
diamo la vista alle macchine.
00:17:07.280 --> 00:17:09.858
In primo luogo le insegnamo a vedere.
00:17:09.858 --> 00:17:12.841
Poi ci aiutano a vedere meglio.
00:17:12.841 --> 00:17:16.746
Per la prima volta
gli occhi umani non saranno i soli
00:17:16.746 --> 00:17:19.770
a meditare e esplorare il nostro mondo.
00:17:19.770 --> 00:17:23.400
Useremo le macchine non
solo per la loro intelligenza,
00:17:23.400 --> 00:17:29.499
ma collaboreremo anche con loro
in modi che neanche immaginiamo.
NOTE Paragraph
00:17:29.499 --> 00:17:31.740
Questa è la mia ricerca:
00:17:31.740 --> 00:17:34.862
dare ai computer intelligenza ottica
00:17:34.862 --> 00:17:39.273
e creare un futuro
migliore per Leo e per il mondo.
NOTE Paragraph
00:17:39.273 --> 00:17:41.394
Grazie.
NOTE Paragraph
00:17:41.394 --> 00:17:45.179
(Applausi)