WEBVTT

00:00:03.466 --> 00:00:06.104
Lasciate che vi mostri qualcosa.

NOTE Paragraph

00:00:06.104 --> 00:00:09.730
<i>Ok, è un gatto seduto sul letto.</i>

00:00:10.150 --> 00:00:13.110
<i>Il ragazzo sta accarezzando l'elefante.</i>

00:00:14.380 --> 00:00:18.474
<i>Sono persone 
che salgono su un aereo.</i>

00:00:18.474 --> 00:00:21.214
<i>È un grande aereo.</i>

NOTE Paragraph

00:00:21.214 --> 00:00:23.460
È una bambina di tre anni

00:00:23.460 --> 00:00:27.349
che descrive ciò 
che vede nelle foto.

00:00:27.349 --> 00:00:30.314
Anche se ha ancora tanto da imparare,

NOTE Paragraph

00:00:30.314 --> 00:00:34.973
è già un'esperta in
un compito importante:

00:00:34.973 --> 00:00:37.589
capire ciò che vede.

00:00:37.999 --> 00:00:42.405
La tecnologia nella nostra 
società è più sviluppata che mai.

00:00:42.405 --> 00:00:46.084
Mandiamo persone sulla Luna,
creiamo cellulari che ci parlano

00:00:46.084 --> 00:00:51.140
o personalizziamo le stazioni radio
per ascoltare la musica che ci piace.

00:00:51.140 --> 00:00:55.085
Eppure, i computer
e i dispositivi più avanzati

00:00:55.085 --> 00:00:57.898
non sono ancora in grado
di svolgere questo compito.

00:00:57.898 --> 00:01:01.497
Oggi vi mostrerò
un rapporto di avanzamento

00:01:01.497 --> 00:01:05.494
sui progressi della nostra
ricerca sulla visione artificiale,

00:01:05.494 --> 00:01:09.655
una delle tecnologie informatiche

00:01:09.655 --> 00:01:12.861
più rivoluzionarie.

NOTE Paragraph

00:01:12.861 --> 00:01:17.412
Sì, abbiamo prototipi 
di auto che si guidano da sole,

00:01:17.412 --> 00:01:21.265
ma senza la smart vision,
non riescono a distinguere fra

00:01:21.265 --> 00:01:25.315
un sacchetto spiegazzato sulla 
strada che può essere investito

00:01:25.315 --> 00:01:28.575
e una pietra che sarebbe da evitare.

00:01:29.365 --> 00:01:32.945
<i>Abbiamo creato favolose
fotocamere con megapixel,</i>

00:01:32.945 --> 00:01:35.940
<i>ma non abbiamo
ancora ridato la vista ai ciechi.</i>

00:01:36.420 --> 00:01:39.505
<i>I droni volano su
grandi parti di terra,</i>

00:01:39.505 --> 00:01:42.729
<i>ma la loro tecnologia visiva non basta</i>

00:01:42.729 --> 00:01:45.370
<i>a monitorare 
le variazioni delle foreste pluviali.</i>

00:01:45.370 --> 00:01:48.420
Ci sono telecamere 
a circuito chiuso ovunque,

00:01:48.420 --> 00:01:53.337
che però non ci avvertono quando
un bambino sta affogando in una piscina.

NOTE Paragraph

00:01:54.167 --> 00:01:59.622
Video e foto stanno diventando 
parte integrante della vita globale.

00:01:59.622 --> 00:02:03.849
Sono generati a un ritmo
più veloce di quello che ogni uomo

00:02:03.849 --> 00:02:06.822
o gruppi di uomini spera di poter avere,

00:02:06.822 --> 00:02:10.633
e vi contribuiamo in questo TED.

00:02:10.633 --> 00:02:15.785
Eppure il nostro software più
avanzato non riesce ancora a capire

00:02:15.785 --> 00:02:19.661
e amministrare quest'enorme contenuto.

00:02:19.661 --> 00:02:21.883
In altri termini collettivamente

00:02:22.033 --> 00:02:26.319
siamo una società di ciechi

00:02:26.319 --> 00:02:30.436
perché le nostre macchine più 
intelligenti sono ancora cieche.

NOTE Paragraph

00:02:31.456 --> 00:02:34.192
Vi chiederete perché sia così difficile.

00:02:34.192 --> 00:02:36.855
<i>Le fotocamere scattano foto come questa,</i>

00:02:36.855 --> 00:02:40.809
<i>trasformando le luci in 
una matrice bidimensionale di numeri,</i>

00:02:40.809 --> 00:02:42.789
<i>i pixels,</i>

00:02:42.789 --> 00:02:45.040
<i>però sono solo numeri senza vita.</i>

00:02:45.040 --> 00:02:48.151
Non hanno alcun significato di per sé.

00:02:48.151 --> 00:02:52.394
Proprio come udire non è come ascoltare,

00:02:52.394 --> 00:02:56.424
scattare foto non è come vedere,

00:02:56.424 --> 00:03:00.363
e con vedere intendiamo capire.

00:03:01.293 --> 00:03:07.470
<i>In effetti, ci sono voluti 540 milioni
anni di duro lavoro a Madre Natura</i>

00:03:07.470 --> 00:03:09.443
<i>per completare questo compito,</i>

00:03:09.443 --> 00:03:11.254
<i>e gran parte di questo sforzo</i>

00:03:11.254 --> 00:03:16.385
<i>è andato allo sviluppo 
dell'elaborazione ottica del cervello,</i>

00:03:16.385 --> 00:03:19.022
<i>non agli occhi.</i>

00:03:19.022 --> 00:03:21.989
<i>Quindi la visione inizia con gli occhi,</i>

00:03:21.989 --> 00:03:25.507
<i>ma in realtà avviene nel cervello.</i>

NOTE Paragraph

00:03:26.507 --> 00:03:31.057
Dunque da 15 anni, 
prima con il Ph.D al Caltech

00:03:31.057 --> 00:03:33.873
e poi a capo del Vision Lab di Stanford,

00:03:33.873 --> 00:03:38.959
<i>lavoro con i miei 
mentori, collaboratori e studenti</i>

00:03:38.959 --> 00:03:41.558
per insegnare ai computer a vedere.

00:03:42.358 --> 00:03:46.062
Il campo di ricerca si chiama visione 
artificiale e apprendimento automatico.

00:03:46.062 --> 00:03:51.300
Fa parte del campo 
generale dell'intelligenza artificiale.

00:03:51.300 --> 00:03:56.393
Allora in sostanza, vogliamo insegnare
alle macchine a vedere proprio come noi:

00:03:56.393 --> 00:04:01.880
<i>indicare cose, riconoscere persone, 
dedurre la geometria 3D degli oggetti,</i>

00:04:01.880 --> 00:04:07.568
<i>comprendere relazioni, 
emozioni, azioni e intenzioni.</i>

00:04:07.568 --> 00:04:13.801
Tessiamo intere storie
di persone, luoghi e cose

00:04:13.801 --> 00:04:17.365
quando fissiamo lo sguardo su di loro.

NOTE Paragraph

00:04:17.365 --> 00:04:22.648
Il primo passo verso questo scopo è
insegnare a un computer a vedere cose,

00:04:22.648 --> 00:04:25.966
il mattone del mondo visivo.

00:04:25.966 --> 00:04:30.340
<i>In parole povere immaginate
questo processo d'insegnamento</i>

00:04:30.340 --> 00:04:33.405
come mostrare ai computer immagini

00:04:33.405 --> 00:04:36.776
di un oggetto specifico, come gatti,

00:04:36.776 --> 00:04:41.393
<i>e creare un modello che 
impara da queste immagini.</i>

00:04:41.393 --> 00:04:43.137
<i>Quanto può essere difficile?</i>

00:04:43.137 --> 00:04:47.679
<i>Dopotutto, un gatto è solo
un insieme di forme e colori,</i>

00:04:47.679 --> 00:04:51.435
<i>e l'abbiamo fatto nella prima 
fase di realizzazione dei modelli.</i>

00:04:51.435 --> 00:04:55.197
Abbiamo detto all'algoritmo 
con un linguaggio matematico

00:04:55.197 --> 00:04:58.430
che un gatto ha una 
faccia tonda, un corpo paffuto,

00:04:58.430 --> 00:05:00.619
due orecchie a punta e una coda lunga,

00:05:00.619 --> 00:05:02.249
e fin qui tutto ok.

00:05:02.669 --> 00:05:04.972
<i>Ma che dire di questo gatto?</i>

00:05:04.972 --> 00:05:05.913
<i>(Risate)</i>

00:05:05.913 --> 00:05:07.339
<i>È tutto accartocciato.</i>

00:05:07.339 --> 00:05:12.338
<i>Ora si deve aggiungere un'altra 
forma e punto di vista al modello.</i>

00:05:12.338 --> 00:05:14.123
<i>Ma se i gatti sono nascosti?</i>

00:05:15.143 --> 00:05:17.362
<i>Che dire di questi gatti sciocchi?</i>

00:05:19.522 --> 00:05:21.529
Ora mi capite.

00:05:21.529 --> 00:05:24.896
Anche qualcosa di semplice 
come un animale domestico

00:05:24.896 --> 00:05:29.170
può presentare 
un numero infinito di variazioni,

00:05:29.170 --> 00:05:31.633
ed è un oggetto solo.

NOTE Paragraph

00:05:32.573 --> 00:05:35.065
Allora otto anni fa,

00:05:35.065 --> 00:05:40.095
un'osservazione molto semplice 
e profonda ha cambiato il mio parere.

00:05:41.425 --> 00:05:44.050
Nessuno dice a un bambino come vedere,

00:05:44.050 --> 00:05:46.201
soprattutto nei primi anni.

00:05:46.201 --> 00:05:51.371
Lo imparano con 
esperienze e esempi del mondo reale.

00:05:51.371 --> 00:05:53.921
<i>Se considerate gli occhi di un bambino</i>

00:05:53.921 --> 00:05:56.625
<i>come un paio di fotocamere biologiche,</i>

00:05:56.625 --> 00:06:00.615
<i>scattano una foto ogni 200 millisecondi,</i>

00:06:00.615 --> 00:06:03.869
<i>il tempo medio di 
un movimento dell'occhio.</i>

00:06:03.869 --> 00:06:09.259
Dunque entro i 3 anni, un bambino 
vede centinaia di migliaia di immagini

00:06:09.259 --> 00:06:11.053
del mondo reale.

00:06:11.053 --> 00:06:13.643
Questi sono tanti esempi d'insegnamento.

00:06:14.293 --> 00:06:20.232
Così invece di concentrarci 
solo su algoritmi sempre migliori,

00:06:20.232 --> 00:06:25.814
la mia idea era dare 
agli algoritmi dati d'insegnamento

00:06:25.814 --> 00:06:28.793
come quelli che 
un bambino ottiene con le esperienze

00:06:28.793 --> 00:06:32.841
con la stessa qualità e quantità.

NOTE Paragraph

00:06:32.841 --> 00:06:34.579
Una volta capito questo,

00:06:34.579 --> 00:06:37.670
dovevamo accumulare un set di dati

00:06:37.670 --> 00:06:41.799
che aveva più immagini che mai,

00:06:41.799 --> 00:06:44.706
forse migliaia di volte di più,

00:06:44.706 --> 00:06:48.817
e con il Professore Kai Li 
dell'Università di Princeton,

00:06:48.817 --> 00:06:54.049
abbiamo lanciato 
il progetto ImageNet nel 2007.

00:06:54.049 --> 00:06:57.167
Per fortuna non abbiamo dovuto 
montare una videocamera in testa

00:06:57.167 --> 00:06:58.951
e aspettare tanti anni.

00:06:58.951 --> 00:07:00.634
Siamo andati su Internet,

00:07:00.634 --> 00:07:05.310
il più grande tesoro d'immagini 
che gli uomini abbiano mai creato.

00:07:05.310 --> 00:07:08.111
Abbiamo scaricato 
quasi un miliardo d'immagini

00:07:08.111 --> 00:07:13.781
e usato il crowdsourcing 
come Amazon Mechanical Turk

00:07:13.781 --> 00:07:16.330
per aiutarci a etichettarle.

00:07:16.330 --> 00:07:21.540
<i>Al suo culumine ImageNet era 
uno dei maggiori datori di lavoro</i>

00:07:21.540 --> 00:07:24.396
<i>di Amazon Mechanical Turk:</i>

00:07:24.396 --> 00:07:28.480
insieme, quasi 50.000 dipendenti

00:07:28.480 --> 00:07:32.120
di 167 paesi in tutto il mondo

00:07:32.120 --> 00:07:36.067
ci hanno aiutato a 
pulire, smistare e etichettare

00:07:36.067 --> 00:07:40.012
quasi un miliardo di aspiranti immagini.

00:07:40.492 --> 00:07:43.265
Ecco lo sforzo che c'è voluto

00:07:43.265 --> 00:07:46.965
a catturare persino 
una frazione delle immagini

00:07:46.965 --> 00:07:51.336
della mente infantile 
nei primi anni di sviluppo.

NOTE Paragraph

00:07:51.888 --> 00:07:56.190
A cose fatte l'idea di usare Big Data

00:07:56.190 --> 00:08:00.350
per addestrare algoritmi 
informatici forse oggi sembra ovvia,

00:08:00.350 --> 00:08:04.410
però nel 2007 non lo era così tanto.

00:08:04.410 --> 00:08:08.398
Per un bel po' siamo 
stati soli in questo viaggio.

00:08:08.398 --> 00:08:12.111
Dei colleghi mi hanno consigliato di 
fare qualcosa di più utile all'incarico

00:08:12.111 --> 00:08:17.603
e avevamo di continuo 
difficoltà con il finanziamento.

00:08:17.603 --> 00:08:20.308
Una volta ho scherzato con i miei studenti

00:08:20.308 --> 00:08:24.331
dicendo che avrei riaperto 
la lavanderia per finanziare ImageNet.

00:08:24.331 --> 00:08:28.992
Alla fine in questo modo 
ho finanziato i miei anni al college.

NOTE Paragraph

00:08:28.992 --> 00:08:30.728
Allora abbiamo continuato.

00:08:30.728 --> 00:08:34.943
<i>Nel 2009 ImageNet project ha consegnato</i>

00:08:34.943 --> 00:08:38.625
<i>un database di 15 milioni d'immagini</i>

00:08:38.625 --> 00:08:43.780
<i>in 22.000 categorie di oggetti e cose</i>

00:08:43.780 --> 00:08:46.720
organizzate in parole di uso quotidiano.

00:08:46.720 --> 00:08:49.726
Sia in quantità sia in qualità

00:08:49.726 --> 00:08:53.588
era una scala senza precedenti.

00:08:53.588 --> 00:08:56.579
<i>Per esempio, nel caso dei gatti,</i>

00:08:56.579 --> 00:08:59.358
<i>abbiamo più di 62.000 gatti</i>

00:08:59.358 --> 00:09:03.118
<i>di tutti i tipi di aspetto e pose</i>

00:09:03.118 --> 00:09:08.321
<i>e in tutte le specie 
di gatti domestici e selvatici.</i>

00:09:08.321 --> 00:09:11.635
Eravamo emozionati per il 
completamento di ImageNet,

00:09:11.635 --> 00:09:15.313
e volevamo che tutto 
il mondo di ricerca ne beneficiasse,

00:09:15.313 --> 00:09:19.384
così come TED abbiamo 
aperto gratis tutto il set di dati

00:09:19.384 --> 00:09:23.196
alla comunità di ricerca mondiale.

00:09:24.636 --> 00:09:28.636
(Applausi)

NOTE Paragraph

00:09:29.276 --> 00:09:33.724
Ora grazie ai dati per nutrire
il cervello del nostro computer

00:09:33.724 --> 00:09:37.541
siamo pronti a ritornare agli algoritmi.

00:09:37.541 --> 00:09:42.639
Infatti, la ricchezza 
d'informazioni di ImageNet

00:09:42.639 --> 00:09:47.675
<i>era perfetta per una particolare classe 
di algoritmi di apprendimento automatico</i>

00:09:47.675 --> 00:09:50.090
<i>chiamata rete neurale,</i>

00:09:50.090 --> 00:09:55.268
innovazione di Kunihiko 
Fukushima, Geoff Hinton e Yann LeCun

00:09:55.268 --> 00:09:58.983
negli anni '70 e '80.

00:09:58.983 --> 00:10:04.602
<i>Proprio come il cervello è fatto
di miliardi di neuroni ben collegati,</i>

00:10:04.602 --> 00:10:08.456
<i>un'unità operativa 
elementare in una rete neurale</i>

00:10:08.456 --> 00:10:10.681
<i>è un nodo tipo neurone.</i>

00:10:10.681 --> 00:10:13.255
<i>Prende input di altri nodi</i>

00:10:13.255 --> 00:10:16.033
<i>e invia output a altri.</i>

00:10:16.033 --> 00:10:20.856
<i>Inoltre quelle centinaia 
di migliaia o persino milioni di nodi</i>

00:10:20.856 --> 00:10:23.973
<i>sono organizzate in strati gerarchici,</i>

00:10:23.973 --> 00:10:26.387
anche simili al cervello.

00:10:26.387 --> 00:10:30.520
In una tipica rete neurale usata per
addestrare il modello di riconoscimento

00:10:30.520 --> 00:10:34.601
ci sono 24 milioni di nodi,

00:10:34.601 --> 00:10:37.328
140 milioni di parametri

00:10:37.328 --> 00:10:40.271
e 15 miliardi di connessioni.

00:10:40.271 --> 00:10:43.076
È un modello enorme.

00:10:43.076 --> 00:10:46.937
Alimentata dai dati di ImageNet

00:10:46.937 --> 00:10:52.170
e dalle moderne CPU e GPU 
per addestrare un modello così immenso,

00:10:52.170 --> 00:10:54.199
la rete neurale convoluzionale

00:10:54.199 --> 00:10:58.075
è sbocciata in un modo 
che nessuno si aspettava.

00:10:58.075 --> 00:11:01.013
È diventata l'architettura vincente

00:11:01.013 --> 00:11:06.063
<i>che genera risultati eclatanti 
nel riconoscimento degli oggetti.</i>

00:11:06.063 --> 00:11:08.793
<i>Questo è un computer che ci dice</i>

00:11:08.793 --> 00:11:11.173
<i>che in questa foto c'è un gatto</i>

00:11:11.173 --> 00:11:12.736
<i>e dov'è il gatto.</i>

00:11:12.736 --> 00:11:15.128
<i>Certo ci sono anche 
altre cose oltre ai gatti</i>

00:11:15.128 --> 00:11:17.436
<i>quindi ecco 
un algoritmo informatico che ci dice</i>

00:11:17.436 --> 00:11:20.600
<i>che nella foto ci sono
un ragazzo e un orsacchiotto;</i>

00:11:20.600 --> 00:11:25.046
<i>un cane, una persona e
un aquilone sullo sfondo;</i>

00:11:25.046 --> 00:11:28.401
<i>o una foto di molte cose curiose</i>

00:11:28.401 --> 00:11:33.435
<i>come un uomo, uno skateboard,
ringhiere, un lampione e così via.</i>

00:11:33.435 --> 00:11:38.338
<i>A volte quando il computer non 
è tanto sicuro di quello che vede,</i>

00:11:39.498 --> 00:11:42.074
<i>gli insegnamo a 
essere abbastanza intelligente</i>

00:11:42.074 --> 00:11:45.342
<i>da darci una risposta 
sicura invece d'impegnarsi troppo,</i>

00:11:45.342 --> 00:11:48.103
<i>proprio come faremmo noi,</i>

00:11:48.103 --> 00:11:53.009
<i>ma altre volte gli algoritmi ci 
dicono in modo eccezionale</i>

00:11:53.009 --> 00:11:55.172
<i>esattamente che oggetti sono,</i>

00:11:55.172 --> 00:11:58.818
<i>come tipo, modello, 
anno delle macchine.</i>

NOTE Paragraph

00:11:58.818 --> 00:12:04.014
<i>Abbiamo applicato questi algoritmi 
a tante immagini di Google Street View</i>

00:12:04.014 --> 00:12:07.049
in centinaia di città americane

00:12:07.049 --> 00:12:10.315
e abbiamo imparato 
una cosa molto interessante:

00:12:10.315 --> 00:12:13.585
primo, ha confermato 
il nostro sapere comune

00:12:13.585 --> 00:12:16.875
che i prezzi delle auto 
sono legati molto bene

00:12:16.875 --> 00:12:19.020
<i>ai redditi familiari.</i>

00:12:19.020 --> 00:12:23.597
<i>Ma stupisce che i prezzi 
delle auto siano legati bene anche</i>

00:12:23.597 --> 00:12:26.517
<i>al tasso di criminalità nelle città,</i>

00:12:26.517 --> 00:12:30.970
<i>o agli schemi di 
votazione con codici postali.</i>

NOTE Paragraph

00:12:31.650 --> 00:12:34.096
Allora aspettate. Ce l'abbiamo fatta?

00:12:34.096 --> 00:12:39.629
Il computer ha già le stesse 
capacità dell'uomo o perfino migliori?

00:12:39.629 --> 00:12:41.557
Non ancora.

00:12:41.557 --> 00:12:46.480
Finora abbiamo insegnato 
ai computer a vedere oggetti.

00:12:46.480 --> 00:12:51.074
È come un bambino piccolo che 
impara a pronunciare alcuni sostantivi.

00:12:51.074 --> 00:12:53.604
È un risultato incredibile,

00:12:53.604 --> 00:12:56.254
ma è solo il primo passo.

00:12:56.254 --> 00:12:59.906
Presto raggiungeremo 
un'altra pietra miliare dello sviluppo

00:12:59.906 --> 00:13:03.917
e i bambini inizieranno 
a comunicare con frasi.

00:13:03.917 --> 00:13:07.701
Allora invece di dire 
che c'è un gatto nella foto,

00:13:07.701 --> 00:13:13.283
avete sentito la ragazzina dire
che è un gatto sdraiato sul letto.

NOTE Paragraph

00:13:13.283 --> 00:13:18.498
Quindi per insegnare al computer 
a vedere una foto e generare frasi,

00:13:18.498 --> 00:13:22.246
il connubio fra Big Data e
algoritmo di apprendimento automatico

00:13:22.246 --> 00:13:24.271
deve fare un altro passo.

00:13:24.271 --> 00:13:28.877
Ora il computer deve 
imparare sia dalle foto

00:13:28.877 --> 00:13:31.733
che dalle frasi naturali

00:13:31.733 --> 00:13:35.055
generate dagli uomini.

00:13:35.055 --> 00:13:39.188
<i>Proprio come il cervello 
integra lingua e visione,</i>

00:13:39.188 --> 00:13:44.109
<i>abbiamo sviluppato un modello 
che collega parti di oggetti ottici</i>

00:13:44.109 --> 00:13:45.923
<i>come frammenti ottici</i>

00:13:45.923 --> 00:13:51.026
<i>a parole e espressioni nelle frasi.</i>

NOTE Paragraph

00:13:51.026 --> 00:13:52.789
<i>Circa quattro mesi fa,</i>

00:13:52.789 --> 00:13:55.356
<i>abbiamo finalmente provato tutto insieme</i>

00:13:55.356 --> 00:13:59.310
<i>e prodotto uno dei primi 
modelli di visione artificiale</i>

00:13:59.310 --> 00:14:03.554
<i>capace di generare 
una frase tipo quella umana</i>

00:14:03.554 --> 00:14:07.080
<i>quando vede 
una foto per la prima volta.</i>

00:14:07.080 --> 00:14:11.554
Ora sono pronta 
a mostrarvi cosa dice il computer

00:14:11.554 --> 00:14:13.359
quando vede la foto

00:14:13.359 --> 00:14:17.359
che la ragazzina ha visto 
all'inizio di questa conferenza.

NOTE Paragraph

00:14:18.879 --> 00:14:22.863
<i>Un uomo in piedi 
vicino a un elefante.</i>

00:14:24.333 --> 00:14:28.027
<i>Un grande aereo 
sulla pista di un aeroporto.</i>

NOTE Paragraph

00:14:28.977 --> 00:14:33.269
<i>Certo, lavoriamo duro 
per migliorare i nostri algoritmi</i>

00:14:33.269 --> 00:14:35.865
e ci sono ancora molte cose da imparare.

00:14:35.865 --> 00:14:38.156
(Applausi)

NOTE Paragraph

00:14:39.416 --> 00:14:42.707
E il computer fa ancora errori.

NOTE Paragraph

00:14:42.707 --> 00:14:45.958
<i>Un gatto sdraiato 
a letto con una coperta.</i>

NOTE Paragraph

00:14:45.958 --> 00:14:48.431
<i>Quindi quando vede troppi gatti,</i>

00:14:48.431 --> 00:14:51.747
<i>crede che tutto 
somigli a un gatto.</i>

NOTE Paragraph

00:14:53.317 --> 00:14:56.181
<i>Un ragazzino con una mazza da baseball.</i>

00:14:56.181 --> 00:14:57.426
(Risate)

NOTE Paragraph

00:14:57.426 --> 00:15:02.529
<i>Se non ha mai visto uno spazzolino 
lo confonde con una mazza da baseball.</i>

NOTE Paragraph

00:15:03.139 --> 00:15:06.743
<i>Un uomo a cavallo
in una strada vicino a un edificio.</i>

00:15:06.743 --> 00:15:08.366
<i>(Risate)</i>

NOTE Paragraph

00:15:08.366 --> 00:15:12.318
Non abbiamo 
insegnato l'Art. 101 ai computer.

NOTE Paragraph

00:15:13.428 --> 00:15:16.302
<i>Una zebra in una prateria.</i>

NOTE Paragraph

00:15:16.302 --> 00:15:20.019
<i>E non ha imparato a apprezzare
la magnifica bellezza della natura</i>

00:15:20.019 --> 00:15:22.147
<i>come me e voi.</i>

NOTE Paragraph

00:15:22.147 --> 00:15:25.049
Quindi è un lungo vaggio.

00:15:25.049 --> 00:15:29.245
Andare dall'età zero
all'età tre era faticoso.

00:15:29.245 --> 00:15:35.111
La vera sfida è andare 
da 3 a 13 e più lontano.

00:15:35.111 --> 00:15:39.326
Ripensate alla foto 
del bambino con la torta.

00:15:39.326 --> 00:15:43.770
<i>Finora abbiamo insegnato 
al computer a vedere oggetti</i>

00:15:43.770 --> 00:15:47.758
<i>o a raccontarci una semplice 
storia quando vede un'immagine.</i>

NOTE Paragraph

00:15:47.758 --> 00:15:51.574
<i>Una persona seduta 
a tavola con una torta.</i>

NOTE Paragraph

00:15:51.574 --> 00:15:53.714
<i>Ma c'è molto di più in questa foto</i>

00:15:53.714 --> 00:15:56.044
<i>di una persona con una torta.</i>

00:15:56.044 --> 00:16:00.941
<i>Ciò che il computer non vede è 
che è una torta italiana speciale</i>

00:16:00.941 --> 00:16:03.868
<i>che si serve solo a Pasqua.</i>

00:16:03.868 --> 00:16:07.003
<i>Il bambino indossa 
la sua t-shirt preferita</i>

00:16:07.003 --> 00:16:11.333
<i>regalatagli dal padre 
dopo un viaggio a Sidney,</i>

00:16:11.333 --> 00:16:15.001
e possiamo notare quanto sia felice

00:16:15.001 --> 00:16:18.344
e cosa c'è di preciso 
nella sua mente in quel momento.

NOTE Paragraph

00:16:18.974 --> 00:16:22.109
Questo è mio figlio Leo.

00:16:22.109 --> 00:16:24.693
Nella mia ricerca 
dell'intelligenza ottica,

00:16:24.693 --> 00:16:27.024
penso a Leo di continuo

00:16:27.024 --> 00:16:29.887
e al mondo futuro in cui vivrà.

00:16:29.887 --> 00:16:32.068
<i>Quando le macchine potranno vedere,</i>

00:16:32.068 --> 00:16:36.990
<i>i medici e gli infermieri avranno 
un paio extra di occhi instancabili</i>

00:16:36.990 --> 00:16:41.082
<i>a aiutarli 
con diagnosi e cura dei pazienti.</i>

00:16:41.082 --> 00:16:45.465
<i>Le auto saranno più 
intelligenti e sicure sulla strada.</i>

00:16:45.465 --> 00:16:48.049
<i>I robot, non solo gli umani,</i>

00:16:48.049 --> 00:16:53.008
<i>ci aiuteranno a salvare 
persone intrappolate e ferite.</i>

00:16:53.368 --> 00:16:57.594
<i>Scopriremo nuove 
specie, materiali migliori,</i>

00:16:57.594 --> 00:17:02.103
<i>e esploreremo frontiere 
invisibili con l'aiuto delle macchine.</i>

NOTE Paragraph

00:17:02.883 --> 00:17:07.280
Un po' alla volta 
diamo la vista alle macchine.

00:17:07.280 --> 00:17:09.858
In primo luogo le insegnamo a vedere.

00:17:09.858 --> 00:17:12.841
Poi ci aiutano a vedere meglio.

00:17:12.841 --> 00:17:16.746
Per la prima volta 
gli occhi umani non saranno i soli

00:17:16.746 --> 00:17:19.770
a meditare e esplorare il nostro mondo.

00:17:19.770 --> 00:17:23.400
Useremo le macchine non 
solo per la loro intelligenza,

00:17:23.400 --> 00:17:29.499
ma collaboreremo anche con loro 
in modi che neanche immaginiamo.

NOTE Paragraph

00:17:29.499 --> 00:17:31.740
Questa è la mia ricerca:

00:17:31.740 --> 00:17:34.862
dare ai computer intelligenza ottica

00:17:34.862 --> 00:17:39.273
e creare un futuro 
migliore per Leo e per il mondo.

NOTE Paragraph

00:17:39.273 --> 00:17:41.394
Grazie.

NOTE Paragraph

00:17:41.394 --> 00:17:45.179
(Applausi)