WEBVTT 00:00:03.466 --> 00:00:06.104 Lasciate che vi mostri qualcosa. NOTE Paragraph 00:00:06.104 --> 00:00:09.730 Ok, è un gatto seduto sul letto. 00:00:10.150 --> 00:00:13.110 Il ragazzo sta accarezzando l'elefante. 00:00:14.380 --> 00:00:18.474 Sono persone che salgono su un aereo. 00:00:18.474 --> 00:00:21.214 È un grande aereo. NOTE Paragraph 00:00:21.214 --> 00:00:23.460 È una bambina di tre anni 00:00:23.460 --> 00:00:27.349 che descrive ciò che vede nelle foto. 00:00:27.349 --> 00:00:30.314 Anche se ha ancora tanto da imparare, NOTE Paragraph 00:00:30.314 --> 00:00:34.973 è già un'esperta in un compito importante: 00:00:34.973 --> 00:00:37.589 capire ciò che vede. 00:00:37.999 --> 00:00:42.405 La tecnologia nella nostra società è più sviluppata che mai. 00:00:42.405 --> 00:00:46.084 Mandiamo persone sulla Luna, creiamo cellulari che ci parlano 00:00:46.084 --> 00:00:51.140 o personalizziamo le stazioni radio per ascoltare la musica che ci piace. 00:00:51.140 --> 00:00:55.085 Eppure, i computer e i dispositivi più avanzati 00:00:55.085 --> 00:00:57.898 non sono ancora in grado di svolgere questo compito. 00:00:57.898 --> 00:01:01.497 Oggi vi mostrerò un rapporto di avanzamento 00:01:01.497 --> 00:01:05.494 sui progressi della nostra ricerca sulla visione artificiale, 00:01:05.494 --> 00:01:09.655 una delle tecnologie informatiche 00:01:09.655 --> 00:01:12.861 più rivoluzionarie. NOTE Paragraph 00:01:12.861 --> 00:01:17.412 Sì, abbiamo prototipi di auto che si guidano da sole, 00:01:17.412 --> 00:01:21.265 ma senza la smart vision, non riescono a distinguere fra 00:01:21.265 --> 00:01:25.315 un sacchetto spiegazzato sulla strada che può essere investito 00:01:25.315 --> 00:01:28.575 e una pietra che sarebbe da evitare. 00:01:29.365 --> 00:01:32.945 Abbiamo creato favolose fotocamere con megapixel, 00:01:32.945 --> 00:01:35.940 ma non abbiamo ancora ridato la vista ai ciechi. 00:01:36.420 --> 00:01:39.505 I droni volano su grandi parti di terra, 00:01:39.505 --> 00:01:42.729 ma la loro tecnologia visiva non basta 00:01:42.729 --> 00:01:45.370 a monitorare le variazioni delle foreste pluviali. 00:01:45.370 --> 00:01:48.420 Ci sono telecamere a circuito chiuso ovunque, 00:01:48.420 --> 00:01:53.337 che però non ci avvertono quando un bambino sta affogando in una piscina. NOTE Paragraph 00:01:54.167 --> 00:01:59.622 Video e foto stanno diventando parte integrante della vita globale. 00:01:59.622 --> 00:02:03.849 Sono generati a un ritmo più veloce di quello che ogni uomo 00:02:03.849 --> 00:02:06.822 o gruppi di uomini spera di poter avere, 00:02:06.822 --> 00:02:10.633 e vi contribuiamo in questo TED. 00:02:10.633 --> 00:02:15.785 Eppure il nostro software più avanzato non riesce ancora a capire 00:02:15.785 --> 00:02:19.661 e amministrare quest'enorme contenuto. 00:02:19.661 --> 00:02:21.883 In altri termini collettivamente 00:02:22.033 --> 00:02:26.319 siamo una società di ciechi 00:02:26.319 --> 00:02:30.436 perché le nostre macchine più intelligenti sono ancora cieche. NOTE Paragraph 00:02:31.456 --> 00:02:34.192 Vi chiederete perché sia così difficile. 00:02:34.192 --> 00:02:36.855 Le fotocamere scattano foto come questa, 00:02:36.855 --> 00:02:40.809 trasformando le luci in una matrice bidimensionale di numeri, 00:02:40.809 --> 00:02:42.789 i pixels, 00:02:42.789 --> 00:02:45.040 però sono solo numeri senza vita. 00:02:45.040 --> 00:02:48.151 Non hanno alcun significato di per sé. 00:02:48.151 --> 00:02:52.394 Proprio come udire non è come ascoltare, 00:02:52.394 --> 00:02:56.424 scattare foto non è come vedere, 00:02:56.424 --> 00:03:00.363 e con vedere intendiamo capire. 00:03:01.293 --> 00:03:07.470 In effetti, ci sono voluti 540 milioni anni di duro lavoro a Madre Natura 00:03:07.470 --> 00:03:09.443 per completare questo compito, 00:03:09.443 --> 00:03:11.254 e gran parte di questo sforzo 00:03:11.254 --> 00:03:16.385 è andato allo sviluppo dell'elaborazione ottica del cervello, 00:03:16.385 --> 00:03:19.022 non agli occhi. 00:03:19.022 --> 00:03:21.989 Quindi la visione inizia con gli occhi, 00:03:21.989 --> 00:03:25.507 ma in realtà avviene nel cervello. NOTE Paragraph 00:03:26.507 --> 00:03:31.057 Dunque da 15 anni, prima con il Ph.D al Caltech 00:03:31.057 --> 00:03:33.873 e poi a capo del Vision Lab di Stanford, 00:03:33.873 --> 00:03:38.959 lavoro con i miei mentori, collaboratori e studenti 00:03:38.959 --> 00:03:41.558 per insegnare ai computer a vedere. 00:03:42.358 --> 00:03:46.062 Il campo di ricerca si chiama visione artificiale e apprendimento automatico. 00:03:46.062 --> 00:03:51.300 Fa parte del campo generale dell'intelligenza artificiale. 00:03:51.300 --> 00:03:56.393 Allora in sostanza, vogliamo insegnare alle macchine a vedere proprio come noi: 00:03:56.393 --> 00:04:01.880 indicare cose, riconoscere persone, dedurre la geometria 3D degli oggetti, 00:04:01.880 --> 00:04:07.568 comprendere relazioni, emozioni, azioni e intenzioni. 00:04:07.568 --> 00:04:13.801 Tessiamo intere storie di persone, luoghi e cose 00:04:13.801 --> 00:04:17.365 quando fissiamo lo sguardo su di loro. NOTE Paragraph 00:04:17.365 --> 00:04:22.648 Il primo passo verso questo scopo è insegnare a un computer a vedere cose, 00:04:22.648 --> 00:04:25.966 il mattone del mondo visivo. 00:04:25.966 --> 00:04:30.340 In parole povere immaginate questo processo d'insegnamento 00:04:30.340 --> 00:04:33.405 come mostrare ai computer immagini 00:04:33.405 --> 00:04:36.776 di un oggetto specifico, come gatti, 00:04:36.776 --> 00:04:41.393 e creare un modello che impara da queste immagini. 00:04:41.393 --> 00:04:43.137 Quanto può essere difficile? 00:04:43.137 --> 00:04:47.679 Dopotutto, un gatto è solo un insieme di forme e colori, 00:04:47.679 --> 00:04:51.435 e l'abbiamo fatto nella prima fase di realizzazione dei modelli. 00:04:51.435 --> 00:04:55.197 Abbiamo detto all'algoritmo con un linguaggio matematico 00:04:55.197 --> 00:04:58.430 che un gatto ha una faccia tonda, un corpo paffuto, 00:04:58.430 --> 00:05:00.619 due orecchie a punta e una coda lunga, 00:05:00.619 --> 00:05:02.249 e fin qui tutto ok. 00:05:02.669 --> 00:05:04.972 Ma che dire di questo gatto? 00:05:04.972 --> 00:05:05.913 (Risate) 00:05:05.913 --> 00:05:07.339 È tutto accartocciato. 00:05:07.339 --> 00:05:12.338 Ora si deve aggiungere un'altra forma e punto di vista al modello. 00:05:12.338 --> 00:05:14.123 Ma se i gatti sono nascosti? 00:05:15.143 --> 00:05:17.362 Che dire di questi gatti sciocchi? 00:05:19.522 --> 00:05:21.529 Ora mi capite. 00:05:21.529 --> 00:05:24.896 Anche qualcosa di semplice come un animale domestico 00:05:24.896 --> 00:05:29.170 può presentare un numero infinito di variazioni, 00:05:29.170 --> 00:05:31.633 ed è un oggetto solo. NOTE Paragraph 00:05:32.573 --> 00:05:35.065 Allora otto anni fa, 00:05:35.065 --> 00:05:40.095 un'osservazione molto semplice e profonda ha cambiato il mio parere. 00:05:41.425 --> 00:05:44.050 Nessuno dice a un bambino come vedere, 00:05:44.050 --> 00:05:46.201 soprattutto nei primi anni. 00:05:46.201 --> 00:05:51.371 Lo imparano con esperienze e esempi del mondo reale. 00:05:51.371 --> 00:05:53.921 Se considerate gli occhi di un bambino 00:05:53.921 --> 00:05:56.625 come un paio di fotocamere biologiche, 00:05:56.625 --> 00:06:00.615 scattano una foto ogni 200 millisecondi, 00:06:00.615 --> 00:06:03.869 il tempo medio di un movimento dell'occhio. 00:06:03.869 --> 00:06:09.259 Dunque entro i 3 anni, un bambino vede centinaia di migliaia di immagini 00:06:09.259 --> 00:06:11.053 del mondo reale. 00:06:11.053 --> 00:06:13.643 Questi sono tanti esempi d'insegnamento. 00:06:14.293 --> 00:06:20.232 Così invece di concentrarci solo su algoritmi sempre migliori, 00:06:20.232 --> 00:06:25.814 la mia idea era dare agli algoritmi dati d'insegnamento 00:06:25.814 --> 00:06:28.793 come quelli che un bambino ottiene con le esperienze 00:06:28.793 --> 00:06:32.841 con la stessa qualità e quantità. NOTE Paragraph 00:06:32.841 --> 00:06:34.579 Una volta capito questo, 00:06:34.579 --> 00:06:37.670 dovevamo accumulare un set di dati 00:06:37.670 --> 00:06:41.799 che aveva più immagini che mai, 00:06:41.799 --> 00:06:44.706 forse migliaia di volte di più, 00:06:44.706 --> 00:06:48.817 e con il Professore Kai Li dell'Università di Princeton, 00:06:48.817 --> 00:06:54.049 abbiamo lanciato il progetto ImageNet nel 2007. 00:06:54.049 --> 00:06:57.167 Per fortuna non abbiamo dovuto montare una videocamera in testa 00:06:57.167 --> 00:06:58.951 e aspettare tanti anni. 00:06:58.951 --> 00:07:00.634 Siamo andati su Internet, 00:07:00.634 --> 00:07:05.310 il più grande tesoro d'immagini che gli uomini abbiano mai creato. 00:07:05.310 --> 00:07:08.111 Abbiamo scaricato quasi un miliardo d'immagini 00:07:08.111 --> 00:07:13.781 e usato il crowdsourcing come Amazon Mechanical Turk 00:07:13.781 --> 00:07:16.330 per aiutarci a etichettarle. 00:07:16.330 --> 00:07:21.540 Al suo culumine ImageNet era uno dei maggiori datori di lavoro 00:07:21.540 --> 00:07:24.396 di Amazon Mechanical Turk: 00:07:24.396 --> 00:07:28.480 insieme, quasi 50.000 dipendenti 00:07:28.480 --> 00:07:32.120 di 167 paesi in tutto il mondo 00:07:32.120 --> 00:07:36.067 ci hanno aiutato a pulire, smistare e etichettare 00:07:36.067 --> 00:07:40.012 quasi un miliardo di aspiranti immagini. 00:07:40.492 --> 00:07:43.265 Ecco lo sforzo che c'è voluto 00:07:43.265 --> 00:07:46.965 a catturare persino una frazione delle immagini 00:07:46.965 --> 00:07:51.336 della mente infantile nei primi anni di sviluppo. NOTE Paragraph 00:07:51.888 --> 00:07:56.190 A cose fatte l'idea di usare Big Data 00:07:56.190 --> 00:08:00.350 per addestrare algoritmi informatici forse oggi sembra ovvia, 00:08:00.350 --> 00:08:04.410 però nel 2007 non lo era così tanto. 00:08:04.410 --> 00:08:08.398 Per un bel po' siamo stati soli in questo viaggio. 00:08:08.398 --> 00:08:12.111 Dei colleghi mi hanno consigliato di fare qualcosa di più utile all'incarico 00:08:12.111 --> 00:08:17.603 e avevamo di continuo difficoltà con il finanziamento. 00:08:17.603 --> 00:08:20.308 Una volta ho scherzato con i miei studenti 00:08:20.308 --> 00:08:24.331 dicendo che avrei riaperto la lavanderia per finanziare ImageNet. 00:08:24.331 --> 00:08:28.992 Alla fine in questo modo ho finanziato i miei anni al college. NOTE Paragraph 00:08:28.992 --> 00:08:30.728 Allora abbiamo continuato. 00:08:30.728 --> 00:08:34.943 Nel 2009 ImageNet project ha consegnato 00:08:34.943 --> 00:08:38.625 un database di 15 milioni d'immagini 00:08:38.625 --> 00:08:43.780 in 22.000 categorie di oggetti e cose 00:08:43.780 --> 00:08:46.720 organizzate in parole di uso quotidiano. 00:08:46.720 --> 00:08:49.726 Sia in quantità sia in qualità 00:08:49.726 --> 00:08:53.588 era una scala senza precedenti. 00:08:53.588 --> 00:08:56.579 Per esempio, nel caso dei gatti, 00:08:56.579 --> 00:08:59.358 abbiamo più di 62.000 gatti 00:08:59.358 --> 00:09:03.118 di tutti i tipi di aspetto e pose 00:09:03.118 --> 00:09:08.321 e in tutte le specie di gatti domestici e selvatici. 00:09:08.321 --> 00:09:11.635 Eravamo emozionati per il completamento di ImageNet, 00:09:11.635 --> 00:09:15.313 e volevamo che tutto il mondo di ricerca ne beneficiasse, 00:09:15.313 --> 00:09:19.384 così come TED abbiamo aperto gratis tutto il set di dati 00:09:19.384 --> 00:09:23.196 alla comunità di ricerca mondiale. 00:09:24.636 --> 00:09:28.636 (Applausi) NOTE Paragraph 00:09:29.276 --> 00:09:33.724 Ora grazie ai dati per nutrire il cervello del nostro computer 00:09:33.724 --> 00:09:37.541 siamo pronti a ritornare agli algoritmi. 00:09:37.541 --> 00:09:42.639 Infatti, la ricchezza d'informazioni di ImageNet 00:09:42.639 --> 00:09:47.675 era perfetta per una particolare classe di algoritmi di apprendimento automatico 00:09:47.675 --> 00:09:50.090 chiamata rete neurale, 00:09:50.090 --> 00:09:55.268 innovazione di Kunihiko Fukushima, Geoff Hinton e Yann LeCun 00:09:55.268 --> 00:09:58.983 negli anni '70 e '80. 00:09:58.983 --> 00:10:04.602 Proprio come il cervello è fatto di miliardi di neuroni ben collegati, 00:10:04.602 --> 00:10:08.456 un'unità operativa elementare in una rete neurale 00:10:08.456 --> 00:10:10.681 è un nodo tipo neurone. 00:10:10.681 --> 00:10:13.255 Prende input di altri nodi 00:10:13.255 --> 00:10:16.033 e invia output a altri. 00:10:16.033 --> 00:10:20.856 Inoltre quelle centinaia di migliaia o persino milioni di nodi 00:10:20.856 --> 00:10:23.973 sono organizzate in strati gerarchici, 00:10:23.973 --> 00:10:26.387 anche simili al cervello. 00:10:26.387 --> 00:10:30.520 In una tipica rete neurale usata per addestrare il modello di riconoscimento 00:10:30.520 --> 00:10:34.601 ci sono 24 milioni di nodi, 00:10:34.601 --> 00:10:37.328 140 milioni di parametri 00:10:37.328 --> 00:10:40.271 e 15 miliardi di connessioni. 00:10:40.271 --> 00:10:43.076 È un modello enorme. 00:10:43.076 --> 00:10:46.937 Alimentata dai dati di ImageNet 00:10:46.937 --> 00:10:52.170 e dalle moderne CPU e GPU per addestrare un modello così immenso, 00:10:52.170 --> 00:10:54.199 la rete neurale convoluzionale 00:10:54.199 --> 00:10:58.075 è sbocciata in un modo che nessuno si aspettava. 00:10:58.075 --> 00:11:01.013 È diventata l'architettura vincente 00:11:01.013 --> 00:11:06.063 che genera risultati eclatanti nel riconoscimento degli oggetti. 00:11:06.063 --> 00:11:08.793 Questo è un computer che ci dice 00:11:08.793 --> 00:11:11.173 che in questa foto c'è un gatto 00:11:11.173 --> 00:11:12.736 e dov'è il gatto. 00:11:12.736 --> 00:11:15.128 Certo ci sono anche altre cose oltre ai gatti 00:11:15.128 --> 00:11:17.436 quindi ecco un algoritmo informatico che ci dice 00:11:17.436 --> 00:11:20.600 che nella foto ci sono un ragazzo e un orsacchiotto; 00:11:20.600 --> 00:11:25.046 un cane, una persona e un aquilone sullo sfondo; 00:11:25.046 --> 00:11:28.401 o una foto di molte cose curiose 00:11:28.401 --> 00:11:33.435 come un uomo, uno skateboard, ringhiere, un lampione e così via. 00:11:33.435 --> 00:11:38.338 A volte quando il computer non è tanto sicuro di quello che vede, 00:11:39.498 --> 00:11:42.074 gli insegnamo a essere abbastanza intelligente 00:11:42.074 --> 00:11:45.342 da darci una risposta sicura invece d'impegnarsi troppo, 00:11:45.342 --> 00:11:48.103 proprio come faremmo noi, 00:11:48.103 --> 00:11:53.009 ma altre volte gli algoritmi ci dicono in modo eccezionale 00:11:53.009 --> 00:11:55.172 esattamente che oggetti sono, 00:11:55.172 --> 00:11:58.818 come tipo, modello, anno delle macchine. NOTE Paragraph 00:11:58.818 --> 00:12:04.014 Abbiamo applicato questi algoritmi a tante immagini di Google Street View 00:12:04.014 --> 00:12:07.049 in centinaia di città americane 00:12:07.049 --> 00:12:10.315 e abbiamo imparato una cosa molto interessante: 00:12:10.315 --> 00:12:13.585 primo, ha confermato il nostro sapere comune 00:12:13.585 --> 00:12:16.875 che i prezzi delle auto sono legati molto bene 00:12:16.875 --> 00:12:19.020 ai redditi familiari. 00:12:19.020 --> 00:12:23.597 Ma stupisce che i prezzi delle auto siano legati bene anche 00:12:23.597 --> 00:12:26.517 al tasso di criminalità nelle città, 00:12:26.517 --> 00:12:30.970 o agli schemi di votazione con codici postali. NOTE Paragraph 00:12:31.650 --> 00:12:34.096 Allora aspettate. Ce l'abbiamo fatta? 00:12:34.096 --> 00:12:39.629 Il computer ha già le stesse capacità dell'uomo o perfino migliori? 00:12:39.629 --> 00:12:41.557 Non ancora. 00:12:41.557 --> 00:12:46.480 Finora abbiamo insegnato ai computer a vedere oggetti. 00:12:46.480 --> 00:12:51.074 È come un bambino piccolo che impara a pronunciare alcuni sostantivi. 00:12:51.074 --> 00:12:53.604 È un risultato incredibile, 00:12:53.604 --> 00:12:56.254 ma è solo il primo passo. 00:12:56.254 --> 00:12:59.906 Presto raggiungeremo un'altra pietra miliare dello sviluppo 00:12:59.906 --> 00:13:03.917 e i bambini inizieranno a comunicare con frasi. 00:13:03.917 --> 00:13:07.701 Allora invece di dire che c'è un gatto nella foto, 00:13:07.701 --> 00:13:13.283 avete sentito la ragazzina dire che è un gatto sdraiato sul letto. NOTE Paragraph 00:13:13.283 --> 00:13:18.498 Quindi per insegnare al computer a vedere una foto e generare frasi, 00:13:18.498 --> 00:13:22.246 il connubio fra Big Data e algoritmo di apprendimento automatico 00:13:22.246 --> 00:13:24.271 deve fare un altro passo. 00:13:24.271 --> 00:13:28.877 Ora il computer deve imparare sia dalle foto 00:13:28.877 --> 00:13:31.733 che dalle frasi naturali 00:13:31.733 --> 00:13:35.055 generate dagli uomini. 00:13:35.055 --> 00:13:39.188 Proprio come il cervello integra lingua e visione, 00:13:39.188 --> 00:13:44.109 abbiamo sviluppato un modello che collega parti di oggetti ottici 00:13:44.109 --> 00:13:45.923 come frammenti ottici 00:13:45.923 --> 00:13:51.026 a parole e espressioni nelle frasi. NOTE Paragraph 00:13:51.026 --> 00:13:52.789 Circa quattro mesi fa, 00:13:52.789 --> 00:13:55.356 abbiamo finalmente provato tutto insieme 00:13:55.356 --> 00:13:59.310 e prodotto uno dei primi modelli di visione artificiale 00:13:59.310 --> 00:14:03.554 capace di generare una frase tipo quella umana 00:14:03.554 --> 00:14:07.080 quando vede una foto per la prima volta. 00:14:07.080 --> 00:14:11.554 Ora sono pronta a mostrarvi cosa dice il computer 00:14:11.554 --> 00:14:13.359 quando vede la foto 00:14:13.359 --> 00:14:17.359 che la ragazzina ha visto all'inizio di questa conferenza. NOTE Paragraph 00:14:18.879 --> 00:14:22.863 Un uomo in piedi vicino a un elefante. 00:14:24.333 --> 00:14:28.027 Un grande aereo sulla pista di un aeroporto. NOTE Paragraph 00:14:28.977 --> 00:14:33.269 Certo, lavoriamo duro per migliorare i nostri algoritmi 00:14:33.269 --> 00:14:35.865 e ci sono ancora molte cose da imparare. 00:14:35.865 --> 00:14:38.156 (Applausi) NOTE Paragraph 00:14:39.416 --> 00:14:42.707 E il computer fa ancora errori. NOTE Paragraph 00:14:42.707 --> 00:14:45.958 Un gatto sdraiato a letto con una coperta. NOTE Paragraph 00:14:45.958 --> 00:14:48.431 Quindi quando vede troppi gatti, 00:14:48.431 --> 00:14:51.747 crede che tutto somigli a un gatto. NOTE Paragraph 00:14:53.317 --> 00:14:56.181 Un ragazzino con una mazza da baseball. 00:14:56.181 --> 00:14:57.426 (Risate) NOTE Paragraph 00:14:57.426 --> 00:15:02.529 Se non ha mai visto uno spazzolino lo confonde con una mazza da baseball. NOTE Paragraph 00:15:03.139 --> 00:15:06.743 Un uomo a cavallo in una strada vicino a un edificio. 00:15:06.743 --> 00:15:08.366 (Risate) NOTE Paragraph 00:15:08.366 --> 00:15:12.318 Non abbiamo insegnato l'Art. 101 ai computer. NOTE Paragraph 00:15:13.428 --> 00:15:16.302 Una zebra in una prateria. NOTE Paragraph 00:15:16.302 --> 00:15:20.019 E non ha imparato a apprezzare la magnifica bellezza della natura 00:15:20.019 --> 00:15:22.147 come me e voi. NOTE Paragraph 00:15:22.147 --> 00:15:25.049 Quindi è un lungo vaggio. 00:15:25.049 --> 00:15:29.245 Andare dall'età zero all'età tre era faticoso. 00:15:29.245 --> 00:15:35.111 La vera sfida è andare da 3 a 13 e più lontano. 00:15:35.111 --> 00:15:39.326 Ripensate alla foto del bambino con la torta. 00:15:39.326 --> 00:15:43.770 Finora abbiamo insegnato al computer a vedere oggetti 00:15:43.770 --> 00:15:47.758 o a raccontarci una semplice storia quando vede un'immagine. NOTE Paragraph 00:15:47.758 --> 00:15:51.574 Una persona seduta a tavola con una torta. NOTE Paragraph 00:15:51.574 --> 00:15:53.714 Ma c'è molto di più in questa foto 00:15:53.714 --> 00:15:56.044 di una persona con una torta. 00:15:56.044 --> 00:16:00.941 Ciò che il computer non vede è che è una torta italiana speciale 00:16:00.941 --> 00:16:03.868 che si serve solo a Pasqua. 00:16:03.868 --> 00:16:07.003 Il bambino indossa la sua t-shirt preferita 00:16:07.003 --> 00:16:11.333 regalatagli dal padre dopo un viaggio a Sidney, 00:16:11.333 --> 00:16:15.001 e possiamo notare quanto sia felice 00:16:15.001 --> 00:16:18.344 e cosa c'è di preciso nella sua mente in quel momento. NOTE Paragraph 00:16:18.974 --> 00:16:22.109 Questo è mio figlio Leo. 00:16:22.109 --> 00:16:24.693 Nella mia ricerca dell'intelligenza ottica, 00:16:24.693 --> 00:16:27.024 penso a Leo di continuo 00:16:27.024 --> 00:16:29.887 e al mondo futuro in cui vivrà. 00:16:29.887 --> 00:16:32.068 Quando le macchine potranno vedere, 00:16:32.068 --> 00:16:36.990 i medici e gli infermieri avranno un paio extra di occhi instancabili 00:16:36.990 --> 00:16:41.082 a aiutarli con diagnosi e cura dei pazienti. 00:16:41.082 --> 00:16:45.465 Le auto saranno più intelligenti e sicure sulla strada. 00:16:45.465 --> 00:16:48.049 I robot, non solo gli umani, 00:16:48.049 --> 00:16:53.008 ci aiuteranno a salvare persone intrappolate e ferite. 00:16:53.368 --> 00:16:57.594 Scopriremo nuove specie, materiali migliori, 00:16:57.594 --> 00:17:02.103 e esploreremo frontiere invisibili con l'aiuto delle macchine. NOTE Paragraph 00:17:02.883 --> 00:17:07.280 Un po' alla volta diamo la vista alle macchine. 00:17:07.280 --> 00:17:09.858 In primo luogo le insegnamo a vedere. 00:17:09.858 --> 00:17:12.841 Poi ci aiutano a vedere meglio. 00:17:12.841 --> 00:17:16.746 Per la prima volta gli occhi umani non saranno i soli 00:17:16.746 --> 00:17:19.770 a meditare e esplorare il nostro mondo. 00:17:19.770 --> 00:17:23.400 Useremo le macchine non solo per la loro intelligenza, 00:17:23.400 --> 00:17:29.499 ma collaboreremo anche con loro in modi che neanche immaginiamo. NOTE Paragraph 00:17:29.499 --> 00:17:31.740 Questa è la mia ricerca: 00:17:31.740 --> 00:17:34.862 dare ai computer intelligenza ottica 00:17:34.862 --> 00:17:39.273 e creare un futuro migliore per Leo e per il mondo. NOTE Paragraph 00:17:39.273 --> 00:17:41.394 Grazie. NOTE Paragraph 00:17:41.394 --> 00:17:45.179 (Applausi)