1 00:00:00,880 --> 00:00:04,893 Un tempo se volevate far fare qualcosa di nuovo ad un computer 2 00:00:04,893 --> 00:00:06,447 dovevate programmarlo. 3 00:00:06,447 --> 00:00:09,858 La programmazione, per quelli di voi che non l'hanno mai provata, 4 00:00:09,858 --> 00:00:13,360 richiede una spiegazione dettagliata 5 00:00:13,360 --> 00:00:16,727 di ogni singolo passaggio che volete che il computer faccia 6 00:00:16,727 --> 00:00:19,089 per ottenere il vostro scopo. 7 00:00:19,089 --> 00:00:22,585 Se volete fare qualcosa che nemmeno voi sapete come si faccia, 8 00:00:22,585 --> 00:00:24,648 potrebbe essere una sfida eccezionale. 9 00:00:24,648 --> 00:00:28,131 Questa è la sfida affrontata da quest'uomo, Arthur Samuel. 10 00:00:28,131 --> 00:00:32,208 Nel 1956 voleva che il suo computer 11 00:00:32,208 --> 00:00:34,548 fosse in grado di batterlo a dama. 12 00:00:34,548 --> 00:00:36,588 Come si può scrivere un programma 13 00:00:36,588 --> 00:00:40,394 che spieghi in modo dettagliato come essere migliori di voi a dama? 14 00:00:40,394 --> 00:00:42,116 Ebbe un'idea: 15 00:00:42,116 --> 00:00:45,840 fece giocare il computer contro sé stesso migliaia di volte 16 00:00:45,840 --> 00:00:48,364 per imparare a giocare a dama. 17 00:00:48,364 --> 00:00:51,544 E ha davvero funzionato, infatti nel 1962 18 00:00:51,544 --> 00:00:55,561 questo computer ha battuto il campione del Connecticut. 19 00:00:55,561 --> 00:00:58,534 Così Arthur Samuel è stato il padre dell'apprendimento automatico, 20 00:00:58,534 --> 00:01:00,251 ed ho un grande debito con lui, 21 00:01:00,251 --> 00:01:03,014 perché sono un professionista dell'apprendimento automatico. 22 00:01:03,014 --> 00:01:04,488 Sono stato il presidente di Kaggle 23 00:01:04,488 --> 00:01:05,962 una comunità di oltre 200 000 24 00:01:05,962 --> 00:01:08,257 professionisti dell'apprendimento automatico. 25 00:01:08,257 --> 00:01:09,925 Kaggle crea delle competizioni 26 00:01:09,925 --> 00:01:13,633 per cercare di risolvere problemi irrisolti 27 00:01:13,633 --> 00:01:16,870 e ce l'ha fatta centinaia di volte. 28 00:01:16,870 --> 00:01:19,303 Da questo punto di osservazione sono stato in grado di scoprire 29 00:01:19,303 --> 00:01:21,736 molto su quanto l'apprendimento automatico 30 00:01:21,736 --> 00:01:24,170 ha potuto fare in passato, su quel che può fare oggi, 31 00:01:24,170 --> 00:01:26,421 e su cosa potrà fare in futuro. 32 00:01:26,421 --> 00:01:29,592 Probabilmente il primo grande successo dell'apprendimento automatico 33 00:01:29,592 --> 00:01:30,925 in commercio è stato Google. 34 00:01:30,925 --> 00:01:33,784 Google ha mostrato che è possibile trovare informazioni 35 00:01:33,784 --> 00:01:35,536 usando un algoritmo informatico, 36 00:01:35,536 --> 00:01:38,437 un algoritmo basato sull'apprendimento automatico. 37 00:01:38,437 --> 00:01:42,323 Da allora ci sono stati numerosi successi commerciali nell'apprendimento automatico. 38 00:01:42,323 --> 00:01:44,174 Società quali Amazon e Netflix 39 00:01:44,174 --> 00:01:46,025 usano l'apprendimento automatico per suggerire 40 00:01:46,025 --> 00:01:47,876 prodotti che potreste voler acquistare, 41 00:01:47,876 --> 00:01:49,896 film che potreste voler vedere. 42 00:01:49,896 --> 00:01:51,703 A volte è quasi inquietante. 43 00:01:51,703 --> 00:01:53,657 Società come Linkedin e Facebook 44 00:01:53,657 --> 00:01:56,251 talvolta vi diranno chi potrebbe essere vostro amico 45 00:01:56,251 --> 00:01:58,228 e non avete idea di come ci riescano 46 00:01:58,228 --> 00:02:01,195 e questo perché stanno utilizzando l'apprendimento automatico. 47 00:02:01,195 --> 00:02:04,152 Sono algoritmi che hanno imparato tutto questo dai dati 48 00:02:04,152 --> 00:02:07,399 invece che dalla programmazione manuale. 49 00:02:07,399 --> 00:02:09,877 La IBM è riuscita in questo modo 50 00:02:09,877 --> 00:02:13,739 a far sì che Watson battesse due campioni mondiali di "Jeopardy" 51 00:02:13,739 --> 00:02:16,859 rispondendo a domande incredibilmente acute e complesse come queste. 52 00:02:16,859 --> 00:02:19,469 ["L'antico leone di Nimrud" è scomparso dal museo nazionale di questa città nel 2003 (insieme ad altro materiale)"] 53 00:02:19,469 --> 00:02:23,034 Ed ecco perché siamo in grado di vedere la prima auto che si guida da sola. 54 00:02:23,034 --> 00:02:25,856 Se vogliamo essere in grado di dire la differenza tra, diciamo, 55 00:02:25,856 --> 00:02:28,488 un albero ed un pedone, allora questo è piuttosto importante. 56 00:02:28,488 --> 00:02:31,075 Non sappiamo come scrivere questi programmi manualmente 57 00:02:31,075 --> 00:02:34,072 ma con l'apprendimento automatico adesso è possibile. 58 00:02:34,072 --> 00:02:36,680 Questa auto ha guidato per oltre un milione di chilometri, 59 00:02:36,680 --> 00:02:40,186 su strada normale, senza alcun incidente. 60 00:02:40,196 --> 00:02:44,110 Adesso sappiamo che i computer possono imparare, 61 00:02:44,110 --> 00:02:45,988 i computer possono imparare a fare cose 62 00:02:45,988 --> 00:02:48,848 che nemmeno noi non sappiamo fare, 63 00:02:48,848 --> 00:02:51,733 o che magari possono fare meglio di noi. 64 00:02:51,733 --> 00:02:55,928 Uno degli esempi più impressionanti di apprendimento automatico che ho visto 65 00:02:55,928 --> 00:02:58,320 è stato durante un progetto che ho condotto a Kaggle 66 00:02:58,320 --> 00:03:01,911 dove un gruppo guidato da un tipo chiamato Geoffrey Hinton 67 00:03:01,911 --> 00:03:03,463 dell'università di Toronto 68 00:03:03,463 --> 00:03:06,250 ha vinto una competizione per la scoperta automatica di droghe. 69 00:03:06,250 --> 00:03:08,987 La cosa straordinaria qui, non è soltanto che hanno battuto 70 00:03:08,987 --> 00:03:12,011 tutti gli algoritmi sviluppati da Merck o dalla comunità accademica internazionale 71 00:03:12,011 --> 00:03:15,035 ma il fatto che nessuno nella squadra avesse mai avuto 72 00:03:15,035 --> 00:03:18,061 esperienza in chimica o in biologia o in scienze biologiche 73 00:03:18,061 --> 00:03:20,230 e l'hanno fatto in due settimane. 74 00:03:20,230 --> 00:03:21,591 Come ci sono riusciti? 75 00:03:21,591 --> 00:03:25,342 Hanno utilizzato un algoritmo fenomenale chiamato apprendimento approfondito. 76 00:03:25,342 --> 00:03:28,651 Questo successo è stato così importante da essere stato pubblicato in un articolo 77 00:03:28,651 --> 00:03:31,412 nella prima pagina del New York Times poche settimane dopo. 78 00:03:31,412 --> 00:03:33,770 Questo qui a sinistra è Geoffrey Hinton. 79 00:03:33,770 --> 00:03:36,128 Apprendimento approfondito è un algoritmo 80 00:03:36,128 --> 00:03:38,488 ispirato al funzionamento del cervello umano 81 00:03:38,488 --> 00:03:40,300 che ha come risultato un algoritmo 82 00:03:40,300 --> 00:03:44,141 che non ha limiti teorici su quel che può fare. 83 00:03:44,141 --> 00:03:46,964 Più dati gli si forniscono e più tempo di calcolo gli si dà, 84 00:03:46,964 --> 00:03:48,276 meglio funziona. 85 00:03:48,276 --> 00:03:49,803 Il New York Times ha anche spiegato in questo articolo 86 00:03:49,803 --> 00:03:51,330 un altro straordinario 87 00:03:51,330 --> 00:03:52,857 risultato dell'apprendimento approfondito 88 00:03:52,857 --> 00:03:55,569 che sto per mostrarvi. 89 00:03:55,569 --> 00:04:00,510 Mostra che i computer possono ascoltare e capire. 90 00:04:00,510 --> 00:04:03,221 (Video) Richard Rashid: l'ultimo passo 91 00:04:03,221 --> 00:04:06,246 che voglio essere in grado di compiere in questo processo 92 00:04:06,246 --> 00:04:10,961 è di parlarvi veramente in cinese. 93 00:04:10,961 --> 00:04:13,506 Il punto chiave qui 94 00:04:13,506 --> 00:04:16,051 è che siamo stati in grado di prendere una gran quantità 95 00:04:16,051 --> 00:04:18,598 di informazioni da numerosi parlanti cinesi 96 00:04:18,598 --> 00:04:21,128 per produrre un sistema da testo a voce 97 00:04:21,128 --> 00:04:25,801 che prende il testo cinese e lo converte in lingua cinese 98 00:04:25,801 --> 00:04:29,929 e abbiamo preso più o meno un'ora della mia stessa voce 99 00:04:29,929 --> 00:04:31,820 e l'abbiamo utilizzata per modulare 100 00:04:31,820 --> 00:04:36,364 un sistema standard da testo a voce in modo che suoni come la mia. 101 00:04:36,364 --> 00:04:38,904 Il risultato non è perfetto. 102 00:04:38,904 --> 00:04:41,552 In realtà ci sono un po' di errori. 103 00:04:41,552 --> 00:04:44,036 (In cinese) 104 00:04:44,036 --> 00:04:47,386 (Applausi) 105 00:04:47,386 --> 00:04:53,022 C'è ancora molto da fare in questo settore. 106 00:04:53,022 --> 00:04:56,667 (In cinese) 107 00:04:56,667 --> 00:04:59,359 (Applausi) 108 00:04:59,359 --> 00:05:01,154 Jeremy Howard: 109 00:05:01,154 --> 00:05:02,350 questo è accaduto alla conferenza 110 00:05:03,546 --> 00:05:04,744 sull'apprendimento automatico in Cina. 111 00:05:04,744 --> 00:05:07,114 Non capita davvero spesso alle conferenze accademiche 112 00:05:07,114 --> 00:05:08,971 di sentire applausi spontanei 113 00:05:08,971 --> 00:05:10,828 benché ovviamente talvolta 114 00:05:10,828 --> 00:05:12,687 alle conferenze TEDx siate liberi di farlo. 115 00:05:12,687 --> 00:05:14,127 Tutto quello che avete visto è accaduto grazie all'apprendimento approfondito. 116 00:05:14,127 --> 00:05:15,567 (Applausi) 117 00:05:15,567 --> 00:05:17,007 Grazie. 118 00:05:17,007 --> 00:05:19,289 La trascrizione in inglese è apprendimento approfondito. 119 00:05:19,289 --> 00:05:22,701 La traduzione in cinese e il testo in alto a destra, apprendimento approfondito, 120 00:05:22,701 --> 00:05:26,008 e la costruzione della voce ancora apprendimento approfondito. 121 00:05:26,008 --> 00:05:29,242 Dunque l'apprendimento approfondito è questa cosa straordinaria. 122 00:05:29,242 --> 00:05:32,341 È un singolo algoritmo che sembra essere in grado di fare qualsiasi cosa 123 00:05:32,341 --> 00:05:35,452 e ho scoperto che un anno prima ha anche imparato a vedere. 124 00:05:35,452 --> 00:05:37,628 In questa sconosciuta competizione dalla Germania 125 00:05:37,628 --> 00:05:40,225 chiamata lo Standard tedesco per il riconoscimento dei segnali stradali 126 00:05:40,225 --> 00:05:43,618 l'apprendimento approfondito ha imparato a riconoscere segnali stradali come questo. 127 00:05:43,618 --> 00:05:45,712 Non solo può riconoscere i segnali stradali 128 00:05:45,712 --> 00:05:47,470 meglio di qualunque altro algoritmo 129 00:05:47,470 --> 00:05:50,189 la classifica dei leader mostra che in realtà è stato migliore delle persone, 130 00:05:50,189 --> 00:05:52,041 almeno il doppio delle persone. 131 00:05:52,041 --> 00:05:54,037 Così nel 2011 abbiamo avuto il primo esempio 132 00:05:54,037 --> 00:05:57,442 di computer che può vedere meglio delle persone. 133 00:05:57,442 --> 00:05:59,491 Da allora sono successe molte cose. 134 00:05:59,491 --> 00:06:03,005 Nel 2012 Google ha annunciato che un algoritmo di apprendimento approfondito 135 00:06:03,005 --> 00:06:04,420 ha guardato i video di YouTube 136 00:06:04,420 --> 00:06:07,857 e ha suddiviso i dati su 16 000 computer per un mese 137 00:06:07,857 --> 00:06:12,218 e il computer ha imparato in modo autonomo concetti quali persone e gatti 138 00:06:12,218 --> 00:06:14,027 solo guardando i video. 139 00:06:14,027 --> 00:06:16,379 Assomiglia molto al modo di imparare degli uomini. 140 00:06:16,379 --> 00:06:19,119 Gli uomini non apprendono quando gli si dice cosa vedono, 141 00:06:19,119 --> 00:06:22,450 ma apprendendo da soli cosa sono queste cose. 142 00:06:22,450 --> 00:06:25,819 Anche nel 2012 Geoffrey Hinton, che abbiamo visto prima, 143 00:06:25,819 --> 00:06:28,677 ha vinto la popolarissima competizione ImageNet 144 00:06:28,677 --> 00:06:32,818 cercando di capire da un milione e mezzo di immagini 145 00:06:32,818 --> 00:06:34,256 di che cosa erano la foto. 146 00:06:34,256 --> 00:06:37,789 Già dal 2014 siamo a meno del sei percento del tasso di errore 147 00:06:37,789 --> 00:06:39,242 nel riconoscimento delle immagini. 148 00:06:39,242 --> 00:06:41,268 Ancora una volta meglio delle persone. 149 00:06:41,268 --> 00:06:45,037 Le macchine stanno davvero facendo un lavoro straordinario qui 150 00:06:45,037 --> 00:06:47,306 e verrà utilizzato nell'industria. 151 00:06:47,306 --> 00:06:50,348 Per esempio, Google lo scorso anno ha annunciato 152 00:06:50,348 --> 00:06:54,933 che ha mappato ogni singola località in Francia in due ore 153 00:06:54,933 --> 00:06:57,521 e lo ha fatto fornendo immagini di strade 154 00:06:57,521 --> 00:07:00,109 ad un algoritmo di apprendimento approfondito 155 00:07:00,109 --> 00:07:02,699 per riconoscere e leggere i numeri civici. 156 00:07:02,699 --> 00:07:04,919 Immaginate quanto si sarebbe impiegato prima: 157 00:07:04,919 --> 00:07:08,274 dozzine di persone, diversi anni. 158 00:07:08,274 --> 00:07:10,185 Sta accadendo anche in Cina. 159 00:07:10,185 --> 00:07:14,221 Baidu è una sorta di Google cinese, immagino, 160 00:07:14,221 --> 00:07:16,306 e quel che potete vedere in alto a sinistra 161 00:07:16,306 --> 00:07:18,391 è un esempio delle immagini che ho caricato 162 00:07:18,391 --> 00:07:20,478 nel sistema di apprendimento approfondito di Baidu, 163 00:07:20,478 --> 00:07:24,247 al di sotto potete vedere che il sistema ha capito che cos'è quell'immagine 164 00:07:24,247 --> 00:07:26,483 e ha trovato immagini simili. 165 00:07:26,483 --> 00:07:29,219 In effetti le immagini simili hanno sfondi simili, 166 00:07:29,219 --> 00:07:30,877 simili direzioni dei volti, 167 00:07:30,877 --> 00:07:32,665 alcuni persino con la lingua fuori. 168 00:07:32,665 --> 00:07:35,695 Questo non sta certamente cercando il testo in una pagina del web. 169 00:07:35,695 --> 00:07:37,107 Tutto quello che ho caricato è un'immagine. 170 00:07:37,107 --> 00:07:41,128 Così adesso abbiamo computer che comprendono davvero quello che vedono 171 00:07:41,128 --> 00:07:42,752 e che possono di conseguenza cercare nei database 172 00:07:42,752 --> 00:07:46,306 di centinaia di milioni di immagini in tempo reale. 173 00:07:46,306 --> 00:07:49,536 Cosa significa che i computer possono vedere? 174 00:07:49,536 --> 00:07:51,553 Non è solo che i computer possono vedere. 175 00:07:51,553 --> 00:07:53,622 Infatti l'apprendimento approfondito ha fatto molto più di questo. 176 00:07:53,622 --> 00:07:55,546 Frasi complesse e sfumate come questa 177 00:07:55,546 --> 00:07:57,470 adesso sono comprensibili 178 00:07:57,470 --> 00:07:59,394 con un algoritmo di apprendimento approfondito. 179 00:07:59,394 --> 00:08:00,697 Come potete vedere qui, 180 00:08:00,697 --> 00:08:03,465 questo sistema basato su Stanford che mostra punti rossi in cima 181 00:08:03,465 --> 00:08:07,384 ha capito che questa frase sta esprimendo un sentimento negativo. 182 00:08:07,384 --> 00:08:10,230 L'apprendimento approfondito è simile al comportamento umano 183 00:08:10,230 --> 00:08:13,076 nel comprendere quello di cui tratta 184 00:08:13,076 --> 00:08:15,923 la frase e che cosa sta dicendo su queste cose. 185 00:08:15,923 --> 00:08:18,651 L'apprendimento approfondito è stato utilizzato per leggere il cinese 186 00:08:18,651 --> 00:08:21,807 ad un livello simile a quello di un madrelingua. 187 00:08:21,807 --> 00:08:23,975 Questo algoritmo è stato sviluppato in Svizzera 188 00:08:23,975 --> 00:08:27,331 da persone che non parlavano o capivano il cinese. 189 00:08:27,331 --> 00:08:29,382 Come ho detto, l'uso dell'apprendimento approfondito 190 00:08:29,382 --> 00:08:31,601 è praticamente il sistema migliore del mondo per fare questo, 191 00:08:31,601 --> 00:08:36,718 anche paragonato alla conoscenza umana. 192 00:08:36,718 --> 00:08:39,682 Questo è il sistema che abbiamo messo a punto nella mia azienda, 193 00:08:39,682 --> 00:08:41,728 che mostra come mettere tutto questo materiale insieme. 194 00:08:41,728 --> 00:08:44,189 Queste immagini non hanno alcun testo allegato 195 00:08:44,189 --> 00:08:46,541 e mentre sto digitando queste frasi 196 00:08:46,541 --> 00:08:49,510 in tempo reale sta capendo queste immagini 197 00:08:49,510 --> 00:08:51,189 e immaginando cosa riguardano 198 00:08:51,189 --> 00:08:54,352 e trovando immagini simili al testo che sto scrivendo. 199 00:08:54,352 --> 00:08:57,108 Come potete vedere, sta effettivamente capendo le mie frasi 200 00:08:57,108 --> 00:08:59,332 e sta realmente comprendendo queste immagini. 201 00:08:59,332 --> 00:09:01,891 So che avete visto qualcosa di simile su Google 202 00:09:01,891 --> 00:09:04,637 dove potete digitare cose e lui vi mostra delle immagini, 203 00:09:04,643 --> 00:09:08,090 ma in realtà quello che fa è cercare una pagina web riferita al testo. 204 00:09:08,090 --> 00:09:11,091 È molto diverso dal capire davvero le immagini. 205 00:09:11,091 --> 00:09:13,843 È una cosa che i computer sono stati in grado di fare 206 00:09:13,843 --> 00:09:16,289 per la prima volta negli ultimi mesi. 207 00:09:16,289 --> 00:09:18,735 Vediamo che i computer non soltanto 208 00:09:18,735 --> 00:09:21,182 possono vedere le immagini, possono anche leggere 209 00:09:21,182 --> 00:09:23,584 e ovviamente mostrare che possono comprendere quello che sentono. 210 00:09:23,584 --> 00:09:25,986 Forse non vi sorprenderà quello che sto per dirvi, 211 00:09:25,986 --> 00:09:28,381 cioè che sono in grado di scrivere. 212 00:09:28,381 --> 00:09:30,776 Ecco un testo che ho scritto ieri utilizzando 213 00:09:30,776 --> 00:09:33,172 un algoritmo di apprendimento approfondito. 214 00:09:33,172 --> 00:09:37,096 Ed ecco un testo che un algoritmo di Stanford ha creato. 215 00:09:37,096 --> 00:09:39,100 Ognuna di queste frasi è stata creata 216 00:09:39,100 --> 00:09:41,104 da un algoritmo di apprendimento approfondito 217 00:09:41,104 --> 00:09:43,263 per descrivere ognuna di queste immagini. 218 00:09:43,263 --> 00:09:45,422 Questo algoritmo non ha mai visto 219 00:09:45,422 --> 00:09:47,581 un uomo in maglietta nera che suona la chitarra. 220 00:09:47,581 --> 00:09:49,801 Ha già visto un uomo prima, ha già visto il nero prima, 221 00:09:49,801 --> 00:09:51,400 ha già visto una chitarra prima, 222 00:09:51,400 --> 00:09:55,694 ma ha generato in modo autonomo questa nuova descrizione di questa fotografia. 223 00:09:55,694 --> 00:09:59,196 Non è ancora una prestazione umana, ma ci siamo vicini. 224 00:09:59,196 --> 00:10:03,264 Nei test, gli uomini preferiscono un sottotitolo generato dal computer 225 00:10:03,264 --> 00:10:04,791 una volta su quattro. 226 00:10:04,791 --> 00:10:06,855 Questo sistema ha soltanto due settimane, 227 00:10:06,855 --> 00:10:08,701 quindi forse entro il prossimo anno 228 00:10:08,701 --> 00:10:11,502 l'algoritmo informatico sarà oltre la prestazione umana 229 00:10:11,502 --> 00:10:13,364 alla velocità con cui vanno le cose. 230 00:10:13,364 --> 00:10:16,413 I computer possono anche scrivere. 231 00:10:16,413 --> 00:10:19,888 Abbiamo messo tutto insieme e ci ha portato ad opportunità emozionanti. 232 00:10:19,888 --> 00:10:21,380 Per esempio in medicina 233 00:10:21,380 --> 00:10:23,905 un gruppo di Boston ha annunciato che ha scoperto 234 00:10:23,905 --> 00:10:26,854 dozzine di caratteristiche dei tumori clinicamente rilevanti 235 00:10:26,854 --> 00:10:31,120 che aiutano i medici nel fare una prognosi del cancro. 236 00:10:31,130 --> 00:10:34,516 Analogamente, a Stanford 237 00:10:34,516 --> 00:10:38,179 un gruppo ha annunciato che osservando i tessuti ingranditi 238 00:10:38,179 --> 00:10:40,560 hanno sviluppato un sistema basato sull'apprendimento automatico 239 00:10:40,560 --> 00:10:43,142 che è migliore dei patologi umani 240 00:10:43,142 --> 00:10:47,519 nel predire le percentuali di sopravvivenza nei malati di cancro. 241 00:10:47,519 --> 00:10:50,764 In entrambi i casi non solo le previsioni sono più accurate 242 00:10:50,764 --> 00:10:53,266 ma generano una nuova scienza intelligente. 243 00:10:53,276 --> 00:10:54,781 Nel caso della radiologia 244 00:10:54,781 --> 00:10:57,876 sono nuovi indicatori clinici che gli umani possono comprendere. 245 00:10:57,876 --> 00:10:59,668 Nel caso di questa patologia 246 00:10:59,668 --> 00:11:04,168 il sistema informatico ha scoperto che le cellule intorno al cancro 247 00:11:04,168 --> 00:11:07,508 sono importanti quanto le cellule tumorali stesse 248 00:11:07,508 --> 00:11:09,260 per fare una diagnosi. 249 00:11:09,260 --> 00:11:14,621 È il contrario di quanto è stato insegnato ai patologi per decenni. 250 00:11:14,621 --> 00:11:17,913 In ognuno dei due casi sono sistemi sviluppati 251 00:11:17,913 --> 00:11:20,033 da una combinazione di esperti in medicina 252 00:11:20,033 --> 00:11:22,153 e di esperti in apprendimento automatico 253 00:11:22,153 --> 00:11:24,275 ma a partire dallo scorso anno siamo andati anche oltre. 254 00:11:24,275 --> 00:11:27,824 Questo è un esempio di identificazione delle aree tumorali 255 00:11:27,824 --> 00:11:30,354 di un tessuto umano al microscopio. 256 00:11:30,354 --> 00:11:34,967 Questo sistema può identificare le aree con maggiore accuratezza 257 00:11:34,967 --> 00:11:37,022 o con la stessa accuratezza di un patologo umano 258 00:11:37,022 --> 00:11:38,392 ma è stato costruito interamente 259 00:11:38,392 --> 00:11:39,762 con l'apprendimento approfondito 260 00:11:39,762 --> 00:11:41,134 senza utilizzare la competenza medica 261 00:11:41,134 --> 00:11:44,090 da persone che non hanno alcuna competenza in questo settore. 262 00:11:44,090 --> 00:11:46,377 Analogamente qui c'è la segmentazione di un neurone. 263 00:11:46,377 --> 00:11:48,664 Ora siamo in grado di segmentare 264 00:11:48,664 --> 00:11:50,953 i neuroni con la stessa accuratezza degli uomini, 265 00:11:50,953 --> 00:11:53,670 ma questo sistema è stato sviluppato con l'apprendimento approfondito 266 00:11:53,670 --> 00:11:56,921 da persone con nessuna competenza in medicina. 267 00:11:56,921 --> 00:12:00,148 Io stesso, da persona senza alcuna competenza in medicina, 268 00:12:00,148 --> 00:12:03,875 sono pienamente qualificato per iniziare una nuova società medica, 269 00:12:03,875 --> 00:12:06,021 cosa che ho fatto. 270 00:12:06,021 --> 00:12:07,761 Ero piuttosto spaventato nel farlo 271 00:12:07,761 --> 00:12:10,650 ma la teoria sembrava suggerire che era possibile 272 00:12:10,650 --> 00:12:16,142 fare medicina molto utile utilizzando soltanto queste tecniche di analisi dati. 273 00:12:16,142 --> 00:12:18,622 Fortunatamente abbiamo avuto un fantastico riscontro 274 00:12:18,622 --> 00:12:20,978 non soltanto dai media, ma anche dalla comunità medica, 275 00:12:20,978 --> 00:12:23,322 che è stata di grande supporto. 276 00:12:23,322 --> 00:12:27,471 La teoria è che possiamo prendere la parte centrale di un processo medico 277 00:12:27,471 --> 00:12:30,364 e trasformarla in un analisi di dati per quanto possibile, 278 00:12:30,364 --> 00:12:33,429 lasciando i medici a fare quel che fanno meglio. 279 00:12:33,429 --> 00:12:35,031 Voglio farvi un esempio. 280 00:12:35,031 --> 00:12:39,975 Ad oggi occorrono 15 minuti per produrre un nuovo test medico diagnostico, 281 00:12:39,975 --> 00:12:41,929 io ve lo mostrerò in tempo reale, 282 00:12:41,929 --> 00:12:45,416 ma l'ho compresso a tre minuti eliminando qualche parte. 283 00:12:45,416 --> 00:12:48,477 Invece di farvi vedere la creazione di un test medico diagnostico 284 00:12:48,477 --> 00:12:51,846 sto per mostrarvi un test diagnostico con immagini di auto, 285 00:12:51,846 --> 00:12:54,068 perché è qualcosa che possiamo comprendere tutti. 286 00:12:54,068 --> 00:12:57,269 Quindi inizieremo con circa un milione e mezzo di immagini di auto 287 00:12:57,269 --> 00:13:00,475 e voglio creare qualcosa che le suddivida per l'angolazione 288 00:13:00,475 --> 00:13:02,698 con cui sono state scattate le fotografie. 289 00:13:02,698 --> 00:13:06,586 Queste immagini non sono etichettate, quindi dovrò cominciare da zero. 290 00:13:06,586 --> 00:13:08,443 Con il nostro algoritmo per l'apprendimento approfondito 291 00:13:08,443 --> 00:13:10,300 si possono identificare automaticamente 292 00:13:10,300 --> 00:13:12,158 le aree delle strutture in queste immagini. 293 00:13:12,158 --> 00:13:15,778 La cosa bella è che l'uomo e il computer possono lavorare insieme. 294 00:13:15,778 --> 00:13:17,956 L'uomo, come potete vedere qui, 295 00:13:17,956 --> 00:13:20,631 sta spiegando al computer le aree di interesse 296 00:13:20,631 --> 00:13:23,613 che vuole che il computer utilizzi per migliorare l'algoritmo. 297 00:13:23,613 --> 00:13:26,595 In realtà questi sistemi di apprendimento approfondito 298 00:13:26,595 --> 00:13:29,577 sono in uno spazio di 16 000 dimensioni 299 00:13:29,577 --> 00:13:33,009 così potete vedere qui il computer che lo ruota attraverso quello spazio 300 00:13:33,009 --> 00:13:35,001 cercando di trovare nuove aree di struttura. 301 00:13:35,001 --> 00:13:36,782 Quando ci riesce 302 00:13:36,782 --> 00:13:40,786 l'uomo che lo sta guidando può poi segnalare le aree interessanti. 303 00:13:40,786 --> 00:13:43,208 Qui il computer ha trovato con successo le aree 304 00:13:43,208 --> 00:13:45,770 ad esempio, gli spigoli. 305 00:13:45,770 --> 00:13:47,376 Durante questo processo 306 00:13:47,376 --> 00:13:49,904 stiamo dicendo gradualmente al computer sempre di più 307 00:13:49,904 --> 00:13:52,144 sul tipo di strutture che stiamo cercando. 308 00:13:52,144 --> 00:13:53,851 Potete immaginare in un test diagnostico 309 00:13:53,851 --> 00:13:55,558 che questo potrebbe essere un patologo che identifica 310 00:13:55,558 --> 00:13:57,266 le aree malate, oppure ad esempio 311 00:13:57,266 --> 00:14:02,292 un radiologo che indica i noduli potenzialmente problematici. 312 00:14:02,292 --> 00:14:04,851 Talvolta può essere difficile per l'algoritmo. 313 00:14:04,851 --> 00:14:06,815 Qui è in un qualche modo confuso. 314 00:14:06,815 --> 00:14:09,365 Le immagini della parte anteriore e posteriore delle auto sono mescolate. 315 00:14:09,365 --> 00:14:11,437 In questo caso dobbiamo essere un po' più cauti, 316 00:14:11,437 --> 00:14:14,669 selezionando le parti anteriori come opposte alle parti posteriori. 317 00:14:14,669 --> 00:14:20,175 e dicendo al computer che questo è il tipo di gruppo 318 00:14:20,175 --> 00:14:21,523 a cui siamo interessati. 319 00:14:21,523 --> 00:14:24,200 Lo facciamo per un po', tralasciando qualcosa, 320 00:14:24,200 --> 00:14:26,446 così addestriamo l'algoritmo per l'apprendimento automatico 321 00:14:26,446 --> 00:14:28,420 basandoci su queste coppie di centinaia di cose 322 00:14:28,420 --> 00:14:30,445 sperando che il risultato sia migliore. 323 00:14:30,445 --> 00:14:33,518 Potete vedere che sta iniziando a dissolvere alcune di queste fotografie 324 00:14:33,518 --> 00:14:38,226 mostrandoci che sta già riconoscendo come capire da solo alcune di queste. 325 00:14:38,226 --> 00:14:41,128 Possiamo utilizzare questo concetto di immagini simili, 326 00:14:41,128 --> 00:14:43,222 e utilizzando immagini simili, come potete vedere. 327 00:14:43,222 --> 00:14:47,241 il computer a questo punto è in grado di trovare la parte anteriore delle auto. 328 00:14:47,241 --> 00:14:50,189 A questo punto l'uomo può dire al computer 329 00:14:50,189 --> 00:14:52,462 va bene, hai fatto un buon lavoro. 330 00:14:52,462 --> 00:14:55,837 Talvolta, ovviamente, persino a questo punto 331 00:14:55,837 --> 00:14:58,356 è ancora difficile separare i gruppi. 332 00:14:58,356 --> 00:15:00,875 In questo caso anche dopo aver lasciato 333 00:15:00,875 --> 00:15:03,395 il computer a provare a ruotarlo per un po' 334 00:15:03,399 --> 00:15:06,744 troveremo ancora che le immagini dei lati sinistri e dei lati destri 335 00:15:06,744 --> 00:15:08,222 sono tutte mescolate. 336 00:15:08,222 --> 00:15:10,362 Così possiamo dare ulteriori indicazioni al computer 337 00:15:10,362 --> 00:15:13,338 e dire, va bene, prova a trovare una proiezione per separare 338 00:15:13,338 --> 00:15:15,945 i lati sinistri da quelli destri per quanto possibile 339 00:15:15,945 --> 00:15:18,067 utilizzando questo algoritmo di apprendimento approfondito. 340 00:15:18,067 --> 00:15:21,009 Dandogli quel suggerimento -- ecco, c'è riuscito. 341 00:15:21,009 --> 00:15:23,891 È riuscito a trovare un modo per pensare a questi oggetti 342 00:15:23,891 --> 00:15:26,271 separandoli dagli altri. 343 00:15:26,271 --> 00:15:28,709 Vi state facendo un'idea. 344 00:15:28,709 --> 00:15:36,906 Questo non è un caso in cui l'uomo è rimpiazzato dal computer, 345 00:15:36,906 --> 00:15:39,546 ma uno in cui lavorano insieme. 346 00:15:39,546 --> 00:15:43,096 Quello che stiamo facendo qui è sostituire qualcosa per il quale serviva una squadra 347 00:15:43,096 --> 00:15:45,098 di cinque o sei persone per circa sette anni 348 00:15:45,098 --> 00:15:47,703 e sostituirlo con qualcosa che impiega 15 minuti 349 00:15:47,703 --> 00:15:50,208 e una persona che lavora da sola. 350 00:15:50,208 --> 00:15:54,158 Questo processo richiede all'incirca quattro o cinque ripetizioni. 351 00:15:54,158 --> 00:15:56,017 Potete vedere che adesso abbiamo il 62 per cento 352 00:15:56,017 --> 00:15:58,976 del nostro milione e mezzo di immagini classificato correttamente. 353 00:15:58,976 --> 00:16:01,448 A questo punto possiamo iniziare a prendere piuttosto 354 00:16:01,448 --> 00:16:02,745 velocemente grandi sezioni, 355 00:16:02,745 --> 00:16:05,664 controllarle per essere sicuri che non ci siano errori. 356 00:16:05,664 --> 00:16:09,616 Dove ci sono errori, possiamo farlo sapere al computer. 357 00:16:09,616 --> 00:16:12,661 Utilizzando questo tipo di processo per ognuno dei diversi gruppi 358 00:16:12,661 --> 00:16:15,148 siamo vicini ad un tasso di successo dell'80 per cento 359 00:16:15,148 --> 00:16:17,563 nel classificare un milione e mezzo di immagini. 360 00:16:17,563 --> 00:16:19,641 A questo punto è solo si tratta solo 361 00:16:19,641 --> 00:16:23,220 di trovare trova la piccola parte che non è classificata correttamente 362 00:16:23,220 --> 00:16:26,108 e si cerca di capire perché. 363 00:16:26,108 --> 00:16:27,851 Usando questo approccio 364 00:16:27,851 --> 00:16:31,972 in 15 minuti arriviamo a un tasso di classificazione del 97 per cento. 365 00:16:31,972 --> 00:16:36,572 Questo tipo di tecnica può permetterci di risolvere un problema più grande, 366 00:16:36,578 --> 00:16:38,753 cioè che c'è una mancanza di competenza medica nel mondo. 367 00:16:38,753 --> 00:16:40,928 Il Forum Economico Mondiale riporta che ci sono 368 00:16:40,928 --> 00:16:43,103 dalle 10 alle 20 volte meno medici del necessario 369 00:16:43,103 --> 00:16:45,727 nei paesi in via di sviluppo 370 00:16:45,727 --> 00:16:47,840 e serviranno circa 300 anni 371 00:16:47,840 --> 00:16:50,734 per formare abbastanza persone per risolvere il problema. 372 00:16:50,734 --> 00:16:53,619 Quindi immaginate se potessimo aiutare a migliorare la loro efficacia 373 00:16:53,619 --> 00:16:56,458 utilizzando l'approccio con questo apprendimento approfondito? 374 00:16:56,458 --> 00:16:58,690 Sono davvero entusiasta di questa opportunità. 375 00:16:58,690 --> 00:17:01,279 Sono anche preoccupato per i problemi. 376 00:17:01,279 --> 00:17:04,403 Il problema è che ogni area in blu su questa mappa 377 00:17:04,403 --> 00:17:08,172 indica un posto dove i servizi sono oltre l'80 per cento del lavoro. 378 00:17:08,172 --> 00:17:09,959 Cosa sono i servizi? 379 00:17:09,959 --> 00:17:11,473 Questi sono i servizi. 380 00:17:11,473 --> 00:17:15,627 Questi sono anche proprio quello che i computer hanno appena imparato a fare. 381 00:17:15,627 --> 00:17:19,431 Così l'80 per cento dell'occupazione mondiale nel mondo sviluppato 382 00:17:19,431 --> 00:17:21,963 è in qualcosa che i computer hanno appena imparato a fare. 383 00:17:21,963 --> 00:17:23,403 Cosa significa tutto ciò? 384 00:17:23,403 --> 00:17:25,986 Che andrà tutto bene. Saranno sostituiti da altri lavori. 385 00:17:25,986 --> 00:17:28,693 Ad esempio ci sarà più lavoro per i data scientist. 386 00:17:28,693 --> 00:17:29,510 Veramente no. 387 00:17:29,510 --> 00:17:32,628 Non occorrono molti data scientist per costruire questi. 388 00:17:32,628 --> 00:17:35,880 Ad esempio questi quattro algoritmi sono stati creati dalla stessa persona. 389 00:17:35,880 --> 00:17:38,318 Così se pensate: è già accaduto prima 390 00:17:38,318 --> 00:17:42,126 abbiamo visto in passato i risultati di quando arrivano novità 391 00:17:42,126 --> 00:17:44,378 e vengono sostituite da nuovi lavori, 392 00:17:44,378 --> 00:17:46,494 ma come saranno questi nuovi lavori? 393 00:17:46,494 --> 00:17:48,365 È molto difficile per noi prevederlo 394 00:17:48,365 --> 00:17:51,104 perché la conoscenza umana cresce ad un tasso graduale, 395 00:17:51,104 --> 00:17:53,666 mentre ora che abbiamo questo sistema di apprendimento approfondito 396 00:17:53,666 --> 00:17:56,893 che sappiamo che ha una conoscenza che cresce a livello esponenziale. 397 00:17:56,893 --> 00:17:58,498 Siamo qui. 398 00:17:58,498 --> 00:18:00,077 Attualmente vediamo le cose intorno a noi 399 00:18:00,077 --> 00:18:01,656 e diciamo: "I computer sono ancora piuttosto stupidi" 400 00:18:01,656 --> 00:18:03,235 Giusto? 401 00:18:03,235 --> 00:18:06,664 Ma fra cinque anni saranno fuori da questo diagramma. 402 00:18:06,664 --> 00:18:10,529 Così dobbiamo iniziare a pensare a questa capacità proprio adesso. 403 00:18:10,529 --> 00:18:12,579 L'abbiamo già visto, ovviamente. 404 00:18:12,579 --> 00:18:13,966 Nella Rivoluzione Industriale 405 00:18:13,966 --> 00:18:17,137 abbiamo visto un cambio di passo nella capacità grazie al motore. 406 00:18:17,157 --> 00:18:20,805 Il punto è tuttavia che dopo un po' le cose si sono appiattite. 407 00:18:20,805 --> 00:18:22,507 Ci sono stati disordini sociali, 408 00:18:22,507 --> 00:18:25,946 ma una volta che il motore è stato usato per generare energia in ogni situazione 409 00:18:25,946 --> 00:18:28,300 le cose si sono assestate. 410 00:18:28,300 --> 00:18:29,773 La Rivoluzione dell'Apprendimento Automatico 411 00:18:29,773 --> 00:18:32,682 sarà molto diversa dalla Rivoluzione Industriale 412 00:18:32,682 --> 00:18:35,632 perché la Rivoluzione dell'Apprendimento Automatico non si assesterà. 413 00:18:35,632 --> 00:18:38,042 Più i computer miglioreranno le attività intellettuali 414 00:18:38,042 --> 00:18:40,452 più si potranno costruire computer migliori 415 00:18:40,452 --> 00:18:42,862 che miglioreranno le capacità intellettuali, 416 00:18:42,862 --> 00:18:44,770 quindi questo sarà un cambiamento 417 00:18:44,770 --> 00:18:47,248 che il mondo non ha davvero mai sperimentato prima 418 00:18:47,248 --> 00:18:50,554 quindi la vostra comprensione precedente su quel che è possibile, è diverso. 419 00:18:50,974 --> 00:18:52,754 Sta già avendo un impatto su di noi. 420 00:18:52,754 --> 00:18:56,384 Negli ultimi 25 anni la produttività del capitale è cresciuta, 421 00:18:56,400 --> 00:19:00,588 la produttività del lavoro è rimasta uguale, è persino calata un po'. 422 00:19:01,408 --> 00:19:04,149 Quindi voglio che iniziamo a discuterne sin da adesso. 423 00:19:04,149 --> 00:19:07,176 So che spesso quando parlo alle persone di questa situazione 424 00:19:07,176 --> 00:19:08,666 le persone sono piuttosto sprezzanti. 425 00:19:08,666 --> 00:19:10,339 Del resto i computer non possono veramente pensare, 426 00:19:10,339 --> 00:19:13,367 non hanno emozioni, non comprendono la poesia, 427 00:19:13,367 --> 00:19:15,888 non capiamo davvero come funzionano. 428 00:19:15,888 --> 00:19:17,374 Quindi? 429 00:19:17,374 --> 00:19:19,668 Già adesso i computer possono fare cose 430 00:19:19,668 --> 00:19:21,897 per fare le quali le persone vengono pagate, 431 00:19:21,897 --> 00:19:23,628 quindi è tempo di iniziare a pensare 432 00:19:23,628 --> 00:19:28,015 a come dovremo modificare le nostre strutture sociali ed economiche 433 00:19:28,015 --> 00:19:29,855 per diventare consapevoli di questa nuova realtà. 434 00:19:29,855 --> 00:19:31,388 Grazie. 435 00:19:31,388 --> 00:19:32,190 (Applausi)