1 00:00:09,627 --> 00:00:13,424 Un tempo, se volevate far svolgere a un computer un compito nuovo, 2 00:00:13,424 --> 00:00:15,256 dovevate programmarlo. 3 00:00:15,256 --> 00:00:18,542 La programmazione, per chi di voi ne fosse a digiuno, 4 00:00:18,566 --> 00:00:21,645 prevede la descrizione, nei minimi dettagli, 5 00:00:21,645 --> 00:00:25,234 di ogni istruzione che volete far eseguire al computer, 6 00:00:25,234 --> 00:00:27,481 così da raggiungere l'obiettivo desiderato. 7 00:00:27,481 --> 00:00:31,126 Ma se nemmeno voi sapeste descrivere il compito da svolgere, 8 00:00:31,126 --> 00:00:33,132 la sfida si farebbe molto più complicata. 9 00:00:33,132 --> 00:00:36,682 Una sfida raccolta da quest'uomo, Arthur Samuel. 10 00:00:36,682 --> 00:00:42,775 Nel 1956, voleva farsi battere a dama da questo computer. 11 00:00:42,775 --> 00:00:44,532 Ma come fai a scrivere un programma, 12 00:00:44,532 --> 00:00:48,820 preciso in ogni dettaglio, che renda i computer migliori di te a dama? 13 00:00:48,820 --> 00:00:50,527 Così gli venne un idea: 14 00:00:50,527 --> 00:00:54,370 fece migliaia di partite col computer, 15 00:00:54,370 --> 00:00:56,826 perché imparasse a giocare a dama. 16 00:00:56,826 --> 00:00:59,774 La strategia funzionò e nel 1962 17 00:00:59,774 --> 00:01:02,707 il computer vinse contro il campione del Connecticut. 18 00:01:03,416 --> 00:01:06,859 Arthur Samuel fu così il padre dell'apprendimento automatico [AA], 19 00:01:06,859 --> 00:01:08,441 e io gli sono molto riconoscente, 20 00:01:08,441 --> 00:01:11,279 da professionista del settore quale sono. 21 00:01:11,279 --> 00:01:13,014 Sono stato il presidente di Kaggle, 22 00:01:13,014 --> 00:01:16,162 una comunità di oltre 200.000 addetti ai lavori. 23 00:01:16,162 --> 00:01:18,447 Kaggle indìce sfide 24 00:01:18,447 --> 00:01:21,891 che affrontano problemi finora insoluti, 25 00:01:21,891 --> 00:01:24,732 e ha al suo attivo centinaia di successi. 26 00:01:25,727 --> 00:01:28,118 Da quel punto di vista privilegiato, ho capito 27 00:01:28,118 --> 00:01:32,169 molte cose sul passato, sul presente 28 00:01:32,169 --> 00:01:34,367 e sul possibile futuro dell'AA. 29 00:01:34,367 --> 00:01:36,605 Forse il primo grande successo commerciale 30 00:01:36,605 --> 00:01:39,209 dell'AA è stato Google. 31 00:01:39,209 --> 00:01:41,835 Google ha mostrato che si può trovare un'informazione 32 00:01:41,835 --> 00:01:44,131 con un algoritmo informatico, 33 00:01:44,131 --> 00:01:46,945 che si basa sull'AA. 34 00:01:46,945 --> 00:01:50,661 Da allora, i successi commerciali dell'AA sono stati molti. 35 00:01:50,661 --> 00:01:52,676 Aziende come Amazon e Netflix 36 00:01:52,676 --> 00:01:55,901 usano l'AA per suggerire prodotti che potremmo voler comprare, 37 00:01:55,901 --> 00:01:58,147 e film che potremmo voler vedere. 38 00:01:58,147 --> 00:02:00,091 Mette quasi i brividi, a volte: 39 00:02:00,091 --> 00:02:01,915 aziende come LinkedIn e Facebook 40 00:02:01,915 --> 00:02:04,490 a volte ti dicono quali potrebbero essere i tuoi amici 41 00:02:04,490 --> 00:02:06,361 e non capiamo come possano aver fatto: 42 00:02:06,361 --> 00:02:09,410 ci sono riusciti usando la potenza dell'AA. 43 00:02:09,410 --> 00:02:12,619 Sono algoritmi che hanno imparato il loro compito dai dati, 44 00:02:12,619 --> 00:02:15,386 più che da una classica programmazione a mano. 45 00:02:15,860 --> 00:02:18,444 È così che Watson, della IBM, è riuscito 46 00:02:18,444 --> 00:02:21,286 a battere due campioni mondiali di "Jeopardy!", 47 00:02:21,311 --> 00:02:25,193 rispondendo a domande complesse e sofisticate come questa. 48 00:02:25,193 --> 00:02:28,593 [L'antico "Leone di Nimrud" è sparito dal suo museo nazionale nel 2003] 49 00:02:28,603 --> 00:02:31,544 È questo che ha permesso le prime auto automatiche. 50 00:02:31,544 --> 00:02:34,116 Imparare a riconoscere la differenza 51 00:02:34,116 --> 00:02:37,148 tra un albero e un pedone è importante. 52 00:02:37,148 --> 00:02:39,955 Noi non sappiamo scrivere questi programmi "a mano"; 53 00:02:39,955 --> 00:02:42,612 ma ora, con l'AA, è possibile. 54 00:02:42,622 --> 00:02:46,180 Questa macchina ha guidato oltre un milione di miglia, 55 00:02:46,180 --> 00:02:48,823 sulla rete stradale, senza alcun incidente. 56 00:02:48,823 --> 00:02:52,390 Quindi ora sappiamo che i computer possono apprendere, 57 00:02:52,390 --> 00:02:54,550 e imparano a fare cose 58 00:02:54,550 --> 00:02:57,305 che a volte nemmeno noi sappiamo svolgere, 59 00:02:57,305 --> 00:03:00,062 oppure le sanno svolgere meglio di noi. 60 00:03:00,062 --> 00:03:04,332 Uno degli esempi più sorprendenti di AA 61 00:03:04,332 --> 00:03:06,863 l'ho visto in un progetto che ho gestito a Kaggle 62 00:03:06,863 --> 00:03:10,211 dove un team, guidato da un certo Geoffrey Hinton, 63 00:03:10,211 --> 00:03:11,996 dell'Università di Toronto, 64 00:03:11,996 --> 00:03:14,598 vinse una sfida per la scoperta automatica di farmaci. 65 00:03:14,598 --> 00:03:17,453 L'aspetto straordinario non è solo che hanno battuto 66 00:03:17,453 --> 00:03:21,549 gli algoritmi della Merck, o della comunità accademica internazionale, 67 00:03:21,549 --> 00:03:26,646 ma che nessuno nel team aveva studiato chimica, biologia o scienze naturali, 68 00:03:26,646 --> 00:03:28,800 e ce l'han fatta in due settimane. 69 00:03:28,800 --> 00:03:31,003 Come ci sono riusciti? 70 00:03:31,003 --> 00:03:34,008 Hanno usato un algoritmo straordinario, chiamato deep learning. 71 00:03:34,008 --> 00:03:37,072 Fu un risultato così importante che il successo fu raccontato 72 00:03:37,072 --> 00:03:40,109 qualche settimana dopo sul New York Times, in prima pagina. 73 00:03:40,109 --> 00:03:42,727 Geoffrey Hinton si vede a sinistra. 74 00:03:42,727 --> 00:03:46,738 Il "deep learning" è un algoritmo ispirato dal funzionamento del cervello umano, 75 00:03:46,738 --> 00:03:48,709 e di conseguenza è un algoritmo 76 00:03:48,709 --> 00:03:52,108 che in teoria non ha limiti a quello che può fare. 77 00:03:52,108 --> 00:03:55,019 Più dati, più potenza di calcolo, gli metti a disposizione, 78 00:03:55,019 --> 00:03:56,776 migliore diventa. 79 00:03:56,776 --> 00:03:59,421 Il New York Times ha mostrato anche, nel suo articolo, 80 00:03:59,421 --> 00:04:01,674 un altro risultato del deep learning, 81 00:04:01,674 --> 00:04:03,928 che sto per mostrarvi. 82 00:04:03,928 --> 00:04:07,872 Mostra che i computer possono ascoltare e capire. 83 00:04:08,654 --> 00:04:11,018 (Video) Richard Rashid: Adesso, l'ultimo tassello 84 00:04:11,018 --> 00:04:13,993 che vorrei aggiungere al discorso 85 00:04:13,993 --> 00:04:17,334 è parlarvi in cinese. 86 00:04:19,394 --> 00:04:21,910 L'aspetto chiave, qui, è che 87 00:04:21,910 --> 00:04:26,531 siamo stati in grado di raccogliere molte informazioni da molti parlanti cinesi, 88 00:04:26,531 --> 00:04:29,641 e produrre un sistema di sintesi vocale 89 00:04:29,641 --> 00:04:33,772 che importa il testo cinese e lo converte in cinese parlato, 90 00:04:35,428 --> 00:04:38,952 poi abbiamo campionato la mia voce per un'ora circa 91 00:04:38,952 --> 00:04:41,218 e l'abbiamo usata per modulare 92 00:04:41,218 --> 00:04:44,944 la sintesi vocale standard, perché suonasse come me. 93 00:04:45,188 --> 00:04:47,726 Ripeto, il sistema non è perfetto. 94 00:04:47,726 --> 00:04:50,554 Ci sono in realtà molti errori. 95 00:04:50,554 --> 00:04:52,880 (In cinese) 96 00:04:52,880 --> 00:04:56,573 (Applausi) 97 00:04:58,179 --> 00:05:00,990 C'è molto lavoro da fare, in quest'area. 98 00:05:01,449 --> 00:05:04,893 (In cinese) 99 00:05:04,893 --> 00:05:08,420 (Applausi) 100 00:05:10,462 --> 00:05:14,244 Jeremy Howard: Questo è avvenuto a una conferenza sull'AA in Cina. 101 00:05:14,244 --> 00:05:16,614 È raro che in una conferenza accademica 102 00:05:16,614 --> 00:05:18,511 i presenti irrompano in un applauso, 103 00:05:18,511 --> 00:05:22,187 anche se a volte, nelle conferenze TEDx... sentitevi liberi. 104 00:05:22,187 --> 00:05:24,982 È stato fatto tutto con il deep learning. 105 00:05:24,982 --> 00:05:26,507 (Applausi) Grazie. 106 00:05:26,507 --> 00:05:28,789 La trascrizione in inglese? Deep learning; 107 00:05:28,789 --> 00:05:32,201 la traduzione in cinese e il testo in alto a destra, deep learning, 108 00:05:32,201 --> 00:05:35,508 e così anche la sintesi vocale. 109 00:05:35,508 --> 00:05:38,742 Il deep learning è straordinario. 110 00:05:38,742 --> 00:05:41,841 Un singolo algoritmo che sembra in grado di fare quasi ogni cosa, 111 00:05:41,841 --> 00:05:44,952 e ho scoperto che, un anno prima, aveva anche imparato a vedere. 112 00:05:44,952 --> 00:05:47,128 In questa competizione, tenutasi in Germania, 113 00:05:47,128 --> 00:05:49,725 sul Riconoscimento dei Segnali Stradali Tedeschi, 114 00:05:49,725 --> 00:05:53,118 il deep learning riconosceva segnali stradali come questo. 115 00:05:53,118 --> 00:05:55,214 E non solo riusciva a riconoscerli 116 00:05:55,238 --> 00:05:56,970 meglio di ogni altro algoritmo, 117 00:05:56,970 --> 00:05:59,689 il miglior algoritmo si è dimostrato 118 00:05:59,689 --> 00:06:01,541 circa due volte migliore degli umani. 119 00:06:01,541 --> 00:06:03,537 Nel 2011 abbiamo avuto il primo esempio 120 00:06:03,537 --> 00:06:06,942 di computer che possono vedere meglio delle persone. 121 00:06:06,942 --> 00:06:08,991 Sono successe molte cose, da allora. 122 00:06:08,991 --> 00:06:12,505 Nel 2012, Google ha annunciato che un algoritmo di deep learning 123 00:06:12,505 --> 00:06:13,920 ha visto i video di YouTube 124 00:06:13,920 --> 00:06:17,357 e ne ha macinato i dati su 16.000 computer, per un mese, 125 00:06:17,357 --> 00:06:21,718 e il computer ha elaborato, autonomamente, concetti come "persone" e "gatti", 126 00:06:21,718 --> 00:06:23,527 solo guardando i video. 127 00:06:23,527 --> 00:06:25,879 È un apprendimento molto simile a quello umano. 128 00:06:25,879 --> 00:06:28,619 Non apprendiamo facendoci raccontare quel che vediamo, 129 00:06:28,619 --> 00:06:31,950 ma imparando autonomamente cosa siano quelle cose. 130 00:06:31,950 --> 00:06:35,319 Sempre nel 2012 Geoffrey Hinton, che abbiamo visto prima, 131 00:06:35,319 --> 00:06:38,177 ha vinto una sfida molto popolare, ImageNet, 132 00:06:38,177 --> 00:06:42,318 che cerca di capire, guardando 1,5 milioni di immagini, 133 00:06:42,318 --> 00:06:43,756 il loro soggetto. 134 00:06:43,756 --> 00:06:47,289 Al 2014, siamo scesi ad un tasso di errore del 6%, 135 00:06:47,289 --> 00:06:48,742 nel riconoscimento automatico. 136 00:06:48,742 --> 00:06:50,768 Meglio delle persone, ancora una volta. 137 00:06:50,768 --> 00:06:54,537 Le macchine, quindi, svolgono questi compiti estremamente bene, 138 00:06:54,537 --> 00:06:56,806 e ora stanno entrando nell'industria. 139 00:06:56,806 --> 00:06:59,848 Google, per esempio, ha annunciato l'anno scorso 140 00:06:59,848 --> 00:07:04,433 di aver mappato ogni singolo luogo della Francia in due ore. 141 00:07:04,433 --> 00:07:07,880 Ci sono riusciti dando le immagini di Street View a un algoritmo 142 00:07:07,880 --> 00:07:12,199 di deep learning, perché imparasse a riconoscere e leggere i numeri civici. 143 00:07:12,199 --> 00:07:14,419 Immaginate quanto ci sarebbe voluto prima: 144 00:07:14,419 --> 00:07:17,774 dozzine di persone, molti anni. 145 00:07:17,774 --> 00:07:19,685 Sta succedendo anche in Cina. 146 00:07:19,685 --> 00:07:23,721 Baidu, suppongo, è una specie di Google cinese, 147 00:07:23,721 --> 00:07:26,004 e in alto a sinistra vedete 148 00:07:26,004 --> 00:07:29,978 un esempio dell'immagine che ho caricato nel sistema di deep learning di Baidu. 149 00:07:29,978 --> 00:07:33,747 Sotto potete notare che il sistema ha capito cos'è quell'immagine, 150 00:07:33,747 --> 00:07:35,983 e ne ha trovate di simili. 151 00:07:35,983 --> 00:07:38,719 Le immagini simili, inoltre, hanno sfondi simili, 152 00:07:38,719 --> 00:07:42,165 direzioni simili del volto, alcune anche con la lingua fuori. 153 00:07:42,165 --> 00:07:44,925 Chiaramente, questo non deriva dal testo di una pagina web: 154 00:07:44,925 --> 00:07:46,607 io ho solo caricato un'immagine. 155 00:07:46,607 --> 00:07:50,628 Quindi ora abbiamo computer che capiscono realmente quel che vedono 156 00:07:50,628 --> 00:07:52,252 e possono cercare nei database 157 00:07:52,252 --> 00:07:55,806 di centinaia di milioni di immagini in tempo reale. 158 00:07:55,806 --> 00:07:59,036 Ma cosa significa che i computer "vedono"? 159 00:07:59,036 --> 00:08:01,053 In realtà non si limitano a vedere: 160 00:08:01,053 --> 00:08:03,244 il deep learning fa di più. 161 00:08:03,268 --> 00:08:06,070 Frasi complesse e sfumate come questa 162 00:08:06,070 --> 00:08:08,684 sono ora comprensibili con algoritmi di deep learning. 163 00:08:08,684 --> 00:08:10,677 Come vedete questo sistema, 164 00:08:10,677 --> 00:08:12,965 elaborato a Stanford, con un punto rosso in alto 165 00:08:12,965 --> 00:08:16,884 ha capito che questa frase sta esprimendo sentimenti negativi. 166 00:08:16,884 --> 00:08:20,290 Infatti il deep learning ha raggiunto livelli quasi umani 167 00:08:20,302 --> 00:08:25,423 di comprensione del significato delle frasi, e di cosa esprimono. 168 00:08:25,423 --> 00:08:28,151 Col deep learning si può anche leggere il cinese, 169 00:08:28,151 --> 00:08:31,307 sempre a livelli comparabili a un cinese madrelingua. 170 00:08:31,307 --> 00:08:33,475 L'algoritmo è stato sviluppato in Svizzera, 171 00:08:33,475 --> 00:08:36,831 da un team in cui nessuno parlava una parola di cinese. 172 00:08:36,831 --> 00:08:38,881 Come ho detto, il deep learning 173 00:08:38,881 --> 00:08:41,101 è la migliore soluzione a questo problema, 174 00:08:41,101 --> 00:08:45,562 anche rispetto alla comprensione nativa umana. 175 00:08:46,218 --> 00:08:49,182 Questo è un sistema che abbiamo elaborato nella mia azienda 176 00:08:49,182 --> 00:08:51,360 che sfrutta tutte queste funzionalità insieme. 177 00:08:51,360 --> 00:08:53,689 Sono immagini che non hanno testo allegato, 178 00:08:53,689 --> 00:08:56,041 e man mano che digito queste frasi, 179 00:08:56,041 --> 00:08:59,010 il sistema comprende in tempo reale queste immagini, 180 00:08:59,010 --> 00:09:00,689 capisce di cosa si tratta 181 00:09:00,689 --> 00:09:03,852 e trova immagini simili al testo che sto scrivendo. 182 00:09:03,852 --> 00:09:06,608 Come potete vedere, sta capendo le mie frasi 183 00:09:06,608 --> 00:09:08,832 e il contenuto delle immagini. 184 00:09:08,832 --> 00:09:11,391 Avete già visto qualcosa del genere con Google: 185 00:09:11,391 --> 00:09:14,166 digitate cose e lui restituisce immagini; 186 00:09:14,166 --> 00:09:17,590 ma lì in realtà ricerca il testo nella pagina web corrispondente. 187 00:09:17,590 --> 00:09:20,591 È una cosa molto diversa dal comprendere davvero le immagini. 188 00:09:20,591 --> 00:09:23,343 È una cosa che i computer sono stati in grado di fare, 189 00:09:23,343 --> 00:09:26,591 per la prima volta, solo qualche mese fa. 190 00:09:26,591 --> 00:09:30,682 Quindi ora ci sono computer che possono non solo vedere ma anche leggere, 191 00:09:30,682 --> 00:09:34,447 e ovviamente abbiamo dimostrato che possono capire ciò che sentono. 192 00:09:34,447 --> 00:09:37,889 Forse ora non vi sorprenderà sapere che possono scrivere. 193 00:09:37,889 --> 00:09:42,672 Ecco qualche testo che ho generato ieri usando un algoritmo di deep learning. 194 00:09:42,672 --> 00:09:46,596 Ed ecco qualche testo generato da un algoritmo elaborato a Stanford. 195 00:09:46,596 --> 00:09:48,360 Le frasi sono state tutte scritte 196 00:09:48,360 --> 00:09:52,609 da un algoritmo di deep learning, per descrivere le immagini. 197 00:09:52,609 --> 00:09:57,081 L'algoritmo non aveva mai visto prima un uomo in T-shirt nera suonare la chitarra. 198 00:09:57,081 --> 00:09:59,301 Aveva già visto un uomo, il colore nero, 199 00:09:59,301 --> 00:10:00,900 una chitarra, 200 00:10:00,900 --> 00:10:05,194 ma ha generato da solo la didascalia originale di questa immagine. 201 00:10:05,194 --> 00:10:08,696 In questo non ha ancora raggiunto performance umane, ma ci siamo vicini. 202 00:10:08,696 --> 00:10:12,764 Nei test, gli umani preferiscono le didascalie automatiche 203 00:10:12,764 --> 00:10:14,291 una volta su quattro. 204 00:10:14,291 --> 00:10:16,355 Questo sistema gira da due sole settimane, 205 00:10:16,355 --> 00:10:18,201 quindi entro il prossimo anno [2015] 206 00:10:18,201 --> 00:10:21,002 l'algoritmo ci avrà surclassato, 207 00:10:21,002 --> 00:10:22,864 al ritmo cui procedono le cose. 208 00:10:22,864 --> 00:10:25,913 Quindi, i computer possono anche scrivere. 209 00:10:25,913 --> 00:10:28,968 Mettiamo insieme tutto questo, e si aprono scenari esaltanti. 210 00:10:28,968 --> 00:10:30,880 In medicina, per esempio, 211 00:10:30,880 --> 00:10:33,405 un team di Boston ha annunciato di aver scoperto 212 00:10:33,405 --> 00:10:36,354 dozzine di caratteristiche clinicamente rilevamenti 213 00:10:36,354 --> 00:10:40,596 di tumori, che aiutano i dottori a elaborare la prognosi di un tumore. 214 00:10:41,720 --> 00:10:44,016 A Stanford, analogamente, 215 00:10:44,016 --> 00:10:47,679 un gruppo annunciò che, osservando i tessuti al microscopio, 216 00:10:47,679 --> 00:10:50,060 avevano sviluppato un sistema di AA 217 00:10:50,060 --> 00:10:52,642 che batte i patologi umani 218 00:10:52,642 --> 00:10:56,225 nel prevedere i tassi di sopravvivenza tra i pazienti oncologici. 219 00:10:57,019 --> 00:11:00,064 In entrambi i casi, non solo le previsioni erano più accurate, 220 00:11:00,064 --> 00:11:02,766 ma hanno generato nuove scoperte scientifiche. 221 00:11:02,776 --> 00:11:04,281 Nel caso della radiologia, 222 00:11:04,281 --> 00:11:07,376 hanno trovato nuovi indicatori clinici che noi possiamo capire. 223 00:11:07,376 --> 00:11:09,168 In questo caso patologico, 224 00:11:09,168 --> 00:11:13,668 la macchina capì che le cellule attorno al cancro 225 00:11:13,668 --> 00:11:17,008 sono importanti quanto le cellule cancerose stesse, 226 00:11:17,008 --> 00:11:18,760 quando si fa una diagnosi. 227 00:11:18,760 --> 00:11:24,121 Il che è l'opposto di quello che è stato insegnato ai patologi per decenni. 228 00:11:24,121 --> 00:11:27,413 In entrambi i casi, questi sistemi furono sviluppati 229 00:11:27,413 --> 00:11:31,034 da una combinazione di esperti medici e di AA, 230 00:11:31,034 --> 00:11:33,775 ma dall'anno scorso abbiamo superato anche questo. 231 00:11:33,775 --> 00:11:37,324 Questo è un esempio di identificazione delle aree cancerose 232 00:11:37,324 --> 00:11:39,854 del tessuto umano sotto un microscopio. 233 00:11:39,854 --> 00:11:44,467 Questo sistema può identificarle con un'accuratezza maggiore, 234 00:11:44,467 --> 00:11:47,242 o almeno analoga, dei patologi umani, 235 00:11:47,242 --> 00:11:50,634 ma è fatto tutto col deep learning, senza l'uso di conoscenze mediche, 236 00:11:50,634 --> 00:11:53,160 da persone senza formazione medica. 237 00:11:54,230 --> 00:11:56,785 Qui vedete una segmentazione dei neuroni. 238 00:11:56,785 --> 00:12:00,453 Ora possiamo segmentare i neuroni con accuratezza quasi umana, 239 00:12:00,453 --> 00:12:03,170 ma anche questo è stato sviluppato con il deep learning 240 00:12:03,170 --> 00:12:06,421 da persone senza formazione medica. 241 00:12:06,421 --> 00:12:09,648 A quel punto io, che non mi ero mai occupato di medicina, 242 00:12:09,648 --> 00:12:13,375 mi sentivo più che qualificato ad avviare una nuova azienda medica, 243 00:12:13,375 --> 00:12:15,521 cosa che feci. 244 00:12:15,521 --> 00:12:17,261 Ero terrorizzato da una cosa simile, 245 00:12:17,261 --> 00:12:20,150 ma la teoria sembrava ritenere possibile 246 00:12:20,150 --> 00:12:25,642 fare ricerca medica di valore usando solo queste tecniche di analisi dei dati. 247 00:12:25,642 --> 00:12:28,122 E il feedback, per fortuna, è stato fantastico, 248 00:12:28,122 --> 00:12:30,694 da parte non solo dei media ma dalla comunità medica, 249 00:12:30,718 --> 00:12:32,822 che mi ha dato molto sostegno. 250 00:12:32,822 --> 00:12:36,971 L'idea è che possiamo prendere la fase intermedia del processo medico 251 00:12:36,971 --> 00:12:39,864 e trasformarla il più possibile in analisi dei dati, 252 00:12:39,864 --> 00:12:42,399 lasciando ai dottori quello che sanno fare meglio. 253 00:12:42,399 --> 00:12:44,471 Voglio farvi un esempio. 254 00:12:44,471 --> 00:12:49,475 Ora servono circa 15 minuti per generare un nuovo test diagnostico, 255 00:12:49,475 --> 00:12:51,429 e ve lo mostrerò in diretta, 256 00:12:51,429 --> 00:12:53,061 ma lo comprimerò in tre minuti 257 00:12:53,061 --> 00:12:54,763 tagliando un po' di parti. 258 00:12:54,763 --> 00:12:57,999 E piuttosto che mostrarvi una diagnosi medica, 259 00:12:57,999 --> 00:13:01,346 vi mostrerò una diagnosi di immagini automobilistiche, 260 00:13:01,346 --> 00:13:03,568 una cosa che possiamo capire tutti. 261 00:13:03,568 --> 00:13:06,769 Inizio inserendo circa 1,5 milioni di immagini d'auto, 262 00:13:06,769 --> 00:13:09,975 e voglio creare qualcosa che possa suddividerle 263 00:13:09,975 --> 00:13:12,198 per angolo di ripresa. 264 00:13:12,198 --> 00:13:16,086 Queste immagini non hanno alcuna descrizione, quindi devo partire da zero. 265 00:13:16,086 --> 00:13:17,951 Il nostro algoritmo di deep learning 266 00:13:17,951 --> 00:13:21,658 può automaticamente identificare aree di struttura in queste immagini. 267 00:13:21,658 --> 00:13:25,278 Il bello è che umani e macchine ora possono lavorare insieme. 268 00:13:25,278 --> 00:13:27,456 L'umano, come potete vedere qui, 269 00:13:27,456 --> 00:13:30,131 sta descrivendo al computer le aree di interesse 270 00:13:30,131 --> 00:13:34,781 che poi vuole allenare a riconoscere. 271 00:13:34,781 --> 00:13:39,077 Questi sistemi di deep learning lavorano in uno spazio di 16.000 dimensioni, 272 00:13:39,077 --> 00:13:42,509 quindi potete vedere il computer ruotare nello spazio, 273 00:13:42,509 --> 00:13:44,501 cercando nuove aree di struttura. 274 00:13:44,501 --> 00:13:46,282 E quando riesce nel suo compito, 275 00:13:46,282 --> 00:13:50,286 l'umano che lo sta guidando può evidenziare le aree interessanti. 276 00:13:50,286 --> 00:13:52,708 Il computer ha trovato con successo varie aree, 277 00:13:52,708 --> 00:13:55,270 per esempio gli angoli. 278 00:13:55,270 --> 00:13:56,876 Nel corso del processo, 279 00:13:56,876 --> 00:13:59,216 facciamo capire sempre meglio al computer 280 00:13:59,216 --> 00:14:01,644 che tipo di strutture stiamo cercando. 281 00:14:01,644 --> 00:14:03,416 Durante una diagnosi, per esempio, 282 00:14:03,416 --> 00:14:06,766 questo sistema identificherebbe aree patologiche; 283 00:14:06,766 --> 00:14:11,792 oppure sarebbe un radiologo che indica noduli potenzialmente problematici. 284 00:14:11,792 --> 00:14:14,351 E a volte può essere difficile per l'algoritmo. 285 00:14:14,351 --> 00:14:16,315 In questo caso si confonde: 286 00:14:16,315 --> 00:14:18,865 frontali e retri della macchina sono tutti confusi. 287 00:14:18,865 --> 00:14:20,937 Quindi dobbiamo andare un po' più cauti, 288 00:14:20,937 --> 00:14:24,169 distinguendo manualmente i frontali dai retri, 289 00:14:24,169 --> 00:14:28,255 poi dicendo al computer che è un tipo di gruppo 290 00:14:28,255 --> 00:14:31,023 a cui siamo interessati. 291 00:14:31,023 --> 00:14:33,700 Facciamo così per un po', ne tralasciamo alcune, 292 00:14:33,700 --> 00:14:35,946 poi alleniamo l'algoritmo di AA 293 00:14:35,946 --> 00:14:37,920 con questi 200 esempi 294 00:14:37,920 --> 00:14:39,945 e speriamo che diventi molto migliore. 295 00:14:39,945 --> 00:14:43,018 Potete vedere, ora, che sta già facendo qualche selezione, 296 00:14:43,018 --> 00:14:47,726 mostrandoci che sta già capendo come riconoscerne alcune. 297 00:14:47,726 --> 00:14:50,628 Possiamo poi lavorare sul concetto di "immagini simili", 298 00:14:50,628 --> 00:14:52,722 e con immagini simili, ora potete vederlo, 299 00:14:52,722 --> 00:14:56,741 il computer è in grado di isolare i frontali. 300 00:14:56,741 --> 00:14:59,689 A questo punto, quindi, possiamo dire al computer: 301 00:14:59,689 --> 00:15:01,982 okay, sì, hai fatto un buon lavoro. 302 00:15:03,152 --> 00:15:05,337 A volte, naturalmente, anche in questa fase 303 00:15:05,337 --> 00:15:09,011 è difficile separare i due gruppi. 304 00:15:09,011 --> 00:15:11,422 In questo caso, anche dopo aver lasciato 305 00:15:11,422 --> 00:15:13,833 che il computer lo ruotasse per un po', 306 00:15:13,833 --> 00:15:16,124 ancora si vede che le immagini delle due fiancate 307 00:15:16,124 --> 00:15:17,722 sono mischiate. 308 00:15:17,722 --> 00:15:19,862 Allora possiamo dargli altri suggerimenti, 309 00:15:19,862 --> 00:15:22,838 e gli diciamo: prova a fare una previsione che separi, 310 00:15:22,838 --> 00:15:25,445 quanto più possibile, il lato sinistro dal destro, 311 00:15:25,445 --> 00:15:27,567 usando questo algoritmo di deep learning. 312 00:15:27,567 --> 00:15:30,509 E dandogli quel suggerimento - ah, ok, ci è riuscito. 313 00:15:30,509 --> 00:15:33,391 È riuscito a elaborare un modo di astrarre questi oggetti 314 00:15:33,391 --> 00:15:35,771 che li ha separati in gruppi omogenei. 315 00:15:35,771 --> 00:15:38,209 Questo per darvi un'idea. 316 00:15:38,209 --> 00:15:46,148 È un caso in cui i computer non sostituiscono il lavoro umano, 317 00:15:46,406 --> 00:15:49,046 ma lo affiancano. 318 00:15:49,046 --> 00:15:52,206 Qui stiamo sostituendo una cosa che richiedeva una squadra 319 00:15:52,206 --> 00:15:54,598 di cinque o sei persone, per sette anni, 320 00:15:54,598 --> 00:15:57,203 con qualcosa che richiede 15 minuti 321 00:15:57,203 --> 00:15:59,708 di una persona sola. 322 00:15:59,708 --> 00:16:03,658 Il processo richiede quattro o cinque iterazioni. 323 00:16:03,658 --> 00:16:05,517 Potete vedere che ora abbiamo il 62% 324 00:16:05,517 --> 00:16:08,476 del nostro 1,5 milioni di immagini classificate correttamente. 325 00:16:08,476 --> 00:16:10,688 E a questo punto, possiamo rapidamente iniziare 326 00:16:10,688 --> 00:16:12,245 a prendere intere regioni, 327 00:16:12,245 --> 00:16:15,164 navigarci per assicurarsi che non vi siano errori. 328 00:16:15,164 --> 00:16:19,116 Dove vediamo errori, lasciamo che il computer apprenda da solo. 329 00:16:19,116 --> 00:16:22,161 E ripetendo questo processo per ciascuno dei vari gruppi, 330 00:16:22,161 --> 00:16:24,648 siamo arrivati all'80 per cento 331 00:16:24,648 --> 00:16:27,063 di 1,5 milioni di immagini ben classificate. 332 00:16:27,063 --> 00:16:29,141 E a questo punto, si tratta solo 333 00:16:29,141 --> 00:16:32,720 di trovare i pochi casi non correttamente classificati, 334 00:16:32,720 --> 00:16:35,608 e capire perché sono sbagliati. 335 00:16:35,608 --> 00:16:37,351 Con questo approccio, 336 00:16:37,351 --> 00:16:41,472 in 15 minuti siamo arrivati ad un tasso di classificazione del 97%. 337 00:16:41,472 --> 00:16:46,072 Questo tipo di tecnica ci aiuterebbe a risolvere un grande problema, 338 00:16:46,078 --> 00:16:49,114 la scarsità di competenza medica nel mondo. 339 00:16:49,114 --> 00:16:52,603 Il World Economic Forum dice che ci sono da dieci a venti volte 340 00:16:52,603 --> 00:16:55,227 meno medici, nei paesi meno sviluppati, del necessario, 341 00:16:55,227 --> 00:16:57,340 e ci vorrebbero circa 300 anni 342 00:16:57,340 --> 00:17:00,234 per formare abbastanza persone da risolvere il problema. 343 00:17:00,234 --> 00:17:03,119 Cosa succederebbe se potessimo potenziare la loro efficienza 344 00:17:03,119 --> 00:17:05,768 con questi approcci di deep learning? 345 00:17:05,768 --> 00:17:08,190 Tutte queste opportunità mi esaltano. 346 00:17:08,190 --> 00:17:10,779 Mi preoccupano anche i problemi, però. 347 00:17:10,779 --> 00:17:13,903 E il problema, qui, è che ogni area blu di questa mappa 348 00:17:13,903 --> 00:17:17,672 è un posto dove i servizi assorbono più dell'80% di forza lavoro. 349 00:17:17,672 --> 00:17:19,459 Cosa sono i servizi? 350 00:17:19,459 --> 00:17:20,973 Sono questi. 351 00:17:20,973 --> 00:17:22,990 Proprio quelle cose 352 00:17:22,990 --> 00:17:25,626 che i computer hanno appena imparato a fare. 353 00:17:25,626 --> 00:17:28,931 L'80 % degli occupati, nel mondo sviluppato, 354 00:17:28,931 --> 00:17:31,373 fa cose che i computer hanno appena imparato a fare. 355 00:17:31,373 --> 00:17:32,903 Cosa significa tutto questo? 356 00:17:32,903 --> 00:17:35,486 Sarà fantastico! Faremo altro! 357 00:17:35,486 --> 00:17:37,813 Per esempio, ci sarà più lavoro per chi raccoglie dati! 358 00:17:37,813 --> 00:17:39,010 Be', non proprio. 359 00:17:39,010 --> 00:17:42,128 Per fare queste cose, non serviranno scienziati molto a lungo. 360 00:17:42,128 --> 00:17:45,380 Questi quattro algoritmi, ad esempio, li ha scritti una sola persona. 361 00:17:45,380 --> 00:17:47,818 Se pensate: è già successo, 362 00:17:47,818 --> 00:17:51,626 abbiamo visto i risultati in passato, quando si presentava una novità 363 00:17:51,626 --> 00:17:53,878 e nuove professioni facevano capolino, 364 00:17:53,878 --> 00:17:55,994 quali saranno queste nuove professioni? 365 00:17:55,994 --> 00:17:57,865 È molto difficile per noi dirlo, 366 00:17:57,865 --> 00:18:00,604 perché la performance umana cresce a ritmo graduale; 367 00:18:00,604 --> 00:18:03,166 ma ora abbiamo un sistema, il deep learning, 368 00:18:03,166 --> 00:18:06,393 che sappiamo migliorare esponenzialmente. 369 00:18:06,393 --> 00:18:07,998 E ora siamo a questo livello, 370 00:18:07,998 --> 00:18:10,059 quindi vediamo le cose attorno a noi 371 00:18:10,059 --> 00:18:12,735 e i computer ci sembrano ancora molto stupidi, vero? 372 00:18:12,735 --> 00:18:16,164 Ma da qui a cinque anni, la loro curva uscirà dal grafico. 373 00:18:16,164 --> 00:18:20,029 Dobbiamo, dunque, cominciare a preoccuparci di queste forze già ora. 374 00:18:20,029 --> 00:18:22,079 Ci siamo già passati, naturalmente: 375 00:18:22,079 --> 00:18:23,466 nella Rivoluzione Industriale 376 00:18:23,466 --> 00:18:26,317 i motori hanno fatto "cambiare marcia" alla produttività. 377 00:18:27,167 --> 00:18:30,305 Tuttavia, dopo un po' la curva si appiattì. 378 00:18:30,305 --> 00:18:32,007 Fu socialmente dirompente, 379 00:18:32,007 --> 00:18:35,446 ma una volta che i motori vennero usati per ogni esigenza di potenza, 380 00:18:35,446 --> 00:18:37,800 le cose si stabilizzarono. 381 00:18:37,800 --> 00:18:39,277 La Rivoluzione dell'AA 382 00:18:39,301 --> 00:18:42,182 sarà molto diversa dalla Rivoluzione Industriale, 383 00:18:42,182 --> 00:18:45,135 perché inarrestabile. 384 00:18:45,159 --> 00:18:48,114 Migliori diventeranno i computer nelle attività intellettive, 385 00:18:48,114 --> 00:18:52,362 meglio costruiranno computer ancora migliori nelle attività intellettive, 386 00:18:52,362 --> 00:18:54,270 quindi sarà un tipo di sfida 387 00:18:54,270 --> 00:18:56,748 che il mondo non ha mai affrontato prima, 388 00:18:56,748 --> 00:18:59,974 e la vostra comprensione di cos'è possibile cambierà. 389 00:18:59,974 --> 00:19:02,254 Tutto questo ci condiziona già ora: 390 00:19:02,254 --> 00:19:05,884 negli ultimi 25 anni, man mano che la produttività del capitale aumentava, 391 00:19:05,900 --> 00:19:10,088 la produttività del lavoro è rimasta stabile, anzi è pure un po' calata. 392 00:19:10,908 --> 00:19:13,649 Quindi vorrei che cominciassimo a parlarne fin d'ora. 393 00:19:13,649 --> 00:19:16,426 Spesso le persone, quando parlo di questa situazione, 394 00:19:16,426 --> 00:19:18,166 la rifutano nettamente: 395 00:19:18,166 --> 00:19:19,839 i computer in realtà non pensano, 396 00:19:19,839 --> 00:19:22,867 non hanno emozioni, non capiscono le poesie, 397 00:19:22,867 --> 00:19:25,388 non capiamo davvero come funzionino. 398 00:19:25,388 --> 00:19:26,874 E allora? 399 00:19:26,874 --> 00:19:28,968 Oggi i computer svolgono quei compiti 400 00:19:28,968 --> 00:19:31,397 per cui vendiamo gran parte del nostro tempo, 401 00:19:31,397 --> 00:19:35,203 quindi è giunto il momento di chiedersi come adattare 402 00:19:35,203 --> 00:19:37,299 le nostre strutture economiche e sociali 403 00:19:37,323 --> 00:19:39,355 a questa nuova realtà. 404 00:19:39,355 --> 00:19:40,888 Grazie. 405 00:19:40,888 --> 00:19:43,078 (Applausi)