Un tempo, se volevate far svolgere a un computer un compito nuovo, dovevate programmarlo. La programmazione, per chi di voi ne fosse a digiuno, prevede la descrizione, nei minimi dettagli, di ogni istruzione che volete far eseguire al computer, così da raggiungere l'obiettivo desiderato. Ma se nemmeno voi sapeste descrivere il compito da svolgere, la sfida si farebbe molto più complicata. Una sfida raccolta da quest'uomo, Arthur Samuel. Nel 1956, voleva farsi battere a dama da questo computer. Ma come fai a scrivere un programma, preciso in ogni dettaglio, che renda i computer migliori di te a dama? Così gli venne un idea: fece migliaia di partite col computer, perché imparasse a giocare a dama. La strategia funzionò e nel 1962 il computer vinse contro il campione del Connecticut. Arthur Samuel fu così il padre dell'apprendimento automatico [AA], e io gli sono molto riconoscente, da professionista del settore quale sono. Sono stato il presidente di Kaggle, una comunità di oltre 200.000 addetti ai lavori. Kaggle indìce sfide che affrontano problemi finora insoluti, e ha al suo attivo centinaia di successi. Da quel punto di vista privilegiato, ho capito molte cose sul passato, sul presente e sul possibile futuro dell'AA. Forse il primo grande successo commerciale dell'AA è stato Google. Google ha mostrato che si può trovare un'informazione con un algoritmo informatico, che si basa sull'AA. Da allora, i successi commerciali dell'AA sono stati molti. Aziende come Amazon e Netflix usano l'AA per suggerire prodotti che potremmo voler comprare, e film che potremmo voler vedere. Mette quasi i brividi, a volte: aziende come LinkedIn e Facebook a volte ti dicono quali potrebbero essere i tuoi amici e non capiamo come possano aver fatto: ci sono riusciti usando la potenza dell'AA. Sono algoritmi che hanno imparato il loro compito dai dati, più che da una classica programmazione a mano. È così che Watson, della IBM, è riuscito a battere due campioni mondiali di "Jeopardy!", rispondendo a domande complesse e sofisticate come questa. [L'antico "Leone di Nimrud" è sparito dal suo museo nazionale nel 2003] È questo che ha permesso le prime auto automatiche. Imparare a riconoscere la differenza tra un albero e un pedone è importante. Noi non sappiamo scrivere questi programmi "a mano"; ma ora, con l'AA, è possibile. Questa macchina ha guidato oltre un milione di miglia, sulla rete stradale, senza alcun incidente. Quindi ora sappiamo che i computer possono apprendere, e imparano a fare cose che a volte nemmeno noi sappiamo svolgere, oppure le sanno svolgere meglio di noi. Uno degli esempi più sorprendenti di AA l'ho visto in un progetto che ho gestito a Kaggle dove un team, guidato da un certo Geoffrey Hinton, dell'Università di Toronto, vinse una sfida per la scoperta automatica di farmaci. L'aspetto straordinario non è solo che hanno battuto gli algoritmi della Merck, o della comunità accademica internazionale, ma che nessuno nel team aveva studiato chimica, biologia o scienze naturali, e ce l'han fatta in due settimane. Come ci sono riusciti? Hanno usato un algoritmo straordinario, chiamato deep learning. Fu un risultato così importante che il successo fu raccontato qualche settimana dopo sul New York Times, in prima pagina. Geoffrey Hinton si vede a sinistra. Il "deep learning" è un algoritmo ispirato dal funzionamento del cervello umano, e di conseguenza è un algoritmo che in teoria non ha limiti a quello che può fare. Più dati, più potenza di calcolo, gli metti a disposizione, migliore diventa. Il New York Times ha mostrato anche, nel suo articolo, un altro risultato del deep learning, che sto per mostrarvi. Mostra che i computer possono ascoltare e capire. (Video) Richard Rashid: Adesso, l'ultimo tassello che vorrei aggiungere al discorso è parlarvi in cinese. L'aspetto chiave, qui, è che siamo stati in grado di raccogliere molte informazioni da molti parlanti cinesi, e produrre un sistema di sintesi vocale che importa il testo cinese e lo converte in cinese parlato, poi abbiamo campionato la mia voce per un'ora circa e l'abbiamo usata per modulare la sintesi vocale standard, perché suonasse come me. Ripeto, il sistema non è perfetto. Ci sono in realtà molti errori. (In cinese) (Applausi) C'è molto lavoro da fare, in quest'area. (In cinese) (Applausi) Jeremy Howard: Questo è avvenuto a una conferenza sull'AA in Cina. È raro che in una conferenza accademica i presenti irrompano in un applauso, anche se a volte, nelle conferenze TEDx... sentitevi liberi. È stato fatto tutto con il deep learning. (Applausi) Grazie. La trascrizione in inglese? Deep learning; la traduzione in cinese e il testo in alto a destra, deep learning, e così anche la sintesi vocale. Il deep learning è straordinario. Un singolo algoritmo che sembra in grado di fare quasi ogni cosa, e ho scoperto che, un anno prima, aveva anche imparato a vedere. In questa competizione, tenutasi in Germania, sul Riconoscimento dei Segnali Stradali Tedeschi, il deep learning riconosceva segnali stradali come questo. E non solo riusciva a riconoscerli meglio di ogni altro algoritmo, il miglior algoritmo si è dimostrato circa due volte migliore degli umani. Nel 2011 abbiamo avuto il primo esempio di computer che possono vedere meglio delle persone. Sono successe molte cose, da allora. Nel 2012, Google ha annunciato che un algoritmo di deep learning ha visto i video di YouTube e ne ha macinato i dati su 16.000 computer, per un mese, e il computer ha elaborato, autonomamente, concetti come "persone" e "gatti", solo guardando i video. È un apprendimento molto simile a quello umano. Non apprendiamo facendoci raccontare quel che vediamo, ma imparando autonomamente cosa siano quelle cose. Sempre nel 2012 Geoffrey Hinton, che abbiamo visto prima, ha vinto una sfida molto popolare, ImageNet, che cerca di capire, guardando 1,5 milioni di immagini, il loro soggetto. Al 2014, siamo scesi ad un tasso di errore del 6%, nel riconoscimento automatico. Meglio delle persone, ancora una volta. Le macchine, quindi, svolgono questi compiti estremamente bene, e ora stanno entrando nell'industria. Google, per esempio, ha annunciato l'anno scorso di aver mappato ogni singolo luogo della Francia in due ore. Ci sono riusciti dando le immagini di Street View a un algoritmo di deep learning, perché imparasse a riconoscere e leggere i numeri civici. Immaginate quanto ci sarebbe voluto prima: dozzine di persone, molti anni. Sta succedendo anche in Cina. Baidu, suppongo, è una specie di Google cinese, e in alto a sinistra vedete un esempio dell'immagine che ho caricato nel sistema di deep learning di Baidu. Sotto potete notare che il sistema ha capito cos'è quell'immagine, e ne ha trovate di simili. Le immagini simili, inoltre, hanno sfondi simili, direzioni simili del volto, alcune anche con la lingua fuori. Chiaramente, questo non deriva dal testo di una pagina web: io ho solo caricato un'immagine. Quindi ora abbiamo computer che capiscono realmente quel che vedono e possono cercare nei database di centinaia di milioni di immagini in tempo reale. Ma cosa significa che i computer "vedono"? In realtà non si limitano a vedere: il deep learning fa di più. Frasi complesse e sfumate come questa sono ora comprensibili con algoritmi di deep learning. Come vedete questo sistema, elaborato a Stanford, con un punto rosso in alto ha capito che questa frase sta esprimendo sentimenti negativi. Infatti il deep learning ha raggiunto livelli quasi umani di comprensione del significato delle frasi, e di cosa esprimono. Col deep learning si può anche leggere il cinese, sempre a livelli comparabili a un cinese madrelingua. L'algoritmo è stato sviluppato in Svizzera, da un team in cui nessuno parlava una parola di cinese. Come ho detto, il deep learning è la migliore soluzione a questo problema, anche rispetto alla comprensione nativa umana. Questo è un sistema che abbiamo elaborato nella mia azienda che sfrutta tutte queste funzionalità insieme. Sono immagini che non hanno testo allegato, e man mano che digito queste frasi, il sistema comprende in tempo reale queste immagini, capisce di cosa si tratta e trova immagini simili al testo che sto scrivendo. Come potete vedere, sta capendo le mie frasi e il contenuto delle immagini. Avete già visto qualcosa del genere con Google: digitate cose e lui restituisce immagini; ma lì in realtà ricerca il testo nella pagina web corrispondente. È una cosa molto diversa dal comprendere davvero le immagini. È una cosa che i computer sono stati in grado di fare, per la prima volta, solo qualche mese fa. Quindi ora ci sono computer che possono non solo vedere ma anche leggere, e ovviamente abbiamo dimostrato che possono capire ciò che sentono. Forse ora non vi sorprenderà sapere che possono scrivere. Ecco qualche testo che ho generato ieri usando un algoritmo di deep learning. Ed ecco qualche testo generato da un algoritmo elaborato a Stanford. Le frasi sono state tutte scritte da un algoritmo di deep learning, per descrivere le immagini. L'algoritmo non aveva mai visto prima un uomo in T-shirt nera suonare la chitarra. Aveva già visto un uomo, il colore nero, una chitarra, ma ha generato da solo la didascalia originale di questa immagine. In questo non ha ancora raggiunto performance umane, ma ci siamo vicini. Nei test, gli umani preferiscono le didascalie automatiche una volta su quattro. Questo sistema gira da due sole settimane, quindi entro il prossimo anno [2015] l'algoritmo ci avrà surclassato, al ritmo cui procedono le cose. Quindi, i computer possono anche scrivere. Mettiamo insieme tutto questo, e si aprono scenari esaltanti. In medicina, per esempio, un team di Boston ha annunciato di aver scoperto dozzine di caratteristiche clinicamente rilevamenti di tumori, che aiutano i dottori a elaborare la prognosi di un tumore. A Stanford, analogamente, un gruppo annunciò che, osservando i tessuti al microscopio, avevano sviluppato un sistema di AA che batte i patologi umani nel prevedere i tassi di sopravvivenza tra i pazienti oncologici. In entrambi i casi, non solo le previsioni erano più accurate, ma hanno generato nuove scoperte scientifiche. Nel caso della radiologia, hanno trovato nuovi indicatori clinici che noi possiamo capire. In questo caso patologico, la macchina capì che le cellule attorno al cancro sono importanti quanto le cellule cancerose stesse, quando si fa una diagnosi. Il che è l'opposto di quello che è stato insegnato ai patologi per decenni. In entrambi i casi, questi sistemi furono sviluppati da una combinazione di esperti medici e di AA, ma dall'anno scorso abbiamo superato anche questo. Questo è un esempio di identificazione delle aree cancerose del tessuto umano sotto un microscopio. Questo sistema può identificarle con un'accuratezza maggiore, o almeno analoga, dei patologi umani, ma è fatto tutto col deep learning, senza l'uso di conoscenze mediche, da persone senza formazione medica. Qui vedete una segmentazione dei neuroni. Ora possiamo segmentare i neuroni con accuratezza quasi umana, ma anche questo è stato sviluppato con il deep learning da persone senza formazione medica. A quel punto io, che non mi ero mai occupato di medicina, mi sentivo più che qualificato ad avviare una nuova azienda medica, cosa che feci. Ero terrorizzato da una cosa simile, ma la teoria sembrava ritenere possibile fare ricerca medica di valore usando solo queste tecniche di analisi dei dati. E il feedback, per fortuna, è stato fantastico, da parte non solo dei media ma dalla comunità medica, che mi ha dato molto sostegno. L'idea è che possiamo prendere la fase intermedia del processo medico e trasformarla il più possibile in analisi dei dati, lasciando ai dottori quello che sanno fare meglio. Voglio farvi un esempio. Ora servono circa 15 minuti per generare un nuovo test diagnostico, e ve lo mostrerò in diretta, ma lo comprimerò in tre minuti tagliando un po' di parti. E piuttosto che mostrarvi una diagnosi medica, vi mostrerò una diagnosi di immagini automobilistiche, una cosa che possiamo capire tutti. Inizio inserendo circa 1,5 milioni di immagini d'auto, e voglio creare qualcosa che possa suddividerle per angolo di ripresa. Queste immagini non hanno alcuna descrizione, quindi devo partire da zero. Il nostro algoritmo di deep learning può automaticamente identificare aree di struttura in queste immagini. Il bello è che umani e macchine ora possono lavorare insieme. L'umano, come potete vedere qui, sta descrivendo al computer le aree di interesse che poi vuole allenare a riconoscere. Questi sistemi di deep learning lavorano in uno spazio di 16.000 dimensioni, quindi potete vedere il computer ruotare nello spazio, cercando nuove aree di struttura. E quando riesce nel suo compito, l'umano che lo sta guidando può evidenziare le aree interessanti. Il computer ha trovato con successo varie aree, per esempio gli angoli. Nel corso del processo, facciamo capire sempre meglio al computer che tipo di strutture stiamo cercando. Durante una diagnosi, per esempio, questo sistema identificherebbe aree patologiche; oppure sarebbe un radiologo che indica noduli potenzialmente problematici. E a volte può essere difficile per l'algoritmo. In questo caso si confonde: frontali e retri della macchina sono tutti confusi. Quindi dobbiamo andare un po' più cauti, distinguendo manualmente i frontali dai retri, poi dicendo al computer che è un tipo di gruppo a cui siamo interessati. Facciamo così per un po', ne tralasciamo alcune, poi alleniamo l'algoritmo di AA con questi 200 esempi e speriamo che diventi molto migliore. Potete vedere, ora, che sta già facendo qualche selezione, mostrandoci che sta già capendo come riconoscerne alcune. Possiamo poi lavorare sul concetto di "immagini simili", e con immagini simili, ora potete vederlo, il computer è in grado di isolare i frontali. A questo punto, quindi, possiamo dire al computer: okay, sì, hai fatto un buon lavoro. A volte, naturalmente, anche in questa fase è difficile separare i due gruppi. In questo caso, anche dopo aver lasciato che il computer lo ruotasse per un po', ancora si vede che le immagini delle due fiancate sono mischiate. Allora possiamo dargli altri suggerimenti, e gli diciamo: prova a fare una previsione che separi, quanto più possibile, il lato sinistro dal destro, usando questo algoritmo di deep learning. E dandogli quel suggerimento - ah, ok, ci è riuscito. È riuscito a elaborare un modo di astrarre questi oggetti che li ha separati in gruppi omogenei. Questo per darvi un'idea. È un caso in cui i computer non sostituiscono il lavoro umano, ma lo affiancano. Qui stiamo sostituendo una cosa che richiedeva una squadra di cinque o sei persone, per sette anni, con qualcosa che richiede 15 minuti di una persona sola. Il processo richiede quattro o cinque iterazioni. Potete vedere che ora abbiamo il 62% del nostro 1,5 milioni di immagini classificate correttamente. E a questo punto, possiamo rapidamente iniziare a prendere intere regioni, navigarci per assicurarsi che non vi siano errori. Dove vediamo errori, lasciamo che il computer apprenda da solo. E ripetendo questo processo per ciascuno dei vari gruppi, siamo arrivati all'80 per cento di 1,5 milioni di immagini ben classificate. E a questo punto, si tratta solo di trovare i pochi casi non correttamente classificati, e capire perché sono sbagliati. Con questo approccio, in 15 minuti siamo arrivati ad un tasso di classificazione del 97%. Questo tipo di tecnica ci aiuterebbe a risolvere un grande problema, la scarsità di competenza medica nel mondo. Il World Economic Forum dice che ci sono da dieci a venti volte meno medici, nei paesi meno sviluppati, del necessario, e ci vorrebbero circa 300 anni per formare abbastanza persone da risolvere il problema. Cosa succederebbe se potessimo potenziare la loro efficienza con questi approcci di deep learning? Tutte queste opportunità mi esaltano. Mi preoccupano anche i problemi, però. E il problema, qui, è che ogni area blu di questa mappa è un posto dove i servizi assorbono più dell'80% di forza lavoro. Cosa sono i servizi? Sono questi. Proprio quelle cose che i computer hanno appena imparato a fare. L'80 % degli occupati, nel mondo sviluppato, fa cose che i computer hanno appena imparato a fare. Cosa significa tutto questo? Sarà fantastico! Faremo altro! Per esempio, ci sarà più lavoro per chi raccoglie dati! Be', non proprio. Per fare queste cose, non serviranno scienziati molto a lungo. Questi quattro algoritmi, ad esempio, li ha scritti una sola persona. Se pensate: è già successo, abbiamo visto i risultati in passato, quando si presentava una novità e nuove professioni facevano capolino, quali saranno queste nuove professioni? È molto difficile per noi dirlo, perché la performance umana cresce a ritmo graduale; ma ora abbiamo un sistema, il deep learning, che sappiamo migliorare esponenzialmente. E ora siamo a questo livello, quindi vediamo le cose attorno a noi e i computer ci sembrano ancora molto stupidi, vero? Ma da qui a cinque anni, la loro curva uscirà dal grafico. Dobbiamo, dunque, cominciare a preoccuparci di queste forze già ora. Ci siamo già passati, naturalmente: nella Rivoluzione Industriale i motori hanno fatto "cambiare marcia" alla produttività. Tuttavia, dopo un po' la curva si appiattì. Fu socialmente dirompente, ma una volta che i motori vennero usati per ogni esigenza di potenza, le cose si stabilizzarono. La Rivoluzione dell'AA sarà molto diversa dalla Rivoluzione Industriale, perché inarrestabile. Migliori diventeranno i computer nelle attività intellettive, meglio costruiranno computer ancora migliori nelle attività intellettive, quindi sarà un tipo di sfida che il mondo non ha mai affrontato prima, e la vostra comprensione di cos'è possibile cambierà. Tutto questo ci condiziona già ora: negli ultimi 25 anni, man mano che la produttività del capitale aumentava, la produttività del lavoro è rimasta stabile, anzi è pure un po' calata. Quindi vorrei che cominciassimo a parlarne fin d'ora. Spesso le persone, quando parlo di questa situazione, la rifutano nettamente: i computer in realtà non pensano, non hanno emozioni, non capiscono le poesie, non capiamo davvero come funzionino. E allora? Oggi i computer svolgono quei compiti per cui vendiamo gran parte del nostro tempo, quindi è giunto il momento di chiedersi come adattare le nostre strutture economiche e sociali a questa nuova realtà. Grazie. (Applausi)