1
00:00:00,880 --> 00:00:04,893
Un tempo se volevate 
far fare qualcosa di nuovo ad un computer

2
00:00:04,893 --> 00:00:06,447
dovevate programmarlo.

3
00:00:06,447 --> 00:00:09,858
La programmazione, per quelli di voi 
che non l'hanno mai provata,

4
00:00:09,858 --> 00:00:13,360
richiede una spiegazione dettagliata

5
00:00:13,360 --> 00:00:16,727
di ogni singolo passaggio che volete 
che il computer faccia

6
00:00:16,727 --> 00:00:19,089
per ottenere il vostro scopo.

7
00:00:19,089 --> 00:00:22,585
Se volete fare qualcosa 
che nemmeno voi sapete come si faccia,

8
00:00:22,585 --> 00:00:24,648
potrebbe essere una sfida eccezionale.

9
00:00:24,648 --> 00:00:28,131
Questa è la sfida affrontata 
da quest'uomo, Arthur Samuel.

10
00:00:28,131 --> 00:00:32,208
Nel 1956 voleva che il suo computer

11
00:00:32,208 --> 00:00:34,548
fosse in grado di batterlo a dama.

12
00:00:34,548 --> 00:00:36,588
Come si può scrivere un programma

13
00:00:36,588 --> 00:00:40,394
che spieghi in modo dettagliato 
come essere migliori di voi a dama?

14
00:00:40,394 --> 00:00:42,116
Ebbe un'idea:

15
00:00:42,116 --> 00:00:45,840
fece giocare il computer 
contro sé stesso migliaia di volte

16
00:00:45,840 --> 00:00:48,364
per imparare a giocare a dama.

17
00:00:48,364 --> 00:00:51,544
E ha davvero funzionato, 
infatti nel 1962

18
00:00:51,544 --> 00:00:55,561
questo computer ha battuto 
il campione del Connecticut.

19
00:00:55,561 --> 00:00:58,534
Così Arthur Samuel è stato 
il padre dell'apprendimento automatico,

20
00:00:58,534 --> 00:01:00,251
ed ho un grande debito con lui,

21
00:01:00,251 --> 00:01:03,014
perché sono un professionista 
dell'apprendimento automatico.

22
00:01:03,014 --> 00:01:04,488
Sono stato il presidente di Kaggle

23
00:01:04,488 --> 00:01:05,962
una comunità di oltre 200 000

24
00:01:05,962 --> 00:01:08,257
professionisti 
dell'apprendimento automatico.

25
00:01:08,257 --> 00:01:09,925
Kaggle crea delle competizioni

26
00:01:09,925 --> 00:01:13,633
per cercare di risolvere 
problemi irrisolti

27
00:01:13,633 --> 00:01:16,870
e ce l'ha fatta
centinaia di volte.

28
00:01:16,870 --> 00:01:19,303
Da questo punto di osservazione 
sono stato in grado di scoprire

29
00:01:19,303 --> 00:01:21,736
molto su quanto l'apprendimento automatico

30
00:01:21,736 --> 00:01:24,170
ha potuto fare in passato, 
su quel che può fare oggi,

31
00:01:24,170 --> 00:01:26,421
e su cosa potrà fare in futuro.

32
00:01:26,421 --> 00:01:29,592
Probabilmente il primo grande successo 
dell'apprendimento automatico

33
00:01:29,592 --> 00:01:30,925
in commercio è stato Google.

34
00:01:30,925 --> 00:01:33,784
Google ha mostrato che 
è possibile trovare informazioni

35
00:01:33,784 --> 00:01:35,536
usando un algoritmo informatico,

36
00:01:35,536 --> 00:01:38,437
un algoritmo basato 
sull'apprendimento automatico.

37
00:01:38,437 --> 00:01:42,323
Da allora ci sono stati numerosi successi 
commerciali nell'apprendimento automatico.

38
00:01:42,323 --> 00:01:44,174
Società quali Amazon e Netflix

39
00:01:44,174 --> 00:01:46,025
usano l'apprendimento automatico 
per suggerire

40
00:01:46,025 --> 00:01:47,876
prodotti che potreste voler acquistare,

41
00:01:47,876 --> 00:01:49,896
film che potreste voler vedere.

42
00:01:49,896 --> 00:01:51,703
A volte è quasi inquietante.

43
00:01:51,703 --> 00:01:53,657
Società come Linkedin e Facebook

44
00:01:53,657 --> 00:01:56,251
talvolta vi diranno 
chi potrebbe essere vostro amico

45
00:01:56,251 --> 00:01:58,228
e non avete idea di come ci riescano

46
00:01:58,228 --> 00:02:01,195
e questo perché stanno utilizzando 
l'apprendimento automatico.

47
00:02:01,195 --> 00:02:04,152
Sono algoritmi che hanno imparato 
tutto questo dai dati

48
00:02:04,152 --> 00:02:07,399
invece che dalla programmazione manuale.

49
00:02:07,399 --> 00:02:09,877
La IBM è riuscita in questo modo

50
00:02:09,877 --> 00:02:13,739
a far sì che Watson battesse 
due campioni mondiali di "Jeopardy"

51
00:02:13,739 --> 00:02:16,859
rispondendo a domande incredibilmente 
acute e complesse come queste.

52
00:02:16,859 --> 00:02:19,469
["L'antico leone di Nimrud" è scomparso 
dal museo nazionale di questa città nel 2003 
(insieme ad altro materiale)"]

53
00:02:19,469 --> 00:02:23,034
Ed ecco perché siamo in grado di vedere 
la prima auto che si guida da sola.

54
00:02:23,034 --> 00:02:25,856
Se vogliamo essere in grado di dire 
la differenza tra, diciamo,

55
00:02:25,856 --> 00:02:28,488
un albero ed un pedone, 
allora questo è piuttosto importante.

56
00:02:28,488 --> 00:02:31,075
Non sappiamo come scrivere 
questi programmi manualmente

57
00:02:31,075 --> 00:02:34,072
ma con l'apprendimento automatico 
adesso è possibile.

58
00:02:34,072 --> 00:02:36,680
Questa auto ha guidato 
per oltre un milione di chilometri,

59
00:02:36,680 --> 00:02:40,186
su strada normale, senza alcun incidente.

60
00:02:40,196 --> 00:02:44,110
Adesso sappiamo che i computer 
possono imparare,

61
00:02:44,110 --> 00:02:45,988
i computer possono imparare a fare cose

62
00:02:45,988 --> 00:02:48,848
che nemmeno noi non sappiamo fare,

63
00:02:48,848 --> 00:02:51,733
o che magari possono fare meglio di noi.

64
00:02:51,733 --> 00:02:55,928
Uno degli esempi più impressionanti 
di apprendimento automatico che ho visto

65
00:02:55,928 --> 00:02:58,320
è stato durante un progetto 
che ho condotto a Kaggle

66
00:02:58,320 --> 00:03:01,911
dove un gruppo guidato da un tipo 
chiamato Geoffrey Hinton

67
00:03:01,911 --> 00:03:03,463
dell'università di Toronto

68
00:03:03,463 --> 00:03:06,250
ha vinto una competizione 
per la scoperta automatica di droghe.

69
00:03:06,250 --> 00:03:08,987
La cosa straordinaria qui, 
non è soltanto che hanno battuto

70
00:03:08,987 --> 00:03:12,011
tutti gli algoritmi sviluppati da Merck 
o dalla comunità accademica internazionale

71
00:03:12,011 --> 00:03:15,035
ma il fatto che nessuno nella squadra 
avesse mai avuto

72
00:03:15,035 --> 00:03:18,061
esperienza in chimica o in biologia 
o in scienze biologiche

73
00:03:18,061 --> 00:03:20,230
e l'hanno fatto in due settimane.

74
00:03:20,230 --> 00:03:21,591
Come ci sono riusciti?

75
00:03:21,591 --> 00:03:25,342
Hanno utilizzato un algoritmo fenomenale 
chiamato apprendimento approfondito.

76
00:03:25,342 --> 00:03:28,651
Questo successo è stato così importante 
da essere stato pubblicato in un articolo

77
00:03:28,651 --> 00:03:31,412
nella prima pagina del New York Times 
poche settimane dopo.

78
00:03:31,412 --> 00:03:33,770
Questo qui a sinistra è Geoffrey Hinton.

79
00:03:33,770 --> 00:03:36,128
Apprendimento approfondito è un algoritmo

80
00:03:36,128 --> 00:03:38,488
ispirato al funzionamento 
del cervello umano

81
00:03:38,488 --> 00:03:40,300
che ha come risultato un algoritmo

82
00:03:40,300 --> 00:03:44,141
che non ha limiti teorici 
su quel che può fare.

83
00:03:44,141 --> 00:03:46,964
Più dati gli si forniscono 
e più tempo di calcolo gli si dà,

84
00:03:46,964 --> 00:03:48,276
meglio funziona.

85
00:03:48,276 --> 00:03:49,803
Il New York Times ha anche spiegato 
in questo articolo

86
00:03:49,803 --> 00:03:51,330
un altro straordinario

87
00:03:51,330 --> 00:03:52,857
risultato dell'apprendimento approfondito

88
00:03:52,857 --> 00:03:55,569
che sto per mostrarvi.

89
00:03:55,569 --> 00:04:00,510
Mostra che i computer 
possono ascoltare e capire.

90
00:04:00,510 --> 00:04:03,221
(Video) Richard Rashid: l'ultimo passo

91
00:04:03,221 --> 00:04:06,246
che voglio essere in grado 
di compiere in questo processo

92
00:04:06,246 --> 00:04:10,961
è di parlarvi veramente in cinese.

93
00:04:10,961 --> 00:04:13,506
Il punto chiave qui

94
00:04:13,506 --> 00:04:16,051
è che siamo stati in grado 
di prendere una gran quantità

95
00:04:16,051 --> 00:04:18,598
di informazioni 
da numerosi parlanti cinesi

96
00:04:18,598 --> 00:04:21,128
per produrre un sistema da testo a voce

97
00:04:21,128 --> 00:04:25,801
che prende il testo cinese 
e lo converte in lingua cinese

98
00:04:25,801 --> 00:04:29,929
e abbiamo preso 
più o meno un'ora della mia stessa voce

99
00:04:29,929 --> 00:04:31,820
e l'abbiamo utilizzata per modulare

100
00:04:31,820 --> 00:04:36,364
un sistema standard da testo a voce 
in modo che suoni come la mia.

101
00:04:36,364 --> 00:04:38,904
Il risultato non è perfetto.

102
00:04:38,904 --> 00:04:41,552
In realtà ci sono un po' di errori.

103
00:04:41,552 --> 00:04:44,036
(In cinese)

104
00:04:44,036 --> 00:04:47,386
(Applausi)

105
00:04:47,386 --> 00:04:53,022
C'è ancora molto 
da fare in questo settore.

106
00:04:53,022 --> 00:04:56,667
(In cinese)

107
00:04:56,667 --> 00:04:59,359
(Applausi)

108
00:04:59,359 --> 00:05:01,154
Jeremy Howard:

109
00:05:01,154 --> 00:05:02,350
questo è accaduto alla conferenza

110
00:05:03,546 --> 00:05:04,744
sull'apprendimento automatico in Cina.

111
00:05:04,744 --> 00:05:07,114
Non capita davvero spesso 
alle conferenze accademiche

112
00:05:07,114 --> 00:05:08,971
di sentire applausi spontanei

113
00:05:08,971 --> 00:05:10,828
benché ovviamente talvolta

114
00:05:10,828 --> 00:05:12,687
alle conferenze TEDx 
siate liberi di farlo.

115
00:05:12,687 --> 00:05:14,127
Tutto quello che avete visto è accaduto 
grazie all'apprendimento approfondito.

116
00:05:14,127 --> 00:05:15,567
(Applausi)

117
00:05:15,567 --> 00:05:17,007
Grazie.

118
00:05:17,007 --> 00:05:19,289
La trascrizione in inglese 
è apprendimento approfondito.

119
00:05:19,289 --> 00:05:22,701
La traduzione in cinese e il testo in alto 
a destra, apprendimento approfondito,

120
00:05:22,701 --> 00:05:26,008
e la costruzione della voce 
ancora apprendimento approfondito.

121
00:05:26,008 --> 00:05:29,242
Dunque l'apprendimento approfondito 
è questa cosa straordinaria.

122
00:05:29,242 --> 00:05:32,341
È un singolo algoritmo che sembra 
essere in grado di fare qualsiasi cosa

123
00:05:32,341 --> 00:05:35,452
e ho scoperto che un anno prima
ha anche imparato a vedere.

124
00:05:35,452 --> 00:05:37,628
In questa sconosciuta 
competizione dalla Germania

125
00:05:37,628 --> 00:05:40,225
chiamata lo Standard tedesco 
per il riconoscimento dei segnali stradali

126
00:05:40,225 --> 00:05:43,618
l'apprendimento approfondito ha imparato 
a riconoscere segnali stradali come questo.

127
00:05:43,618 --> 00:05:45,712
Non solo può 
riconoscere i segnali stradali

128
00:05:45,712 --> 00:05:47,470
meglio di qualunque altro algoritmo

129
00:05:47,470 --> 00:05:50,189
la classifica dei leader mostra che 
in realtà è stato migliore delle persone,

130
00:05:50,189 --> 00:05:52,041
almeno il doppio delle persone.

131
00:05:52,041 --> 00:05:54,037
Così nel 2011 abbiamo avuto 
il primo esempio

132
00:05:54,037 --> 00:05:57,442
di computer che può vedere 
meglio delle persone.

133
00:05:57,442 --> 00:05:59,491
Da allora sono successe molte cose.

134
00:05:59,491 --> 00:06:03,005
Nel 2012 Google ha annunciato che 
un algoritmo di apprendimento approfondito

135
00:06:03,005 --> 00:06:04,420
ha guardato i video di YouTube

136
00:06:04,420 --> 00:06:07,857
e ha suddiviso i dati
su 16 000 computer per un mese

137
00:06:07,857 --> 00:06:12,218
e il computer ha imparato in modo 
autonomo concetti quali persone e gatti

138
00:06:12,218 --> 00:06:14,027
solo guardando i video.

139
00:06:14,027 --> 00:06:16,379
Assomiglia molto al modo 
di imparare degli uomini.

140
00:06:16,379 --> 00:06:19,119
Gli uomini non apprendono 
quando gli si dice cosa vedono,

141
00:06:19,119 --> 00:06:22,450
ma apprendendo da soli 
cosa sono queste cose.

142
00:06:22,450 --> 00:06:25,819
Anche nel 2012 Geoffrey Hinton, 
che abbiamo visto prima,

143
00:06:25,819 --> 00:06:28,677
ha vinto la popolarissima 
competizione ImageNet

144
00:06:28,677 --> 00:06:32,818
cercando di capire 
da un milione e mezzo di immagini

145
00:06:32,818 --> 00:06:34,256
di che cosa erano la foto.

146
00:06:34,256 --> 00:06:37,789
Già dal 2014 siamo a meno 
del sei percento del tasso di errore

147
00:06:37,789 --> 00:06:39,242
nel riconoscimento delle immagini.

148
00:06:39,242 --> 00:06:41,268
Ancora una volta meglio delle persone.

149
00:06:41,268 --> 00:06:45,037
Le macchine stanno davvero 
facendo un lavoro straordinario qui

150
00:06:45,037 --> 00:06:47,306
e verrà utilizzato nell'industria.

151
00:06:47,306 --> 00:06:50,348
Per esempio, 
Google lo scorso anno ha annunciato

152
00:06:50,348 --> 00:06:54,933
che ha mappato ogni singola 
località in Francia in due ore

153
00:06:54,933 --> 00:06:57,521
e lo ha fatto 
fornendo immagini di strade

154
00:06:57,521 --> 00:07:00,109
ad un algoritmo 
di apprendimento approfondito

155
00:07:00,109 --> 00:07:02,699
per riconoscere e leggere i numeri civici.

156
00:07:02,699 --> 00:07:04,919
Immaginate quanto 
si sarebbe impiegato prima:

157
00:07:04,919 --> 00:07:08,274
dozzine di persone, diversi anni.

158
00:07:08,274 --> 00:07:10,185
Sta accadendo anche in Cina.

159
00:07:10,185 --> 00:07:14,221
Baidu è una sorta 
di Google cinese, immagino,

160
00:07:14,221 --> 00:07:16,306
e quel che potete vedere 
in alto a sinistra

161
00:07:16,306 --> 00:07:18,391
è un esempio delle immagini 
che ho caricato

162
00:07:18,391 --> 00:07:20,478
nel sistema di apprendimento 
approfondito di Baidu,

163
00:07:20,478 --> 00:07:24,247
al di sotto potete vedere che il sistema 
ha capito che cos'è quell'immagine

164
00:07:24,247 --> 00:07:26,483
e ha trovato immagini simili.

165
00:07:26,483 --> 00:07:29,219
In effetti le immagini simili 
hanno sfondi simili,

166
00:07:29,219 --> 00:07:30,877
simili direzioni dei volti,

167
00:07:30,877 --> 00:07:32,665
alcuni persino con la lingua fuori.

168
00:07:32,665 --> 00:07:35,695
Questo non sta certamente cercando 
il testo in una pagina del web.

169
00:07:35,695 --> 00:07:37,107
Tutto quello che ho caricato 
è un'immagine.

170
00:07:37,107 --> 00:07:41,128
Così adesso abbiamo computer che 
comprendono davvero quello che vedono

171
00:07:41,128 --> 00:07:42,752
e che possono di conseguenza 
cercare nei database

172
00:07:42,752 --> 00:07:46,306
di centinaia di milioni 
di immagini in tempo reale.

173
00:07:46,306 --> 00:07:49,536
Cosa significa 
che i computer possono vedere?

174
00:07:49,536 --> 00:07:51,553
Non è solo che 
i computer possono vedere.

175
00:07:51,553 --> 00:07:53,622
Infatti l'apprendimento approfondito 
ha fatto molto più di questo.

176
00:07:53,622 --> 00:07:55,546
Frasi complesse e sfumate come questa

177
00:07:55,546 --> 00:07:57,470
adesso sono comprensibili

178
00:07:57,470 --> 00:07:59,394
con un algoritmo 
di apprendimento approfondito.

179
00:07:59,394 --> 00:08:00,697
Come potete vedere qui,

180
00:08:00,697 --> 00:08:03,465
questo sistema basato su Stanford 
che mostra punti rossi in cima

181
00:08:03,465 --> 00:08:07,384
ha capito che questa frase 
sta esprimendo un sentimento negativo.

182
00:08:07,384 --> 00:08:10,230
L'apprendimento approfondito 
è simile al comportamento umano

183
00:08:10,230 --> 00:08:13,076
nel comprendere quello di cui tratta

184
00:08:13,076 --> 00:08:15,923
la frase e che cosa sta dicendo 
su queste cose.

185
00:08:15,923 --> 00:08:18,651
L'apprendimento approfondito 
è stato utilizzato per leggere il cinese

186
00:08:18,651 --> 00:08:21,807
ad un livello simile 
a quello di un madrelingua.

187
00:08:21,807 --> 00:08:23,975
Questo algoritmo è stato sviluppato 
in Svizzera

188
00:08:23,975 --> 00:08:27,331
da persone che non parlavano 
o capivano il cinese.

189
00:08:27,331 --> 00:08:29,382
Come ho detto, l'uso 
dell'apprendimento approfondito

190
00:08:29,382 --> 00:08:31,601
è praticamente il sistema migliore 
del mondo per fare questo,

191
00:08:31,601 --> 00:08:36,718
anche paragonato 
alla conoscenza umana.

192
00:08:36,718 --> 00:08:39,682
Questo è il sistema che abbiamo 
messo a punto nella mia azienda,

193
00:08:39,682 --> 00:08:41,728
che mostra come mettere 
tutto questo materiale insieme.

194
00:08:41,728 --> 00:08:44,189
Queste immagini non hanno 
alcun testo allegato

195
00:08:44,189 --> 00:08:46,541
e mentre sto digitando queste frasi

196
00:08:46,541 --> 00:08:49,510
in tempo reale sta capendo 
queste immagini

197
00:08:49,510 --> 00:08:51,189
e immaginando cosa riguardano

198
00:08:51,189 --> 00:08:54,352
e trovando immagini simili 
al testo che sto scrivendo.

199
00:08:54,352 --> 00:08:57,108
Come potete vedere, sta effettivamente 
capendo le mie frasi

200
00:08:57,108 --> 00:08:59,332
e sta realmente comprendendo 
queste immagini.

201
00:08:59,332 --> 00:09:01,891
So che avete visto 
qualcosa di simile su Google

202
00:09:01,891 --> 00:09:04,637
dove potete digitare cose 
e lui vi mostra delle immagini,

203
00:09:04,643 --> 00:09:08,090
ma in realtà quello che fa è 
cercare una pagina web riferita al testo.

204
00:09:08,090 --> 00:09:11,091
È molto diverso 
dal capire davvero le immagini.

205
00:09:11,091 --> 00:09:13,843
È una cosa che i computer 
sono stati in grado di fare

206
00:09:13,843 --> 00:09:16,289
per la prima volta negli ultimi mesi.

207
00:09:16,289 --> 00:09:18,735
Vediamo che i computer non soltanto

208
00:09:18,735 --> 00:09:21,182
possono vedere le immagini, 
possono anche leggere

209
00:09:21,182 --> 00:09:23,584
e ovviamente mostrare che possono 
comprendere quello che sentono.

210
00:09:23,584 --> 00:09:25,986
Forse non vi sorprenderà 
quello che sto per dirvi,

211
00:09:25,986 --> 00:09:28,381
cioè che sono in grado di scrivere.

212
00:09:28,381 --> 00:09:30,776
Ecco un testo 
che ho scritto ieri utilizzando

213
00:09:30,776 --> 00:09:33,172
un algoritmo 
di apprendimento approfondito.

214
00:09:33,172 --> 00:09:37,096
Ed ecco un testo che un algoritmo 
di Stanford ha creato.

215
00:09:37,096 --> 00:09:39,100
Ognuna di queste frasi è stata creata

216
00:09:39,100 --> 00:09:41,104
da un algoritmo 
di apprendimento approfondito

217
00:09:41,104 --> 00:09:43,263
per descrivere ognuna di queste immagini.

218
00:09:43,263 --> 00:09:45,422
Questo algoritmo non ha mai visto

219
00:09:45,422 --> 00:09:47,581
un uomo in maglietta nera 
che suona la chitarra.

220
00:09:47,581 --> 00:09:49,801
Ha già visto un uomo prima, 
ha già visto il nero prima,

221
00:09:49,801 --> 00:09:51,400
ha già visto una chitarra prima,

222
00:09:51,400 --> 00:09:55,694
ma ha generato in modo autonomo questa 
nuova descrizione di questa fotografia.

223
00:09:55,694 --> 00:09:59,196
Non è ancora una prestazione umana, 
ma ci siamo vicini.

224
00:09:59,196 --> 00:10:03,264
Nei test, gli uomini preferiscono 
un sottotitolo generato dal computer

225
00:10:03,264 --> 00:10:04,791
una volta su quattro.

226
00:10:04,791 --> 00:10:06,855
Questo sistema ha soltanto due settimane,

227
00:10:06,855 --> 00:10:08,701
quindi forse entro il prossimo anno

228
00:10:08,701 --> 00:10:11,502
l'algoritmo informatico sarà 
oltre la prestazione umana

229
00:10:11,502 --> 00:10:13,364
alla velocità con cui vanno le cose.

230
00:10:13,364 --> 00:10:16,413
I computer possono anche scrivere.

231
00:10:16,413 --> 00:10:19,888
Abbiamo messo tutto insieme e ci ha
portato ad opportunità emozionanti.

232
00:10:19,888 --> 00:10:21,380
Per esempio in medicina

233
00:10:21,380 --> 00:10:23,905
un gruppo di Boston 
ha annunciato che ha scoperto

234
00:10:23,905 --> 00:10:26,854
dozzine di caratteristiche dei tumori 
clinicamente rilevanti

235
00:10:26,854 --> 00:10:31,120
che aiutano i medici nel fare 
una prognosi del cancro.

236
00:10:31,130 --> 00:10:34,516
Analogamente, a Stanford

237
00:10:34,516 --> 00:10:38,179
un gruppo ha annunciato 
che osservando i tessuti ingranditi

238
00:10:38,179 --> 00:10:40,560
hanno sviluppato un sistema basato 
sull'apprendimento automatico

239
00:10:40,560 --> 00:10:43,142
che è migliore dei patologi umani

240
00:10:43,142 --> 00:10:47,519
nel predire le percentuali 
di sopravvivenza nei malati di cancro.

241
00:10:47,519 --> 00:10:50,764
In entrambi i casi non solo 
le previsioni sono più accurate

242
00:10:50,764 --> 00:10:53,266
ma generano una nuova 
scienza intelligente.

243
00:10:53,276 --> 00:10:54,781
Nel caso della radiologia

244
00:10:54,781 --> 00:10:57,876
sono nuovi indicatori clinici 
che gli umani possono comprendere.

245
00:10:57,876 --> 00:10:59,668
Nel caso di questa patologia

246
00:10:59,668 --> 00:11:04,168
il sistema informatico ha scoperto 
che le cellule intorno al cancro

247
00:11:04,168 --> 00:11:07,508
sono importanti quanto 
le cellule tumorali stesse

248
00:11:07,508 --> 00:11:09,260
per fare una diagnosi.

249
00:11:09,260 --> 00:11:14,621
È il contrario di quanto è stato 
insegnato ai patologi per decenni.

250
00:11:14,621 --> 00:11:17,913
In ognuno dei due casi 
sono sistemi sviluppati

251
00:11:17,913 --> 00:11:20,033
da una combinazione 
di esperti in medicina

252
00:11:20,033 --> 00:11:22,153
e di esperti 
in apprendimento automatico

253
00:11:22,153 --> 00:11:24,275
ma a partire dallo scorso anno
siamo andati anche oltre.

254
00:11:24,275 --> 00:11:27,824
Questo è un esempio 
di identificazione delle aree tumorali

255
00:11:27,824 --> 00:11:30,354
di un tessuto umano al microscopio.

256
00:11:30,354 --> 00:11:34,967
Questo sistema può identificare 
le aree con maggiore accuratezza

257
00:11:34,967 --> 00:11:37,022
o con la stessa accuratezza 
di un patologo umano

258
00:11:37,022 --> 00:11:38,392
ma è stato costruito interamente

259
00:11:38,392 --> 00:11:39,762
con l'apprendimento approfondito

260
00:11:39,762 --> 00:11:41,134

senza utilizzare la competenza medica

261
00:11:41,134 --> 00:11:44,090
da persone che non hanno 
alcuna competenza in questo settore.

262
00:11:44,090 --> 00:11:46,377
Analogamente qui c'è 
la segmentazione di un neurone.

263
00:11:46,377 --> 00:11:48,664
Ora siamo in grado di segmentare

264
00:11:48,664 --> 00:11:50,953
i neuroni con la stessa 
accuratezza degli uomini,

265
00:11:50,953 --> 00:11:53,670
ma questo sistema è stato sviluppato 
con l'apprendimento approfondito

266
00:11:53,670 --> 00:11:56,921
da persone con nessuna 
competenza in medicina.

267
00:11:56,921 --> 00:12:00,148
Io stesso, da persona 
senza alcuna competenza in medicina,

268
00:12:00,148 --> 00:12:03,875
sono pienamente qualificato 
per iniziare una nuova società medica,

269
00:12:03,875 --> 00:12:06,021
cosa che ho fatto.

270
00:12:06,021 --> 00:12:07,761
Ero piuttosto spaventato nel farlo

271
00:12:07,761 --> 00:12:10,650
ma la teoria sembrava suggerire 
che era possibile

272
00:12:10,650 --> 00:12:16,142
fare medicina molto utile utilizzando 
soltanto queste tecniche di analisi dati.

273
00:12:16,142 --> 00:12:18,622
Fortunatamente abbiamo avuto 
un fantastico riscontro

274
00:12:18,622 --> 00:12:20,978
non soltanto dai media, 
ma anche dalla comunità medica,

275
00:12:20,978 --> 00:12:23,322
che è stata di grande supporto.

276
00:12:23,322 --> 00:12:27,471
La teoria è che possiamo prendere 
la parte centrale di un processo medico

277
00:12:27,471 --> 00:12:30,364
e trasformarla in un analisi di dati 
per quanto possibile,

278
00:12:30,364 --> 00:12:33,429
lasciando i medici a fare 
quel che fanno meglio.

279
00:12:33,429 --> 00:12:35,031
Voglio farvi un esempio.

280
00:12:35,031 --> 00:12:39,975
Ad oggi occorrono 15 minuti per produrre 
un nuovo test medico diagnostico,

281
00:12:39,975 --> 00:12:41,929
io ve lo mostrerò in tempo reale,

282
00:12:41,929 --> 00:12:45,416
ma l'ho compresso a tre minuti 
eliminando qualche parte.

283
00:12:45,416 --> 00:12:48,477
Invece di farvi vedere 
la creazione di un test medico diagnostico

284
00:12:48,477 --> 00:12:51,846
sto per mostrarvi 
un test diagnostico con immagini di auto,

285
00:12:51,846 --> 00:12:54,068
perché è qualcosa 
che possiamo comprendere tutti.

286
00:12:54,068 --> 00:12:57,269
Quindi inizieremo con circa 
un milione e mezzo di immagini di auto

287
00:12:57,269 --> 00:13:00,475
e voglio creare qualcosa 
che le suddivida per l'angolazione

288
00:13:00,475 --> 00:13:02,698
con cui sono state scattate le fotografie.

289
00:13:02,698 --> 00:13:06,586
Queste immagini non sono etichettate, 
quindi dovrò cominciare da zero.

290
00:13:06,586 --> 00:13:08,443
Con il nostro algoritmo 
per l'apprendimento approfondito

291
00:13:08,443 --> 00:13:10,300
si possono identificare automaticamente

292
00:13:10,300 --> 00:13:12,158
le aree delle strutture 
in queste immagini.

293
00:13:12,158 --> 00:13:15,778
La cosa bella è che l'uomo 
e il computer possono lavorare insieme.

294
00:13:15,778 --> 00:13:17,956
L'uomo, come potete vedere qui,

295
00:13:17,956 --> 00:13:20,631
sta spiegando al computer 
le aree di interesse

296
00:13:20,631 --> 00:13:23,613
che vuole che il computer 
utilizzi per migliorare l'algoritmo.

297
00:13:23,613 --> 00:13:26,595
In realtà questi sistemi 
di apprendimento approfondito

298
00:13:26,595 --> 00:13:29,577
sono in uno spazio di 16 000 dimensioni

299
00:13:29,577 --> 00:13:33,009
così potete vedere qui il computer
che lo ruota attraverso quello spazio

300
00:13:33,009 --> 00:13:35,001
cercando di trovare 
nuove aree di struttura.

301
00:13:35,001 --> 00:13:36,782
Quando ci riesce

302
00:13:36,782 --> 00:13:40,786
l'uomo che lo sta guidando può poi 
segnalare le aree interessanti.

303
00:13:40,786 --> 00:13:43,208
Qui il computer ha trovato 
con successo le aree

304
00:13:43,208 --> 00:13:45,770
ad esempio, gli spigoli.

305
00:13:45,770 --> 00:13:47,376
Durante questo processo

306
00:13:47,376 --> 00:13:49,904
stiamo dicendo gradualmente 
al computer sempre di più

307
00:13:49,904 --> 00:13:52,144
sul tipo di strutture che stiamo cercando.

308
00:13:52,144 --> 00:13:53,851
Potete immaginare in un test diagnostico

309
00:13:53,851 --> 00:13:55,558
che questo potrebbe essere 
un patologo che identifica

310
00:13:55,558 --> 00:13:57,266
le aree malate, oppure ad esempio

311
00:13:57,266 --> 00:14:02,292
un radiologo che indica 
i noduli potenzialmente problematici.

312
00:14:02,292 --> 00:14:04,851
Talvolta può essere 
difficile per l'algoritmo.

313
00:14:04,851 --> 00:14:06,815
Qui è in un qualche modo confuso.

314
00:14:06,815 --> 00:14:09,365
Le immagini della parte anteriore 
e posteriore delle auto sono mescolate.

315
00:14:09,365 --> 00:14:11,437
In questo caso dobbiamo 
essere un po' più cauti,

316
00:14:11,437 --> 00:14:14,669
selezionando le parti anteriori 
come opposte alle parti posteriori.

317
00:14:14,669 --> 00:14:20,175
e dicendo al computer 
che questo è il tipo di gruppo

318
00:14:20,175 --> 00:14:21,523
a cui siamo interessati.

319
00:14:21,523 --> 00:14:24,200
Lo facciamo per un po', 
tralasciando qualcosa,

320
00:14:24,200 --> 00:14:26,446
così addestriamo l'algoritmo 
per l'apprendimento automatico

321
00:14:26,446 --> 00:14:28,420
basandoci su queste coppie 
di centinaia di cose

322
00:14:28,420 --> 00:14:30,445
sperando che il risultato sia migliore.

323
00:14:30,445 --> 00:14:33,518
Potete vedere che sta iniziando 
a dissolvere alcune di queste fotografie

324
00:14:33,518 --> 00:14:38,226
mostrandoci che sta già riconoscendo
come capire da solo alcune di queste.

325
00:14:38,226 --> 00:14:41,128
Possiamo utilizzare questo concetto 
di immagini simili,

326
00:14:41,128 --> 00:14:43,222
e utilizzando immagini simili, 
come potete vedere.

327
00:14:43,222 --> 00:14:47,241
il computer a questo punto è in grado 
di trovare la parte anteriore delle auto.

328
00:14:47,241 --> 00:14:50,189
A questo punto l'uomo 
può dire al computer

329
00:14:50,189 --> 00:14:52,462
va bene, hai fatto 
un buon lavoro.

330
00:14:52,462 --> 00:14:55,837
Talvolta, ovviamente, 
persino a questo punto

331
00:14:55,837 --> 00:14:58,356
è ancora difficile 
separare i gruppi.

332
00:14:58,356 --> 00:15:00,875
In questo caso anche dopo aver lasciato

333
00:15:00,875 --> 00:15:03,395
il computer a provare 
a ruotarlo per un po'

334
00:15:03,399 --> 00:15:06,744
troveremo ancora che le immagini 
dei lati sinistri e dei lati destri

335
00:15:06,744 --> 00:15:08,222
sono tutte mescolate.

336
00:15:08,222 --> 00:15:10,362
Così possiamo dare ulteriori 
indicazioni al computer

337
00:15:10,362 --> 00:15:13,338
e dire, va bene, prova a trovare 
una proiezione per separare

338
00:15:13,338 --> 00:15:15,945
i lati sinistri da quelli destri 
per quanto possibile

339
00:15:15,945 --> 00:15:18,067
utilizzando questo algoritmo 
di apprendimento approfondito.

340
00:15:18,067 --> 00:15:21,009
Dandogli quel suggerimento -- 
ecco, c'è riuscito.

341
00:15:21,009 --> 00:15:23,891
È riuscito a trovare un modo 
per pensare a questi oggetti

342
00:15:23,891 --> 00:15:26,271
separandoli dagli altri.

343
00:15:26,271 --> 00:15:28,709
Vi state facendo un'idea.

344
00:15:28,709 --> 00:15:36,906
Questo non è un caso in cui l'uomo 
è rimpiazzato dal computer,

345
00:15:36,906 --> 00:15:39,546
ma uno in cui lavorano insieme.

346
00:15:39,546 --> 00:15:43,096
Quello che stiamo facendo qui è sostituire 
qualcosa per il quale serviva una squadra

347
00:15:43,096 --> 00:15:45,098
di cinque o sei persone 
per circa sette anni

348
00:15:45,098 --> 00:15:47,703
e sostituirlo con qualcosa 
che impiega 15 minuti

349
00:15:47,703 --> 00:15:50,208
e una persona che lavora da sola.

350
00:15:50,208 --> 00:15:54,158
Questo processo richiede all'incirca 
quattro o cinque ripetizioni.

351
00:15:54,158 --> 00:15:56,017
Potete vedere che adesso abbiamo 
il 62 per cento

352
00:15:56,017 --> 00:15:58,976
del nostro milione e mezzo di immagini 
classificato correttamente.

353
00:15:58,976 --> 00:16:01,448
A questo punto possiamo iniziare 
a prendere piuttosto

354
00:16:01,448 --> 00:16:02,745
velocemente grandi sezioni,

355
00:16:02,745 --> 00:16:05,664
controllarle per essere sicuri 
che non ci siano errori.

356
00:16:05,664 --> 00:16:09,616
Dove ci sono errori, possiamo 
farlo sapere al computer.

357
00:16:09,616 --> 00:16:12,661
Utilizzando questo tipo di processo 
per ognuno dei diversi gruppi

358
00:16:12,661 --> 00:16:15,148
siamo vicini ad un tasso 
di successo dell'80 per cento

359
00:16:15,148 --> 00:16:17,563
nel classificare un milione 
e mezzo di immagini.

360
00:16:17,563 --> 00:16:19,641
A questo punto è solo si tratta solo

361
00:16:19,641 --> 00:16:23,220
di trovare trova la piccola parte 
che non è classificata correttamente

362
00:16:23,220 --> 00:16:26,108
e si cerca di capire perché.

363
00:16:26,108 --> 00:16:27,851
Usando questo approccio

364
00:16:27,851 --> 00:16:31,972
in 15 minuti arriviamo a un tasso 
di classificazione del 97 per cento.

365
00:16:31,972 --> 00:16:36,572
Questo tipo di tecnica può permetterci 
di risolvere un problema più grande,

366
00:16:36,578 --> 00:16:38,753
cioè che c'è una mancanza 
di competenza medica nel mondo.

367
00:16:38,753 --> 00:16:40,928
Il Forum Economico Mondiale 
riporta che ci sono

368
00:16:40,928 --> 00:16:43,103
dalle 10 alle 20 volte meno 
medici del necessario

369
00:16:43,103 --> 00:16:45,727
nei paesi in via di sviluppo

370
00:16:45,727 --> 00:16:47,840
e serviranno circa 300 anni

371
00:16:47,840 --> 00:16:50,734
per formare abbastanza persone 
per risolvere il problema.

372
00:16:50,734 --> 00:16:53,619
Quindi immaginate se potessimo aiutare 
a migliorare la loro efficacia

373
00:16:53,619 --> 00:16:56,458
utilizzando l'approccio con questo 
apprendimento approfondito?

374
00:16:56,458 --> 00:16:58,690
Sono davvero entusiasta 
di questa opportunità.

375
00:16:58,690 --> 00:17:01,279
Sono anche preoccupato per i problemi.

376
00:17:01,279 --> 00:17:04,403
Il problema è che 
ogni area in blu su questa mappa

377
00:17:04,403 --> 00:17:08,172
indica un posto dove i servizi 
sono oltre l'80 per cento del lavoro.

378
00:17:08,172 --> 00:17:09,959
Cosa sono i servizi?

379
00:17:09,959 --> 00:17:11,473
Questi sono i servizi.

380
00:17:11,473 --> 00:17:15,627
Questi sono anche proprio quello che 
i computer hanno appena imparato a fare.

381
00:17:15,627 --> 00:17:19,431
Così l'80 per cento dell'occupazione mondiale 
nel mondo sviluppato

382
00:17:19,431 --> 00:17:21,963
è in qualcosa che i computer 
hanno appena imparato a fare.

383
00:17:21,963 --> 00:17:23,403
Cosa significa tutto ciò?

384
00:17:23,403 --> 00:17:25,986
Che andrà tutto bene. 
Saranno sostituiti da altri lavori.

385
00:17:25,986 --> 00:17:28,693
Ad esempio ci sarà 
più lavoro per i data scientist.

386
00:17:28,693 --> 00:17:29,510
Veramente no.

387
00:17:29,510 --> 00:17:32,628
Non occorrono molti data scientist 
per costruire questi.

388
00:17:32,628 --> 00:17:35,880
Ad esempio questi quattro algoritmi 
sono stati creati dalla stessa persona.

389
00:17:35,880 --> 00:17:38,318
Così se pensate: 
è già accaduto prima

390
00:17:38,318 --> 00:17:42,126
abbiamo visto in passato i risultati 
di quando arrivano novità

391
00:17:42,126 --> 00:17:44,378
e vengono sostituite da nuovi lavori,

392
00:17:44,378 --> 00:17:46,494
ma come saranno questi nuovi lavori?

393
00:17:46,494 --> 00:17:48,365
È molto difficile per noi prevederlo

394
00:17:48,365 --> 00:17:51,104
perché la conoscenza umana 
cresce ad un tasso graduale,

395
00:17:51,104 --> 00:17:53,666
mentre ora che abbiamo questo 
sistema di apprendimento approfondito

396
00:17:53,666 --> 00:17:56,893
che sappiamo che ha una conoscenza 
che cresce a livello esponenziale.

397
00:17:56,893 --> 00:17:58,498
Siamo qui.

398
00:17:58,498 --> 00:18:00,077
Attualmente vediamo le cose intorno a noi

399
00:18:00,077 --> 00:18:01,656
e diciamo: "I computer
sono ancora piuttosto stupidi"

400
00:18:01,656 --> 00:18:03,235
Giusto?

401
00:18:03,235 --> 00:18:06,664
Ma fra cinque anni 
saranno fuori da questo diagramma.

402
00:18:06,664 --> 00:18:10,529
Così dobbiamo iniziare a pensare 
a questa capacità proprio adesso.

403
00:18:10,529 --> 00:18:12,579
L'abbiamo già visto, ovviamente.

404
00:18:12,579 --> 00:18:13,966
Nella Rivoluzione Industriale

405
00:18:13,966 --> 00:18:17,137
abbiamo visto un cambio di passo 
nella capacità grazie al motore.

406
00:18:17,157 --> 00:18:20,805
Il punto è tuttavia che dopo 
un po' le cose si sono appiattite.

407
00:18:20,805 --> 00:18:22,507
Ci sono stati disordini sociali,

408
00:18:22,507 --> 00:18:25,946
ma una volta che il motore è stato usato 
per generare energia in ogni situazione

409
00:18:25,946 --> 00:18:28,300
le cose si sono assestate.

410
00:18:28,300 --> 00:18:29,773
La Rivoluzione dell'Apprendimento 
Automatico

411
00:18:29,773 --> 00:18:32,682
sarà molto diversa 
dalla Rivoluzione Industriale

412
00:18:32,682 --> 00:18:35,632
perché la Rivoluzione dell'Apprendimento 
Automatico non si assesterà.

413
00:18:35,632 --> 00:18:38,042
Più i computer miglioreranno 
le attività intellettuali

414
00:18:38,042 --> 00:18:40,452
più si potranno costruire 
computer migliori

415
00:18:40,452 --> 00:18:42,862
che miglioreranno 
le capacità intellettuali,

416
00:18:42,862 --> 00:18:44,770
quindi questo sarà un cambiamento

417
00:18:44,770 --> 00:18:47,248
che il mondo non ha davvero 
mai sperimentato prima

418
00:18:47,248 --> 00:18:50,554
quindi la vostra comprensione precedente 
su quel che è possibile, è diverso.

419
00:18:50,974 --> 00:18:52,754
Sta già avendo un impatto su di noi.

420
00:18:52,754 --> 00:18:56,384
Negli ultimi 25 anni 
la produttività del capitale è cresciuta,

421
00:18:56,400 --> 00:19:00,588
la produttività del lavoro è rimasta 
uguale, è persino calata un po'.

422
00:19:01,408 --> 00:19:04,149
Quindi voglio che iniziamo 
a discuterne sin da adesso.

423
00:19:04,149 --> 00:19:07,176
So che spesso quando parlo alle persone 
di questa situazione

424
00:19:07,176 --> 00:19:08,666
le persone sono piuttosto sprezzanti.

425
00:19:08,666 --> 00:19:10,339
Del resto i computer 
non possono veramente pensare,

426
00:19:10,339 --> 00:19:13,367
non hanno emozioni, 
non comprendono la poesia,

427
00:19:13,367 --> 00:19:15,888
non capiamo davvero come funzionano.

428
00:19:15,888 --> 00:19:17,374
Quindi?

429
00:19:17,374 --> 00:19:19,668
Già adesso i computer possono fare cose

430
00:19:19,668 --> 00:19:21,897
per fare le quali le persone 
vengono pagate,

431
00:19:21,897 --> 00:19:23,628
quindi è tempo di iniziare a pensare

432
00:19:23,628 --> 00:19:28,015
a come dovremo modificare 
le nostre strutture sociali ed economiche

433
00:19:28,015 --> 00:19:29,855
per diventare consapevoli 
di questa nuova realtà.

434
00:19:29,855 --> 00:19:31,388
Grazie.

435
00:19:31,388 --> 00:19:32,190
(Applausi)