1
00:00:09,499 --> 00:00:13,269
Antigamente, quando queríamos que 
um computador fizesse uma coisa nova,

2
00:00:13,269 --> 00:00:15,256
tínhamos que o programar.

3
00:00:15,256 --> 00:00:18,302
Para quem nunca fez programação,

4
00:00:18,302 --> 00:00:21,672
a programação exige descrever 
com um pormenor minucioso

5
00:00:21,672 --> 00:00:25,233
cada um dos passos que queremos 
que o computador faça

6
00:00:25,233 --> 00:00:27,481
para atingimos o nosso objetivo.

7
00:00:27,844 --> 00:00:31,198
Se quisermos fazer uma coisa 
que não sabemos fazer,

8
00:00:31,198 --> 00:00:33,132
isso torna-se num grande problema.

9
00:00:33,350 --> 00:00:36,682
Foi esse o problema que 
este homem, Arthur Samuel, enfrentou.

10
00:00:36,682 --> 00:00:42,775
Em 1956, quis que este computador 
o vencesse no xadrez.

11
00:00:42,775 --> 00:00:44,959
Como é possível escrever um programa,

12
00:00:44,959 --> 00:00:48,820
com um pormenor minucioso, para que
outro seja melhor do que nós no xadrez?

13
00:00:48,820 --> 00:00:50,527
Então ele teve uma ideia:

14
00:00:50,527 --> 00:00:54,370
pôs o computador a jogar 
contra si mesmo, milhares de vezes,

15
00:00:54,370 --> 00:00:57,530
e a aprender a jogar xadrez.

16
00:00:57,525 --> 00:00:58,992
E, de facto, isso resultou.

17
00:00:58,992 --> 00:01:02,707
Em 1962, o computador venceu 
o campeão de Connecticut.

18
00:01:03,807 --> 00:01:06,849
Portanto, Arthur Samuel foi 
o pai da aprendizagem das máquinas

19
00:01:06,849 --> 00:01:08,604
e eu sinto-me em dívida para com ele

20
00:01:08,604 --> 00:01:11,279
porque eu sou praticante 
da aprendizagem das máquinas.

21
00:01:11,279 --> 00:01:12,750
Fui o presidente da Kaggle,

22
00:01:12,750 --> 00:01:14,970
uma comunidade com mais 
de 200 000 praticantes

23
00:01:14,970 --> 00:01:16,772
da aprendizagem das máquinas.

24
00:01:16,772 --> 00:01:18,765
A Kaggle promove competições

25
00:01:18,765 --> 00:01:22,474
para eles tentarem resolver 
problemas até aí insolúveis.

26
00:01:22,474 --> 00:01:25,141
Tem sido um êxito, centenas de vezes.

27
00:01:25,999 --> 00:01:28,463
Desta posição de vantagem, 
consegui aprender muito

28
00:01:28,463 --> 00:01:30,394
sobre o que a aprendizagem das máquinas

29
00:01:30,394 --> 00:01:32,416
pôde fazer no passado, pode fazer hoje

30
00:01:32,416 --> 00:01:34,367
e o que pode fazer no futuro.

31
00:01:34,612 --> 00:01:36,841
Talvez que o maior êxito comercial

32
00:01:36,841 --> 00:01:39,318
da aprendizagem das máquinas,
tenha sido o Google.

33
00:01:39,318 --> 00:01:42,440
O Google mostrou que é possível 
encontrar informações

34
00:01:42,440 --> 00:01:44,331
usando um algoritmo para computador

35
00:01:44,331 --> 00:01:47,253
e esse algoritmo baseia-se 
na aprendizagem das máquinas.

36
00:01:47,253 --> 00:01:49,475
Desde aí, tem havido 
muitos êxitos comerciais

37
00:01:49,475 --> 00:01:50,896
de aprendizagem das máquinas.

38
00:01:50,896 --> 00:01:52,721
Empresas como a Amazon e a Netflix

39
00:01:52,721 --> 00:01:54,392
usam a aprendizagem das máquinas

40
00:01:54,392 --> 00:01:56,809
para sugerir produtos 
que podemos querer comprar,

41
00:01:56,809 --> 00:01:58,437
filmes que podemos gostar de ver.

42
00:01:58,437 --> 00:02:00,200
Por vezes, até arrepia.

43
00:02:00,200 --> 00:02:02,442
Empresas como o LinkedIn e o Facebook

44
00:02:02,442 --> 00:02:04,508
dizem-nos quem 
poderão ser os nossos amigos

45
00:02:04,508 --> 00:02:06,733
e não fazemos ideia 
de como é que lá chegam.

46
00:02:06,733 --> 00:02:09,619
É porque estão a usar o poder 
da aprendizagem das máquinas.

47
00:02:09,619 --> 00:02:12,709
São algoritmos que aprenderam 
a fazer, a partir dos dados,

48
00:02:12,869 --> 00:02:15,398
em vez de serem programados à mão.

49
00:02:16,980 --> 00:02:18,965
Foi também assim que a IBM teve êxito

50
00:02:18,965 --> 00:02:22,356
em conseguir que Watson vencesse 
dois campeões mundiais em "Jeopardy",

51
00:02:22,426 --> 00:02:25,631
respondendo a perguntas 
incrivelmente subtis e complexas como esta:

52
00:02:25,631 --> 00:02:28,533
[Quando desapareceu o "Leão de Nimrud"
do museu desta cidade?]

53
00:02:28,533 --> 00:02:31,837
É também por isso que temos
os primeiros carros autónomos.

54
00:02:32,190 --> 00:02:34,251
Se quisermos que eles saibam a diferença

55
00:02:34,251 --> 00:02:37,202
entre uma árvore e um peão, 
por exemplo, é muito importante.

56
00:02:37,202 --> 00:02:39,708
Não sabemos como escrever 
esses programas à mão,

57
00:02:39,708 --> 00:02:42,589
mas com a aprendizagem das máquinas, 
isso agora é possível.

58
00:02:42,589 --> 00:02:45,841
Na verdade, este carro já percorreu 
mais de um milhão de quilómetros

59
00:02:45,841 --> 00:02:48,217
sem qualquer acidente, 
em estradas normais.

60
00:02:49,710 --> 00:02:52,686
Portanto, já sabemos 
que os computadores podem aprender,

61
00:02:52,686 --> 00:02:54,814
e os computadores aprendem a fazer coisas

62
00:02:54,814 --> 00:02:57,280
que, por vezes, nós próprios 
não sabemos fazer,

63
00:02:57,280 --> 00:02:59,495
ou talvez consigam fazê-las 
melhor do que nós.

64
00:03:00,395 --> 00:03:04,381
Um dos exemplos mais espantosos que já vi 
de aprendizagem de máquinas

65
00:03:04,381 --> 00:03:06,834
aconteceu num projeto 
que eu dirigi na Kaggle

66
00:03:06,834 --> 00:03:10,539
onde uma equipa, dirigida 
por um tipo chamado Geoffrey Hinton,

67
00:03:10,539 --> 00:03:12,155
da Universidade de Toronto,

68
00:03:12,155 --> 00:03:14,680
ganhou um concurso 
para deteção automática de drogas.

69
00:03:14,680 --> 00:03:17,297
O que houve de extraordinário 
não foi só ele ter batido

70
00:03:17,297 --> 00:03:19,442
todos os algoritmos 
desenvolvidos pela Merck

71
00:03:19,442 --> 00:03:21,534
ou pela comunidade 
académica internacional,

72
00:03:21,534 --> 00:03:23,299
mas o facto de que ninguém da equipa

73
00:03:23,299 --> 00:03:26,755
tinha qualquer formação em química,
biologia ou ciências da vida

74
00:03:26,755 --> 00:03:28,548
e fizeram aquilo em duas semanas!

75
00:03:28,975 --> 00:03:30,589
Como é que conseguiram?

76
00:03:30,780 --> 00:03:34,250
Usaram um algoritmo extraordinário,
chamado "aprendizagem profunda".

77
00:03:34,250 --> 00:03:37,270
Isso foi tão importante 
que o The New York Times

78
00:03:37,270 --> 00:03:39,963
publicou um artigo de primeira página, 
semanas depois.

79
00:03:39,963 --> 00:03:42,256
Este é Geoffrey Hinton, 
aqui do lado esquerdo.

80
00:03:42,465 --> 00:03:44,542
A profunda aprendizagem é um algoritmo

81
00:03:44,542 --> 00:03:46,984
inspirado na forma 
como funciona o cérebro humano.

82
00:03:46,984 --> 00:03:48,871
Por isso, é um algoritmo

83
00:03:48,871 --> 00:03:52,270
que teoricamente não tem limites 
para o que pode fazer.

84
00:03:52,227 --> 00:03:55,606
Quantos mais dados lhe dermos 
e mais tempo de cálculo lhe dermos,

85
00:03:55,606 --> 00:03:56,875
melhor ele fica.

86
00:03:56,875 --> 00:03:59,228
O The New York Times 
também mostrou nesse artigo

87
00:03:59,228 --> 00:04:01,846
outro resultado extraordinário 
da aprendizagem profunda

88
00:04:01,846 --> 00:04:03,753
que vos vou mostrar agora.

89
00:04:04,544 --> 00:04:08,450
Mostra que os computadores 
ouvem e compreendem.

90
00:04:08,736 --> 00:04:12,165
(Vídeo) Agora, o último passo

91
00:04:12,165 --> 00:04:14,597
que quero poder dar neste processo

92
00:04:15,094 --> 00:04:17,900
é falar convosco em chinês.

93
00:04:20,100 --> 00:04:21,494
A coisa fundamental aqui

94
00:04:21,494 --> 00:04:24,995
é que conseguimos arranjar 
uma grande quantidade de informações

95
00:04:24,995 --> 00:04:26,968
de muitos falantes da língua chinesa

96
00:04:27,278 --> 00:04:29,855
e produzir um sistema 
de texto-para-discurso

97
00:04:29,855 --> 00:04:34,142
que agarra num texto em chinês 
e o transforma em língua chinesa.

98
00:04:35,533 --> 00:04:38,408
Depois gravámos a minha voz 
durante cerca de uma hora

99
00:04:38,727 --> 00:04:40,915
e usámo-la para modular

100
00:04:40,915 --> 00:04:44,480
o sistema padrão texto-para-discurso, 
para ficar com o som da minha voz.

101
00:04:45,289 --> 00:04:47,345
O resultado não é perfeito.

102
00:04:48,217 --> 00:04:50,180
Na verdade, há bastantes erros.

103
00:04:50,343 --> 00:04:52,116
(Tradução da frase em chinês)

104
00:04:52,297 --> 00:04:53,479
(Risos)

105
00:04:53,579 --> 00:04:56,535
(Aplausos)

106
00:04:57,939 --> 00:05:00,183
Há muito trabalho a fazer nesta área.

107
00:05:01,956 --> 00:05:04,929
(Tradução da frase em chinês)

108
00:05:05,507 --> 00:05:08,471
(Aplausos)

109
00:05:10,907 --> 00:05:14,104
Isto foi numa conferência na China,
sobre aprendizagem de máquinas.

110
00:05:14,104 --> 00:05:16,601
Não é com frequência 
ouvir aplausos espontâneos

111
00:05:16,601 --> 00:05:18,214
em conferências académicas,

112
00:05:18,605 --> 00:05:21,391
embora isso aconteça 
por vezes nas conferências TEDx.

113
00:05:21,863 --> 00:05:24,602
Tudo aquilo foi feito 
com a aprendizagem profunda.

114
00:05:24,602 --> 00:05:25,613
(Aplausos)

115
00:05:25,613 --> 00:05:26,707
Obrigado.

116
00:05:26,707 --> 00:05:29,601
A transcrição em inglês foi feita 
com aprendizagem profunda.

117
00:05:29,601 --> 00:05:32,408
A tradução para chinês 
e o texto em cima à direita, também.

118
00:05:32,408 --> 00:05:35,600
A construção da voz também 
foi aprendizagem profunda.

119
00:05:36,187 --> 00:05:39,159
Portanto, a aprendizagem profunda 
é esta coisa extraordinária.

120
00:05:39,159 --> 00:05:41,888
É um simples algoritmo 
que parece poder fazer quase tudo.

121
00:05:41,888 --> 00:05:45,280
Descobri que, um ano antes, 
também tinha aprendido a ver.

122
00:05:45,300 --> 00:05:47,552
Nesta competição 
pouco conhecida da Alemanha,

123
00:05:47,552 --> 00:05:49,772
Reconhecimento dos Sinais de Trânsito,

124
00:05:49,772 --> 00:05:53,492
a aprendizagem profunda aprendeu 
a reconhecer sinais de trânsito como este.

125
00:05:53,492 --> 00:05:55,360
Não só reconheceu os sinais de trânsito

126
00:05:55,360 --> 00:05:57,234
melhor do que qualquer outro algoritmo,

127
00:05:57,234 --> 00:05:59,113
mas o quadro de classificações mostrou

128
00:05:59,113 --> 00:06:01,509
que foi quase duas vezes 
melhor do que as pessoas.

129
00:06:01,509 --> 00:06:04,144
Em 2011, tivemos o primeiro exemplo

130
00:06:04,144 --> 00:06:06,691
de computadores que veem 
melhor do que as pessoas.

131
00:06:07,254 --> 00:06:09,114
Desde essa data, muita coisa aconteceu.

132
00:06:09,114 --> 00:06:12,656
Em 2012, a Google anunciou que tinha 
um algoritmo de aprendizagem profunda

133
00:06:12,656 --> 00:06:14,660
a ver os vídeos do Youtube

134
00:06:14,660 --> 00:06:17,408
e 16 000 computadores a digerir os dados ,
durante um mês.

135
00:06:17,408 --> 00:06:21,945
Os computadores aprenderam sozinhos
conceitos como "pessoas" e "gatos",

136
00:06:21,945 --> 00:06:23,424
só por verem os vídeos.

137
00:06:23,460 --> 00:06:25,873
É parecido com a forma 
como as pessoas aprendem.

138
00:06:25,873 --> 00:06:28,386
As pessoas não aprendem 
por lhes dizerem o que veem,

139
00:06:28,386 --> 00:06:31,137
aprendem por si próprias 
o que são essas coisas.

140
00:06:32,200 --> 00:06:35,377
Também em 2012, Geoffrey Hinton, 
que vimos há bocado,

141
00:06:35,586 --> 00:06:38,508
ganhou o popular concurso ImageNet,

142
00:06:38,517 --> 00:06:42,246
tentando descobrir, 
entre um milhão e meio de imagens,

143
00:06:42,246 --> 00:06:43,888
que imagens eram essas.

144
00:06:43,888 --> 00:06:47,514
Em 2014, atingimos 
uma taxa de erro de seis por cento

145
00:06:47,514 --> 00:06:49,400
em reconhecimento de imagem.

146
00:06:49,400 --> 00:06:51,656
Mais uma vez, é melhor do que as pessoas.

147
00:06:51,656 --> 00:06:54,342
As máquinas estão a fazer 
um trabalho terrivelmente bom,

148
00:06:54,342 --> 00:06:56,775
que está a começar 
a ser usado na indústria.

149
00:06:56,775 --> 00:07:00,230
Por exemplo, a Google anunciou 
que, no ano passado,

150
00:07:00,230 --> 00:07:04,461
tinha mapeado todas as localidades 
em França, em duas horas.

151
00:07:04,725 --> 00:07:05,946
Como é que o fizeram?

152
00:07:05,946 --> 00:07:09,496
Introduziram imagens de ruas 
num algoritmo de aprendizagem profunda

153
00:07:09,496 --> 00:07:12,328
para reconhecimento e leitura 
dos números das ruas.

154
00:07:12,328 --> 00:07:14,728
Imaginem quanto tempo 
demoraria isso antigamente:

155
00:07:14,728 --> 00:07:17,085
dezenas de pessoas, muitos anos.

156
00:07:18,230 --> 00:07:20,570
Isto também está a acontecer na China.

157
00:07:20,570 --> 00:07:23,758
Penso que Baidu 
é uma espécie de Google chinês.

158
00:07:23,995 --> 00:07:26,241
O que veem aqui em cima à esquerda

159
00:07:26,241 --> 00:07:28,538
é um exemplo duma imagem que eu introduzi

160
00:07:28,538 --> 00:07:30,727
no sistema de aprendizagem 
profunda de Baidu.

161
00:07:30,727 --> 00:07:33,846
Em baixo, vemos que o sistema 
percebeu o que é aquela imagem

162
00:07:33,846 --> 00:07:35,937
e encontrou imagens semelhantes.

163
00:07:36,277 --> 00:07:38,719
As imagens semelhantes 
têm antecedentes semelhantes

164
00:07:38,719 --> 00:07:42,404
direções semelhantes dos focinhos, 
alguns até com a língua de fora.

165
00:07:42,404 --> 00:07:45,225
Não é propriamente olhar 
para o texto duma página "web".

166
00:07:45,225 --> 00:07:47,118
Eu só introduzi uma imagem.

167
00:07:47,118 --> 00:07:50,115
Portanto, agora temos computadores 
que percebem o que veem

168
00:07:50,288 --> 00:07:52,569
e, portanto, podem procurar 
nas bases de dados

169
00:07:52,569 --> 00:07:55,236
de centenas de milhões 
de imagens em tempo real.

170
00:07:55,708 --> 00:07:58,343
O que é que significa 
os computadores poderem ver?

171
00:07:59,107 --> 00:08:01,558
Não se trata apenas 
de os computadores poderem ver.

172
00:08:01,558 --> 00:08:03,915
A aprendizagem profunda 
é mais do que isso.

173
00:08:03,915 --> 00:08:06,339
Frases complexas, 
com cambiantes, como esta,

174
00:08:06,339 --> 00:08:09,260
são compreensíveis com algoritmos 
de aprendizagem profunda.

175
00:08:09,260 --> 00:08:10,437
Como podem ver aqui,

176
00:08:10,437 --> 00:08:13,774
este sistema baseado em Stanford, 
que tem o ponto vermelho lá em cima,

177
00:08:13,774 --> 00:08:17,147
concluiu que esta frase exprime 
um sentimento negativo.

178
00:08:17,147 --> 00:08:20,259
A aprendizagem profunda 
está próxima do desempenho humano

179
00:08:20,259 --> 00:08:24,432
na compreensão do sentido das frases 
e o que elas dizem sobre as coisas.

180
00:08:25,980 --> 00:08:28,997
A aprendizagem profunda 
também tem sido usada para ler chinês,

181
00:08:28,997 --> 00:08:31,329
a um nível de pessoas 
que falam chinês nativo.

182
00:08:31,593 --> 00:08:33,812
Este algoritmo foi desenvolvido na Suíça,

183
00:08:33,821 --> 00:08:36,871
por pessoas que não falam 
nem percebem chinês.

184
00:08:37,226 --> 00:08:39,527
Como eu disse, 
o uso da aprendizagem profunda

185
00:08:39,527 --> 00:08:41,925
é o melhor sistema do mundo para isto

186
00:08:41,925 --> 00:08:45,400
mesmo em comparação
com a compreensão humana nativa.

187
00:08:46,690 --> 00:08:49,263
Isto é um sistema 
que construímos na minha empresa

188
00:08:49,263 --> 00:08:51,343
que mostra como se montou tudo isto.

189
00:08:51,343 --> 00:08:53,806
Isto são imagens 
que não têm qualquer texto anexo.

190
00:08:53,806 --> 00:08:56,354
Quando eu escrevo frases aqui,

191
00:08:56,354 --> 00:08:58,925
ele vai percebendo essas imagens 
em tempo real,

192
00:08:58,925 --> 00:09:01,420
vai percebendo sobre o que é que elas são

193
00:09:01,420 --> 00:09:04,710
e procura imagens semelhantes ao texto
que eu estou a escrever.

194
00:09:04,710 --> 00:09:06,277
Está a perceber as minhas frases

195
00:09:06,277 --> 00:09:08,309
e a perceber as imagens.

196
00:09:08,972 --> 00:09:11,420
Sei que já viram coisa parecida no Google,

197
00:09:11,420 --> 00:09:14,217
onde podem escrever coisas 
e aparecem imagens,

198
00:09:14,217 --> 00:09:17,663
mas o que ele faz é pesquisar 
a página "web" pelo texto.

199
00:09:17,827 --> 00:09:20,170
É muito diferente de perceber as imagens.

200
00:09:20,170 --> 00:09:22,909
É uma coisa que os computadores 
só foram capazes de fazer

201
00:09:22,909 --> 00:09:25,245
pela primeira vez há poucos meses.

202
00:09:26,618 --> 00:09:30,756
Podemos assim ver que os computadores 
não só podem ver como podem ler.

203
00:09:30,874 --> 00:09:33,816
Mostrámos que eles compreendem 
o que ouvem.

204
00:09:34,143 --> 00:09:37,526
Talvez não seja surpresa se eu vos disser 
que eles podem escrever.

205
00:09:37,908 --> 00:09:39,742
Este é um texto que eu produzi ontem

206
00:09:39,742 --> 00:09:41,968
usando um algoritmo 
de aprendizagem profunda.

207
00:09:43,532 --> 00:09:46,568
E este é um texto produzido 
por um algoritmo de Stanford.

208
00:09:46,568 --> 00:09:50,154
Cada uma destas frases foi gerada
por um algoritmo de aprendizagem profunda

209
00:09:50,154 --> 00:09:52,508
para descrever cada uma destas imagens.

210
00:09:52,508 --> 00:09:56,846
Este algoritmo nunca tinha visto
um homem de camisa preta a tocar guitarra.

211
00:09:57,173 --> 00:09:59,663
Já tinha visto um homem. 
Já tinha visto preto.

212
00:09:59,663 --> 00:10:01,148
Já tinha visto uma guitarra.

213
00:10:01,148 --> 00:10:05,590
E gerou independentemente 
esta nova descrição da imagem.

214
00:10:05,750 --> 00:10:08,718
Ainda não estamos ao nível 
do desempenho humano, mas quase.

215
00:10:08,718 --> 00:10:12,818
Em testes, os homens preferem 
a legenda produzida pelo computador,

216
00:10:12,818 --> 00:10:14,427
uma em cada quatro vezes.

217
00:10:14,427 --> 00:10:16,246
Este sistema só tem duas semanas,

218
00:10:16,246 --> 00:10:18,111
portanto, provavelmente no próximo ano,

219
00:10:18,111 --> 00:10:21,409
o algoritmo do computador estará 
muito para além do desempenho humano

220
00:10:21,409 --> 00:10:23,540
ao ritmo com que as coisas 
estão a avançar.

221
00:10:23,631 --> 00:10:26,333
Portanto, os computadores 
também podem escrever.

222
00:10:26,333 --> 00:10:29,333
Juntamos isto tudo e chegamos 
a oportunidades muito excitantes.

223
00:10:29,333 --> 00:10:30,986
Por exemplo, na medicina.

224
00:10:30,986 --> 00:10:33,644
Uma equipa em Boston anunciou 
que tinha descoberto

225
00:10:33,644 --> 00:10:35,928
dezenas de novas características 
de tumores,

226
00:10:35,928 --> 00:10:37,672
clinicamente relevantes,

227
00:10:37,682 --> 00:10:40,597
que ajudam os médicos 
a fazer o prognóstico do cancro.

228
00:10:41,479 --> 00:10:43,969
De igual modo, em Stanford,

229
00:10:43,969 --> 00:10:47,405
um grupo anunciou que, 
observando tecidos à lupa,

230
00:10:47,405 --> 00:10:50,314
desenvolveram um sistema 
baseado na aprendizagem de máquinas

231
00:10:50,314 --> 00:10:52,734
que é melhor do que 
os patologistas humanos

232
00:10:52,764 --> 00:10:56,409
na previsão das taxas de sobrevivência
para os doentes de cancro.

233
00:10:56,673 --> 00:10:59,894
Em ambos os casos, 
as previsões foram mais rigorosas

234
00:10:59,894 --> 00:11:02,781
e também geraram 
uma nova ciência de perceção.

235
00:11:02,781 --> 00:11:04,476
No caso da radiologia,

236
00:11:04,476 --> 00:11:07,522
houve novos indicadores clínicos 
que os seres humanos percebem.

237
00:11:07,558 --> 00:11:09,186
Neste caso patológico,

238
00:11:09,186 --> 00:11:13,744
o sistema do computador descobriu 
que as células em volta do cancro

239
00:11:13,744 --> 00:11:17,360
são tão importantes 
como as células cancerosas

240
00:11:17,360 --> 00:11:19,290
para fazer um diagnóstico.

241
00:11:19,290 --> 00:11:23,490
Isto é o oposto do que os patologistas 
têm vindo a aprender há décadas.

242
00:11:24,821 --> 00:11:27,260
Em cada um destes dois casos, 
foram sistemas

243
00:11:27,260 --> 00:11:29,381
desenvolvidos por um conjunto de médicos

244
00:11:29,381 --> 00:11:31,675
e de especialistas 
de aprendizagem de máquinas.

245
00:11:31,675 --> 00:11:33,850
No ano passado, 
também já ultrapassámos isso.

246
00:11:33,850 --> 00:11:36,854
Este é um exemplo da identificação 
de áreas cancerosas

247
00:11:36,854 --> 00:11:39,148
de tecido humano visto ao microscópio.

248
00:11:40,376 --> 00:11:44,278
O sistema que aqui mostramos 
identifica essas áreas mais rigorosamente

249
00:11:44,278 --> 00:11:47,360
ou quase tão rigorosamente 
como os patologistas humanos

250
00:11:47,360 --> 00:11:49,758
mas foi construído totalmente 
com aprendizagem profunda,

251
00:11:49,758 --> 00:11:51,302
sem usar competências médicas,

252
00:11:51,302 --> 00:11:53,884
por pessoas que não têm 
qualquer formação neste campo.

253
00:11:54,266 --> 00:11:57,053
De igual modo,
a segmentação deste neurónio.

254
00:11:57,053 --> 00:12:00,378
Podemos segmentar neurónios
quase tão rigorosamente como o homem.

255
00:12:00,378 --> 00:12:03,193
Este sistema foi desenvolvido 
com aprendizagem profunda

256
00:12:03,193 --> 00:12:06,175
usando pessoas sem quaisquer 
antecedentes prévios em medicina.

257
00:12:06,884 --> 00:12:09,720
Eu não tenho qualquer 
formação em medicina,

258
00:12:09,720 --> 00:12:13,302
mas pareço estar bem qualificado 
para fundar uma nova empresa médica,

259
00:12:13,302 --> 00:12:14,715
coisa que já fiz.

260
00:12:15,515 --> 00:12:17,604
Fiquei um bocado receoso ao fazê-lo,

261
00:12:17,604 --> 00:12:22,287
mas a teoria sugeria que 
devia ser possível fazer medicina útil

262
00:12:22,287 --> 00:12:25,340
usando apenas
estas técnicas analíticas de dados.

263
00:12:25,658 --> 00:12:28,163
Felizmente, o retorno tem sido fantástico,

264
00:12:28,163 --> 00:12:30,776
não só dos "media", 
mas da comunidade médica,

265
00:12:30,776 --> 00:12:32,716
que têm sido muito solidários.

266
00:12:32,716 --> 00:12:36,645
A teoria é que podemos assumir 
a parte média do processo médico

267
00:12:36,818 --> 00:12:39,883
e transformar isso em análise de dados, 
tanto quanto possível,

268
00:12:39,883 --> 00:12:42,649
deixando que os médicos façam 
aquilo em que são melhores.

269
00:12:42,900 --> 00:12:44,465
Vou dar-vos um exemplo.

270
00:12:44,465 --> 00:12:49,738
Neste momento, fazer um novo teste 
de diagnóstico médico demora 15 minutos.

271
00:12:49,738 --> 00:12:51,701
Vou mostrar-vos isso, em tempo real,

272
00:12:51,701 --> 00:12:53,283
mas comprimi-o em três minutos

273
00:12:53,283 --> 00:12:54,915
cortando algumas partes.

274
00:12:54,915 --> 00:12:58,227
Em vez de vos mostrar a criação 
de um teste de diagnóstico médico,

275
00:12:58,227 --> 00:13:01,695
vou mostrar-vos um teste diagnóstico 
de imagens de um carro,

276
00:13:01,695 --> 00:13:04,140
porque é uma coisa 
que todos podemos perceber.

277
00:13:04,140 --> 00:13:07,258
Começamos com cerca de
milhão e meio de imagens de carros.

278
00:13:07,258 --> 00:13:09,524
Quero criar qualquer coisa 
que os possa dividir

279
00:13:09,524 --> 00:13:11,913
segundo o ângulo 
em que a foto foi tirada.

280
00:13:12,367 --> 00:13:16,500
Estas imagens não têm qualquer legenda, 
portanto tenho que começar do zero.

281
00:13:16,523 --> 00:13:18,766
Com o nosso algoritmo 
de aprendizagem profunda,

282
00:13:18,766 --> 00:13:22,140
posso identificar automaticamente 
áreas de estrutura nestas imagens.

283
00:13:22,140 --> 00:13:25,346
Mas agora as pessoas e o computador
podem trabalhar em conjunto.

284
00:13:25,910 --> 00:13:27,622
O ser humano, como podem ver,

285
00:13:27,622 --> 00:13:30,499
está a dizer ao computador 
quais são as áreas de interesse

286
00:13:30,499 --> 00:13:35,130
que ele quer que o computador experimente 
e use para melhorar o algoritmo.

287
00:13:35,468 --> 00:13:39,518
Estes sistemas de aprendizagem profunda 
estão num espaço de 16 000 dimensões.

288
00:13:39,518 --> 00:13:42,655
Podem ver aqui o computador 
a rodar através desse espaço.

289
00:13:42,655 --> 00:13:45,270
tentando encontrar 
novas áreas de estrutura.

290
00:13:45,270 --> 00:13:46,567
Quando o consegue fazer,

291
00:13:46,567 --> 00:13:50,189
quem está a utilizá-lo pode assinalar 
as áreas que têm interesse.

292
00:13:50,708 --> 00:13:52,906
Aqui, o computador 
conseguiu encontrar áreas,

293
00:13:52,906 --> 00:13:55,194
por exemplo, ângulos.

294
00:13:55,657 --> 00:13:57,488
À medida que avançamos neste processo,

295
00:13:57,488 --> 00:13:59,771
vamos dizendo ao computador 
cada vez mais coisas

296
00:13:59,771 --> 00:14:02,197
sobre o tipo de estruturas 
que andamos a procurar.

297
00:14:02,197 --> 00:14:03,738
Num exame de diagnóstico

298
00:14:03,738 --> 00:14:07,137
isso será um patologista a identificar 
áreas patológicas, por exemplo.

299
00:14:07,137 --> 00:14:11,569
ou um radiologista indicando nódulos 
potencialmente perturbadores.

300
00:14:12,696 --> 00:14:14,905
Por vezes pode ser difícil 
para o algoritmo.

301
00:14:14,905 --> 00:14:16,474
Neste caso, ele ficou confuso.

302
00:14:16,474 --> 00:14:19,090
As frentes e as traseiras dos carros 
estão misturadas.

303
00:14:19,110 --> 00:14:21,132
Portanto, temos que ser mais cuidadosos,

304
00:14:21,132 --> 00:14:24,211
selecionando manualmente as frentes, 
em oposição às traseiras,

305
00:14:24,211 --> 00:14:29,595
e depois dizendo ao computador 
qual é o tipo de grupo

306
00:14:29,595 --> 00:14:31,418
em que estamos interessados.

307
00:14:31,509 --> 00:14:33,718
Fazemos isso por algum tempo,
passamos à frente

308
00:14:33,718 --> 00:14:36,138
e treinamos o algoritmo 
de aprendizagem da máquina

309
00:14:36,138 --> 00:14:38,372
com base em meia-dúzia 
entre centenas de coisas

310
00:14:38,372 --> 00:14:40,145
e esperamos que ele funcione melhor.

311
00:14:40,145 --> 00:14:42,144
Começa a esbater algumas dessas imagens,

312
00:14:42,144 --> 00:14:46,818
mostrando que já está a perceber
como as reconhecer.

313
00:14:47,955 --> 00:14:50,713
Podemos depois usar 
este conceito de imagens semelhantes.

314
00:14:50,931 --> 00:14:53,131
Usando imagens semelhantes,

315
00:14:53,131 --> 00:14:56,180
o computador já é capaz 
de encontrar as frentes dos carros.

316
00:14:56,879 --> 00:14:59,754
Portanto, já podemos dizer ao computador:

317
00:14:59,761 --> 00:15:01,800
"Ok, fizeste um bom trabalho".

318
00:15:02,218 --> 00:15:05,283
Por vezes, claro, mesmo nesta altura,

319
00:15:05,283 --> 00:15:08,158
ainda é difícil separar grupos.

320
00:15:08,840 --> 00:15:11,187
Neste caso, mesmo depois de termos deixado

321
00:15:11,187 --> 00:15:13,525
que o computador tentasse rodar 
durante um tempo,

322
00:15:13,525 --> 00:15:16,558
ainda vemos que as imagens 
do lado esquerdo e do lado direito

323
00:15:16,558 --> 00:15:18,100
estão todas misturadas.

324
00:15:18,130 --> 00:15:20,610
Temos que voltar a dar 
algumas pistas ao computador

325
00:15:20,610 --> 00:15:22,172
e tentar encontrar uma projeção

326
00:15:22,172 --> 00:15:25,803
que separe os lados esquerdos
dos direitos, tanto quanto possível,

327
00:15:25,803 --> 00:15:27,536
usando este algoritmo.

328
00:15:27,727 --> 00:15:30,163
Demos-lhe essa pista e, ok, resultou.

329
00:15:30,627 --> 00:15:33,189
Ele arranjou forma 
de pensar nesses objetos

330
00:15:33,361 --> 00:15:35,627
e separar estes do conjunto.

331
00:15:36,599 --> 00:15:38,926
Ficaram com uma ideia.

332
00:15:39,471 --> 00:15:46,564
Isto não é um caso em que o ser humano 
é substituído por um computador,

333
00:15:46,564 --> 00:15:49,268
mas um caso em que estamos 
a trabalhar em conjunto.

334
00:15:49,268 --> 00:15:51,898
Substituímos uma coisa que exigia

335
00:15:51,898 --> 00:15:54,866
uma equipa de cinco ou seis pessoas, 
durante sete anos,

336
00:15:54,866 --> 00:15:57,380
por uma coisa que demora 15 minutos

337
00:15:57,480 --> 00:15:59,848
e em que intervém uma única pessoa.

338
00:16:00,385 --> 00:16:03,726
Este processo leva 
quatro a cinco repetições.

339
00:16:03,726 --> 00:16:05,657
Podem ver que temos 62%

340
00:16:05,657 --> 00:16:08,429
de um milhão e meio de imagens 
classificadas corretamente.

341
00:16:08,593 --> 00:16:10,754
Neste ponto, podemos começar rapidamente

342
00:16:10,754 --> 00:16:12,754
a agarrar em grandes secções inteiras

343
00:16:12,754 --> 00:16:15,184
e verificá-las para assegurarmos 
que não há erros.

344
00:16:15,184 --> 00:16:17,751
Se houver erros, 
podemos mostrá-los ao computador.

345
00:16:19,179 --> 00:16:22,466
Usando este tipo de procedimento, 
para cada um dos diferentes grupos,

346
00:16:22,466 --> 00:16:24,853
atingimos agora uma taxa de 80% de êxito

347
00:16:24,853 --> 00:16:27,250
na classificação 
de um milhão e meio de imagens.

348
00:16:27,968 --> 00:16:30,210
Neste ponto, é apenas 
uma questão de encontrar

349
00:16:30,210 --> 00:16:33,260
o pequeno número das que 
não foram bem classificadas

350
00:16:33,260 --> 00:16:35,169
e tentar perceber qual a razão.

351
00:16:35,596 --> 00:16:37,690
Usando esta abordagem,

352
00:16:37,690 --> 00:16:41,170
em 15 minutos obtemos 97% 
de taxa de classificação.

353
00:16:41,914 --> 00:16:45,795
Este tipo de técnica pode permitir-nos 
resolver um importante problema,

354
00:16:45,795 --> 00:16:48,939
que é a falta de médicos a nível mundial.

355
00:16:48,939 --> 00:16:52,354
O Fórum Económico Mundial diz 
que há uma escassez de médicos,

356
00:16:52,354 --> 00:16:55,185
entre 10 a 20 vezes, 
no mundo em desenvolvimento

357
00:16:55,185 --> 00:16:57,279
e serão precisos cerca de 300 anos

358
00:16:57,279 --> 00:17:00,282
para formar gente suficiente 
para resolver esse problema.

359
00:17:00,546 --> 00:17:03,493
Imaginem se pudermos ajudar 
a aumentar a sua eficácia

360
00:17:03,493 --> 00:17:05,853
usando estas abordagens 
de aprendizagem profunda.

361
00:17:05,853 --> 00:17:08,478
Por isso estou muito entusiasmado 
com as oportunidades.

362
00:17:08,478 --> 00:17:10,484
Mas também me preocupam os problemas.

363
00:17:10,484 --> 00:17:13,999
O problema aqui é que 
todas as áreas a azul neste mapa

364
00:17:13,999 --> 00:17:17,677
são onde os serviços 
representam 80% dos empregos.

365
00:17:17,677 --> 00:17:19,191
O que são serviços?

366
00:17:19,554 --> 00:17:21,500
Isto são serviços.

367
00:17:21,500 --> 00:17:23,301
São exatamente as coisas

368
00:17:23,301 --> 00:17:25,403
que os computadores aprenderam a fazer.

369
00:17:25,403 --> 00:17:29,130
Portanto, 80% dos empregos mundiais 
no mundo desenvolvido

370
00:17:29,130 --> 00:17:31,984
são coisas que os computadores 
acabaram de aprender a fazer.

371
00:17:31,984 --> 00:17:33,295
O que é que isso significa?

372
00:17:33,295 --> 00:17:35,247
"Não há problema! Haverá outros empregos,

373
00:17:35,247 --> 00:17:37,482
"mais empregos 
para os cientistas de dados".

374
00:17:37,800 --> 00:17:39,309
Bem, não é bem assim.

375
00:17:39,309 --> 00:17:42,588
Em breve não serão necessários cientistas
para construir estas coisas.

376
00:17:42,598 --> 00:17:45,999
Por exemplo, estes quatro algoritmos 
foram construídos pelo mesmo tipo.

377
00:17:46,170 --> 00:17:48,344
Se pensarem bem, 
isto já aconteceu em tempos,

378
00:17:48,344 --> 00:17:51,596
vimos os resultados no passado,
quando apareceram coisas novas

379
00:17:51,596 --> 00:17:53,675
e foram substituídas por novos empregos.

380
00:17:53,675 --> 00:17:55,792
Que novos empregos serão esses?

381
00:17:55,992 --> 00:17:57,831
É muito difícil calcular isso

382
00:17:57,831 --> 00:18:00,593
porque o desempenho humano 
cresce a este ritmo gradual,

383
00:18:00,593 --> 00:18:03,193
mas agora temos um sistema, 
de aprendizagem profunda

384
00:18:03,193 --> 00:18:06,743
que cresce exponencialmente
em capacidade.

385
00:18:06,843 --> 00:18:08,195
E estamos aqui.

386
00:18:08,195 --> 00:18:10,371
Vemos as coisas à nossa volta e dizemos:

387
00:18:10,371 --> 00:18:12,573
"Oh, os computadores são muito estúpidos".

388
00:18:12,573 --> 00:18:15,947
Mas daqui a cinco anos, os computadores 
estarão fora deste gráfico.

389
00:18:16,283 --> 00:18:19,842
Portanto, precisamos de começar já
a pensar nesta capacidade.

390
00:18:19,842 --> 00:18:21,902
Já vimos isto outrora, claro.

391
00:18:21,902 --> 00:18:23,475
Na Revolução Industrial,

392
00:18:23,475 --> 00:18:26,350
vimos uma mudança de nível na capacidade,
graças às máquinas.

393
00:18:27,368 --> 00:18:30,270
Mas, depois de algum tempo, 
as coisas estabilizaram.

394
00:18:30,516 --> 00:18:32,127
Houve perturbação social

395
00:18:32,127 --> 00:18:35,563
mas, depois de os motores passarem 
a ser usados para gerar energia,

396
00:18:35,563 --> 00:18:37,331
as coisas estabilizaram.

397
00:18:38,182 --> 00:18:40,109
A Revolução da Aprendizagem das Máquinas

398
00:18:40,109 --> 00:18:42,195
vai ser diferente da Revolução Industrial,

399
00:18:42,195 --> 00:18:45,459
porque a Revolução da Aprendizagem
das Máquinas não vai estabilizar

400
00:18:45,459 --> 00:18:48,371
Quando os computadores melhorarem 
em atividades intelectuais,

401
00:18:48,371 --> 00:18:52,533
poderão construir computadores melhores, 
com capacidades intelectuais melhores.

402
00:18:52,533 --> 00:18:54,829
Portanto, isso vai ser um tipo de mudança

403
00:18:54,829 --> 00:18:56,964
que o mundo nunca experimentou antes.

404
00:18:56,964 --> 00:19:00,199
A nossa compreensão 
do que é possível é diferente.

405
00:19:00,544 --> 00:19:02,390
Isto já está a ter impacto em nós.

406
00:19:02,390 --> 00:19:06,620
Nos últimos 25 anos, enquanto 
a produtividade do capital tem aumentado,

407
00:19:06,620 --> 00:19:10,194
a produtividade do trabalho tem estagnado,
ou mesmo baixado um pouco.

408
00:19:10,939 --> 00:19:13,985
Portanto, quero que comecemos
a analisar já este problema.

409
00:19:13,985 --> 00:19:16,247
Sei que, quando falo às pessoas 
nesta situação,

410
00:19:16,247 --> 00:19:18,456
as pessoas podem 
mostrar-se muito desdenhosas:

411
00:19:18,456 --> 00:19:20,570
"Os computadores não pensam,

412
00:19:20,570 --> 00:19:22,906
"não têm emoções, não entendem poesia,

413
00:19:22,906 --> 00:19:24,910
"não sabemos bem como funcionam..."

414
00:19:25,274 --> 00:19:26,578
E depois?

415
00:19:26,768 --> 00:19:28,706
Os computadores agora fazem coisas

416
00:19:28,706 --> 00:19:31,530
em que as pessoas gastam tempo 
e para as quais são pagas.

417
00:19:31,530 --> 00:19:34,659
Portanto é altura de começar a pensar 
no que é que vamos fazer

418
00:19:34,659 --> 00:19:37,245
para ajustar as nossas estruturas 
sociais e económicas

419
00:19:37,245 --> 00:19:39,915
para estarem de acordo 
com esta nova realidade.

420
00:19:39,988 --> 00:19:41,188
Obrigado.

421
00:19:41,293 --> 00:19:42,548
(Aplausos)