1 00:00:09,499 --> 00:00:13,269 Antigamente, quando queríamos que um computador fizesse uma coisa nova, 2 00:00:13,269 --> 00:00:15,256 tínhamos que o programar. 3 00:00:15,256 --> 00:00:18,302 Para quem nunca fez programação, 4 00:00:18,302 --> 00:00:21,672 a programação exige descrever com um pormenor minucioso 5 00:00:21,672 --> 00:00:25,233 cada um dos passos que queremos que o computador faça 6 00:00:25,233 --> 00:00:27,481 para atingimos o nosso objetivo. 7 00:00:27,844 --> 00:00:31,198 Se quisermos fazer uma coisa que não sabemos fazer, 8 00:00:31,198 --> 00:00:33,132 isso torna-se num grande problema. 9 00:00:33,350 --> 00:00:36,682 Foi esse o problema que este homem, Arthur Samuel, enfrentou. 10 00:00:36,682 --> 00:00:42,775 Em 1956, quis que este computador o vencesse no xadrez. 11 00:00:42,775 --> 00:00:44,959 Como é possível escrever um programa, 12 00:00:44,959 --> 00:00:48,820 com um pormenor minucioso, para que outro seja melhor do que nós no xadrez? 13 00:00:48,820 --> 00:00:50,527 Então ele teve uma ideia: 14 00:00:50,527 --> 00:00:54,370 pôs o computador a jogar contra si mesmo, milhares de vezes, 15 00:00:54,370 --> 00:00:57,530 e a aprender a jogar xadrez. 16 00:00:57,525 --> 00:00:58,992 E, de facto, isso resultou. 17 00:00:58,992 --> 00:01:02,707 Em 1962, o computador venceu o campeão de Connecticut. 18 00:01:03,807 --> 00:01:06,849 Portanto, Arthur Samuel foi o pai da aprendizagem das máquinas 19 00:01:06,849 --> 00:01:08,604 e eu sinto-me em dívida para com ele 20 00:01:08,604 --> 00:01:11,279 porque eu sou praticante da aprendizagem das máquinas. 21 00:01:11,279 --> 00:01:12,750 Fui o presidente da Kaggle, 22 00:01:12,750 --> 00:01:14,970 uma comunidade com mais de 200 000 praticantes 23 00:01:14,970 --> 00:01:16,772 da aprendizagem das máquinas. 24 00:01:16,772 --> 00:01:18,765 A Kaggle promove competições 25 00:01:18,765 --> 00:01:22,474 para eles tentarem resolver problemas até aí insolúveis. 26 00:01:22,474 --> 00:01:25,141 Tem sido um êxito, centenas de vezes. 27 00:01:25,999 --> 00:01:28,463 Desta posição de vantagem, consegui aprender muito 28 00:01:28,463 --> 00:01:30,394 sobre o que a aprendizagem das máquinas 29 00:01:30,394 --> 00:01:32,416 pôde fazer no passado, pode fazer hoje 30 00:01:32,416 --> 00:01:34,367 e o que pode fazer no futuro. 31 00:01:34,612 --> 00:01:36,841 Talvez que o maior êxito comercial 32 00:01:36,841 --> 00:01:39,318 da aprendizagem das máquinas, tenha sido o Google. 33 00:01:39,318 --> 00:01:42,440 O Google mostrou que é possível encontrar informações 34 00:01:42,440 --> 00:01:44,331 usando um algoritmo para computador 35 00:01:44,331 --> 00:01:47,253 e esse algoritmo baseia-se na aprendizagem das máquinas. 36 00:01:47,253 --> 00:01:49,475 Desde aí, tem havido muitos êxitos comerciais 37 00:01:49,475 --> 00:01:50,896 de aprendizagem das máquinas. 38 00:01:50,896 --> 00:01:52,721 Empresas como a Amazon e a Netflix 39 00:01:52,721 --> 00:01:54,392 usam a aprendizagem das máquinas 40 00:01:54,392 --> 00:01:56,809 para sugerir produtos que podemos querer comprar, 41 00:01:56,809 --> 00:01:58,437 filmes que podemos gostar de ver. 42 00:01:58,437 --> 00:02:00,200 Por vezes, até arrepia. 43 00:02:00,200 --> 00:02:02,442 Empresas como o LinkedIn e o Facebook 44 00:02:02,442 --> 00:02:04,508 dizem-nos quem poderão ser os nossos amigos 45 00:02:04,508 --> 00:02:06,733 e não fazemos ideia de como é que lá chegam. 46 00:02:06,733 --> 00:02:09,619 É porque estão a usar o poder da aprendizagem das máquinas. 47 00:02:09,619 --> 00:02:12,709 São algoritmos que aprenderam a fazer, a partir dos dados, 48 00:02:12,869 --> 00:02:15,398 em vez de serem programados à mão. 49 00:02:16,980 --> 00:02:18,965 Foi também assim que a IBM teve êxito 50 00:02:18,965 --> 00:02:22,356 em conseguir que Watson vencesse dois campeões mundiais em "Jeopardy", 51 00:02:22,426 --> 00:02:25,631 respondendo a perguntas incrivelmente subtis e complexas como esta: 52 00:02:25,631 --> 00:02:28,533 [Quando desapareceu o "Leão de Nimrud" do museu desta cidade?] 53 00:02:28,533 --> 00:02:31,837 É também por isso que temos os primeiros carros autónomos. 54 00:02:32,190 --> 00:02:34,251 Se quisermos que eles saibam a diferença 55 00:02:34,251 --> 00:02:37,202 entre uma árvore e um peão, por exemplo, é muito importante. 56 00:02:37,202 --> 00:02:39,708 Não sabemos como escrever esses programas à mão, 57 00:02:39,708 --> 00:02:42,589 mas com a aprendizagem das máquinas, isso agora é possível. 58 00:02:42,589 --> 00:02:45,841 Na verdade, este carro já percorreu mais de um milhão de quilómetros 59 00:02:45,841 --> 00:02:48,217 sem qualquer acidente, em estradas normais. 60 00:02:49,710 --> 00:02:52,686 Portanto, já sabemos que os computadores podem aprender, 61 00:02:52,686 --> 00:02:54,814 e os computadores aprendem a fazer coisas 62 00:02:54,814 --> 00:02:57,280 que, por vezes, nós próprios não sabemos fazer, 63 00:02:57,280 --> 00:02:59,495 ou talvez consigam fazê-las melhor do que nós. 64 00:03:00,395 --> 00:03:04,381 Um dos exemplos mais espantosos que já vi de aprendizagem de máquinas 65 00:03:04,381 --> 00:03:06,834 aconteceu num projeto que eu dirigi na Kaggle 66 00:03:06,834 --> 00:03:10,539 onde uma equipa, dirigida por um tipo chamado Geoffrey Hinton, 67 00:03:10,539 --> 00:03:12,155 da Universidade de Toronto, 68 00:03:12,155 --> 00:03:14,680 ganhou um concurso para deteção automática de drogas. 69 00:03:14,680 --> 00:03:17,297 O que houve de extraordinário não foi só ele ter batido 70 00:03:17,297 --> 00:03:19,442 todos os algoritmos desenvolvidos pela Merck 71 00:03:19,442 --> 00:03:21,534 ou pela comunidade académica internacional, 72 00:03:21,534 --> 00:03:23,299 mas o facto de que ninguém da equipa 73 00:03:23,299 --> 00:03:26,755 tinha qualquer formação em química, biologia ou ciências da vida 74 00:03:26,755 --> 00:03:28,548 e fizeram aquilo em duas semanas! 75 00:03:28,975 --> 00:03:30,589 Como é que conseguiram? 76 00:03:30,780 --> 00:03:34,250 Usaram um algoritmo extraordinário, chamado "aprendizagem profunda". 77 00:03:34,250 --> 00:03:37,270 Isso foi tão importante que o The New York Times 78 00:03:37,270 --> 00:03:39,963 publicou um artigo de primeira página, semanas depois. 79 00:03:39,963 --> 00:03:42,256 Este é Geoffrey Hinton, aqui do lado esquerdo. 80 00:03:42,465 --> 00:03:44,542 A profunda aprendizagem é um algoritmo 81 00:03:44,542 --> 00:03:46,984 inspirado na forma como funciona o cérebro humano. 82 00:03:46,984 --> 00:03:48,871 Por isso, é um algoritmo 83 00:03:48,871 --> 00:03:52,270 que teoricamente não tem limites para o que pode fazer. 84 00:03:52,227 --> 00:03:55,606 Quantos mais dados lhe dermos e mais tempo de cálculo lhe dermos, 85 00:03:55,606 --> 00:03:56,875 melhor ele fica. 86 00:03:56,875 --> 00:03:59,228 O The New York Times também mostrou nesse artigo 87 00:03:59,228 --> 00:04:01,846 outro resultado extraordinário da aprendizagem profunda 88 00:04:01,846 --> 00:04:03,753 que vos vou mostrar agora. 89 00:04:04,544 --> 00:04:08,450 Mostra que os computadores ouvem e compreendem. 90 00:04:08,736 --> 00:04:12,165 (Vídeo) Agora, o último passo 91 00:04:12,165 --> 00:04:14,597 que quero poder dar neste processo 92 00:04:15,094 --> 00:04:17,900 é falar convosco em chinês. 93 00:04:20,100 --> 00:04:21,494 A coisa fundamental aqui 94 00:04:21,494 --> 00:04:24,995 é que conseguimos arranjar uma grande quantidade de informações 95 00:04:24,995 --> 00:04:26,968 de muitos falantes da língua chinesa 96 00:04:27,278 --> 00:04:29,855 e produzir um sistema de texto-para-discurso 97 00:04:29,855 --> 00:04:34,142 que agarra num texto em chinês e o transforma em língua chinesa. 98 00:04:35,533 --> 00:04:38,408 Depois gravámos a minha voz durante cerca de uma hora 99 00:04:38,727 --> 00:04:40,915 e usámo-la para modular 100 00:04:40,915 --> 00:04:44,480 o sistema padrão texto-para-discurso, para ficar com o som da minha voz. 101 00:04:45,289 --> 00:04:47,345 O resultado não é perfeito. 102 00:04:48,217 --> 00:04:50,180 Na verdade, há bastantes erros. 103 00:04:50,343 --> 00:04:52,116 (Tradução da frase em chinês) 104 00:04:52,297 --> 00:04:53,479 (Risos) 105 00:04:53,579 --> 00:04:56,535 (Aplausos) 106 00:04:57,939 --> 00:05:00,183 Há muito trabalho a fazer nesta área. 107 00:05:01,956 --> 00:05:04,929 (Tradução da frase em chinês) 108 00:05:05,507 --> 00:05:08,471 (Aplausos) 109 00:05:10,907 --> 00:05:14,104 Isto foi numa conferência na China, sobre aprendizagem de máquinas. 110 00:05:14,104 --> 00:05:16,601 Não é com frequência ouvir aplausos espontâneos 111 00:05:16,601 --> 00:05:18,214 em conferências académicas, 112 00:05:18,605 --> 00:05:21,391 embora isso aconteça por vezes nas conferências TEDx. 113 00:05:21,863 --> 00:05:24,602 Tudo aquilo foi feito com a aprendizagem profunda. 114 00:05:24,602 --> 00:05:25,613 (Aplausos) 115 00:05:25,613 --> 00:05:26,707 Obrigado. 116 00:05:26,707 --> 00:05:29,601 A transcrição em inglês foi feita com aprendizagem profunda. 117 00:05:29,601 --> 00:05:32,408 A tradução para chinês e o texto em cima à direita, também. 118 00:05:32,408 --> 00:05:35,600 A construção da voz também foi aprendizagem profunda. 119 00:05:36,187 --> 00:05:39,159 Portanto, a aprendizagem profunda é esta coisa extraordinária. 120 00:05:39,159 --> 00:05:41,888 É um simples algoritmo que parece poder fazer quase tudo. 121 00:05:41,888 --> 00:05:45,280 Descobri que, um ano antes, também tinha aprendido a ver. 122 00:05:45,300 --> 00:05:47,552 Nesta competição pouco conhecida da Alemanha, 123 00:05:47,552 --> 00:05:49,772 Reconhecimento dos Sinais de Trânsito, 124 00:05:49,772 --> 00:05:53,492 a aprendizagem profunda aprendeu a reconhecer sinais de trânsito como este. 125 00:05:53,492 --> 00:05:55,360 Não só reconheceu os sinais de trânsito 126 00:05:55,360 --> 00:05:57,234 melhor do que qualquer outro algoritmo, 127 00:05:57,234 --> 00:05:59,113 mas o quadro de classificações mostrou 128 00:05:59,113 --> 00:06:01,509 que foi quase duas vezes melhor do que as pessoas. 129 00:06:01,509 --> 00:06:04,144 Em 2011, tivemos o primeiro exemplo 130 00:06:04,144 --> 00:06:06,691 de computadores que veem melhor do que as pessoas. 131 00:06:07,254 --> 00:06:09,114 Desde essa data, muita coisa aconteceu. 132 00:06:09,114 --> 00:06:12,656 Em 2012, a Google anunciou que tinha um algoritmo de aprendizagem profunda 133 00:06:12,656 --> 00:06:14,660 a ver os vídeos do Youtube 134 00:06:14,660 --> 00:06:17,408 e 16 000 computadores a digerir os dados , durante um mês. 135 00:06:17,408 --> 00:06:21,945 Os computadores aprenderam sozinhos conceitos como "pessoas" e "gatos", 136 00:06:21,945 --> 00:06:23,424 só por verem os vídeos. 137 00:06:23,460 --> 00:06:25,873 É parecido com a forma como as pessoas aprendem. 138 00:06:25,873 --> 00:06:28,386 As pessoas não aprendem por lhes dizerem o que veem, 139 00:06:28,386 --> 00:06:31,137 aprendem por si próprias o que são essas coisas. 140 00:06:32,200 --> 00:06:35,377 Também em 2012, Geoffrey Hinton, que vimos há bocado, 141 00:06:35,586 --> 00:06:38,508 ganhou o popular concurso ImageNet, 142 00:06:38,517 --> 00:06:42,246 tentando descobrir, entre um milhão e meio de imagens, 143 00:06:42,246 --> 00:06:43,888 que imagens eram essas. 144 00:06:43,888 --> 00:06:47,514 Em 2014, atingimos uma taxa de erro de seis por cento 145 00:06:47,514 --> 00:06:49,400 em reconhecimento de imagem. 146 00:06:49,400 --> 00:06:51,656 Mais uma vez, é melhor do que as pessoas. 147 00:06:51,656 --> 00:06:54,342 As máquinas estão a fazer um trabalho terrivelmente bom, 148 00:06:54,342 --> 00:06:56,775 que está a começar a ser usado na indústria. 149 00:06:56,775 --> 00:07:00,230 Por exemplo, a Google anunciou que, no ano passado, 150 00:07:00,230 --> 00:07:04,461 tinha mapeado todas as localidades em França, em duas horas. 151 00:07:04,725 --> 00:07:05,946 Como é que o fizeram? 152 00:07:05,946 --> 00:07:09,496 Introduziram imagens de ruas num algoritmo de aprendizagem profunda 153 00:07:09,496 --> 00:07:12,328 para reconhecimento e leitura dos números das ruas. 154 00:07:12,328 --> 00:07:14,728 Imaginem quanto tempo demoraria isso antigamente: 155 00:07:14,728 --> 00:07:17,085 dezenas de pessoas, muitos anos. 156 00:07:18,230 --> 00:07:20,570 Isto também está a acontecer na China. 157 00:07:20,570 --> 00:07:23,758 Penso que Baidu é uma espécie de Google chinês. 158 00:07:23,995 --> 00:07:26,241 O que veem aqui em cima à esquerda 159 00:07:26,241 --> 00:07:28,538 é um exemplo duma imagem que eu introduzi 160 00:07:28,538 --> 00:07:30,727 no sistema de aprendizagem profunda de Baidu. 161 00:07:30,727 --> 00:07:33,846 Em baixo, vemos que o sistema percebeu o que é aquela imagem 162 00:07:33,846 --> 00:07:35,937 e encontrou imagens semelhantes. 163 00:07:36,277 --> 00:07:38,719 As imagens semelhantes têm antecedentes semelhantes 164 00:07:38,719 --> 00:07:42,404 direções semelhantes dos focinhos, alguns até com a língua de fora. 165 00:07:42,404 --> 00:07:45,225 Não é propriamente olhar para o texto duma página "web". 166 00:07:45,225 --> 00:07:47,118 Eu só introduzi uma imagem. 167 00:07:47,118 --> 00:07:50,115 Portanto, agora temos computadores que percebem o que veem 168 00:07:50,288 --> 00:07:52,569 e, portanto, podem procurar nas bases de dados 169 00:07:52,569 --> 00:07:55,236 de centenas de milhões de imagens em tempo real. 170 00:07:55,708 --> 00:07:58,343 O que é que significa os computadores poderem ver? 171 00:07:59,107 --> 00:08:01,558 Não se trata apenas de os computadores poderem ver. 172 00:08:01,558 --> 00:08:03,915 A aprendizagem profunda é mais do que isso. 173 00:08:03,915 --> 00:08:06,339 Frases complexas, com cambiantes, como esta, 174 00:08:06,339 --> 00:08:09,260 são compreensíveis com algoritmos de aprendizagem profunda. 175 00:08:09,260 --> 00:08:10,437 Como podem ver aqui, 176 00:08:10,437 --> 00:08:13,774 este sistema baseado em Stanford, que tem o ponto vermelho lá em cima, 177 00:08:13,774 --> 00:08:17,147 concluiu que esta frase exprime um sentimento negativo. 178 00:08:17,147 --> 00:08:20,259 A aprendizagem profunda está próxima do desempenho humano 179 00:08:20,259 --> 00:08:24,432 na compreensão do sentido das frases e o que elas dizem sobre as coisas. 180 00:08:25,980 --> 00:08:28,997 A aprendizagem profunda também tem sido usada para ler chinês, 181 00:08:28,997 --> 00:08:31,329 a um nível de pessoas que falam chinês nativo. 182 00:08:31,593 --> 00:08:33,812 Este algoritmo foi desenvolvido na Suíça, 183 00:08:33,821 --> 00:08:36,871 por pessoas que não falam nem percebem chinês. 184 00:08:37,226 --> 00:08:39,527 Como eu disse, o uso da aprendizagem profunda 185 00:08:39,527 --> 00:08:41,925 é o melhor sistema do mundo para isto 186 00:08:41,925 --> 00:08:45,400 mesmo em comparação com a compreensão humana nativa. 187 00:08:46,690 --> 00:08:49,263 Isto é um sistema que construímos na minha empresa 188 00:08:49,263 --> 00:08:51,343 que mostra como se montou tudo isto. 189 00:08:51,343 --> 00:08:53,806 Isto são imagens que não têm qualquer texto anexo. 190 00:08:53,806 --> 00:08:56,354 Quando eu escrevo frases aqui, 191 00:08:56,354 --> 00:08:58,925 ele vai percebendo essas imagens em tempo real, 192 00:08:58,925 --> 00:09:01,420 vai percebendo sobre o que é que elas são 193 00:09:01,420 --> 00:09:04,710 e procura imagens semelhantes ao texto que eu estou a escrever. 194 00:09:04,710 --> 00:09:06,277 Está a perceber as minhas frases 195 00:09:06,277 --> 00:09:08,309 e a perceber as imagens. 196 00:09:08,972 --> 00:09:11,420 Sei que já viram coisa parecida no Google, 197 00:09:11,420 --> 00:09:14,217 onde podem escrever coisas e aparecem imagens, 198 00:09:14,217 --> 00:09:17,663 mas o que ele faz é pesquisar a página "web" pelo texto. 199 00:09:17,827 --> 00:09:20,170 É muito diferente de perceber as imagens. 200 00:09:20,170 --> 00:09:22,909 É uma coisa que os computadores só foram capazes de fazer 201 00:09:22,909 --> 00:09:25,245 pela primeira vez há poucos meses. 202 00:09:26,618 --> 00:09:30,756 Podemos assim ver que os computadores não só podem ver como podem ler. 203 00:09:30,874 --> 00:09:33,816 Mostrámos que eles compreendem o que ouvem. 204 00:09:34,143 --> 00:09:37,526 Talvez não seja surpresa se eu vos disser que eles podem escrever. 205 00:09:37,908 --> 00:09:39,742 Este é um texto que eu produzi ontem 206 00:09:39,742 --> 00:09:41,968 usando um algoritmo de aprendizagem profunda. 207 00:09:43,532 --> 00:09:46,568 E este é um texto produzido por um algoritmo de Stanford. 208 00:09:46,568 --> 00:09:50,154 Cada uma destas frases foi gerada por um algoritmo de aprendizagem profunda 209 00:09:50,154 --> 00:09:52,508 para descrever cada uma destas imagens. 210 00:09:52,508 --> 00:09:56,846 Este algoritmo nunca tinha visto um homem de camisa preta a tocar guitarra. 211 00:09:57,173 --> 00:09:59,663 Já tinha visto um homem. Já tinha visto preto. 212 00:09:59,663 --> 00:10:01,148 Já tinha visto uma guitarra. 213 00:10:01,148 --> 00:10:05,590 E gerou independentemente esta nova descrição da imagem. 214 00:10:05,750 --> 00:10:08,718 Ainda não estamos ao nível do desempenho humano, mas quase. 215 00:10:08,718 --> 00:10:12,818 Em testes, os homens preferem a legenda produzida pelo computador, 216 00:10:12,818 --> 00:10:14,427 uma em cada quatro vezes. 217 00:10:14,427 --> 00:10:16,246 Este sistema só tem duas semanas, 218 00:10:16,246 --> 00:10:18,111 portanto, provavelmente no próximo ano, 219 00:10:18,111 --> 00:10:21,409 o algoritmo do computador estará muito para além do desempenho humano 220 00:10:21,409 --> 00:10:23,540 ao ritmo com que as coisas estão a avançar. 221 00:10:23,631 --> 00:10:26,333 Portanto, os computadores também podem escrever. 222 00:10:26,333 --> 00:10:29,333 Juntamos isto tudo e chegamos a oportunidades muito excitantes. 223 00:10:29,333 --> 00:10:30,986 Por exemplo, na medicina. 224 00:10:30,986 --> 00:10:33,644 Uma equipa em Boston anunciou que tinha descoberto 225 00:10:33,644 --> 00:10:35,928 dezenas de novas características de tumores, 226 00:10:35,928 --> 00:10:37,672 clinicamente relevantes, 227 00:10:37,682 --> 00:10:40,597 que ajudam os médicos a fazer o prognóstico do cancro. 228 00:10:41,479 --> 00:10:43,969 De igual modo, em Stanford, 229 00:10:43,969 --> 00:10:47,405 um grupo anunciou que, observando tecidos à lupa, 230 00:10:47,405 --> 00:10:50,314 desenvolveram um sistema baseado na aprendizagem de máquinas 231 00:10:50,314 --> 00:10:52,734 que é melhor do que os patologistas humanos 232 00:10:52,764 --> 00:10:56,409 na previsão das taxas de sobrevivência para os doentes de cancro. 233 00:10:56,673 --> 00:10:59,894 Em ambos os casos, as previsões foram mais rigorosas 234 00:10:59,894 --> 00:11:02,781 e também geraram uma nova ciência de perceção. 235 00:11:02,781 --> 00:11:04,476 No caso da radiologia, 236 00:11:04,476 --> 00:11:07,522 houve novos indicadores clínicos que os seres humanos percebem. 237 00:11:07,558 --> 00:11:09,186 Neste caso patológico, 238 00:11:09,186 --> 00:11:13,744 o sistema do computador descobriu que as células em volta do cancro 239 00:11:13,744 --> 00:11:17,360 são tão importantes como as células cancerosas 240 00:11:17,360 --> 00:11:19,290 para fazer um diagnóstico. 241 00:11:19,290 --> 00:11:23,490 Isto é o oposto do que os patologistas têm vindo a aprender há décadas. 242 00:11:24,821 --> 00:11:27,260 Em cada um destes dois casos, foram sistemas 243 00:11:27,260 --> 00:11:29,381 desenvolvidos por um conjunto de médicos 244 00:11:29,381 --> 00:11:31,675 e de especialistas de aprendizagem de máquinas. 245 00:11:31,675 --> 00:11:33,850 No ano passado, também já ultrapassámos isso. 246 00:11:33,850 --> 00:11:36,854 Este é um exemplo da identificação de áreas cancerosas 247 00:11:36,854 --> 00:11:39,148 de tecido humano visto ao microscópio. 248 00:11:40,376 --> 00:11:44,278 O sistema que aqui mostramos identifica essas áreas mais rigorosamente 249 00:11:44,278 --> 00:11:47,360 ou quase tão rigorosamente como os patologistas humanos 250 00:11:47,360 --> 00:11:49,758 mas foi construído totalmente com aprendizagem profunda, 251 00:11:49,758 --> 00:11:51,302 sem usar competências médicas, 252 00:11:51,302 --> 00:11:53,884 por pessoas que não têm qualquer formação neste campo. 253 00:11:54,266 --> 00:11:57,053 De igual modo, a segmentação deste neurónio. 254 00:11:57,053 --> 00:12:00,378 Podemos segmentar neurónios quase tão rigorosamente como o homem. 255 00:12:00,378 --> 00:12:03,193 Este sistema foi desenvolvido com aprendizagem profunda 256 00:12:03,193 --> 00:12:06,175 usando pessoas sem quaisquer antecedentes prévios em medicina. 257 00:12:06,884 --> 00:12:09,720 Eu não tenho qualquer formação em medicina, 258 00:12:09,720 --> 00:12:13,302 mas pareço estar bem qualificado para fundar uma nova empresa médica, 259 00:12:13,302 --> 00:12:14,715 coisa que já fiz. 260 00:12:15,515 --> 00:12:17,604 Fiquei um bocado receoso ao fazê-lo, 261 00:12:17,604 --> 00:12:22,287 mas a teoria sugeria que devia ser possível fazer medicina útil 262 00:12:22,287 --> 00:12:25,340 usando apenas estas técnicas analíticas de dados. 263 00:12:25,658 --> 00:12:28,163 Felizmente, o retorno tem sido fantástico, 264 00:12:28,163 --> 00:12:30,776 não só dos "media", mas da comunidade médica, 265 00:12:30,776 --> 00:12:32,716 que têm sido muito solidários. 266 00:12:32,716 --> 00:12:36,645 A teoria é que podemos assumir a parte média do processo médico 267 00:12:36,818 --> 00:12:39,883 e transformar isso em análise de dados, tanto quanto possível, 268 00:12:39,883 --> 00:12:42,649 deixando que os médicos façam aquilo em que são melhores. 269 00:12:42,900 --> 00:12:44,465 Vou dar-vos um exemplo. 270 00:12:44,465 --> 00:12:49,738 Neste momento, fazer um novo teste de diagnóstico médico demora 15 minutos. 271 00:12:49,738 --> 00:12:51,701 Vou mostrar-vos isso, em tempo real, 272 00:12:51,701 --> 00:12:53,283 mas comprimi-o em três minutos 273 00:12:53,283 --> 00:12:54,915 cortando algumas partes. 274 00:12:54,915 --> 00:12:58,227 Em vez de vos mostrar a criação de um teste de diagnóstico médico, 275 00:12:58,227 --> 00:13:01,695 vou mostrar-vos um teste diagnóstico de imagens de um carro, 276 00:13:01,695 --> 00:13:04,140 porque é uma coisa que todos podemos perceber. 277 00:13:04,140 --> 00:13:07,258 Começamos com cerca de milhão e meio de imagens de carros. 278 00:13:07,258 --> 00:13:09,524 Quero criar qualquer coisa que os possa dividir 279 00:13:09,524 --> 00:13:11,913 segundo o ângulo em que a foto foi tirada. 280 00:13:12,367 --> 00:13:16,500 Estas imagens não têm qualquer legenda, portanto tenho que começar do zero. 281 00:13:16,523 --> 00:13:18,766 Com o nosso algoritmo de aprendizagem profunda, 282 00:13:18,766 --> 00:13:22,140 posso identificar automaticamente áreas de estrutura nestas imagens. 283 00:13:22,140 --> 00:13:25,346 Mas agora as pessoas e o computador podem trabalhar em conjunto. 284 00:13:25,910 --> 00:13:27,622 O ser humano, como podem ver, 285 00:13:27,622 --> 00:13:30,499 está a dizer ao computador quais são as áreas de interesse 286 00:13:30,499 --> 00:13:35,130 que ele quer que o computador experimente e use para melhorar o algoritmo. 287 00:13:35,468 --> 00:13:39,518 Estes sistemas de aprendizagem profunda estão num espaço de 16 000 dimensões. 288 00:13:39,518 --> 00:13:42,655 Podem ver aqui o computador a rodar através desse espaço. 289 00:13:42,655 --> 00:13:45,270 tentando encontrar novas áreas de estrutura. 290 00:13:45,270 --> 00:13:46,567 Quando o consegue fazer, 291 00:13:46,567 --> 00:13:50,189 quem está a utilizá-lo pode assinalar as áreas que têm interesse. 292 00:13:50,708 --> 00:13:52,906 Aqui, o computador conseguiu encontrar áreas, 293 00:13:52,906 --> 00:13:55,194 por exemplo, ângulos. 294 00:13:55,657 --> 00:13:57,488 À medida que avançamos neste processo, 295 00:13:57,488 --> 00:13:59,771 vamos dizendo ao computador cada vez mais coisas 296 00:13:59,771 --> 00:14:02,197 sobre o tipo de estruturas que andamos a procurar. 297 00:14:02,197 --> 00:14:03,738 Num exame de diagnóstico 298 00:14:03,738 --> 00:14:07,137 isso será um patologista a identificar áreas patológicas, por exemplo. 299 00:14:07,137 --> 00:14:11,569 ou um radiologista indicando nódulos potencialmente perturbadores. 300 00:14:12,696 --> 00:14:14,905 Por vezes pode ser difícil para o algoritmo. 301 00:14:14,905 --> 00:14:16,474 Neste caso, ele ficou confuso. 302 00:14:16,474 --> 00:14:19,090 As frentes e as traseiras dos carros estão misturadas. 303 00:14:19,110 --> 00:14:21,132 Portanto, temos que ser mais cuidadosos, 304 00:14:21,132 --> 00:14:24,211 selecionando manualmente as frentes, em oposição às traseiras, 305 00:14:24,211 --> 00:14:29,595 e depois dizendo ao computador qual é o tipo de grupo 306 00:14:29,595 --> 00:14:31,418 em que estamos interessados. 307 00:14:31,509 --> 00:14:33,718 Fazemos isso por algum tempo, passamos à frente 308 00:14:33,718 --> 00:14:36,138 e treinamos o algoritmo de aprendizagem da máquina 309 00:14:36,138 --> 00:14:38,372 com base em meia-dúzia entre centenas de coisas 310 00:14:38,372 --> 00:14:40,145 e esperamos que ele funcione melhor. 311 00:14:40,145 --> 00:14:42,144 Começa a esbater algumas dessas imagens, 312 00:14:42,144 --> 00:14:46,818 mostrando que já está a perceber como as reconhecer. 313 00:14:47,955 --> 00:14:50,713 Podemos depois usar este conceito de imagens semelhantes. 314 00:14:50,931 --> 00:14:53,131 Usando imagens semelhantes, 315 00:14:53,131 --> 00:14:56,180 o computador já é capaz de encontrar as frentes dos carros. 316 00:14:56,879 --> 00:14:59,754 Portanto, já podemos dizer ao computador: 317 00:14:59,761 --> 00:15:01,800 "Ok, fizeste um bom trabalho". 318 00:15:02,218 --> 00:15:05,283 Por vezes, claro, mesmo nesta altura, 319 00:15:05,283 --> 00:15:08,158 ainda é difícil separar grupos. 320 00:15:08,840 --> 00:15:11,187 Neste caso, mesmo depois de termos deixado 321 00:15:11,187 --> 00:15:13,525 que o computador tentasse rodar durante um tempo, 322 00:15:13,525 --> 00:15:16,558 ainda vemos que as imagens do lado esquerdo e do lado direito 323 00:15:16,558 --> 00:15:18,100 estão todas misturadas. 324 00:15:18,130 --> 00:15:20,610 Temos que voltar a dar algumas pistas ao computador 325 00:15:20,610 --> 00:15:22,172 e tentar encontrar uma projeção 326 00:15:22,172 --> 00:15:25,803 que separe os lados esquerdos dos direitos, tanto quanto possível, 327 00:15:25,803 --> 00:15:27,536 usando este algoritmo. 328 00:15:27,727 --> 00:15:30,163 Demos-lhe essa pista e, ok, resultou. 329 00:15:30,627 --> 00:15:33,189 Ele arranjou forma de pensar nesses objetos 330 00:15:33,361 --> 00:15:35,627 e separar estes do conjunto. 331 00:15:36,599 --> 00:15:38,926 Ficaram com uma ideia. 332 00:15:39,471 --> 00:15:46,564 Isto não é um caso em que o ser humano é substituído por um computador, 333 00:15:46,564 --> 00:15:49,268 mas um caso em que estamos a trabalhar em conjunto. 334 00:15:49,268 --> 00:15:51,898 Substituímos uma coisa que exigia 335 00:15:51,898 --> 00:15:54,866 uma equipa de cinco ou seis pessoas, durante sete anos, 336 00:15:54,866 --> 00:15:57,380 por uma coisa que demora 15 minutos 337 00:15:57,480 --> 00:15:59,848 e em que intervém uma única pessoa. 338 00:16:00,385 --> 00:16:03,726 Este processo leva quatro a cinco repetições. 339 00:16:03,726 --> 00:16:05,657 Podem ver que temos 62% 340 00:16:05,657 --> 00:16:08,429 de um milhão e meio de imagens classificadas corretamente. 341 00:16:08,593 --> 00:16:10,754 Neste ponto, podemos começar rapidamente 342 00:16:10,754 --> 00:16:12,754 a agarrar em grandes secções inteiras 343 00:16:12,754 --> 00:16:15,184 e verificá-las para assegurarmos que não há erros. 344 00:16:15,184 --> 00:16:17,751 Se houver erros, podemos mostrá-los ao computador. 345 00:16:19,179 --> 00:16:22,466 Usando este tipo de procedimento, para cada um dos diferentes grupos, 346 00:16:22,466 --> 00:16:24,853 atingimos agora uma taxa de 80% de êxito 347 00:16:24,853 --> 00:16:27,250 na classificação de um milhão e meio de imagens. 348 00:16:27,968 --> 00:16:30,210 Neste ponto, é apenas uma questão de encontrar 349 00:16:30,210 --> 00:16:33,260 o pequeno número das que não foram bem classificadas 350 00:16:33,260 --> 00:16:35,169 e tentar perceber qual a razão. 351 00:16:35,596 --> 00:16:37,690 Usando esta abordagem, 352 00:16:37,690 --> 00:16:41,170 em 15 minutos obtemos 97% de taxa de classificação. 353 00:16:41,914 --> 00:16:45,795 Este tipo de técnica pode permitir-nos resolver um importante problema, 354 00:16:45,795 --> 00:16:48,939 que é a falta de médicos a nível mundial. 355 00:16:48,939 --> 00:16:52,354 O Fórum Económico Mundial diz que há uma escassez de médicos, 356 00:16:52,354 --> 00:16:55,185 entre 10 a 20 vezes, no mundo em desenvolvimento 357 00:16:55,185 --> 00:16:57,279 e serão precisos cerca de 300 anos 358 00:16:57,279 --> 00:17:00,282 para formar gente suficiente para resolver esse problema. 359 00:17:00,546 --> 00:17:03,493 Imaginem se pudermos ajudar a aumentar a sua eficácia 360 00:17:03,493 --> 00:17:05,853 usando estas abordagens de aprendizagem profunda. 361 00:17:05,853 --> 00:17:08,478 Por isso estou muito entusiasmado com as oportunidades. 362 00:17:08,478 --> 00:17:10,484 Mas também me preocupam os problemas. 363 00:17:10,484 --> 00:17:13,999 O problema aqui é que todas as áreas a azul neste mapa 364 00:17:13,999 --> 00:17:17,677 são onde os serviços representam 80% dos empregos. 365 00:17:17,677 --> 00:17:19,191 O que são serviços? 366 00:17:19,554 --> 00:17:21,500 Isto são serviços. 367 00:17:21,500 --> 00:17:23,301 São exatamente as coisas 368 00:17:23,301 --> 00:17:25,403 que os computadores aprenderam a fazer. 369 00:17:25,403 --> 00:17:29,130 Portanto, 80% dos empregos mundiais no mundo desenvolvido 370 00:17:29,130 --> 00:17:31,984 são coisas que os computadores acabaram de aprender a fazer. 371 00:17:31,984 --> 00:17:33,295 O que é que isso significa? 372 00:17:33,295 --> 00:17:35,247 "Não há problema! Haverá outros empregos, 373 00:17:35,247 --> 00:17:37,482 "mais empregos para os cientistas de dados". 374 00:17:37,800 --> 00:17:39,309 Bem, não é bem assim. 375 00:17:39,309 --> 00:17:42,588 Em breve não serão necessários cientistas para construir estas coisas. 376 00:17:42,598 --> 00:17:45,999 Por exemplo, estes quatro algoritmos foram construídos pelo mesmo tipo. 377 00:17:46,170 --> 00:17:48,344 Se pensarem bem, isto já aconteceu em tempos, 378 00:17:48,344 --> 00:17:51,596 vimos os resultados no passado, quando apareceram coisas novas 379 00:17:51,596 --> 00:17:53,675 e foram substituídas por novos empregos. 380 00:17:53,675 --> 00:17:55,792 Que novos empregos serão esses? 381 00:17:55,992 --> 00:17:57,831 É muito difícil calcular isso 382 00:17:57,831 --> 00:18:00,593 porque o desempenho humano cresce a este ritmo gradual, 383 00:18:00,593 --> 00:18:03,193 mas agora temos um sistema, de aprendizagem profunda 384 00:18:03,193 --> 00:18:06,743 que cresce exponencialmente em capacidade. 385 00:18:06,843 --> 00:18:08,195 E estamos aqui. 386 00:18:08,195 --> 00:18:10,371 Vemos as coisas à nossa volta e dizemos: 387 00:18:10,371 --> 00:18:12,573 "Oh, os computadores são muito estúpidos". 388 00:18:12,573 --> 00:18:15,947 Mas daqui a cinco anos, os computadores estarão fora deste gráfico. 389 00:18:16,283 --> 00:18:19,842 Portanto, precisamos de começar já a pensar nesta capacidade. 390 00:18:19,842 --> 00:18:21,902 Já vimos isto outrora, claro. 391 00:18:21,902 --> 00:18:23,475 Na Revolução Industrial, 392 00:18:23,475 --> 00:18:26,350 vimos uma mudança de nível na capacidade, graças às máquinas. 393 00:18:27,368 --> 00:18:30,270 Mas, depois de algum tempo, as coisas estabilizaram. 394 00:18:30,516 --> 00:18:32,127 Houve perturbação social 395 00:18:32,127 --> 00:18:35,563 mas, depois de os motores passarem a ser usados para gerar energia, 396 00:18:35,563 --> 00:18:37,331 as coisas estabilizaram. 397 00:18:38,182 --> 00:18:40,109 A Revolução da Aprendizagem das Máquinas 398 00:18:40,109 --> 00:18:42,195 vai ser diferente da Revolução Industrial, 399 00:18:42,195 --> 00:18:45,459 porque a Revolução da Aprendizagem das Máquinas não vai estabilizar 400 00:18:45,459 --> 00:18:48,371 Quando os computadores melhorarem em atividades intelectuais, 401 00:18:48,371 --> 00:18:52,533 poderão construir computadores melhores, com capacidades intelectuais melhores. 402 00:18:52,533 --> 00:18:54,829 Portanto, isso vai ser um tipo de mudança 403 00:18:54,829 --> 00:18:56,964 que o mundo nunca experimentou antes. 404 00:18:56,964 --> 00:19:00,199 A nossa compreensão do que é possível é diferente. 405 00:19:00,544 --> 00:19:02,390 Isto já está a ter impacto em nós. 406 00:19:02,390 --> 00:19:06,620 Nos últimos 25 anos, enquanto a produtividade do capital tem aumentado, 407 00:19:06,620 --> 00:19:10,194 a produtividade do trabalho tem estagnado, ou mesmo baixado um pouco. 408 00:19:10,939 --> 00:19:13,985 Portanto, quero que comecemos a analisar já este problema. 409 00:19:13,985 --> 00:19:16,247 Sei que, quando falo às pessoas nesta situação, 410 00:19:16,247 --> 00:19:18,456 as pessoas podem mostrar-se muito desdenhosas: 411 00:19:18,456 --> 00:19:20,570 "Os computadores não pensam, 412 00:19:20,570 --> 00:19:22,906 "não têm emoções, não entendem poesia, 413 00:19:22,906 --> 00:19:24,910 "não sabemos bem como funcionam..." 414 00:19:25,274 --> 00:19:26,578 E depois? 415 00:19:26,768 --> 00:19:28,706 Os computadores agora fazem coisas 416 00:19:28,706 --> 00:19:31,530 em que as pessoas gastam tempo e para as quais são pagas. 417 00:19:31,530 --> 00:19:34,659 Portanto é altura de começar a pensar no que é que vamos fazer 418 00:19:34,659 --> 00:19:37,245 para ajustar as nossas estruturas sociais e económicas 419 00:19:37,245 --> 00:19:39,915 para estarem de acordo com esta nova realidade. 420 00:19:39,988 --> 00:19:41,188 Obrigado. 421 00:19:41,293 --> 00:19:42,548 (Aplausos)