WEBVTT 00:00:09.627 --> 00:00:13.424 Antigamente se você quisesse que um computador fizesse algo novo, 00:00:13.424 --> 00:00:15.256 você teria que programar. 00:00:15.256 --> 00:00:18.542 Então, para quem aqui que nunca fez isso, 00:00:18.566 --> 00:00:21.645 programação é algo que requer estabelecer com riqueza de detalhe 00:00:21.645 --> 00:00:25.234 cada passo do que você quer que o computador faça 00:00:25.234 --> 00:00:27.481 para atingir o seu objetivo. 00:00:27.481 --> 00:00:31.126 Se quiser fazer algo que você ainda não sabe fazer por conta própria, 00:00:31.126 --> 00:00:33.132 isso se torna um grande desafio. 00:00:33.132 --> 00:00:36.682 E este foi o desafio enfrentado por este homem, Arthur Samuel. 00:00:36.682 --> 00:00:42.775 Em 1956 ele quis que este computador fosse capaz de jogar damas com ele e vencê-lo. 00:00:42.775 --> 00:00:44.532 Como escrever um programa, 00:00:44.532 --> 00:00:48.820 estabelecer com riqueza de detalhe, e jogar damas melhor que você? 00:00:48.820 --> 00:00:50.527 Então teve uma ideia: 00:00:50.527 --> 00:00:54.370 fez o computador jogar contra si próprio milhares de vezes 00:00:54.370 --> 00:00:56.826 para aprender a jogar damas. 00:00:56.826 --> 00:00:59.774 E realmente funcionou, de fato em 1962 00:00:59.774 --> 00:01:02.707 este computador venceu o campeão estadual de Connecticut. 00:01:03.416 --> 00:01:06.859 Arthur Samuel foi o pai do aprendizado de máquina, 00:01:06.859 --> 00:01:08.441 e devo muito a ele, 00:01:08.441 --> 00:01:11.279 porque sou um profissional de aprendizado de máquina. 00:01:11.279 --> 00:01:13.014 Fui presidente da Kaggle, 00:01:13.014 --> 00:01:16.162 uma comunidade de mais de 200 mil profissionais dessa área. 00:01:16.162 --> 00:01:18.447 A Kaggle organiza competições 00:01:18.447 --> 00:01:21.893 para tentar resolver problemas até então sem solução, 00:01:22.071 --> 00:01:24.732 e tem sido bem sucedida centenas de vezes. 00:01:25.727 --> 00:01:28.118 Então desse ponto de vista, pude descobrir muito 00:01:28.118 --> 00:01:32.169 do que o aprendizado de máquina conseguiu no passado, hoje, 00:01:32.169 --> 00:01:34.367 e o que poderá fazer no futuro. 00:01:34.367 --> 00:01:36.605 Talvez o primeiro grande sucesso comercial 00:01:36.605 --> 00:01:39.209 de aprendizado de máquina foi o Google. 00:01:39.209 --> 00:01:41.835 O Google mostrou que é possível encontrar informação 00:01:41.835 --> 00:01:44.131 usando um algoritmo de computador, 00:01:44.131 --> 00:01:46.945 e este algoritmo é baseado no aprendizado de máquina. 00:01:46.945 --> 00:01:50.661 Desde então houve muitos casos de sucesso comercial de aprendizado de máquina. 00:01:50.661 --> 00:01:52.676 Empresas como Amazon e Netflix 00:01:52.676 --> 00:01:55.901 usam aprendizado de máquina para sugerir produtos que possa querer, 00:01:55.901 --> 00:01:58.147 filmes que você possa querer assistir. 00:01:58.147 --> 00:02:00.091 Às vezes é quase assustador. 00:02:00.091 --> 00:02:01.915 Empresas como LinkedIn e Facebook 00:02:01.915 --> 00:02:04.490 às vezes dirão quem deveria ser seu amigo 00:02:04.490 --> 00:02:06.361 e você nem imagina como, 00:02:06.361 --> 00:02:09.410 e isso porque está usando o poder do aprendizado de máquina. 00:02:09.410 --> 00:02:12.619 São algoritmos que aprenderam como fazer isso a partir de dados 00:02:12.619 --> 00:02:15.386 em vez de serem programados à mão. 00:02:15.860 --> 00:02:18.444 Foi assim que a IBM foi bem sucedida em fazer 00:02:18.444 --> 00:02:21.286 o Watson vencer dois campeões mundiais em Jeopardy, 00:02:21.311 --> 00:02:24.438 respondendo questões incrivelmente sutis e complexas como essa: 00:02:24.463 --> 00:02:28.203 ["O antigo 'Leão de Nimrud' desapareceu do museu nacional dessa cidade em 2003] 00:02:28.203 --> 00:02:31.344 Também por isso podemos ver os primeiros carros autônomos. 00:02:31.344 --> 00:02:33.946 Se você quiser saber dizer a diferença entre, digamos, 00:02:33.946 --> 00:02:37.188 uma árvore e um pedestre, bem, isso é muito importante. 00:02:37.188 --> 00:02:39.865 Não sabemos como escrever esses programas à mão, 00:02:39.865 --> 00:02:42.502 mas com o aprendizado de máquina isso agora é possível. 00:02:42.502 --> 00:02:45.410 De fato este carro já dirigiu mais de um milhão de quilômetros 00:02:45.410 --> 00:02:48.823 sem qualquer acidente em estradas públicas. 00:02:48.823 --> 00:02:52.390 Pois bem, agora sabemos que computadores conseguem aprender, 00:02:52.390 --> 00:02:54.550 e podem aprender a fazer coisas 00:02:54.550 --> 00:02:57.305 que mesmo nós não sabemos fazer, 00:02:57.305 --> 00:03:00.062 ou então fazer melhor que nós. 00:03:00.062 --> 00:03:04.332 Um dos exemplos mais surpreendentes de aprendizado de máquina que já vi 00:03:04.332 --> 00:03:06.863 aconteceu num projeto que organizei na Kaggle 00:03:06.863 --> 00:03:10.401 no qual um time coordenado por Geoffrey Hinton, 00:03:10.401 --> 00:03:12.036 da Universidade de Toronto, 00:03:12.036 --> 00:03:14.618 venceu a competição de pesquisa automática de fármacos. 00:03:14.618 --> 00:03:17.453 O extraordinário aqui não é apenas que eles bateram 00:03:17.453 --> 00:03:21.089 todos os algoritmos desenvolvidos pela Merck ou a comunidade acadêmica, 00:03:21.089 --> 00:03:26.496 mas que ninguém no time tinha qualquer conhecimento em biologia ou química, 00:03:26.496 --> 00:03:28.800 e fizeram isso em duas semanas. 00:03:28.800 --> 00:03:31.003 Como eles fizeram isso? 00:03:31.003 --> 00:03:34.008 Usaram um algoritmo singular chamado aprendizado profundo. 00:03:34.008 --> 00:03:36.782 Isso foi tão importante que de fato o sucesso foi noticiado 00:03:36.782 --> 00:03:39.949 no The New York Times em artigo de primeira página semanas depois. 00:03:39.949 --> 00:03:42.267 Este é Geoffrey Hinton, aqui no lado esquerdo. 00:03:42.267 --> 00:03:46.738 Aprendizado profundo é um algoritmo inspirado no cérebro humano, 00:03:46.738 --> 00:03:48.349 ou seja, é um algoritmo 00:03:48.349 --> 00:03:52.108 que não tem limitações teóricas para o que pode fazer. 00:03:52.108 --> 00:03:55.159 Quanto mais dados e tempo você der a ele, 00:03:55.159 --> 00:03:56.756 melhor ele fica. 00:03:56.756 --> 00:03:59.861 O The New York Times também mostrou neste artigo outro resultado 00:03:59.861 --> 00:04:01.684 extraordinário de aprendizado profundo 00:04:01.684 --> 00:04:03.928 que vou mostrar para vocês agora. 00:04:03.928 --> 00:04:07.872 Mostra que os computadores conseguem escutar e entender. 00:04:08.654 --> 00:04:11.018 (Vídeo) Richard Rashid: Agora, o último passo 00:04:11.018 --> 00:04:13.993 que pretendo dar nesse processo 00:04:13.993 --> 00:04:17.334 é na verdade falar a vocês em chinês. 00:04:19.394 --> 00:04:21.910 A chave aqui é que 00:04:21.910 --> 00:04:26.531 conseguimos levantar uma vasta quantidade de informação de muitos falantes do chinês 00:04:26.531 --> 00:04:29.641 e produzir um sistema de conversão texto-fala 00:04:29.641 --> 00:04:33.772 que pega o texto em chinês e o converte para a linguagem chinesa, 00:04:35.428 --> 00:04:38.952 e então pegamos mais ou menos uma hora da minha própria voz 00:04:38.952 --> 00:04:41.218 e usamos para modular 00:04:41.218 --> 00:04:44.944 o sistema texto-fala padrão para que possa parecer a minha voz. 00:04:45.188 --> 00:04:47.726 O resultado não é perfeito. 00:04:47.726 --> 00:04:50.554 Na verdade há alguns erros. 00:04:50.554 --> 00:04:52.880 (Em chinês) 00:04:52.880 --> 00:04:56.573 (Aplausos) 00:04:58.179 --> 00:05:00.990 Há muito trabalho pela frente nessa área. 00:05:01.449 --> 00:05:04.893 (Em chinês) 00:05:04.893 --> 00:05:08.420 (Aplausos) 00:05:10.462 --> 00:05:14.244 J. Howard: Isso foi num congresso de aprendizado de máquina na China. 00:05:14.244 --> 00:05:16.614 Na verdade não é comum escutar aplausos 00:05:16.614 --> 00:05:18.511 espontâneos em congressos acadêmicos, 00:05:18.511 --> 00:05:22.187 apesar de obviamente às vezes acontecer em conferências TED, fiquem à vontade. 00:05:22.187 --> 00:05:24.982 Tudo que vocês viram aconteceu com aprendizado profundo. 00:05:24.982 --> 00:05:26.507 (Aplausos) Obrigado. 00:05:26.507 --> 00:05:28.789 A transcrição em inglês foi aprendizado profundo. 00:05:28.789 --> 00:05:32.201 A tradução para chinês e o texto no canto superior direito, também, 00:05:32.201 --> 00:05:35.508 e a construção da voz também foi aprendizado profundo. 00:05:35.508 --> 00:05:38.742 Então, aprendizado profundo é esta coisa extraordinária. 00:05:38.742 --> 00:05:41.841 É um único algoritmo que parece fazer quase tudo, 00:05:41.841 --> 00:05:44.952 e uma ano antes descobri que também aprendeu a ver. 00:05:44.952 --> 00:05:46.748 Nessa competição alemã desconhecida, 00:05:46.748 --> 00:05:49.695 chamada: Modelo de Reconhecimento de Placas de Trânsito Alemãs, 00:05:49.695 --> 00:05:53.198 o aprendizado profundo aprendeu a reconhecer placas de trânsito como este. 00:05:53.198 --> 00:05:55.214 Não apenas conseguiu reconhecer as placas 00:05:55.238 --> 00:05:56.970 melhor que qualquer outro algoritmo, 00:05:56.970 --> 00:05:59.689 o ranking na verdade mostrou ser melhor do que as pessoas, 00:05:59.689 --> 00:06:01.541 quase duas vezes melhor. 00:06:01.541 --> 00:06:03.537 Então em 2011 tivemos o primeiro exemplo 00:06:03.537 --> 00:06:06.942 de computadores que conseguem ver melhor do que as pessoas. 00:06:06.942 --> 00:06:08.991 Desde então muito aconteceu. 00:06:08.991 --> 00:06:12.505 Em 2012, o Google anunciou que havia um algoritmo de aprendizado profundo 00:06:12.505 --> 00:06:13.920 assistindo vídeos do YouTube 00:06:13.920 --> 00:06:17.357 e processando os dados em 16 mil computadores por um mês, 00:06:17.357 --> 00:06:21.718 e o computador aprendeu sozinho conceitos como pessoas e gatos 00:06:21.718 --> 00:06:23.527 apenas assistindo aos vídeos. 00:06:23.527 --> 00:06:25.879 É desse jeito que os humanos aprendem. 00:06:25.879 --> 00:06:28.619 Os humanos não aprendem com alguém explicando o que viram, 00:06:28.619 --> 00:06:31.950 aprendem por si próprios. 00:06:31.950 --> 00:06:35.319 Também em 2012, Geoffrey Hinton, a quem vimos antes, 00:06:35.319 --> 00:06:38.177 venceu a conhecida competição ImageNet, 00:06:38.177 --> 00:06:42.318 tentando descobrir a partir de um milhão e meio de imagens 00:06:42.318 --> 00:06:43.756 o que elas retratam. 00:06:43.756 --> 00:06:47.289 A partir de 2014 estamos com um percentual de erro de 6% 00:06:47.289 --> 00:06:48.742 em reconhecimento de imagem. 00:06:48.742 --> 00:06:50.768 De novo, isso é melhor que as pessoas. 00:06:50.768 --> 00:06:54.537 Então, as máquinas estão fazendo um ótimo trabalho 00:06:54.537 --> 00:06:56.806 e agora isso está sendo usado na indústria. 00:06:56.806 --> 00:06:59.848 Por exemplo, o Google anunciou ano passado 00:06:59.848 --> 00:07:04.433 que mapearam cada locação da França em duas horas, 00:07:04.433 --> 00:07:07.880 e fizeram isso fornecendo imagens das ruas 00:07:07.880 --> 00:07:12.199 para o algoritmo de aprendizado profundo reconhecer e ler os números das ruas. 00:07:12.199 --> 00:07:14.419 Imaginem quanto levaria do jeito antigo: 00:07:14.419 --> 00:07:17.774 dúzias de pessoas, muitos anos. 00:07:17.774 --> 00:07:19.685 Também está acontecendo na China. 00:07:19.685 --> 00:07:23.721 Baidu é um Google chinês, acho, 00:07:23.721 --> 00:07:26.004 e o que vocês podem ver acima à esquerda 00:07:26.004 --> 00:07:29.978 é um exemplo de uma foto que enviei ao sistema de aprendizado profundo deles, 00:07:29.978 --> 00:07:33.747 e abaixo você pode ver que o sistema entendeu que foto era 00:07:33.747 --> 00:07:35.983 e encontrou imagens similares. 00:07:35.983 --> 00:07:38.719 As imagens similares de fato têm fundos similares, 00:07:38.719 --> 00:07:42.165 direções de rostos similares, algumas até com a língua para fora. 00:07:42.165 --> 00:07:45.195 Claramente não está olhando para o texto da página. 00:07:45.195 --> 00:07:46.727 Tudo que carreguei foi uma foto. 00:07:46.727 --> 00:07:50.168 Agora temos computadores que realmente entendem o que veem 00:07:50.168 --> 00:07:52.252 e podem assim buscar em bancos de dados 00:07:52.252 --> 00:07:55.806 de centenas de milhões de fotos em tempo real. 00:07:55.806 --> 00:07:59.036 O que significa o fato dos computadores conseguirem ver? 00:07:59.036 --> 00:08:01.053 Bem, não é só que conseguem ver. 00:08:01.053 --> 00:08:03.244 De fato, o aprendizado profundo fez mais. 00:08:03.268 --> 00:08:06.070 Frases matizadas e complexas como esta agora são 00:08:06.070 --> 00:08:08.894 compreendidas pelo algoritmos de aprendizado profundo. 00:08:08.894 --> 00:08:10.197 Como podem ver aqui, 00:08:10.197 --> 00:08:12.965 este sistema de Stanford com o ponto vermelho acima 00:08:12.965 --> 00:08:16.884 descobriu que esta frase expressa um sentimento negativo. 00:08:16.884 --> 00:08:20.290 Na verdade o aprendizado profundo está alcançando a performance humana 00:08:20.302 --> 00:08:25.423 ao entender sobre o que as frases são e o que dizem sobre as coisas. 00:08:25.423 --> 00:08:28.151 Além disso o aprendizado profundo é usado para ler chinês, 00:08:28.151 --> 00:08:31.307 de novo no nível do falante nativo. 00:08:31.307 --> 00:08:33.475 Esse algoritmo, desenvolvido na Suíça 00:08:33.475 --> 00:08:36.831 por pessoas que não falam chinês. 00:08:36.831 --> 00:08:38.881 Como eu digo, usar aprendizado profundo 00:08:38.881 --> 00:08:41.101 é o melhor sistema no mundo para isto, 00:08:41.101 --> 00:08:45.562 até mesmo comparando ao entendimento do humano nativo. 00:08:46.218 --> 00:08:49.182 Esse é um sistema que montamos na minha empresa 00:08:49.182 --> 00:08:51.230 que mostra tudo isso colocado junto. 00:08:51.254 --> 00:08:53.689 São fotos sem texto, 00:08:53.689 --> 00:08:56.041 e enquanto digito frases aqui, 00:08:56.041 --> 00:08:59.010 ele entende essas fotos em tempo real, 00:08:59.010 --> 00:09:00.689 descobre sobre o que elas são 00:09:00.689 --> 00:09:03.852 e encontra fotos similares ao que estou escrevendo. 00:09:03.852 --> 00:09:06.608 Vocês podem ver, está realmente entendendo minhas frases 00:09:06.608 --> 00:09:08.832 e entendendo essas imagens. 00:09:08.832 --> 00:09:11.391 Sei que vocês viram algo assim no Google, 00:09:11.391 --> 00:09:14.166 no qual você digita coisas e aparecem imagens, 00:09:14.166 --> 00:09:17.590 mas na verdade o que acontece é que está buscando o texto na página. 00:09:17.590 --> 00:09:20.591 Isso é muito diferente de na verdade entender as fotos. 00:09:20.591 --> 00:09:23.343 Isto é algo que os computadores conseguiram fazer 00:09:23.343 --> 00:09:26.591 pela primeira vez somente há alguns poucos meses. 00:09:26.591 --> 00:09:30.682 Vemos que agora os computadores conseguem não apenas ver, mas ler também, 00:09:30.682 --> 00:09:34.447 e claro, mostramos aqui que podem entender o que escutam. 00:09:34.447 --> 00:09:37.889 Talvez não seja surpresa o que vou dizer agora: eles sabem escrever. 00:09:37.889 --> 00:09:42.672 Aqui um texto gerado usando um algoritmo de aprendizado profundo ontem. 00:09:42.672 --> 00:09:46.596 E aqui um texto gerado por um algoritmo de Stanford. 00:09:46.596 --> 00:09:48.360 Cada uma dessas frases foi criada 00:09:48.360 --> 00:09:52.609 por um algoritmo de aprendizado profundo para descrever cada uma dessas imagens. 00:09:52.609 --> 00:09:57.081 Esse algoritmo nunca tinha visto um homem de camiseta preta tocando violão. 00:09:57.081 --> 00:09:59.301 Ele já viu um homem antes, já viu a cor preta, 00:09:59.301 --> 00:10:00.900 já viu um violão antes, 00:10:00.900 --> 00:10:05.194 mas criou, independentemente, essa descrição inédita para essa imagem. 00:10:05.194 --> 00:10:08.696 Ainda não chegamos ao patamar da performance humana, mas estamos perto. 00:10:08.696 --> 00:10:12.764 Em testes, humanos preferem a legenda gerada por computador 00:10:12.764 --> 00:10:14.291 uma a cada quatro vezes. 00:10:14.291 --> 00:10:16.355 Agora esse sistema tem apenas duas semanas, 00:10:16.355 --> 00:10:18.201 então provavelmente dentro de um ano, 00:10:18.201 --> 00:10:21.062 o algoritmo de computador será melhor que o desempenho humano 00:10:21.062 --> 00:10:22.864 no ritmo que as coisas vão. 00:10:22.864 --> 00:10:25.913 Os computadores conseguem escrever. 00:10:25.913 --> 00:10:29.388 Quando juntamos isso tudo, aparecem oportunidades muito empolgantes. 00:10:29.388 --> 00:10:30.880 Por exemplo, na medicina, 00:10:30.880 --> 00:10:33.405 uma equipe em Boston anunciou a descoberta 00:10:33.405 --> 00:10:36.354 de dúzias de novas características clinicamente relevantes 00:10:36.354 --> 00:10:40.376 de tumores que ajudam os médicos em prognósticos de câncer. 00:10:41.720 --> 00:10:44.016 De modo semelhante, em Stanford, 00:10:44.016 --> 00:10:47.679 um grupo anunciou que, examinando os tecidos ampliados, 00:10:47.679 --> 00:10:50.060 desenvolveu um sistema de aprendizado de máquina 00:10:50.060 --> 00:10:52.642 que de fato é melhor que patologistas humanos 00:10:52.642 --> 00:10:56.225 ao predizer índices de sobrevivência para pacientes de câncer. 00:10:56.729 --> 00:10:59.804 Em ambos os casos, não apenas as previsões eram mais precisas, 00:10:59.804 --> 00:11:02.766 mas criaram uma ciência sagaz. 00:11:02.776 --> 00:11:04.281 No caso da radiologia, 00:11:04.281 --> 00:11:07.376 são indicadores clínicos novos que os humanos conseguem entender. 00:11:07.376 --> 00:11:09.168 Nesse caso de patologia, 00:11:09.168 --> 00:11:13.668 o sistema de computador descobriu que as células ao redor do câncer 00:11:13.668 --> 00:11:17.008 são tão importantes quanto as próprias células cancerígenas 00:11:17.008 --> 00:11:18.760 para se fazer um diagnóstico. 00:11:18.760 --> 00:11:22.941 Isso é o oposto ao que os patologistas tinham ensinado por décadas. 00:11:24.391 --> 00:11:27.253 Em cada um desses dois casos, foram os sistemas desenvolvidos 00:11:27.253 --> 00:11:31.044 por um grupo de especialistas médicos e especialistas em aprendizado de máquina, 00:11:31.044 --> 00:11:33.775 mas a partir do ano passado, já ultrapassamos isto também. 00:11:33.775 --> 00:11:37.324 Este é um exemplo de identificação de áreas cancerígenas 00:11:37.324 --> 00:11:39.854 em tecido humano sob um microscópio. 00:11:39.854 --> 00:11:44.467 O sistema aqui consegue identificar essas áreas com mais precisão, 00:11:44.467 --> 00:11:47.242 ou com a mesma precisão, do que patologistas humanos, 00:11:47.242 --> 00:11:50.634 mas foi construído com aprendizado profundo sem conhecimento médico 00:11:50.634 --> 00:11:53.160 por pessoas sem conhecimento na área. 00:11:54.230 --> 00:11:56.785 De modo similar, aqui, esta segmentação de neurônios. 00:11:56.785 --> 00:12:00.453 Agora podemos segmentar neurônios tão precisamente quanto os humanos, 00:12:00.453 --> 00:12:03.170 mas este sistema foi desenvolvido com aprendizado profundo 00:12:03.170 --> 00:12:05.501 por pessoas sem conhecimento prévio em medicina. 00:12:06.421 --> 00:12:09.648 Então eu mesmo, que não tenho conhecimento em medicina, 00:12:09.648 --> 00:12:13.375 pareço ser inteiramente qualificado para iniciar uma empresa médica, 00:12:13.375 --> 00:12:15.521 que foi o que fiz. 00:12:15.521 --> 00:12:17.261 Estava meio aterrorizado, 00:12:17.261 --> 00:12:20.150 mas a teoria sugeria que era possível 00:12:20.150 --> 00:12:25.642 fazer uma medicina muito útil usando apenas estas técnicas analíticas de dados. 00:12:25.642 --> 00:12:28.122 E ainda bem, a reação tem sido fantástica, 00:12:28.122 --> 00:12:30.694 não apenas da mídia, mas da comunidade médica, 00:12:30.718 --> 00:12:32.642 que tem sido muito favorável. 00:12:32.642 --> 00:12:36.971 A teoria é que podemos pegar a parte intermediária do processo médico 00:12:36.971 --> 00:12:39.864 e transformá-la o quanto possível em análise de dados, 00:12:39.864 --> 00:12:42.929 deixando aos médicos o que eles fazem de melhor. 00:12:42.929 --> 00:12:44.531 Quero dar uma exemplo a vocês. 00:12:44.531 --> 00:12:49.275 Hoje um novo teste de diagnóstico médico leva uns 15 minutos para ser feito 00:12:49.275 --> 00:12:51.299 e vou mostrar em tempo real para vocês, 00:12:51.299 --> 00:12:52.961 mas comprimi para três minutos, 00:12:52.961 --> 00:12:54.453 cortando alguns pedaços. 00:12:54.453 --> 00:12:57.869 Em vez de um teste de diagnóstico médico, 00:12:57.869 --> 00:13:01.346 vou mostrar um teste de diagnóstico de imagens de carros, 00:13:01.346 --> 00:13:03.568 pois é algo que todos podem entender. 00:13:03.568 --> 00:13:06.769 Então aqui estamos iniciando com 1,5 milhão de imagens de carro, 00:13:06.769 --> 00:13:09.975 e quero criar algo que pode selecionar a partir do ângulo 00:13:09.975 --> 00:13:12.198 em que a foto foi tirada. 00:13:12.198 --> 00:13:16.086 Estas imagens não estão marcadas, então preciso começar do zero. 00:13:16.086 --> 00:13:18.001 Com o algoritmo de aprendizado profundo, 00:13:18.001 --> 00:13:21.658 pode-se automaticamente identificar áreas de estrutura nestas fotos. 00:13:21.658 --> 00:13:25.278 O legal é que o humano e o computador agora podem trabalhar juntos. 00:13:25.278 --> 00:13:27.456 Então o humano, como podem ver, 00:13:27.456 --> 00:13:30.131 diz ao computador as áreas de interesse 00:13:30.131 --> 00:13:34.781 que o computador usa para melhorar o algoritmo. 00:13:34.781 --> 00:13:39.077 Esses sistemas de aprendizado profundo na verdade usa o espaço de 16 mil dimensões, 00:13:39.077 --> 00:13:42.429 então você pode ver aqui o computador girando através do espaço, 00:13:42.429 --> 00:13:44.501 tentando encontrar novas áreas de estrutura. 00:13:44.501 --> 00:13:46.282 E quando consegue, 00:13:46.282 --> 00:13:50.286 o humano que está no controle aponta as áreas de interesse. 00:13:50.286 --> 00:13:52.708 Aqui o computador encontrou as áreas com sucesso, 00:13:52.708 --> 00:13:55.270 por exemplo, ângulos. 00:13:55.270 --> 00:13:56.876 Enquanto seguimos o processo, 00:13:56.876 --> 00:13:59.016 gradualmente dizendo mais e mais ao computador 00:13:59.016 --> 00:14:01.464 sobre os tipos de estruturas que estamos procurando. 00:14:01.464 --> 00:14:03.106 Se fosse um teste diagnóstico, 00:14:03.106 --> 00:14:06.766 seria um patologista identificando áreas de condição patológica, por exemplo, 00:14:06.766 --> 00:14:11.792 ou um radiologista indicando nódulos potencialmente problemáticos. 00:14:11.792 --> 00:14:14.351 E às vezes pode ser difícil para o algoritmo. 00:14:14.351 --> 00:14:16.315 Nesse caso, ficou um pouco confuso. 00:14:16.315 --> 00:14:18.865 As frentes e as traseiras estão todas misturadas. 00:14:18.865 --> 00:14:20.937 Então temos que ser cuidadosos, 00:14:20.937 --> 00:14:24.169 manualmente separando as frentes e as traseiras, 00:14:24.169 --> 00:14:29.345 e dizendo ao computador que isso é o tipo de grupo 00:14:29.345 --> 00:14:31.023 que nos interessa. 00:14:31.023 --> 00:14:33.700 Então fizemos isso por um tempo, adiantamos um pouco, 00:14:33.700 --> 00:14:35.946 treinamos o algoritmo de aprendizado de máquina 00:14:35.946 --> 00:14:37.830 com base em algumas centenas de coisas, 00:14:37.830 --> 00:14:39.575 e esperamos que tenha ficado melhor. 00:14:39.575 --> 00:14:42.778 Vocês podem ver agora que algumas dessas fotos desapareceram, 00:14:42.778 --> 00:14:47.416 mostrando que já consegue entender algumas por si próprio. 00:14:47.416 --> 00:14:50.288 Podemos então usar esse conceito para fotos similares, 00:14:50.288 --> 00:14:52.562 e usando fotos similares, vocês podem ver, 00:14:52.562 --> 00:14:56.411 o computador nesse ponto consegue encontrar somente as frentes dos carros. 00:14:56.411 --> 00:14:59.689 Nesse ponto o humano pode dizer ao computador, 00:14:59.689 --> 00:15:01.982 "Ok, sim, você fez um bom trabalho". 00:15:03.152 --> 00:15:05.337 Claro que às vezes ainda é difícil 00:15:05.337 --> 00:15:09.011 separar grupos nesse ponto. 00:15:09.011 --> 00:15:12.963 Neste caso mesmo após o computador girar um pouco, 00:15:12.963 --> 00:15:15.944 ainda vemos que imagens do lado esquerdo 00:15:15.944 --> 00:15:17.722 e do direito estão todas misturadas. 00:15:17.722 --> 00:15:19.862 Podemos novamente dar dicas ao computador, 00:15:19.862 --> 00:15:22.838 e dizer ok, encontre uma projeção que separe 00:15:22.838 --> 00:15:25.445 os lados esquerdo e direito o melhor possível 00:15:25.445 --> 00:15:27.567 usando o algoritmo de aprendizado profundo. 00:15:27.567 --> 00:15:30.509 E dando aquela dica - ah, ok, conseguiu. 00:15:30.509 --> 00:15:33.391 Encontrou um jeito de pensar nestes objetos 00:15:33.391 --> 00:15:35.111 que acabou agrupando-os. 00:15:36.361 --> 00:15:38.209 Vocês entendem a ideia aqui. 00:15:39.199 --> 00:15:46.448 Não é o caso de substituir o humano pelo computador, 00:15:46.448 --> 00:15:49.046 mas sim trabalharem juntos. 00:15:49.046 --> 00:15:52.496 O que fazemos aqui é substituir algo que costumava demandar de uma equipe 00:15:52.496 --> 00:15:54.688 de cinco ou seis pessoas por cerca de sete anos 00:15:54.688 --> 00:15:57.203 com algo que leva apenas 15 minutos 00:15:57.203 --> 00:15:59.708 para uma pessoa só. 00:15:59.708 --> 00:16:03.658 Esse processo demanda cerca de quatro ou cinco iterações. 00:16:03.658 --> 00:16:05.297 Podemos ver que agora temos 62% 00:16:05.297 --> 00:16:08.476 de nossas 1,5 milhão de fotos classificadas corretamente. 00:16:08.476 --> 00:16:10.348 Neste ponto podemos rapidamente 00:16:10.348 --> 00:16:12.245 pegar seções inteiras 00:16:12.245 --> 00:16:14.804 e checar se não há erros. 00:16:14.804 --> 00:16:19.116 Ao encontramos erros, podemos deixar o computador analisar. 00:16:19.116 --> 00:16:22.161 Usando esse tipo de processo em cada um dos diferentes grupos, 00:16:22.161 --> 00:16:24.648 temos agora 80% de índice de sucesso 00:16:24.648 --> 00:16:27.063 classificando 1,5 milhão de fotos. 00:16:27.063 --> 00:16:29.141 Nesse ponto é só o caso de encontrar 00:16:29.141 --> 00:16:32.720 o pequeno número que ainda não está classificado corretamente, 00:16:32.720 --> 00:16:35.608 e tentar entender o motivo. 00:16:35.608 --> 00:16:37.351 E com essa abordagem, 00:16:37.351 --> 00:16:41.472 em 15 minutos temos 97% de índice de classificação. 00:16:41.472 --> 00:16:46.072 Então esse tipo de técnica nos permite resolver um grande problema, 00:16:46.078 --> 00:16:49.114 que é a falta de competência médica no mundo. 00:16:49.114 --> 00:16:52.603 O Fórum Econômico Mundial diz que há escassez de algo entre 10 e 20 vezes 00:16:52.603 --> 00:16:55.227 de médicos no mundo em desenvolvimento, 00:16:55.227 --> 00:16:57.340 e que levaria cerca de 300 anos 00:16:57.340 --> 00:17:00.234 para treinar gente suficiente para resolver o problema. 00:17:00.234 --> 00:17:03.119 Imaginem conseguirmos aumentar a eficiência 00:17:03.119 --> 00:17:05.958 usando essas abordagens de aprendizado profundo? 00:17:05.958 --> 00:17:08.190 Por isso estou empolgado com as oportunidades. 00:17:08.190 --> 00:17:10.779 E estou preocupado com os problemas. 00:17:10.779 --> 00:17:13.903 O problema aqui é que cada área em azul no mapa 00:17:13.903 --> 00:17:17.672 é um lugar onde os serviços correspondem a mais de 80% dos empregos. 00:17:17.672 --> 00:17:19.459 O que são serviços? 00:17:19.459 --> 00:17:20.973 São estes. 00:17:20.973 --> 00:17:25.136 São também exatamente o que os computadores aprenderam a fazer. 00:17:25.136 --> 00:17:28.931 Então, 80% dos empregos no mundo no mundo desenvolvido 00:17:28.931 --> 00:17:31.463 é algo que computadores já aprenderam a fazer. 00:17:31.463 --> 00:17:32.733 O que isso significa? 00:17:32.733 --> 00:17:35.296 Ficaremos bem. Serão substituídos por outros empregos. 00:17:35.296 --> 00:17:38.013 Por exemplo serão mais empregos para cientistas de dados. 00:17:38.013 --> 00:17:39.010 Na verdade não. 00:17:39.010 --> 00:17:42.018 Não leva muito tempo para cientistas de dados fazerem isto. 00:17:42.018 --> 00:17:45.380 Por exemplo, os quatro algoritmos foram construídos pela mesma pessoa. 00:17:45.380 --> 00:17:47.818 Então se pensar: "Ah, isso já aconteceu antes", 00:17:47.818 --> 00:17:51.626 já vimos isso antes, quando coisas novas chegam 00:17:51.626 --> 00:17:53.878 e novos empregos aparecem, 00:17:53.878 --> 00:17:55.994 como serão estes novos empregos? 00:17:55.994 --> 00:17:57.865 É muito difícil estimar isso, 00:17:57.865 --> 00:18:00.604 porque o desempenho humano cresce neste ritmo gradual, 00:18:00.604 --> 00:18:03.166 mas agora temos um sistema, aprendizado profundo, 00:18:03.166 --> 00:18:06.393 que sabemos crescer em ritmo exponencial. 00:18:06.393 --> 00:18:07.998 E estamos aqui. 00:18:07.998 --> 00:18:10.059 Então hoje vemos as coisas ao redor 00:18:10.059 --> 00:18:12.735 e dizemos: "Oh, os computadores são tão burros". Certo? 00:18:12.735 --> 00:18:16.164 Mas em cinco anos os computadores estarão fora deste gráfico. 00:18:16.164 --> 00:18:19.699 Então precisamos começar a pensar nesta capacidade desde já. 00:18:19.699 --> 00:18:21.789 Já vimos isso antes, claro. 00:18:21.789 --> 00:18:23.326 Na Revolução Industrial, 00:18:23.326 --> 00:18:26.317 vimos uma mudança na capacidade graças aos motores. 00:18:27.167 --> 00:18:30.305 Acontece que, as coisas foram se nivelando. 00:18:30.305 --> 00:18:32.007 Houve distúrbio social, 00:18:32.007 --> 00:18:35.446 mas quando os motores foram usados para gerar força em todas as situações 00:18:35.446 --> 00:18:37.150 as coisas se acalmaram. 00:18:37.800 --> 00:18:41.582 A Revolução do Aprendizado de Máquina será bem diferente, 00:18:41.582 --> 00:18:44.969 porque ela nunca se acalma. 00:18:44.969 --> 00:18:48.164 Quanto mais as capacidades intelectuais dos computadores melhorarem, 00:18:48.164 --> 00:18:52.362 mais eles podem construir outros computadores, melhores nisso, 00:18:52.362 --> 00:18:54.270 então esse será um tipo de mudança 00:18:54.270 --> 00:18:56.748 que o mundo nunca teve antes, 00:18:56.748 --> 00:19:00.054 então sua compreensão anterior do que é possível é diferente. 00:19:00.474 --> 00:19:02.254 Isso já está nos afetando. 00:19:02.254 --> 00:19:05.860 Nos últimos 25 anos, como a produtividade de capital aumentou, 00:19:05.860 --> 00:19:10.088 a produtividade de mão de obra estacionou, de fato até caiu um pouco. 00:19:10.908 --> 00:19:13.649 Então quero que comecemos esta discussão já. 00:19:13.649 --> 00:19:16.356 Sei que quando conto isso para as pessoas, 00:19:16.356 --> 00:19:18.166 elas podem acabar desdenhando: 00:19:18.166 --> 00:19:19.839 "os computadores não sabem pensar, 00:19:19.839 --> 00:19:22.867 não se emocionam, não entendem poesia, 00:19:22.867 --> 00:19:25.108 não sabemos como eles funcionam". 00:19:25.108 --> 00:19:26.484 E daí? 00:19:26.484 --> 00:19:28.638 Hoje os computadores fazem coisas 00:19:28.638 --> 00:19:31.397 que passamos a maior parte do tempo sendo pagos para fazer, 00:19:31.397 --> 00:19:33.653 então chegou a hora de pensar 00:19:33.653 --> 00:19:37.273 em como vamos ajustar nossas estruturas sociais e econômicas 00:19:37.273 --> 00:19:39.355 para essa nova realidade. 00:19:39.355 --> 00:19:40.888 Obrigado. 00:19:40.888 --> 00:19:43.918 (Aplausos)