Antigamente, quando queríamos que um computador fizesse uma coisa nova, tínhamos que o programar. Para quem nunca fez programação, a programação exige descrever com um pormenor minucioso cada um dos passos que queremos que o computador faça para atingimos o nosso objetivo. Se quisermos fazer uma coisa que não sabemos fazer, isso torna-se num grande problema. Foi esse o problema que este homem, Arthur Samuel, enfrentou. Em 1956, quis que este computador o vencesse no xadrez. Como é possível escrever um programa, com um pormenor minucioso, para que outro seja melhor do que nós no xadrez? Então ele teve uma ideia: pôs o computador a jogar contra si mesmo, milhares de vezes, e a aprender a jogar xadrez. E, de facto, isso resultou. Em 1962, o computador venceu o campeão de Connecticut. Portanto, Arthur Samuel foi o pai da aprendizagem das máquinas e eu sinto-me em dívida para com ele porque eu sou praticante da aprendizagem das máquinas. Fui o presidente da Kaggle, uma comunidade com mais de 200 000 praticantes da aprendizagem das máquinas. A Kaggle promove competições para eles tentarem resolver problemas até aí insolúveis. Tem sido um êxito, centenas de vezes. Desta posição de vantagem, consegui aprender muito sobre o que a aprendizagem das máquinas pôde fazer no passado, pode fazer hoje e o que pode fazer no futuro. Talvez que o maior êxito comercial da aprendizagem das máquinas, tenha sido o Google. O Google mostrou que é possível encontrar informações usando um algoritmo para computador e esse algoritmo baseia-se na aprendizagem das máquinas. Desde aí, tem havido muitos êxitos comerciais de aprendizagem das máquinas. Empresas como a Amazon e a Netflix usam a aprendizagem das máquinas para sugerir produtos que podemos querer comprar, filmes que podemos gostar de ver. Por vezes, até arrepia. Empresas como o LinkedIn e o Facebook dizem-nos quem poderão ser os nossos amigos e não fazemos ideia de como é que lá chegam. É porque estão a usar o poder da aprendizagem das máquinas. São algoritmos que aprenderam a fazer, a partir dos dados, em vez de serem programados à mão. Foi também assim que a IBM teve êxito em conseguir que Watson vencesse dois campeões mundiais em "Jeopardy", respondendo a perguntas incrivelmente subtis e complexas como esta: [Quando desapareceu o "Leão de Nimrud" do museu desta cidade?] É também por isso que temos os primeiros carros autónomos. Se quisermos que eles saibam a diferença entre uma árvore e um peão, por exemplo, é muito importante. Não sabemos como escrever esses programas à mão, mas com a aprendizagem das máquinas, isso agora é possível. Na verdade, este carro já percorreu mais de um milhão de quilómetros sem qualquer acidente, em estradas normais. Portanto, já sabemos que os computadores podem aprender, e os computadores aprendem a fazer coisas que, por vezes, nós próprios não sabemos fazer, ou talvez consigam fazê-las melhor do que nós. Um dos exemplos mais espantosos que já vi de aprendizagem de máquinas aconteceu num projeto que eu dirigi na Kaggle onde uma equipa, dirigida por um tipo chamado Geoffrey Hinton, da Universidade de Toronto, ganhou um concurso para deteção automática de drogas. O que houve de extraordinário não foi só ele ter batido todos os algoritmos desenvolvidos pela Merck ou pela comunidade académica internacional, mas o facto de que ninguém da equipa tinha qualquer formação em química, biologia ou ciências da vida e fizeram aquilo em duas semanas! Como é que conseguiram? Usaram um algoritmo extraordinário, chamado "aprendizagem profunda". Isso foi tão importante que o The New York Times publicou um artigo de primeira página, semanas depois. Este é Geoffrey Hinton, aqui do lado esquerdo. A profunda aprendizagem é um algoritmo inspirado na forma como funciona o cérebro humano. Por isso, é um algoritmo que teoricamente não tem limites para o que pode fazer. Quantos mais dados lhe dermos e mais tempo de cálculo lhe dermos, melhor ele fica. O The New York Times também mostrou nesse artigo outro resultado extraordinário da aprendizagem profunda que vos vou mostrar agora. Mostra que os computadores ouvem e compreendem. (Vídeo) Agora, o último passo que quero poder dar neste processo é falar convosco em chinês. A coisa fundamental aqui é que conseguimos arranjar uma grande quantidade de informações de muitos falantes da língua chinesa e produzir um sistema de texto-para-discurso que agarra num texto em chinês e o transforma em língua chinesa. Depois gravámos a minha voz durante cerca de uma hora e usámo-la para modular o sistema padrão texto-para-discurso, para ficar com o som da minha voz. O resultado não é perfeito. Na verdade, há bastantes erros. (Tradução da frase em chinês) (Risos) (Aplausos) Há muito trabalho a fazer nesta área. (Tradução da frase em chinês) (Aplausos) Isto foi numa conferência na China, sobre aprendizagem de máquinas. Não é com frequência ouvir aplausos espontâneos em conferências académicas, embora isso aconteça por vezes nas conferências TEDx. Tudo aquilo foi feito com a aprendizagem profunda. (Aplausos) Obrigado. A transcrição em inglês foi feita com aprendizagem profunda. A tradução para chinês e o texto em cima à direita, também. A construção da voz também foi aprendizagem profunda. Portanto, a aprendizagem profunda é esta coisa extraordinária. É um simples algoritmo que parece poder fazer quase tudo. Descobri que, um ano antes, também tinha aprendido a ver. Nesta competição pouco conhecida da Alemanha, Reconhecimento dos Sinais de Trânsito, a aprendizagem profunda aprendeu a reconhecer sinais de trânsito como este. Não só reconheceu os sinais de trânsito melhor do que qualquer outro algoritmo, mas o quadro de classificações mostrou que foi quase duas vezes melhor do que as pessoas. Em 2011, tivemos o primeiro exemplo de computadores que veem melhor do que as pessoas. Desde essa data, muita coisa aconteceu. Em 2012, a Google anunciou que tinha um algoritmo de aprendizagem profunda a ver os vídeos do Youtube e 16 000 computadores a digerir os dados , durante um mês. Os computadores aprenderam sozinhos conceitos como "pessoas" e "gatos", só por verem os vídeos. É parecido com a forma como as pessoas aprendem. As pessoas não aprendem por lhes dizerem o que veem, aprendem por si próprias o que são essas coisas. Também em 2012, Geoffrey Hinton, que vimos há bocado, ganhou o popular concurso ImageNet, tentando descobrir, entre um milhão e meio de imagens, que imagens eram essas. Em 2014, atingimos uma taxa de erro de seis por cento em reconhecimento de imagem. Mais uma vez, é melhor do que as pessoas. As máquinas estão a fazer um trabalho terrivelmente bom, que está a começar a ser usado na indústria. Por exemplo, a Google anunciou que, no ano passado, tinha mapeado todas as localidades em França, em duas horas. Como é que o fizeram? Introduziram imagens de ruas num algoritmo de aprendizagem profunda para reconhecimento e leitura dos números das ruas. Imaginem quanto tempo demoraria isso antigamente: dezenas de pessoas, muitos anos. Isto também está a acontecer na China. Penso que Baidu é uma espécie de Google chinês. O que veem aqui em cima à esquerda é um exemplo duma imagem que eu introduzi no sistema de aprendizagem profunda de Baidu. Em baixo, vemos que o sistema percebeu o que é aquela imagem e encontrou imagens semelhantes. As imagens semelhantes têm antecedentes semelhantes direções semelhantes dos focinhos, alguns até com a língua de fora. Não é propriamente olhar para o texto duma página "web". Eu só introduzi uma imagem. Portanto, agora temos computadores que percebem o que veem e, portanto, podem procurar nas bases de dados de centenas de milhões de imagens em tempo real. O que é que significa os computadores poderem ver? Não se trata apenas de os computadores poderem ver. A aprendizagem profunda é mais do que isso. Frases complexas, com cambiantes, como esta, são compreensíveis com algoritmos de aprendizagem profunda. Como podem ver aqui, este sistema baseado em Stanford, que tem o ponto vermelho lá em cima, concluiu que esta frase exprime um sentimento negativo. A aprendizagem profunda está próxima do desempenho humano na compreensão do sentido das frases e o que elas dizem sobre as coisas. A aprendizagem profunda também tem sido usada para ler chinês, a um nível de pessoas que falam chinês nativo. Este algoritmo foi desenvolvido na Suíça, por pessoas que não falam nem percebem chinês. Como eu disse, o uso da aprendizagem profunda é o melhor sistema do mundo para isto mesmo em comparação com a compreensão humana nativa. Isto é um sistema que construímos na minha empresa que mostra como se montou tudo isto. Isto são imagens que não têm qualquer texto anexo. Quando eu escrevo frases aqui, ele vai percebendo essas imagens em tempo real, vai percebendo sobre o que é que elas são e procura imagens semelhantes ao texto que eu estou a escrever. Está a perceber as minhas frases e a perceber as imagens. Sei que já viram coisa parecida no Google, onde podem escrever coisas e aparecem imagens, mas o que ele faz é pesquisar a página "web" pelo texto. É muito diferente de perceber as imagens. É uma coisa que os computadores só foram capazes de fazer pela primeira vez há poucos meses. Podemos assim ver que os computadores não só podem ver como podem ler. Mostrámos que eles compreendem o que ouvem. Talvez não seja surpresa se eu vos disser que eles podem escrever. Este é um texto que eu produzi ontem usando um algoritmo de aprendizagem profunda. E este é um texto produzido por um algoritmo de Stanford. Cada uma destas frases foi gerada por um algoritmo de aprendizagem profunda para descrever cada uma destas imagens. Este algoritmo nunca tinha visto um homem de camisa preta a tocar guitarra. Já tinha visto um homem. Já tinha visto preto. Já tinha visto uma guitarra. E gerou independentemente esta nova descrição da imagem. Ainda não estamos ao nível do desempenho humano, mas quase. Em testes, os homens preferem a legenda produzida pelo computador, uma em cada quatro vezes. Este sistema só tem duas semanas, portanto, provavelmente no próximo ano, o algoritmo do computador estará muito para além do desempenho humano ao ritmo com que as coisas estão a avançar. Portanto, os computadores também podem escrever. Juntamos isto tudo e chegamos a oportunidades muito excitantes. Por exemplo, na medicina. Uma equipa em Boston anunciou que tinha descoberto dezenas de novas características de tumores, clinicamente relevantes, que ajudam os médicos a fazer o prognóstico do cancro. De igual modo, em Stanford, um grupo anunciou que, observando tecidos à lupa, desenvolveram um sistema baseado na aprendizagem de máquinas que é melhor do que os patologistas humanos na previsão das taxas de sobrevivência para os doentes de cancro. Em ambos os casos, as previsões foram mais rigorosas e também geraram uma nova ciência de perceção. No caso da radiologia, houve novos indicadores clínicos que os seres humanos percebem. Neste caso patológico, o sistema do computador descobriu que as células em volta do cancro são tão importantes como as células cancerosas para fazer um diagnóstico. Isto é o oposto do que os patologistas têm vindo a aprender há décadas. Em cada um destes dois casos, foram sistemas desenvolvidos por um conjunto de médicos e de especialistas de aprendizagem de máquinas. No ano passado, também já ultrapassámos isso. Este é um exemplo da identificação de áreas cancerosas de tecido humano visto ao microscópio. O sistema que aqui mostramos identifica essas áreas mais rigorosamente ou quase tão rigorosamente como os patologistas humanos mas foi construído totalmente com aprendizagem profunda, sem usar competências médicas, por pessoas que não têm qualquer formação neste campo. De igual modo, a segmentação deste neurónio. Podemos segmentar neurónios quase tão rigorosamente como o homem. Este sistema foi desenvolvido com aprendizagem profunda usando pessoas sem quaisquer antecedentes prévios em medicina. Eu não tenho qualquer formação em medicina, mas pareço estar bem qualificado para fundar uma nova empresa médica, coisa que já fiz. Fiquei um bocado receoso ao fazê-lo, mas a teoria sugeria que devia ser possível fazer medicina útil usando apenas estas técnicas analíticas de dados. Felizmente, o retorno tem sido fantástico, não só dos "media", mas da comunidade médica, que têm sido muito solidários. A teoria é que podemos assumir a parte média do processo médico e transformar isso em análise de dados, tanto quanto possível, deixando que os médicos façam aquilo em que são melhores. Vou dar-vos um exemplo. Neste momento, fazer um novo teste de diagnóstico médico demora 15 minutos. Vou mostrar-vos isso, em tempo real, mas comprimi-o em três minutos cortando algumas partes. Em vez de vos mostrar a criação de um teste de diagnóstico médico, vou mostrar-vos um teste diagnóstico de imagens de um carro, porque é uma coisa que todos podemos perceber. Começamos com cerca de milhão e meio de imagens de carros. Quero criar qualquer coisa que os possa dividir segundo o ângulo em que a foto foi tirada. Estas imagens não têm qualquer legenda, portanto tenho que começar do zero. Com o nosso algoritmo de aprendizagem profunda, posso identificar automaticamente áreas de estrutura nestas imagens. Mas agora as pessoas e o computador podem trabalhar em conjunto. O ser humano, como podem ver, está a dizer ao computador quais são as áreas de interesse que ele quer que o computador experimente e use para melhorar o algoritmo. Estes sistemas de aprendizagem profunda estão num espaço de 16 000 dimensões. Podem ver aqui o computador a rodar através desse espaço. tentando encontrar novas áreas de estrutura. Quando o consegue fazer, quem está a utilizá-lo pode assinalar as áreas que têm interesse. Aqui, o computador conseguiu encontrar áreas, por exemplo, ângulos. À medida que avançamos neste processo, vamos dizendo ao computador cada vez mais coisas sobre o tipo de estruturas que andamos a procurar. Num exame de diagnóstico isso será um patologista a identificar áreas patológicas, por exemplo. ou um radiologista indicando nódulos potencialmente perturbadores. Por vezes pode ser difícil para o algoritmo. Neste caso, ele ficou confuso. As frentes e as traseiras dos carros estão misturadas. Portanto, temos que ser mais cuidadosos, selecionando manualmente as frentes, em oposição às traseiras, e depois dizendo ao computador qual é o tipo de grupo em que estamos interessados. Fazemos isso por algum tempo, passamos à frente e treinamos o algoritmo de aprendizagem da máquina com base em meia-dúzia entre centenas de coisas e esperamos que ele funcione melhor. Começa a esbater algumas dessas imagens, mostrando que já está a perceber como as reconhecer. Podemos depois usar este conceito de imagens semelhantes. Usando imagens semelhantes, o computador já é capaz de encontrar as frentes dos carros. Portanto, já podemos dizer ao computador: "Ok, fizeste um bom trabalho". Por vezes, claro, mesmo nesta altura, ainda é difícil separar grupos. Neste caso, mesmo depois de termos deixado que o computador tentasse rodar durante um tempo, ainda vemos que as imagens do lado esquerdo e do lado direito estão todas misturadas. Temos que voltar a dar algumas pistas ao computador e tentar encontrar uma projeção que separe os lados esquerdos dos direitos, tanto quanto possível, usando este algoritmo. Demos-lhe essa pista e, ok, resultou. Ele arranjou forma de pensar nesses objetos e separar estes do conjunto. Ficaram com uma ideia. Isto não é um caso em que o ser humano é substituído por um computador, mas um caso em que estamos a trabalhar em conjunto. Substituímos uma coisa que exigia uma equipa de cinco ou seis pessoas, durante sete anos, por uma coisa que demora 15 minutos e em que intervém uma única pessoa. Este processo leva quatro a cinco repetições. Podem ver que temos 62% de um milhão e meio de imagens classificadas corretamente. Neste ponto, podemos começar rapidamente a agarrar em grandes secções inteiras e verificá-las para assegurarmos que não há erros. Se houver erros, podemos mostrá-los ao computador. Usando este tipo de procedimento, para cada um dos diferentes grupos, atingimos agora uma taxa de 80% de êxito na classificação de um milhão e meio de imagens. Neste ponto, é apenas uma questão de encontrar o pequeno número das que não foram bem classificadas e tentar perceber qual a razão. Usando esta abordagem, em 15 minutos obtemos 97% de taxa de classificação. Este tipo de técnica pode permitir-nos resolver um importante problema, que é a falta de médicos a nível mundial. O Fórum Económico Mundial diz que há uma escassez de médicos, entre 10 a 20 vezes, no mundo em desenvolvimento e serão precisos cerca de 300 anos para formar gente suficiente para resolver esse problema. Imaginem se pudermos ajudar a aumentar a sua eficácia usando estas abordagens de aprendizagem profunda. Por isso estou muito entusiasmado com as oportunidades. Mas também me preocupam os problemas. O problema aqui é que todas as áreas a azul neste mapa são onde os serviços representam 80% dos empregos. O que são serviços? Isto são serviços. São exatamente as coisas que os computadores aprenderam a fazer. Portanto, 80% dos empregos mundiais no mundo desenvolvido são coisas que os computadores acabaram de aprender a fazer. O que é que isso significa? "Não há problema! Haverá outros empregos, "mais empregos para os cientistas de dados". Bem, não é bem assim. Em breve não serão necessários cientistas para construir estas coisas. Por exemplo, estes quatro algoritmos foram construídos pelo mesmo tipo. Se pensarem bem, isto já aconteceu em tempos, vimos os resultados no passado, quando apareceram coisas novas e foram substituídas por novos empregos. Que novos empregos serão esses? É muito difícil calcular isso porque o desempenho humano cresce a este ritmo gradual, mas agora temos um sistema, de aprendizagem profunda que cresce exponencialmente em capacidade. E estamos aqui. Vemos as coisas à nossa volta e dizemos: "Oh, os computadores são muito estúpidos". Mas daqui a cinco anos, os computadores estarão fora deste gráfico. Portanto, precisamos de começar já a pensar nesta capacidade. Já vimos isto outrora, claro. Na Revolução Industrial, vimos uma mudança de nível na capacidade, graças às máquinas. Mas, depois de algum tempo, as coisas estabilizaram. Houve perturbação social mas, depois de os motores passarem a ser usados para gerar energia, as coisas estabilizaram. A Revolução da Aprendizagem das Máquinas vai ser diferente da Revolução Industrial, porque a Revolução da Aprendizagem das Máquinas não vai estabilizar Quando os computadores melhorarem em atividades intelectuais, poderão construir computadores melhores, com capacidades intelectuais melhores. Portanto, isso vai ser um tipo de mudança que o mundo nunca experimentou antes. A nossa compreensão do que é possível é diferente. Isto já está a ter impacto em nós. Nos últimos 25 anos, enquanto a produtividade do capital tem aumentado, a produtividade do trabalho tem estagnado, ou mesmo baixado um pouco. Portanto, quero que comecemos a analisar já este problema. Sei que, quando falo às pessoas nesta situação, as pessoas podem mostrar-se muito desdenhosas: "Os computadores não pensam, "não têm emoções, não entendem poesia, "não sabemos bem como funcionam..." E depois? Os computadores agora fazem coisas em que as pessoas gastam tempo e para as quais são pagas. Portanto é altura de começar a pensar no que é que vamos fazer para ajustar as nossas estruturas sociais e económicas para estarem de acordo com esta nova realidade. Obrigado. (Aplausos)