Antigamente, quando queríamos que
um computador fizesse uma coisa nova,
tínhamos que o programar.
Para quem nunca fez programação,
a programação exige descrever
com um pormenor minucioso
cada um dos passos que queremos
que o computador faça
para atingimos o nosso objetivo.
Se quisermos fazer uma coisa
que não sabemos fazer,
isso torna-se num grande problema.
Foi esse o problema que
este homem, Arthur Samuel, enfrentou.
Em 1956, quis que este computador
o vencesse no xadrez.
Como é possível escrever um programa,
com um pormenor minucioso, para que
outro seja melhor do que nós no xadrez?
Então ele teve uma ideia:
pôs o computador a jogar
contra si mesmo, milhares de vezes,
e a aprender a jogar xadrez.
E, de facto, isso resultou.
Em 1962, o computador venceu
o campeão de Connecticut.
Portanto, Arthur Samuel foi
o pai da aprendizagem das máquinas
e eu sinto-me em dívida para com ele
porque eu sou praticante
da aprendizagem das máquinas.
Fui o presidente da Kaggle,
uma comunidade com mais
de 200 000 praticantes
da aprendizagem das máquinas.
A Kaggle promove competições
para eles tentarem resolver
problemas até aí insolúveis.
Tem sido um êxito, centenas de vezes.
Desta posição de vantagem,
consegui aprender muito
sobre o que a aprendizagem das máquinas
pôde fazer no passado, pode fazer hoje
e o que pode fazer no futuro.
Talvez que o maior êxito comercial
da aprendizagem das máquinas,
tenha sido o Google.
O Google mostrou que é possível
encontrar informações
usando um algoritmo para computador
e esse algoritmo baseia-se
na aprendizagem das máquinas.
Desde aí, tem havido
muitos êxitos comerciais
de aprendizagem das máquinas.
Empresas como a Amazon e a Netflix
usam a aprendizagem das máquinas
para sugerir produtos
que podemos querer comprar,
filmes que podemos gostar de ver.
Por vezes, até arrepia.
Empresas como o LinkedIn e o Facebook
dizem-nos quem
poderão ser os nossos amigos
e não fazemos ideia
de como é que lá chegam.
É porque estão a usar o poder
da aprendizagem das máquinas.
São algoritmos que aprenderam
a fazer, a partir dos dados,
em vez de serem programados à mão.
Foi também assim que a IBM teve êxito
em conseguir que Watson vencesse
dois campeões mundiais em "Jeopardy",
respondendo a perguntas
incrivelmente subtis e complexas como esta:
[Quando desapareceu o "Leão de Nimrud"
do museu desta cidade?]
É também por isso que temos
os primeiros carros autónomos.
Se quisermos que eles saibam a diferença
entre uma árvore e um peão,
por exemplo, é muito importante.
Não sabemos como escrever
esses programas à mão,
mas com a aprendizagem das máquinas,
isso agora é possível.
Na verdade, este carro já percorreu
mais de um milhão de quilómetros
sem qualquer acidente,
em estradas normais.
Portanto, já sabemos
que os computadores podem aprender,
e os computadores aprendem a fazer coisas
que, por vezes, nós próprios
não sabemos fazer,
ou talvez consigam fazê-las
melhor do que nós.
Um dos exemplos mais espantosos que já vi
de aprendizagem de máquinas
aconteceu num projeto
que eu dirigi na Kaggle
onde uma equipa, dirigida
por um tipo chamado Geoffrey Hinton,
da Universidade de Toronto,
ganhou um concurso
para deteção automática de drogas.
O que houve de extraordinário
não foi só ele ter batido
todos os algoritmos
desenvolvidos pela Merck
ou pela comunidade
académica internacional,
mas o facto de que ninguém da equipa
tinha qualquer formação em química,
biologia ou ciências da vida
e fizeram aquilo em duas semanas!
Como é que conseguiram?
Usaram um algoritmo extraordinário,
chamado "aprendizagem profunda".
Isso foi tão importante
que o The New York Times
publicou um artigo de primeira página,
semanas depois.
Este é Geoffrey Hinton,
aqui do lado esquerdo.
A profunda aprendizagem é um algoritmo
inspirado na forma
como funciona o cérebro humano.
Por isso, é um algoritmo
que teoricamente não tem limites
para o que pode fazer.
Quantos mais dados lhe dermos
e mais tempo de cálculo lhe dermos,
melhor ele fica.
O The New York Times
também mostrou nesse artigo
outro resultado extraordinário
da aprendizagem profunda
que vos vou mostrar agora.
Mostra que os computadores
ouvem e compreendem.
(Vídeo) Agora, o último passo
que quero poder dar neste processo
é falar convosco em chinês.
A coisa fundamental aqui
é que conseguimos arranjar
uma grande quantidade de informações
de muitos falantes da língua chinesa
e produzir um sistema
de texto-para-discurso
que agarra num texto em chinês
e o transforma em língua chinesa.
Depois gravámos a minha voz
durante cerca de uma hora
e usámo-la para modular
o sistema padrão texto-para-discurso,
para ficar com o som da minha voz.
O resultado não é perfeito.
Na verdade, há bastantes erros.
(Tradução da frase em chinês)
(Risos)
(Aplausos)
Há muito trabalho a fazer nesta área.
(Tradução da frase em chinês)
(Aplausos)
Isto foi numa conferência na China,
sobre aprendizagem de máquinas.
Não é com frequência
ouvir aplausos espontâneos
em conferências académicas,
embora isso aconteça
por vezes nas conferências TEDx.
Tudo aquilo foi feito
com a aprendizagem profunda.
(Aplausos)
Obrigado.
A transcrição em inglês foi feita
com aprendizagem profunda.
A tradução para chinês
e o texto em cima à direita, também.
A construção da voz também
foi aprendizagem profunda.
Portanto, a aprendizagem profunda
é esta coisa extraordinária.
É um simples algoritmo
que parece poder fazer quase tudo.
Descobri que, um ano antes,
também tinha aprendido a ver.
Nesta competição
pouco conhecida da Alemanha,
Reconhecimento dos Sinais de Trânsito,
a aprendizagem profunda aprendeu
a reconhecer sinais de trânsito como este.
Não só reconheceu os sinais de trânsito
melhor do que qualquer outro algoritmo,
mas o quadro de classificações mostrou
que foi quase duas vezes
melhor do que as pessoas.
Em 2011, tivemos o primeiro exemplo
de computadores que veem
melhor do que as pessoas.
Desde essa data, muita coisa aconteceu.
Em 2012, a Google anunciou que tinha
um algoritmo de aprendizagem profunda
a ver os vídeos do Youtube
e 16 000 computadores a digerir os dados ,
durante um mês.
Os computadores aprenderam sozinhos
conceitos como "pessoas" e "gatos",
só por verem os vídeos.
É parecido com a forma
como as pessoas aprendem.
As pessoas não aprendem
por lhes dizerem o que veem,
aprendem por si próprias
o que são essas coisas.
Também em 2012, Geoffrey Hinton,
que vimos há bocado,
ganhou o popular concurso ImageNet,
tentando descobrir,
entre um milhão e meio de imagens,
que imagens eram essas.
Em 2014, atingimos
uma taxa de erro de seis por cento
em reconhecimento de imagem.
Mais uma vez, é melhor do que as pessoas.
As máquinas estão a fazer
um trabalho terrivelmente bom,
que está a começar
a ser usado na indústria.
Por exemplo, a Google anunciou
que, no ano passado,
tinha mapeado todas as localidades
em França, em duas horas.
Como é que o fizeram?
Introduziram imagens de ruas
num algoritmo de aprendizagem profunda
para reconhecimento e leitura
dos números das ruas.
Imaginem quanto tempo
demoraria isso antigamente:
dezenas de pessoas, muitos anos.
Isto também está a acontecer na China.
Penso que Baidu
é uma espécie de Google chinês.
O que veem aqui em cima à esquerda
é um exemplo duma imagem que eu introduzi
no sistema de aprendizagem
profunda de Baidu.
Em baixo, vemos que o sistema
percebeu o que é aquela imagem
e encontrou imagens semelhantes.
As imagens semelhantes
têm antecedentes semelhantes
direções semelhantes dos focinhos,
alguns até com a língua de fora.
Não é propriamente olhar
para o texto duma página "web".
Eu só introduzi uma imagem.
Portanto, agora temos computadores
que percebem o que veem
e, portanto, podem procurar
nas bases de dados
de centenas de milhões
de imagens em tempo real.
O que é que significa
os computadores poderem ver?
Não se trata apenas
de os computadores poderem ver.
A aprendizagem profunda
é mais do que isso.
Frases complexas,
com cambiantes, como esta,
são compreensíveis com algoritmos
de aprendizagem profunda.
Como podem ver aqui,
este sistema baseado em Stanford,
que tem o ponto vermelho lá em cima,
concluiu que esta frase exprime
um sentimento negativo.
A aprendizagem profunda
está próxima do desempenho humano
na compreensão do sentido das frases
e o que elas dizem sobre as coisas.
A aprendizagem profunda
também tem sido usada para ler chinês,
a um nível de pessoas
que falam chinês nativo.
Este algoritmo foi desenvolvido na Suíça,
por pessoas que não falam
nem percebem chinês.
Como eu disse,
o uso da aprendizagem profunda
é o melhor sistema do mundo para isto
mesmo em comparação
com a compreensão humana nativa.
Isto é um sistema
que construímos na minha empresa
que mostra como se montou tudo isto.
Isto são imagens
que não têm qualquer texto anexo.
Quando eu escrevo frases aqui,
ele vai percebendo essas imagens
em tempo real,
vai percebendo sobre o que é que elas são
e procura imagens semelhantes ao texto
que eu estou a escrever.
Está a perceber as minhas frases
e a perceber as imagens.
Sei que já viram coisa parecida no Google,
onde podem escrever coisas
e aparecem imagens,
mas o que ele faz é pesquisar
a página "web" pelo texto.
É muito diferente de perceber as imagens.
É uma coisa que os computadores
só foram capazes de fazer
pela primeira vez há poucos meses.
Podemos assim ver que os computadores
não só podem ver como podem ler.
Mostrámos que eles compreendem
o que ouvem.
Talvez não seja surpresa se eu vos disser
que eles podem escrever.
Este é um texto que eu produzi ontem
usando um algoritmo
de aprendizagem profunda.
E este é um texto produzido
por um algoritmo de Stanford.
Cada uma destas frases foi gerada
por um algoritmo de aprendizagem profunda
para descrever cada uma destas imagens.
Este algoritmo nunca tinha visto
um homem de camisa preta a tocar guitarra.
Já tinha visto um homem.
Já tinha visto preto.
Já tinha visto uma guitarra.
E gerou independentemente
esta nova descrição da imagem.
Ainda não estamos ao nível
do desempenho humano, mas quase.
Em testes, os homens preferem
a legenda produzida pelo computador,
uma em cada quatro vezes.
Este sistema só tem duas semanas,
portanto, provavelmente no próximo ano,
o algoritmo do computador estará
muito para além do desempenho humano
ao ritmo com que as coisas
estão a avançar.
Portanto, os computadores
também podem escrever.
Juntamos isto tudo e chegamos
a oportunidades muito excitantes.
Por exemplo, na medicina.
Uma equipa em Boston anunciou
que tinha descoberto
dezenas de novas características
de tumores,
clinicamente relevantes,
que ajudam os médicos
a fazer o prognóstico do cancro.
De igual modo, em Stanford,
um grupo anunciou que,
observando tecidos à lupa,
desenvolveram um sistema
baseado na aprendizagem de máquinas
que é melhor do que
os patologistas humanos
na previsão das taxas de sobrevivência
para os doentes de cancro.
Em ambos os casos,
as previsões foram mais rigorosas
e também geraram
uma nova ciência de perceção.
No caso da radiologia,
houve novos indicadores clínicos
que os seres humanos percebem.
Neste caso patológico,
o sistema do computador descobriu
que as células em volta do cancro
são tão importantes
como as células cancerosas
para fazer um diagnóstico.
Isto é o oposto do que os patologistas
têm vindo a aprender há décadas.
Em cada um destes dois casos,
foram sistemas
desenvolvidos por um conjunto de médicos
e de especialistas
de aprendizagem de máquinas.
No ano passado,
também já ultrapassámos isso.
Este é um exemplo da identificação
de áreas cancerosas
de tecido humano visto ao microscópio.
O sistema que aqui mostramos
identifica essas áreas mais rigorosamente
ou quase tão rigorosamente
como os patologistas humanos
mas foi construído totalmente
com aprendizagem profunda,
sem usar competências médicas,
por pessoas que não têm
qualquer formação neste campo.
De igual modo,
a segmentação deste neurónio.
Podemos segmentar neurónios
quase tão rigorosamente como o homem.
Este sistema foi desenvolvido
com aprendizagem profunda
usando pessoas sem quaisquer
antecedentes prévios em medicina.
Eu não tenho qualquer
formação em medicina,
mas pareço estar bem qualificado
para fundar uma nova empresa médica,
coisa que já fiz.
Fiquei um bocado receoso ao fazê-lo,
mas a teoria sugeria que
devia ser possível fazer medicina útil
usando apenas
estas técnicas analíticas de dados.
Felizmente, o retorno tem sido fantástico,
não só dos "media",
mas da comunidade médica,
que têm sido muito solidários.
A teoria é que podemos assumir
a parte média do processo médico
e transformar isso em análise de dados,
tanto quanto possível,
deixando que os médicos façam
aquilo em que são melhores.
Vou dar-vos um exemplo.
Neste momento, fazer um novo teste
de diagnóstico médico demora 15 minutos.
Vou mostrar-vos isso, em tempo real,
mas comprimi-o em três minutos
cortando algumas partes.
Em vez de vos mostrar a criação
de um teste de diagnóstico médico,
vou mostrar-vos um teste diagnóstico
de imagens de um carro,
porque é uma coisa
que todos podemos perceber.
Começamos com cerca de
milhão e meio de imagens de carros.
Quero criar qualquer coisa
que os possa dividir
segundo o ângulo
em que a foto foi tirada.
Estas imagens não têm qualquer legenda,
portanto tenho que começar do zero.
Com o nosso algoritmo
de aprendizagem profunda,
posso identificar automaticamente
áreas de estrutura nestas imagens.
Mas agora as pessoas e o computador
podem trabalhar em conjunto.
O ser humano, como podem ver,
está a dizer ao computador
quais são as áreas de interesse
que ele quer que o computador experimente
e use para melhorar o algoritmo.
Estes sistemas de aprendizagem profunda
estão num espaço de 16 000 dimensões.
Podem ver aqui o computador
a rodar através desse espaço.
tentando encontrar
novas áreas de estrutura.
Quando o consegue fazer,
quem está a utilizá-lo pode assinalar
as áreas que têm interesse.
Aqui, o computador
conseguiu encontrar áreas,
por exemplo, ângulos.
À medida que avançamos neste processo,
vamos dizendo ao computador
cada vez mais coisas
sobre o tipo de estruturas
que andamos a procurar.
Num exame de diagnóstico
isso será um patologista a identificar
áreas patológicas, por exemplo.
ou um radiologista indicando nódulos
potencialmente perturbadores.
Por vezes pode ser difícil
para o algoritmo.
Neste caso, ele ficou confuso.
As frentes e as traseiras dos carros
estão misturadas.
Portanto, temos que ser mais cuidadosos,
selecionando manualmente as frentes,
em oposição às traseiras,
e depois dizendo ao computador
qual é o tipo de grupo
em que estamos interessados.
Fazemos isso por algum tempo,
passamos à frente
e treinamos o algoritmo
de aprendizagem da máquina
com base em meia-dúzia
entre centenas de coisas
e esperamos que ele funcione melhor.
Começa a esbater algumas dessas imagens,
mostrando que já está a perceber
como as reconhecer.
Podemos depois usar
este conceito de imagens semelhantes.
Usando imagens semelhantes,
o computador já é capaz
de encontrar as frentes dos carros.
Portanto, já podemos dizer ao computador:
"Ok, fizeste um bom trabalho".
Por vezes, claro, mesmo nesta altura,
ainda é difícil separar grupos.
Neste caso, mesmo depois de termos deixado
que o computador tentasse rodar
durante um tempo,
ainda vemos que as imagens
do lado esquerdo e do lado direito
estão todas misturadas.
Temos que voltar a dar
algumas pistas ao computador
e tentar encontrar uma projeção
que separe os lados esquerdos
dos direitos, tanto quanto possível,
usando este algoritmo.
Demos-lhe essa pista e, ok, resultou.
Ele arranjou forma
de pensar nesses objetos
e separar estes do conjunto.
Ficaram com uma ideia.
Isto não é um caso em que o ser humano
é substituído por um computador,
mas um caso em que estamos
a trabalhar em conjunto.
Substituímos uma coisa que exigia
uma equipa de cinco ou seis pessoas,
durante sete anos,
por uma coisa que demora 15 minutos
e em que intervém uma única pessoa.
Este processo leva
quatro a cinco repetições.
Podem ver que temos 62%
de um milhão e meio de imagens
classificadas corretamente.
Neste ponto, podemos começar rapidamente
a agarrar em grandes secções inteiras
e verificá-las para assegurarmos
que não há erros.
Se houver erros,
podemos mostrá-los ao computador.
Usando este tipo de procedimento,
para cada um dos diferentes grupos,
atingimos agora uma taxa de 80% de êxito
na classificação
de um milhão e meio de imagens.
Neste ponto, é apenas
uma questão de encontrar
o pequeno número das que
não foram bem classificadas
e tentar perceber qual a razão.
Usando esta abordagem,
em 15 minutos obtemos 97%
de taxa de classificação.
Este tipo de técnica pode permitir-nos
resolver um importante problema,
que é a falta de médicos a nível mundial.
O Fórum Económico Mundial diz
que há uma escassez de médicos,
entre 10 a 20 vezes,
no mundo em desenvolvimento
e serão precisos cerca de 300 anos
para formar gente suficiente
para resolver esse problema.
Imaginem se pudermos ajudar
a aumentar a sua eficácia
usando estas abordagens
de aprendizagem profunda.
Por isso estou muito entusiasmado
com as oportunidades.
Mas também me preocupam os problemas.
O problema aqui é que
todas as áreas a azul neste mapa
são onde os serviços
representam 80% dos empregos.
O que são serviços?
Isto são serviços.
São exatamente as coisas
que os computadores aprenderam a fazer.
Portanto, 80% dos empregos mundiais
no mundo desenvolvido
são coisas que os computadores
acabaram de aprender a fazer.
O que é que isso significa?
"Não há problema! Haverá outros empregos,
"mais empregos
para os cientistas de dados".
Bem, não é bem assim.
Em breve não serão necessários cientistas
para construir estas coisas.
Por exemplo, estes quatro algoritmos
foram construídos pelo mesmo tipo.
Se pensarem bem,
isto já aconteceu em tempos,
vimos os resultados no passado,
quando apareceram coisas novas
e foram substituídas por novos empregos.
Que novos empregos serão esses?
É muito difícil calcular isso
porque o desempenho humano
cresce a este ritmo gradual,
mas agora temos um sistema,
de aprendizagem profunda
que cresce exponencialmente
em capacidade.
E estamos aqui.
Vemos as coisas à nossa volta e dizemos:
"Oh, os computadores são muito estúpidos".
Mas daqui a cinco anos, os computadores
estarão fora deste gráfico.
Portanto, precisamos de começar já
a pensar nesta capacidade.
Já vimos isto outrora, claro.
Na Revolução Industrial,
vimos uma mudança de nível na capacidade,
graças às máquinas.
Mas, depois de algum tempo,
as coisas estabilizaram.
Houve perturbação social
mas, depois de os motores passarem
a ser usados para gerar energia,
as coisas estabilizaram.
A Revolução da Aprendizagem das Máquinas
vai ser diferente da Revolução Industrial,
porque a Revolução da Aprendizagem
das Máquinas não vai estabilizar
Quando os computadores melhorarem
em atividades intelectuais,
poderão construir computadores melhores,
com capacidades intelectuais melhores.
Portanto, isso vai ser um tipo de mudança
que o mundo nunca experimentou antes.
A nossa compreensão
do que é possível é diferente.
Isto já está a ter impacto em nós.
Nos últimos 25 anos, enquanto
a produtividade do capital tem aumentado,
a produtividade do trabalho tem estagnado,
ou mesmo baixado um pouco.
Portanto, quero que comecemos
a analisar já este problema.
Sei que, quando falo às pessoas
nesta situação,
as pessoas podem
mostrar-se muito desdenhosas:
"Os computadores não pensam,
"não têm emoções, não entendem poesia,
"não sabemos bem como funcionam..."
E depois?
Os computadores agora fazem coisas
em que as pessoas gastam tempo
e para as quais são pagas.
Portanto é altura de começar a pensar
no que é que vamos fazer
para ajustar as nossas estruturas
sociais e económicas
para estarem de acordo
com esta nova realidade.
Obrigado.
(Aplausos)