Return to Video

A era da fé cega nos "big data" tem de acabar

  • 0:01 - 0:03
    Os algoritmos estão em todo o lado.
  • 0:04 - 0:07
    Eles classificam e separam
    os vencedores dos perdedores.
  • 0:08 - 0:10
    Os vencedores ficam com o emprego
  • 0:10 - 0:12
    ou uma boa oferta
    para o cartão de crédito.
  • 0:12 - 0:15
    Os que perdem nem sequer vão à entrevista
  • 0:16 - 0:17
    mas pagam mais pelo seguro.
  • 0:18 - 0:22
    Estamos a ser marcados
    com fórmulas secretas que não entendemos
  • 0:23 - 0:26
    e que, muitas vezes,
    não têm sistemas de recurso.
  • 0:27 - 0:29
    Isto traz-nos a pergunta:
  • 0:29 - 0:31
    E se os algoritmos estão errados?
  • 0:33 - 0:35
    Para criar um algoritmo é preciso:
  • 0:35 - 0:37
    dados — o que aconteceu no passado;
  • 0:37 - 0:39
    e uma definição de sucesso,
  • 0:39 - 0:41
    aquilo de que estamos à procura
    e que queremos atingir.
  • 0:41 - 0:46
    Um algoritmo treina-se
    com a procura, com a descoberta.
  • 0:46 - 0:50
    O algoritmo descobre
    o que está associado ao sucesso.
  • 0:50 - 0:52
    Qual a situação que leva ao sucesso?
  • 0:53 - 0:55
    Na verdade, todos usam algoritmos.
  • 0:55 - 0:57
    Só que as pessoas não os formalizam
    em código escrito.
  • 0:57 - 0:59
    Deixem-me dar um exemplo.
  • 0:59 - 1:02
    Eu uso um algoritmo todos os dias
    para cozinhar para a minha família.
  • 1:02 - 1:04
    Os dados que eu uso
  • 1:04 - 1:06
    são os ingredientes que tenho,
  • 1:06 - 1:08
    o tempo disponível,
  • 1:08 - 1:09
    a minha ambição,
  • 1:09 - 1:11
    e junto esses dados todos.
  • 1:11 - 1:15
    Não contabilizo aqueles pacotes pequenos
    de "noodles" como comida.
  • 1:15 - 1:17
    (Risos)
  • 1:17 - 1:19
    A minha definição de sucesso é:
  • 1:19 - 1:21
    a refeição é conseguida
    se os filhos comerem vegetais.
  • 1:22 - 1:25
    Seria diferente se o meu filho
    mais novo fosse o responsável.
  • 1:25 - 1:28
    Ele diria que o sucesso
    seria ele comer muita Nutella.
  • 1:29 - 1:31
    Mas eu posso escolher o sucesso.
  • 1:31 - 1:34
    Sou eu a responsável.
    A minha opinião conta.
  • 1:34 - 1:37
    Essa é a primeira regra
    dos algoritmos.
  • 1:37 - 1:40
    Os algoritmos são opiniões
    embutidas em código.
  • 1:42 - 1:45
    É muito diferente daquilo que muitos
    pensam sobre este assunto.
  • 1:45 - 1:50
    As pessoas pensam que os algoritmos
    são objetivos, verdadeiros e científicos.
  • 1:50 - 1:52
    Isso é um truque de "marketing".
  • 1:53 - 1:55
    O que também é um truque
  • 1:55 - 1:59
    é o facto de os algoritmos
    nos intimidarem,
  • 1:59 - 2:02
    para nos fazer ter confiança
    e medo deles,
  • 2:02 - 2:04
    porque confiamos
    e receamos a matemática.
  • 2:06 - 2:10
    Muita coisa pode correr mal
    se confiarmos cegamente nos "big data".
  • 2:12 - 2:15
    Esta é Kiri Soares e é diretora
    de uma escola secundária em Brooklyn.
  • 2:15 - 2:18
    Em 2011, ela disse-me que
    os professores eram avaliados
  • 2:18 - 2:20
    com um algoritmo secreto e complexo
  • 2:20 - 2:22
    chamado "modelo de valor acrescentado".
  • 2:23 - 2:26
    Eu disse-lhe:
    "Bem, se descobrir a fórmula, mostre-ma".
  • 2:26 - 2:27
    "Eu explico-lha".
  • 2:27 - 2:29
    Ela respondeu: "Bom, eu tentei obtê-la"
  • 2:29 - 2:32
    "mas o Departamento de Educação
    disse que era matemática"
  • 2:32 - 2:34
    "e que eu não iria entendê-la".
  • 2:35 - 2:37
    E ainda é pior.
  • 2:37 - 2:40
    O jornal "The New York Post" invocou
    a lei da Liberdade de Informação,
  • 2:40 - 2:43
    reuniu os nomes de todos os professores
    e os seus resultados
  • 2:43 - 2:47
    e publicou todas essas informações
    como forma de envergonhar os professores.
  • 2:47 - 2:51
    Quando tentei aceder às fórmulas,
    ao código-fonte, através dos mesmos meios,
  • 2:51 - 2:53
    disseram-me que não podia fazê-lo.
  • 2:53 - 2:54
    Foi-me negado.
  • 2:54 - 2:56
    Mais tarde, descobri
  • 2:56 - 2:58
    que ninguém em Nova Iorque
    teve acesso a essa fórmula.
  • 2:58 - 3:00
    Ninguém a percebia.
  • 3:02 - 3:05
    Então, envolveu-se um tipo
    muito inteligente: Gary Rubenstein.
  • 3:05 - 3:09
    Ele descobriu 665 professores,
    através dos dados publicados no jornal,
  • 3:09 - 3:11
    que tiveram dois resultados diferentes.
  • 3:11 - 3:13
    Podia acontecer
    se estivessem a lecionar
  • 3:13 - 3:15
    matemática de sétimo
    e matemática de oitavo ano.
  • 3:15 - 3:17
    Decidiu representá-los graficamente
  • 3:17 - 3:19
    em que cada ponto representa
    um professor.
  • 3:19 - 3:21
    (Risos)
  • 3:22 - 3:23
    O que é isto?
  • 3:23 - 3:24
    (Risos)
  • 3:24 - 3:28
    Isto nunca poderia ter sido usado
    para uma avaliação individual.
  • 3:28 - 3:30
    É como um gerador
    de números aleatórios.
  • 3:30 - 3:33
    (Aplausos)
  • 3:33 - 3:34
    Mas foi utilizado.
  • 3:34 - 3:35
    Esta é Sarah Wysocki.
  • 3:35 - 3:37
    Foi despedida,
    juntamente com 205 professores
  • 3:37 - 3:40
    de escolas do distrito de Washington, DC,
  • 3:40 - 3:43
    embora tivesse excelentes
    recomendações do seu diretor
  • 3:43 - 3:44
    e dos pais dos seus alunos.
  • 3:45 - 3:46
    Sei o que muitos estão a pensar,
  • 3:46 - 3:50
    sobretudo os cientistas de dados
    especialistas em Inteligência Artificial.
  • 3:50 - 3:54
    Estão a pensar: "Eu nunca faria
    um algoritmo tão inconsistente".
  • 3:55 - 3:57
    Mas os algoritmos podem correr mal,
  • 3:57 - 4:01
    chegando a ter efeitos profundamente
    destrutivos, cheios de boas intenções.
  • 4:03 - 4:05
    Enquanto que um avião
    que é mal arquitetado
  • 4:05 - 4:07
    se despenha e todos veem,
  • 4:07 - 4:09
    um algoritmo mal projetado
  • 4:10 - 4:14
    pode ser utilizado durante muito tempo,
    causando estragos silenciosamente.
  • 4:16 - 4:17
    Este é Roger Ailes.
  • 4:17 - 4:19
    (Risos)
  • 4:21 - 4:23
    Fundou a Fox News em 1996.
  • 4:23 - 4:26
    Mais de 20 mulheres
    queixaram-se de assédio sexual.
  • 4:26 - 4:29
    Diziam que, na Fox News,
    não lhes era permitido terem sucesso.
  • 4:29 - 4:32
    Ailes foi despedido no ano passado,
    mas, recentemente,
  • 4:32 - 4:35
    temos visto que os problemas persistem.
  • 4:36 - 4:37
    Isto leva-nos a perguntar:
  • 4:37 - 4:40
    O que é que a Fox News deveria fazer
    para virar a página?
  • 4:41 - 4:44
    E se tivessem substituído
    o seu processo de recrutamento
  • 4:44 - 4:46
    por um algoritmo
    de aprendizagem automática?
  • 4:46 - 4:48
    Parece-vos bem, não é?
  • 4:48 - 4:49
    Pensem nisso.
  • 4:49 - 4:51
    Que dados poderiam ser?
  • 4:51 - 4:56
    Uma escolha razoável seriam os currículos
    recebidos nos últimos 21 anos.
  • 4:56 - 4:58
    Razoável.
  • 4:58 - 4:59
    E qual seria a definição de sucesso?
  • 5:00 - 5:01
    A escolha razoável seria...
  • 5:01 - 5:03
    Bem, quem tem sucesso na Fox News?
  • 5:03 - 5:07
    Eu diria alguém que lá trabalhou
    durante quatro anos
  • 5:07 - 5:09
    e que foi promovido, pelo menos, uma vez.
  • 5:09 - 5:10
    Parece razoável.
  • 5:10 - 5:13
    E aí, o algoritmo seria treinado.
  • 5:13 - 5:17
    Seria treinado para procurar pessoas
    e perceber o que levava ao sucesso,
  • 5:17 - 5:22
    que tipo de currículos
    eram propícios a isso,
  • 5:22 - 5:23
    seguindo essa definição.
  • 5:24 - 5:26
    Pensem no que poderia acontecer
  • 5:26 - 5:29
    se o aplicássemos
    ao conjunto atual de candidaturas.
  • 5:29 - 5:31
    Filtraria as mulheres,
  • 5:32 - 5:36
    porque não foram as pessoas
    que tiveram sucesso no passado.
  • 5:40 - 5:42
    Os algoritmos não são justos,
  • 5:42 - 5:45
    se os aplicarmos
    de ânimo leve e às cegas.
  • 5:45 - 5:47
    Eles não agem com justiça.
  • 5:47 - 5:49
    Eles repetem o que fizemos no passado,
  • 5:49 - 5:50
    os nossos padrões.
  • 5:50 - 5:52
    Eles automatizam o "status quo".
  • 5:53 - 5:55
    Isso seria incrível
    se o mundo fosse perfeito.
  • 5:56 - 5:57
    Mas não é.
  • 5:57 - 6:01
    E digo-vos mais: a maioria das empresas
    não têm processos legais em curso,
  • 6:02 - 6:05
    mas essas empresas dizem
    aos seus cientistas de dados
  • 6:05 - 6:07
    para seguirem os dados,
  • 6:07 - 6:09
    para se focarem na precisão.
  • 6:10 - 6:12
    Pensem no que isso significa.
  • 6:12 - 6:16
    Como todos temos preconceitos,
    eles podiam codificar o sexismo
  • 6:16 - 6:18
    ou qualquer outro tipo de sectarismo.
  • 6:19 - 6:21
    Um exercício intelectual,
  • 6:21 - 6:22
    porque gosto de fazer isso:
  • 6:24 - 6:27
    uma sociedade inteiramente segregada
  • 6:28 - 6:32
    — todas as cidades, os bairros,
    tudo segregado racialmente —
  • 6:32 - 6:35
    e onde só enviamos a polícia
    a bairros minoritários
  • 6:35 - 6:36
    para combater o crime.
  • 6:36 - 6:39
    Os dados sobre os detidos
    seriam tendenciosos.
  • 6:40 - 6:42
    E se tivéssemos cientistas de dados
    para esta situação
  • 6:42 - 6:47
    e lhes pagássemos para preverem
    onde iria ocorrer o crime seguinte?
  • 6:47 - 6:49
    Num bairro minoritário.
  • 6:49 - 6:52
    Ou para preverem quem seria
    o criminoso seguinte?
  • 6:53 - 6:54
    Alguém da minoria.
  • 6:56 - 7:00
    Os cientistas de dados iriam vangloriar-se
    da eficiência e precisão do seu modelo
  • 7:01 - 7:02
    e teriam razão.
  • 7:04 - 7:09
    A realidade não é tão drástica,
    mas temos segregações graves
  • 7:09 - 7:10
    em várias cidades e vilas,
  • 7:10 - 7:12
    e existem inúmeras provas
  • 7:12 - 7:15
    de que os dados do sistema de justiça
    são tendenciosos.
  • 7:16 - 7:18
    E nós prevemos lugares críticos,
  • 7:18 - 7:20
    locais onde irão ocorrer crimes.
  • 7:20 - 7:24
    E prevemos a criminalidade individual,
  • 7:24 - 7:26
    a criminalidade de indivíduos.
  • 7:27 - 7:31
    A agência de notícias ProPublica
    analisou recentemente
  • 7:31 - 7:33
    um algoritmo de "risco de reincidência",
  • 7:33 - 7:34
    como lhe chamam,
  • 7:34 - 7:37
    que os júris usam na Flórida,
    durante os julgamentos.
  • 7:38 - 7:42
    À esquerda, temos Bernard, de cor negra,
    que teve uma pontuação de 10 em 10.
  • 7:43 - 7:45
    Dylan, à direita,
    teve uma pontuação de 3 em 10.
  • 7:46 - 7:48
    10 em 10 é risco elevado.
    3 em 10 é risco reduzido.
  • 7:49 - 7:51
    Foram ambos a julgamento
    por posse de droga.
  • 7:51 - 7:52
    Ambos tinham cadastro,
  • 7:52 - 7:55
    mas Dylan já tinha cometido
    um assalto à mão armada
  • 7:55 - 7:56
    e o Bernard não.
  • 7:58 - 8:01
    Isto é importante, porque,
    quanto mais alta é a pontuação,
  • 8:01 - 8:04
    maior a probabilidade
    de a sentença ser mais longa.
  • 8:06 - 8:08
    O que está a acontecer?
  • 8:09 - 8:10
    Lavagem de dados.
  • 8:11 - 8:15
    É um processo em que os tecnólogos
    escondem verdades muito graves
  • 8:15 - 8:17
    dentro de algoritmos de caixa negra
  • 8:17 - 8:19
    e chamam-lhes objetivos;
  • 8:19 - 8:21
    chamam-lhes meritocráticos.
  • 8:23 - 8:26
    Quando são secretos,
    importantes e destrutivos
  • 8:26 - 8:28
    eu chamo-lhes da seguinte maneira:
  • 8:28 - 8:30
    "armas de destruição maciça".
  • 8:30 - 8:32
    (Risos)
  • 8:32 - 8:35
    (Aplausos)
  • 8:35 - 8:37
    Estão por todo o lado
    e não são um erro.
  • 8:38 - 8:41
    São empresas privadas que estão
    a criar algoritmos privados
  • 8:41 - 8:43
    para objetivos privados.
  • 8:43 - 8:46
    Mesmo os que mencionei aqui
    para os professores e a polícia,
  • 8:46 - 8:48
    foram criados por empresas privadas
  • 8:48 - 8:51
    e vendidos a instituições governamentais.
  • 8:51 - 8:52
    Chamam-lhes o seu "molho secreto"
  • 8:52 - 8:55
    — é por isso que não nos podem contar.
  • 8:55 - 8:57
    Trata-se, também, de poder privado.
  • 8:58 - 9:03
    Estão a lucrar para dominarem
    a autoridade do inescrutável.
  • 9:05 - 9:07
    Agora, vocês podem pensar:
  • 9:07 - 9:09
    se tudo isto é privado
    e existe concorrência,
  • 9:09 - 9:12
    talvez o mercado livre
    corrija este problema.
  • 9:12 - 9:13
    Não, não o fará.
  • 9:13 - 9:16
    Pode fazer-se muito dinheiro
    com a injustiça.
  • 9:17 - 9:20
    Além disso, nós não somos
    agentes económicos racionais.
  • 9:21 - 9:22
    Somos todos tendenciosos.
  • 9:23 - 9:26
    Somos racistas e intolerantes
    em proporções horríveis,
  • 9:26 - 9:28
    em proporções que nem nós sabemos.
  • 9:29 - 9:32
    Mas sabemos que isto acontece
    em níveis agregados,
  • 9:32 - 9:36
    porque os sociólogos
    têm vindo a demonstrá-lo,
  • 9:36 - 9:37
    através de experiências,
  • 9:37 - 9:40
    em que se enviam vários currículos
    em resposta a anúncios,
  • 9:40 - 9:43
    igualmente qualificados,
    mas alguns com nomes caucasianos
  • 9:43 - 9:44
    e outros com nomes de raça negra,
  • 9:44 - 9:47
    e os resultados são sempre
    desconcertantes... Sempre!
  • 9:48 - 9:49
    Somos nós que somos tendenciosos
  • 9:49 - 9:53
    e estamos a colocar
    esses preconceitos nos algoritmos,
  • 9:53 - 9:55
    ao escolhermos os dados,
  • 9:55 - 9:57
    tal como eu decidi
    em relação aos "noodles"
  • 9:57 - 9:59
    — decidi que eram irrelevantes.
  • 9:59 - 10:05
    Mas, ao confiarmos em dados
    que têm, por base, acontecimentos passados
  • 10:05 - 10:07
    e ao escolhermos a definição de sucesso,
  • 10:07 - 10:11
    como é que podemos esperar
    que os algoritmos saiam ilesos?
  • 10:11 - 10:13
    Não podemos. Temos de os verificar.
  • 10:14 - 10:16
    Temos de ver o nível de justiça.
  • 10:16 - 10:19
    A boa notícia é que podemos fazer isso.
  • 10:19 - 10:22
    Os algoritmos podem ser questionados
  • 10:22 - 10:24
    e as respostas são sempre verdadeiras.
  • 10:24 - 10:27
    Podemos corrigi-los.
    Podemos torná-los melhores.
  • 10:27 - 10:29
    Posso chamar-lhe "auditoria algorítmica"
  • 10:29 - 10:31
    e explico-vos em que consiste.
  • 10:31 - 10:33
    Primeiro, verificar
    a integridade dos dados.
  • 10:34 - 10:37
    Em relação ao risco de reincidência
    de que já vos falei,
  • 10:38 - 10:41
    verificar a integridade dos dados
    significa que concordamos com o facto
  • 10:41 - 10:45
    de que, nos EUA, tanto os brancos
    como os negros fumam erva,
  • 10:45 - 10:47
    mas os negros têm
    maior probabilidade de ser detidos
  • 10:47 - 10:50
    — quatro ou cinco vezes mais
    probabilidades, dependendo da zona.
  • 10:51 - 10:54
    Como é que se comporta
    esta tendência, noutros crimes
  • 10:54 - 10:56
    e como é que lidamos com isso?
  • 10:56 - 10:59
    Segundo, devemos pensar
    na definição de sucesso,
  • 10:59 - 11:01
    rever esse conceito.
  • 11:01 - 11:03
    Lembrem-se do algoritmo
    de contratação de que já falámos.
  • 11:03 - 11:07
    Alguém que fica na empresa
    durante quatro anos e é promovido uma vez?
  • 11:07 - 11:08
    É um trabalhador bem-sucedido,
  • 11:08 - 11:11
    mas também é alguém
    que apoia a cultura da empresa.
  • 11:12 - 11:14
    Assim, vemos que também
    é muito tendencioso.
  • 11:14 - 11:16
    É necessário separar estas duas coisas.
  • 11:16 - 11:18
    Tomemos como exemplo
  • 11:18 - 11:20
    uma audição às cegas
    de uma orquestra
  • 11:20 - 11:23
    As pessoas que fazem a audição
    escondem-se atrás duma cortina.
  • 11:23 - 11:25
    O que é importante reter
  • 11:25 - 11:28
    é que as pessoas que estão a ouvir
    decidiram o que é importante
  • 11:28 - 11:30
    e o que não é importante,
  • 11:30 - 11:32
    e não se deixam distrair.
  • 11:33 - 11:36
    Quando as audições às cegas começaram,
  • 11:36 - 11:39
    o número de mulheres em orquestras
    aumentou cinco vezes.
  • 11:40 - 11:42
    Em seguida, temos de considerar
    a precisão.
  • 11:43 - 11:47
    É aqui que falharia o "modelo de valor
    acrescentado" dos professores.
  • 11:48 - 11:50
    Claro que nenhum algoritmo é perfeito,
  • 11:51 - 11:54
    é por isso que temos de considerar
    os erros de cada um.
  • 11:55 - 11:59
    Com que frequência existem erros
    e com quem é que este modelo falha?
  • 12:00 - 12:02
    Qual é o custo desta falha?
  • 12:02 - 12:05
    Por último, temos de considerar
  • 12:06 - 12:08
    os efeitos a longo prazo dos algoritmos,
  • 12:09 - 12:11
    o "feedback" que está programado.
  • 12:12 - 12:13
    Isto parece abstrato,
  • 12:13 - 12:16
    mas imaginem se os engenheiros
    do Facebook consideravam
  • 12:16 - 12:21
    mostrar-nos apenas
    o que os nossos amigos publicam.
  • 12:22 - 12:25
    Tenho mais duas mensagens,
    uma delas para os cientistas de dados.
  • 12:25 - 12:29
    Cientistas de dados: nós não
    devemos ser os árbitros da verdade.
  • 12:30 - 12:32
    Devemos ser tradutores
    de discussões éticas
  • 12:32 - 12:35
    que acontecem em sociedades mais amplas.
  • 12:36 - 12:38
    (Aplausos)
  • 12:38 - 12:39
    E aos restantes,
  • 12:40 - 12:42
    aos que não são cientistas de dados:
  • 12:42 - 12:43
    isto não é um teste matemático.
  • 12:44 - 12:45
    É uma luta política.
  • 12:47 - 12:50
    Precisamos de exigir a responsabilização
    dos soberanos dos nossos algoritmos.
  • 12:52 - 12:54
    (Aplausos)
  • 12:54 - 12:58
    A era da fé cega nos "big data"
    tem de acabar.
  • 12:58 - 12:59
    Muito obrigada.
  • 12:59 - 13:04
    (Aplausos)
Title:
A era da fé cega nos "big data" tem de acabar
Speaker:
Cathy O'Neil
Description:

Os algoritmos decidem a quem é concedido um empréstimo, quem é chamado para uma entrevista de emprego, a quem é atribuído um seguro, e muito mais — mas não tornam as coisas justas automaticamente. A matemática e o cientista de dados Cathy O'Neil cunhou um termo para os algoritmos que são secretos, importantes e prejudiciais: "armas de destruição matemática".
Saiba mais sobre os sumários escondidos por detrás das fórmulas.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:18

Portuguese subtitles

Revisions Compare revisions