A era da fé cega nos "big data" tem de acabar

0:01 - 0:03

Os algoritmos estão em todo o lado.
0:04 - 0:07

Eles classificam e separam
os vencedores dos perdedores.
0:08 - 0:10

Os vencedores ficam com o emprego
0:10 - 0:12

ou uma boa oferta
para o cartão de crédito.
0:12 - 0:15

Os que perdem nem sequer vão à entrevista
0:16 - 0:17

mas pagam mais pelo seguro.
0:18 - 0:22

Estamos a ser marcados
com fórmulas secretas que não entendemos
0:23 - 0:26

e que, muitas vezes,
não têm sistemas de recurso.
0:27 - 0:29

Isto traz-nos a pergunta:
0:29 - 0:31

E se os algoritmos estão errados?
0:33 - 0:35

Para criar um algoritmo é preciso:
0:35 - 0:37

dados — o que aconteceu no passado;
0:37 - 0:39

e uma definição de sucesso,
0:39 - 0:41

aquilo de que estamos à procura
e que queremos atingir.
0:41 - 0:46

Um algoritmo treina-se
com a procura, com a descoberta.
0:46 - 0:50

O algoritmo descobre
o que está associado ao sucesso.
0:50 - 0:52

Qual a situação que leva ao sucesso?
0:53 - 0:55

Na verdade, todos usam algoritmos.
0:55 - 0:57

Só que as pessoas não os formalizam
em código escrito.
0:57 - 0:59

Deixem-me dar um exemplo.
0:59 - 1:02

Eu uso um algoritmo todos os dias
para cozinhar para a minha família.
1:02 - 1:04

Os dados que eu uso
1:04 - 1:06

são os ingredientes que tenho,
1:06 - 1:08

o tempo disponível,
1:08 - 1:09

a minha ambição,
1:09 - 1:11

e junto esses dados todos.
1:11 - 1:15

Não contabilizo aqueles pacotes pequenos
de "noodles" como comida.
1:15 - 1:17

(Risos)
1:17 - 1:19

A minha definição de sucesso é:
1:19 - 1:21

a refeição é conseguida
se os filhos comerem vegetais.
1:22 - 1:25

Seria diferente se o meu filho
mais novo fosse o responsável.
1:25 - 1:28

Ele diria que o sucesso
seria ele comer muita Nutella.
1:29 - 1:31

Mas eu posso escolher o sucesso.
1:31 - 1:34

Sou eu a responsável.
A minha opinião conta.
1:34 - 1:37

Essa é a primeira regra
dos algoritmos.
1:37 - 1:40

Os algoritmos são opiniões
embutidas em código.
1:42 - 1:45

É muito diferente daquilo que muitos
pensam sobre este assunto.
1:45 - 1:50

As pessoas pensam que os algoritmos
são objetivos, verdadeiros e científicos.
1:50 - 1:52

Isso é um truque de "marketing".
1:53 - 1:55

O que também é um truque
1:55 - 1:59

é o facto de os algoritmos
nos intimidarem,
1:59 - 2:02

para nos fazer ter confiança
e medo deles,
2:02 - 2:04

porque confiamos
e receamos a matemática.
2:06 - 2:10

Muita coisa pode correr mal
se confiarmos cegamente nos "big data".
2:12 - 2:15

Esta é Kiri Soares e é diretora
de uma escola secundária em Brooklyn.
2:15 - 2:18

Em 2011, ela disse-me que
os professores eram avaliados
2:18 - 2:20

com um algoritmo secreto e complexo
2:20 - 2:22

chamado "modelo de valor acrescentado".
2:23 - 2:26

Eu disse-lhe:
"Bem, se descobrir a fórmula, mostre-ma".
2:26 - 2:27

"Eu explico-lha".
2:27 - 2:29

Ela respondeu: "Bom, eu tentei obtê-la"
2:29 - 2:32

"mas o Departamento de Educação
disse que era matemática"
2:32 - 2:34

"e que eu não iria entendê-la".
2:35 - 2:37

E ainda é pior.
2:37 - 2:40

O jornal "The New York Post" invocou
a lei da Liberdade de Informação,
2:40 - 2:43

reuniu os nomes de todos os professores
e os seus resultados
2:43 - 2:47

e publicou todas essas informações
como forma de envergonhar os professores.
2:47 - 2:51

Quando tentei aceder às fórmulas,
ao código-fonte, através dos mesmos meios,
2:51 - 2:53

disseram-me que não podia fazê-lo.
2:53 - 2:54

Foi-me negado.
2:54 - 2:56

Mais tarde, descobri
2:56 - 2:58

que ninguém em Nova Iorque
teve acesso a essa fórmula.
2:58 - 3:00

Ninguém a percebia.
3:02 - 3:05

Então, envolveu-se um tipo
muito inteligente: Gary Rubenstein.
3:05 - 3:09

Ele descobriu 665 professores,
através dos dados publicados no jornal,
3:09 - 3:11

que tiveram dois resultados diferentes.
3:11 - 3:13

Podia acontecer
se estivessem a lecionar
3:13 - 3:15

matemática de sétimo
e matemática de oitavo ano.
3:15 - 3:17

Decidiu representá-los graficamente
3:17 - 3:19

em que cada ponto representa
um professor.
3:19 - 3:21

(Risos)
3:22 - 3:23

O que é isto?
3:23 - 3:24

(Risos)
3:24 - 3:28

Isto nunca poderia ter sido usado
para uma avaliação individual.
3:28 - 3:30

É como um gerador
de números aleatórios.
3:30 - 3:33

(Aplausos)
3:33 - 3:34

Mas foi utilizado.
3:34 - 3:35

Esta é Sarah Wysocki.
3:35 - 3:37

Foi despedida,
juntamente com 205 professores
3:37 - 3:40

de escolas do distrito de Washington, DC,
3:40 - 3:43

embora tivesse excelentes
recomendações do seu diretor
3:43 - 3:44

e dos pais dos seus alunos.
3:45 - 3:46

Sei o que muitos estão a pensar,
3:46 - 3:50

sobretudo os cientistas de dados
especialistas em Inteligência Artificial.
3:50 - 3:54

Estão a pensar: "Eu nunca faria
um algoritmo tão inconsistente".
3:55 - 3:57

Mas os algoritmos podem correr mal,
3:57 - 4:01

chegando a ter efeitos profundamente
destrutivos, cheios de boas intenções.
4:03 - 4:05

Enquanto que um avião
que é mal arquitetado
4:05 - 4:07

se despenha e todos veem,
4:07 - 4:09

um algoritmo mal projetado
4:10 - 4:14

pode ser utilizado durante muito tempo,
causando estragos silenciosamente.
4:16 - 4:17

Este é Roger Ailes.
4:17 - 4:19

(Risos)
4:21 - 4:23

Fundou a Fox News em 1996.
4:23 - 4:26

Mais de 20 mulheres
queixaram-se de assédio sexual.
4:26 - 4:29

Diziam que, na Fox News,
não lhes era permitido terem sucesso.
4:29 - 4:32

Ailes foi despedido no ano passado,
mas, recentemente,
4:32 - 4:35

temos visto que os problemas persistem.
4:36 - 4:37

Isto leva-nos a perguntar:
4:37 - 4:40

O que é que a Fox News deveria fazer
para virar a página?
4:41 - 4:44

E se tivessem substituído
o seu processo de recrutamento
4:44 - 4:46

por um algoritmo
de aprendizagem automática?
4:46 - 4:48

Parece-vos bem, não é?
4:48 - 4:49

Pensem nisso.
4:49 - 4:51

Que dados poderiam ser?
4:51 - 4:56

Uma escolha razoável seriam os currículos
recebidos nos últimos 21 anos.
4:56 - 4:58

Razoável.
4:58 - 4:59

E qual seria a definição de sucesso?
5:00 - 5:01

A escolha razoável seria...
5:01 - 5:03

Bem, quem tem sucesso na Fox News?
5:03 - 5:07

Eu diria alguém que lá trabalhou
durante quatro anos
5:07 - 5:09

e que foi promovido, pelo menos, uma vez.
5:09 - 5:10

Parece razoável.
5:10 - 5:13

E aí, o algoritmo seria treinado.
5:13 - 5:17

Seria treinado para procurar pessoas
e perceber o que levava ao sucesso,
5:17 - 5:22

que tipo de currículos
eram propícios a isso,
5:22 - 5:23

seguindo essa definição.
5:24 - 5:26

Pensem no que poderia acontecer
5:26 - 5:29

se o aplicássemos
ao conjunto atual de candidaturas.
5:29 - 5:31

Filtraria as mulheres,
5:32 - 5:36

porque não foram as pessoas
que tiveram sucesso no passado.
5:40 - 5:42

Os algoritmos não são justos,
5:42 - 5:45

se os aplicarmos
de ânimo leve e às cegas.
5:45 - 5:47

Eles não agem com justiça.
5:47 - 5:49

Eles repetem o que fizemos no passado,
5:49 - 5:50

os nossos padrões.
5:50 - 5:52

Eles automatizam o "status quo".
5:53 - 5:55

Isso seria incrível
se o mundo fosse perfeito.
5:56 - 5:57

Mas não é.
5:57 - 6:01

E digo-vos mais: a maioria das empresas
não têm processos legais em curso,
6:02 - 6:05

mas essas empresas dizem
aos seus cientistas de dados
6:05 - 6:07

para seguirem os dados,
6:07 - 6:09

para se focarem na precisão.
6:10 - 6:12

Pensem no que isso significa.
6:12 - 6:16

Como todos temos preconceitos,
eles podiam codificar o sexismo
6:16 - 6:18

ou qualquer outro tipo de sectarismo.
6:19 - 6:21

Um exercício intelectual,
6:21 - 6:22

porque gosto de fazer isso:
6:24 - 6:27

uma sociedade inteiramente segregada
6:28 - 6:32

— todas as cidades, os bairros,
tudo segregado racialmente —
6:32 - 6:35

e onde só enviamos a polícia
a bairros minoritários
6:35 - 6:36

para combater o crime.
6:36 - 6:39

Os dados sobre os detidos
seriam tendenciosos.
6:40 - 6:42

E se tivéssemos cientistas de dados
para esta situação
6:42 - 6:47

e lhes pagássemos para preverem
onde iria ocorrer o crime seguinte?
6:47 - 6:49

Num bairro minoritário.
6:49 - 6:52

Ou para preverem quem seria
o criminoso seguinte?
6:53 - 6:54

Alguém da minoria.
6:56 - 7:00

Os cientistas de dados iriam vangloriar-se
da eficiência e precisão do seu modelo
7:01 - 7:02

e teriam razão.
7:04 - 7:09

A realidade não é tão drástica,
mas temos segregações graves
7:09 - 7:10

em várias cidades e vilas,
7:10 - 7:12

e existem inúmeras provas
7:12 - 7:15

de que os dados do sistema de justiça
são tendenciosos.
7:16 - 7:18

E nós prevemos lugares críticos,
7:18 - 7:20

locais onde irão ocorrer crimes.
7:20 - 7:24

E prevemos a criminalidade individual,
7:24 - 7:26

a criminalidade de indivíduos.
7:27 - 7:31

A agência de notícias ProPublica
analisou recentemente
7:31 - 7:33

um algoritmo de "risco de reincidência",
7:33 - 7:34

como lhe chamam,
7:34 - 7:37

que os júris usam na Flórida,
durante os julgamentos.
7:38 - 7:42

À esquerda, temos Bernard, de cor negra,
que teve uma pontuação de 10 em 10.
7:43 - 7:45

Dylan, à direita,
teve uma pontuação de 3 em 10.
7:46 - 7:48

10 em 10 é risco elevado.
3 em 10 é risco reduzido.
7:49 - 7:51

Foram ambos a julgamento
por posse de droga.
7:51 - 7:52

Ambos tinham cadastro,
7:52 - 7:55

mas Dylan já tinha cometido
um assalto à mão armada
7:55 - 7:56

e o Bernard não.
7:58 - 8:01

Isto é importante, porque,
quanto mais alta é a pontuação,
8:01 - 8:04

maior a probabilidade
de a sentença ser mais longa.
8:06 - 8:08

O que está a acontecer?
8:09 - 8:10

Lavagem de dados.
8:11 - 8:15

É um processo em que os tecnólogos
escondem verdades muito graves
8:15 - 8:17

dentro de algoritmos de caixa negra
8:17 - 8:19

e chamam-lhes objetivos;
8:19 - 8:21

chamam-lhes meritocráticos.
8:23 - 8:26

Quando são secretos,
importantes e destrutivos
8:26 - 8:28

eu chamo-lhes da seguinte maneira:
8:28 - 8:30

"armas de destruição maciça".
8:30 - 8:32

(Risos)
8:32 - 8:35

(Aplausos)
8:35 - 8:37

Estão por todo o lado
e não são um erro.
8:38 - 8:41

São empresas privadas que estão
a criar algoritmos privados
8:41 - 8:43

para objetivos privados.
8:43 - 8:46

Mesmo os que mencionei aqui
para os professores e a polícia,
8:46 - 8:48

foram criados por empresas privadas
8:48 - 8:51

e vendidos a instituições governamentais.
8:51 - 8:52

Chamam-lhes o seu "molho secreto"
8:52 - 8:55

— é por isso que não nos podem contar.
8:55 - 8:57

Trata-se, também, de poder privado.
8:58 - 9:03

Estão a lucrar para dominarem
a autoridade do inescrutável.
9:05 - 9:07

Agora, vocês podem pensar:
9:07 - 9:09

se tudo isto é privado
e existe concorrência,
9:09 - 9:12

talvez o mercado livre
corrija este problema.
9:12 - 9:13

Não, não o fará.
9:13 - 9:16

Pode fazer-se muito dinheiro
com a injustiça.
9:17 - 9:20

Além disso, nós não somos
agentes económicos racionais.
9:21 - 9:22

Somos todos tendenciosos.
9:23 - 9:26

Somos racistas e intolerantes
em proporções horríveis,
9:26 - 9:28

em proporções que nem nós sabemos.
9:29 - 9:32

Mas sabemos que isto acontece
em níveis agregados,
9:32 - 9:36

porque os sociólogos
têm vindo a demonstrá-lo,
9:36 - 9:37

através de experiências,
9:37 - 9:40

em que se enviam vários currículos
em resposta a anúncios,
9:40 - 9:43

igualmente qualificados,
mas alguns com nomes caucasianos
9:43 - 9:44

e outros com nomes de raça negra,
9:44 - 9:47

e os resultados são sempre
desconcertantes... Sempre!
9:48 - 9:49

Somos nós que somos tendenciosos
9:49 - 9:53

e estamos a colocar
esses preconceitos nos algoritmos,
9:53 - 9:55

ao escolhermos os dados,
9:55 - 9:57

tal como eu decidi
em relação aos "noodles"
9:57 - 9:59

— decidi que eram irrelevantes.
9:59 - 10:05

Mas, ao confiarmos em dados
que têm, por base, acontecimentos passados
10:05 - 10:07

e ao escolhermos a definição de sucesso,
10:07 - 10:11

como é que podemos esperar
que os algoritmos saiam ilesos?
10:11 - 10:13

Não podemos. Temos de os verificar.
10:14 - 10:16

Temos de ver o nível de justiça.
10:16 - 10:19

A boa notícia é que podemos fazer isso.
10:19 - 10:22

Os algoritmos podem ser questionados
10:22 - 10:24

e as respostas são sempre verdadeiras.
10:24 - 10:27

Podemos corrigi-los.
Podemos torná-los melhores.
10:27 - 10:29

Posso chamar-lhe "auditoria algorítmica"
10:29 - 10:31

e explico-vos em que consiste.
10:31 - 10:33

Primeiro, verificar
a integridade dos dados.
10:34 - 10:37

Em relação ao risco de reincidência
de que já vos falei,
10:38 - 10:41

verificar a integridade dos dados
significa que concordamos com o facto
10:41 - 10:45

de que, nos EUA, tanto os brancos
como os negros fumam erva,
10:45 - 10:47

mas os negros têm
maior probabilidade de ser detidos
10:47 - 10:50

— quatro ou cinco vezes mais
probabilidades, dependendo da zona.
10:51 - 10:54

Como é que se comporta
esta tendência, noutros crimes
10:54 - 10:56

e como é que lidamos com isso?
10:56 - 10:59

Segundo, devemos pensar
na definição de sucesso,
10:59 - 11:01

rever esse conceito.
11:01 - 11:03

Lembrem-se do algoritmo
de contratação de que já falámos.
11:03 - 11:07

Alguém que fica na empresa
durante quatro anos e é promovido uma vez?
11:07 - 11:08

É um trabalhador bem-sucedido,
11:08 - 11:11

mas também é alguém
que apoia a cultura da empresa.
11:12 - 11:14

Assim, vemos que também
é muito tendencioso.
11:14 - 11:16

É necessário separar estas duas coisas.
11:16 - 11:18

Tomemos como exemplo
11:18 - 11:20

uma audição às cegas
de uma orquestra
11:20 - 11:23

As pessoas que fazem a audição
escondem-se atrás duma cortina.
11:23 - 11:25

O que é importante reter
11:25 - 11:28

é que as pessoas que estão a ouvir
decidiram o que é importante
11:28 - 11:30

e o que não é importante,
11:30 - 11:32

e não se deixam distrair.
11:33 - 11:36

Quando as audições às cegas começaram,
11:36 - 11:39

o número de mulheres em orquestras
aumentou cinco vezes.
11:40 - 11:42

Em seguida, temos de considerar
a precisão.
11:43 - 11:47

É aqui que falharia o "modelo de valor
acrescentado" dos professores.
11:48 - 11:50

Claro que nenhum algoritmo é perfeito,
11:51 - 11:54

é por isso que temos de considerar
os erros de cada um.
11:55 - 11:59

Com que frequência existem erros
e com quem é que este modelo falha?
12:00 - 12:02

Qual é o custo desta falha?
12:02 - 12:05

Por último, temos de considerar
12:06 - 12:08

os efeitos a longo prazo dos algoritmos,
12:09 - 12:11

o "feedback" que está programado.
12:12 - 12:13

Isto parece abstrato,
12:13 - 12:16

mas imaginem se os engenheiros
do Facebook consideravam
12:16 - 12:21

mostrar-nos apenas
o que os nossos amigos publicam.
12:22 - 12:25

Tenho mais duas mensagens,
uma delas para os cientistas de dados.
12:25 - 12:29

Cientistas de dados: nós não
devemos ser os árbitros da verdade.
12:30 - 12:32

Devemos ser tradutores
de discussões éticas
12:32 - 12:35

que acontecem em sociedades mais amplas.
12:36 - 12:38

(Aplausos)
12:38 - 12:39

E aos restantes,
12:40 - 12:42

aos que não são cientistas de dados:
12:42 - 12:43

isto não é um teste matemático.
12:44 - 12:45

É uma luta política.
12:47 - 12:50

Precisamos de exigir a responsabilização
dos soberanos dos nossos algoritmos.
12:52 - 12:54

(Aplausos)
12:54 - 12:58

A era da fé cega nos "big data"
tem de acabar.
12:58 - 12:59

Muito obrigada.
12:59 - 13:04

(Aplausos)

Title:: A era da fé cega nos "big data" tem de acabar
Speaker:: Cathy O'Neil
Description:: Os algoritmos decidem a quem é concedido um empréstimo, quem é chamado para uma entrevista de emprego, a quem é atribuído um seguro, e muito mais — mas não tornam as coisas justas automaticamente. A matemática e o cientista de dados Cathy O'Neil cunhou um termo para os algoritmos que são secretos, importantes e prejudiciais: "armas de destruição matemática".
Saiba mais sobre os sumários escondidos por detrás das fórmulas.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:18

	Margarida Ferreira edited Portuguese subtitles for The era of blind faith in big data must end
	Margarida Ferreira approved Portuguese subtitles for The era of blind faith in big data must end
	Margarida Ferreira edited Portuguese subtitles for The era of blind faith in big data must end
	Margarida Ferreira accepted Portuguese subtitles for The era of blind faith in big data must end
	Margarida Ferreira edited Portuguese subtitles for The era of blind faith in big data must end
	Margarida Ferreira edited Portuguese subtitles for The era of blind faith in big data must end
	Margarida Ferreira edited Portuguese subtitles for The era of blind faith in big data must end
	Marta Sousa edited Portuguese subtitles for The era of blind faith in big data must end

Show all

Portuguese subtitles

Revisions Compare revisions

Revision 15 Edited

Margarida Ferreira
Revision 14 Edited

Margarida Ferreira

	Revision Number	Author	Created
	15	Margarida Ferreira
	14	Margarida Ferreira

A era da fé cega nos "big data" tem de acabar

Revisions Compare revisions

Our website uses cookies

Operating cookies (Required)