A era da fé cega no Big data tem de acabar

0:01 - 0:03

Os algoritmos estão por toda parte.
0:04 - 0:07

Eles selecionam e separam
os vencedores dos perdedores.
0:08 - 0:12

Os vencedores conseguem o emprego
ou a oferta de um bom cartão de crédito.
0:12 - 0:15

Os perdedores não conseguem
nem mesmo uma entrevista.
0:16 - 0:18

Ou pagam mais caro pelo seu seguro.
0:18 - 0:22

Estamos sendo avaliados
com fórmulas secretas que não entendemos,
0:23 - 0:27

que geralmente não têm
como serem contestadas.
0:27 - 0:29

Isso coloca uma questão:
0:29 - 0:31

e se os algoritmos estiverem errados?
0:33 - 0:35

Precisamos de duas coisas
para criar um algoritmo:
0:35 - 0:39

de dados, o que aconteceu no passado,
e uma definição de sucesso,
0:39 - 0:41

aquilo que estamos procurando
e geralmente esperando.
0:41 - 0:46

Treinamos um algoritmo
procurando, calculando.
0:46 - 0:50

O algoritmo descobre
o que está associado com o sucesso,
0:50 - 0:53

que situação leva ao sucesso.
0:53 - 0:55

Na verdade, todos usamos algoritmos,
0:55 - 0:57

apenas não os formalizamos
num código escrito.
0:57 - 0:58

Querem um exemplo?
0:58 - 1:02

Todo dia uso um algoritmo pra preparar
as refeições da minha família.
1:02 - 1:04

Os dados que uso
1:04 - 1:07

são os ingredientes da minha cozinha,
o tempo disponível,
1:08 - 1:09

minha ambição,
1:09 - 1:11

e quem seleciona os dados sou eu.
1:11 - 1:15

Não conto um pacote de Miojo como comida.
1:15 - 1:17

(Risos)
1:17 - 1:19

Minha definição de sucesso é:
1:19 - 1:22

uma refeição é um sucesso
quando meus filhos comem verduras.
1:22 - 1:25

Muito diferente se meu filho
mais novo estiver no comando.
1:25 - 1:28

Para ele, sucesso
é comer montes de Nutella.
1:29 - 1:31

Mas eu é que escolho o que é sucesso.
1:31 - 1:34

Eu estou no comando; minha opinião conta.
1:34 - 1:37

Essa é a primeira regra dos algoritmos.
1:37 - 1:40

Algoritmos são opiniões
embutidas num código.
1:42 - 1:45

Bem diferente do que a maioria
de nós pensa sobre os algoritmos.
1:45 - 1:50

Achamos que os algoritmos são
objetivos, verdadeiros e científicos.
1:50 - 1:53

Esse é um truque de marketing.
1:53 - 1:55

É também um truque de marketing
1:55 - 1:59

intimidar vocês com algoritmos,
1:59 - 2:02

fazê-los acreditar nos algoritmos
ou ter medo deles
2:02 - 2:05

porque acreditamos
na matemática, e temos medo dela.
2:05 - 2:11

Muita coisa pode dar errado
quando confiamos cegamente no Big Data.
2:12 - 2:15

Esta é Kiri Soares,
diretora de um colégio no Brooklyn.
2:15 - 2:17

Em 2011, ela me disse que seus professores
2:17 - 2:20

estavam sendo avaliados
por um algoritmo complexo e secreto,
2:20 - 2:22

chamado "modelo de valor agregado".
2:22 - 2:25

Disse a ela: "Descubra
a fórmula dele e me mostre.
2:25 - 2:27

Aí, posso explicá-lo a você".
2:27 - 2:31

Ela disse: "Tentei conseguir a fórmula,
mas meu contato na Secretaria de Educação
2:31 - 2:34

me falou que era matemática
e que eu não iria entender".
2:35 - 2:37

E a história só fica pior.
2:37 - 2:40

O "New York Post" protocolou
um pedido de transparência,
2:40 - 2:43

pegou o nome de todos os professores,
e todas suas avaliações
2:43 - 2:46

e publicou como um ato
para expor os professores.
2:47 - 2:51

Quando tentei conseguir as fórmulas,
o código-fonte, através dos mesmos meios,
2:51 - 2:54

me disseram que não podia, me foi negado.
2:54 - 2:58

Descobri mais tarde que ninguém em
Nova Iorque tinha acesso àquela fórmula.
2:58 - 3:00

Ninguém a entendia.
3:02 - 3:05

Então, Gary Rubenstein,
um cara muito inteligente, se envolveu.
3:05 - 3:09

Ele descobriu 665 professores
naqueles dados do "New York Post"
3:09 - 3:11

que na verdade tinham duas avaliações.
3:11 - 3:15

Aquilo podia acontecer se eles ensinavam
matemática na sétima e na oitava série.
3:15 - 3:17

Ele decidiu marcá-los.
3:17 - 3:19

Cada ponto representa um professor.
3:19 - 3:21

(Risos)
3:22 - 3:23

O que é isto?
3:23 - 3:24

(Risos)
3:24 - 3:28

Isso nunca deveria ter sido usado
numa avaliação individual.
3:28 - 3:30

É quase um gerador aleatório de número.
3:30 - 3:32

(Aplausos) (Vivas)
3:32 - 3:33

Mas foi usado.
3:33 - 3:35

Esta é Sarah Wysocki.
3:35 - 3:37

Ela foi demitida, juntamente
com 205 outros professores,
3:37 - 3:40

da superintendência de ensino
de Washington, D.C.,
3:40 - 3:45

mesmo tendo excelente recomendação
de sua diretora e dos pais das crianças.
3:45 - 3:48

Muitos aqui devem estar pensando,
especialmente cientistas de dados,
3:48 - 3:50

os especialistas em IA:
3:50 - 3:54

"Eu nunca faria um algoritmo
inconsistente assim".
3:55 - 3:56

Mas os algoritmos podem dar errado,
3:56 - 4:01

mesmo os bem-intencionados podem ter
efeitos profundamente destrutivos.
4:03 - 4:07

E enquanto um avião mal projetado
cai, e todo mundo vê,
4:07 - 4:09

um algoritmo mal projetado
4:10 - 4:14

pode continuar a causar destruição
de forma silenciosa, por um longo tempo.
4:16 - 4:17

Este é Roger Ailes.
4:17 - 4:19

(Risos)
4:21 - 4:23

Ele fundou a Fox News em 1996.
4:23 - 4:26

Mais de 20 mulheres
reclamaram de assédio sexual.
4:26 - 4:29

Elas disseram que não lhes foi
permitido subir na Fox News.
4:29 - 4:32

Ele foi afastado ano passado,
mas vimos recentemente
4:32 - 4:35

que os problemas continuaram.
4:36 - 4:37

Uma pergunta se impõe aqui:
4:37 - 4:40

o que a Fox News deveria fazer
para virar essa página?
4:41 - 4:44

Que tal se eles substituírem
seu processo de contratação
4:44 - 4:48

por um algoritmo de aprendizado
de máquina? Parece boa ideia, né?
4:48 - 4:49

Pensem bem.
4:49 - 4:51

Os dados, quais seriam os dados?
4:51 - 4:56

Uma escolha razoável seria os últimos
21 anos de contratação da Fox News.
4:56 - 4:58

Bem razoável.
4:58 - 5:00

E a definição de sucesso?
5:00 - 5:03

Seria uma escolha racional:
quem é bem-sucedido para a Fox News?
5:03 - 5:07

Digamos que seja alguém
que tenha ficado lá por quatro anos
5:07 - 5:09

e promovido pelo menos uma vez.
5:09 - 5:10

Parece razoável.
5:10 - 5:13

E então o algoritmo poderia ser treinado.
5:13 - 5:17

Seria treinado para procurar pessoas
para aprender o que leva ao sucesso,
5:17 - 5:21

que tipo de contratações
historicamente levaram ao sucesso
5:21 - 5:23

segundo aquela definição.
5:24 - 5:26

Agora pensem sobre o que aconteceria
5:26 - 5:29

se aplicado a um conjunto
atual de pedidos de emprego.
5:29 - 5:31

Ele filtraria as mulheres,
5:32 - 5:36

pois aparentemente elas não
tiveram sucesso no passado.
5:40 - 5:42

Os algoritmos não tornam as coisas justas
5:42 - 5:45

se forem aplicados
de forma cega e displicente.
5:45 - 5:47

Não tornam as coisas justas.
5:47 - 5:50

Eles repetem nossas práticas
passadas, nossos padrões.
5:50 - 5:52

Eles automatizam o status quo.
5:53 - 5:55

Isso seria ótimo se tivéssemos
um mundo perfeito,
5:56 - 5:57

mas não temos.
5:57 - 6:01

E mais: a maioria das empresas
não inclui os litígios constrangedores,
6:02 - 6:05

mas os cientistas de dados dessas empresas
6:05 - 6:07

são orientados a seguirem os dados,
6:07 - 6:09

a terem rigor.
6:10 - 6:12

Pensem no que isso significa.
6:12 - 6:16

Como todos somos tendenciosos, significa
que poderiam estar codificando sexismo
6:16 - 6:18

ou qualquer outro tipo de intolerância.
6:19 - 6:22

Vamos fazer um exercício
intelectual, pois gosto deles:
6:24 - 6:27

uma sociedade inteiramente segregada,
6:28 - 6:32

racialmente segregada,
todas as cidades, todos os bairros,
6:32 - 6:36

e onde enviamos a polícia apenas
a bairros de minorias atrás de crimes.
6:36 - 6:39

Os dados sobre os presos
seriam muito tendenciosos.
6:40 - 6:42

E se, além disso, pegássemos
cientistas de dados
6:42 - 6:47

e pagássemos a eles para predizerem
onde vai ocorrer o próximo crime?
6:47 - 6:49

Bairros de minorias.
6:49 - 6:53

Ou predizer quem será o próximo criminoso?
6:53 - 6:54

Alguém das minorias.
6:56 - 7:00

Os cientistas de dados se gabariam
da excelência e da precisão de seu modelo,
7:01 - 7:02

e estariam certos.
7:04 - 7:09

Bem, a realidade não é drástica assim,
mas temos graves segregações
7:09 - 7:11

em muitas cidades e vilas,
e muitas evidências
7:12 - 7:15

de dados policiais
e judiciários tendenciosos.
7:16 - 7:18

Na verdade, predizemos focos de crise,
7:18 - 7:20

lugares onde crimes podem ocorrer.
7:20 - 7:24

E predizemos, de fato,
a criminalidade individual,
7:24 - 7:27

a criminalidade dos indivíduos.
7:27 - 7:31

A organização de notícias ProPublica
recentemente estudou
7:31 - 7:34

um desses algoritmos,
chamados de "risco de recidiva",
7:34 - 7:38

que têm sido usados por juízes
na Flórida para proferirem sentenças.
7:38 - 7:42

Bernard, à esquerda,
o homem negro, atingiu dez em dez.
7:43 - 7:45

Dylan, à direita, três em dez.
7:45 - 7:48

Então, dez em dez, alto risco;
três em dez, baixo risco.
7:49 - 7:51

Ambos foram pegos por posse de droga.
7:51 - 7:55

Ambos tinham antecedentes,
e Dylan tinha um delito grave,
7:55 - 7:57

mas Bernard não.
7:58 - 8:01

Isso é importante,
pois, quanto maior a pontuação,
8:01 - 8:04

maior a chance de se receber
uma sentença mais severa.
8:06 - 8:08

O que que está havendo?
8:08 - 8:10

Branqueamento dos dados.
8:11 - 8:15

É um processo por meio do qual tecnólogos
escondem verdades sujas
8:15 - 8:19

dentro da caixa-preta dos algoritmos,
e os chamam de objetivos,
8:19 - 8:22

de meritocráticos.
8:23 - 8:28

Cunhei um termo para esses algoritmos
secretos, importantes e destrutivos:
8:28 - 8:30

"armas de destruição em matemática".
8:30 - 8:33

(Aplausos) (Vivas)
8:35 - 8:37

Eles estão por toda parte,
e isso não é um erro.
8:38 - 8:41

Trata-se de empresas privadas
criando algoritmos privados
8:41 - 8:43

para fins privados.
8:43 - 8:46

Mesmos aqueles que mencionei,
para os professores e a polícia,
8:46 - 8:50

foram criados por empresas privadas
e vendidos a instituições governamentais.
8:50 - 8:55

Eles os chamam de seu "molho secreto",
e por isso não nos contam sobre eles.
8:55 - 8:58

Isso é poder privado também.
8:58 - 9:03

Eles estão lucrando para exercerem
a autoridade do inescrutável.
9:05 - 9:09

Vocês podem achar, já que isso é privado
e não há competição,
9:09 - 9:11

que talvez o livre comércio
resolva o problema.
9:12 - 9:13

Não vai resolver.
9:13 - 9:16

Há muito dinheiro
a ser ganho com a injustiça.
9:17 - 9:21

Além disso, não somos
agentes econômicos racionais.
9:21 - 9:23

Somos todos tendenciosos.
9:23 - 9:26

Somos todos racistas e intolerantes
de maneiras que desejávamos não ser,
9:26 - 9:29

de maneiras das nem temos consciência.
9:29 - 9:32

No entanto, sabemos disso
9:32 - 9:36

porque os sociólogos têm
demonstrado isso consistentemente
9:36 - 9:40

com experimentos nos quais
enviam um monte de currículos,
9:40 - 9:41

todos igualmente qualificados,
9:41 - 9:45

mas alguns com nomes que parecem
ser de brancos, e outros, de negros,
9:45 - 9:47

e os resultados são sempre frustrantes.
9:47 - 9:49

Então, nós somos tendenciosos,
9:49 - 9:53

e estamos instilando
esses preconceitos nos algoritmos
9:53 - 9:55

quando escolhemos quais dados coletar,
9:55 - 9:59

como quando escolhi descartar o Miojo,
porque decidi que ele era irrelevante.
9:59 - 10:05

Mas, ao confiar em dados
que se baseiam em práticas do passado
10:05 - 10:07

e ao escolher a definição de sucesso,
10:07 - 10:11

como podemos esperar
que os algoritmos saiam incólumes?
10:11 - 10:14

Não dá, temos de fiscalizá-los.
10:14 - 10:16

Temos de checar se são justos.
10:16 - 10:19

A boa notícia é que isso é possível.
10:19 - 10:22

Os algoritmos podem ser questionados,
10:22 - 10:24

e eles sempre vão nos dizer a verdade.
10:24 - 10:27

E podemos repará-los, aperfeiçoá-los.
10:27 - 10:29

Podemos chamar de auditoria de algoritmos,
10:29 - 10:31

e vou mostrar como seria.
10:31 - 10:34

Primeiro, temos de checar
a integridade dos dados.
10:34 - 10:37

Para o algoritmo de risco
de recidiva que mencionei,
10:38 - 10:41

checar a integridade dos dados
significa aceitarmos o fato
10:41 - 10:45

de que, nos EUA, brancos e negros
fumam maconha na mesma proporção,
10:45 - 10:47

mas os negros têm
muito mais chance de serem presos,
10:47 - 10:51

quatro ou cinco vezes mais,
dependendo da região.
10:51 - 10:54

E como esse viés surge
em outras categorias de crime
10:54 - 10:56

e como justificamos isso?
10:56 - 10:59

Segundo, devemos pensar
na definição de sucesso,
10:59 - 11:01

auditar esse conceito.
11:01 - 11:03

Lembram-se do algoritmo
de contratação de que falei?
11:03 - 11:07

Alguém que trabalhou por quatro anos
e foi promovido uma vez?
11:07 - 11:08

Bem, esse é um empregado de sucesso,
11:08 - 11:11

mas é também um empregado
que tem apoio da cultura da empresa.
11:12 - 11:14

Isso pode ser bem tendencioso.
11:14 - 11:16

Precisamos separar essas duas coisas.
11:16 - 11:20

Deveríamos nos mirar
na audição às cegas de orquestras.
11:20 - 11:23

É quando os examinadores
ficam atrás de uma planilha.
11:23 - 11:25

O importante aí
11:25 - 11:28

é que os examinadores
decidem o que é importante
11:28 - 11:30

e o que não é,
11:30 - 11:33

e não se distraem com outras coisas.
11:33 - 11:36

Quando as audições às cegas
de orquestras começaram,
11:36 - 11:39

o número de mulheres em orquestras
cresceu cinco vezes mais.
11:40 - 11:43

Depois, temos de considerar o rigor.
11:43 - 11:47

É aí que o modelo valor agregado para
professores fracassaria imediatamente.
11:48 - 11:50

Nenhum algoritmo é perfeito, claro,
11:51 - 11:55

assim, temos de partir
do pressuposto de que todos erram.
11:55 - 11:59

Qual a frequência desses erros,
e com quem esse modelo falha?
12:00 - 12:02

Qual o preço desse fracasso?
12:02 - 12:05

E, finalmente, temos de considerar
12:06 - 12:09

os efeitos de longo prazo dos algoritmos,
12:09 - 12:11

os círculos viciosos que são gerados.
12:11 - 12:14

Isso parece abstrato, mas imaginem
se os engenheiros do Facebook
12:14 - 12:16

tivessem considerado isso
12:16 - 12:21

antes de decidirem nos mostrar
apenas coisas que nossos amigos postam.
12:22 - 12:25

Tenho mais duas mensagens,
uma para os cientistas de dados.
12:25 - 12:29

Cientistas de dados: não devemos
ser os árbitros da verdade.
12:30 - 12:33

Devemos ser tradutores
dos debates éticos que ocorrem
12:33 - 12:35

na sociedade como um todo.
12:36 - 12:38

(Aplausos) (Vivas)
12:38 - 12:40

E os demais,
12:40 - 12:44

os que não são cientistas de dados:
isso não é um teste de matemática.
12:44 - 12:46

Essa é uma luta política.
12:47 - 12:51

Precisamos exigir prestação de contas
dos "senhores dos algoritmos".
12:51 - 12:54

(Aplausos) (Vivas)
12:54 - 12:58

A era da fé cega
no Big Data tem de acabar.
12:58 - 12:59

Muito obrigada.
12:59 - 13:02

(Aplausos) (Vivas)

Title:: A era da fé cega no Big data tem de acabar
Speaker:: Cathy O'Neil
Description:: Os algoritmos decidem quem vai receber um empréstimo, quem vai ser selecionado para uma entrevista de emprego, quem vai ter direito ao seguro, e muito mais -- mas eles não garantem automaticamente que as coisas sejam justas. Cathy O'Neil, matemática e engenheira de dados, cunhou um termo para esses algoritmos secretos, importantes e nocivos: "armas de destruição em matemática". Saiba mais sobre as agendas secretas por trás das fórmulas dos algoritmos.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:18

	Raissa Mendes approved Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end
	Raissa Mendes edited Portuguese, Brazilian subtitles for The era of blind faith in big data must end

Show all

Portuguese, Brazilian subtitles

Revisions

Revision 191 Edited

Raissa Mendes

A era da fé cega no Big data tem de acabar

Revisions

Our website uses cookies

Operating cookies (Required)