WEBVTT 00:00:00.875 --> 00:00:02.991 Os algoritmos estão por toda parte. 00:00:03.951 --> 00:00:07.236 Eles selecionam e separam os vencedores dos perdedores. 00:00:08.019 --> 00:00:12.077 Os vencedores conseguem o emprego ou a oferta de um bom cartão de crédito. 00:00:12.077 --> 00:00:14.945 Os perdedores não conseguem nem mesmo uma entrevista. 00:00:15.590 --> 00:00:17.927 Ou pagam mais caro pelo seu seguro. 00:00:18.197 --> 00:00:21.746 Estamos sendo avaliados com fórmulas secretas que não entendemos, 00:00:22.675 --> 00:00:26.632 que geralmente não têm como serem contestadas. 00:00:27.240 --> 00:00:28.536 Isso coloca uma questão: 00:00:28.560 --> 00:00:31.473 e se os algoritmos estiverem errados? NOTE Paragraph 00:00:32.550 --> 00:00:34.964 Precisamos de duas coisas para criar um algoritmo: 00:00:34.964 --> 00:00:38.624 de dados, o que aconteceu no passado, e uma definição de sucesso, 00:00:38.624 --> 00:00:41.211 aquilo que estamos procurando e geralmente esperando. 00:00:41.235 --> 00:00:46.272 Treinamos um algoritmo procurando, calculando. 00:00:46.296 --> 00:00:49.615 O algoritmo descobre o que está associado com o sucesso, 00:00:49.659 --> 00:00:52.502 que situação leva ao sucesso. NOTE Paragraph 00:00:52.881 --> 00:00:54.643 Na verdade, todos usamos algoritmos, 00:00:54.667 --> 00:00:57.155 apenas não os formalizamos num código escrito. 00:00:57.169 --> 00:00:58.411 Querem um exemplo? 00:00:58.411 --> 00:01:01.687 Todo dia uso um algoritmo pra preparar as refeições da minha família. 00:01:02.121 --> 00:01:03.597 Os dados que uso 00:01:04.394 --> 00:01:07.483 são os ingredientes da minha cozinha, o tempo disponível, 00:01:07.633 --> 00:01:08.861 minha ambição, 00:01:08.885 --> 00:01:10.594 e quem seleciona os dados sou eu. 00:01:10.618 --> 00:01:14.869 Não conto um pacote de Miojo como comida. NOTE Paragraph 00:01:14.893 --> 00:01:16.762 (Risos) NOTE Paragraph 00:01:16.786 --> 00:01:18.631 Minha definição de sucesso é: 00:01:18.655 --> 00:01:21.794 uma refeição é um sucesso quando meus filhos comem verduras. 00:01:22.181 --> 00:01:25.035 Muito diferente se meu filho mais novo estiver no comando. 00:01:25.059 --> 00:01:28.337 Para ele, sucesso é comer montes de Nutella. 00:01:29.179 --> 00:01:31.405 Mas eu é que escolho o que é sucesso. 00:01:31.429 --> 00:01:34.136 Eu estou no comando; minha opinião conta. 00:01:34.160 --> 00:01:36.835 Essa é a primeira regra dos algoritmos. NOTE Paragraph 00:01:36.859 --> 00:01:40.319 Algoritmos são opiniões embutidas num código. 00:01:41.562 --> 00:01:45.225 Bem diferente do que a maioria de nós pensa sobre os algoritmos. 00:01:45.249 --> 00:01:49.753 Achamos que os algoritmos são objetivos, verdadeiros e científicos. 00:01:50.387 --> 00:01:52.506 Esse é um truque de marketing. 00:01:53.269 --> 00:01:55.394 É também um truque de marketing 00:01:55.418 --> 00:01:58.572 intimidar vocês com algoritmos, 00:01:58.596 --> 00:02:02.257 fazê-los acreditar nos algoritmos ou ter medo deles 00:02:02.281 --> 00:02:05.109 porque acreditamos na matemática, e temos medo dela. 00:02:05.477 --> 00:02:10.867 Muita coisa pode dar errado quando confiamos cegamente no Big Data. NOTE Paragraph 00:02:11.514 --> 00:02:15.057 Esta é Kiri Soares, diretora de um colégio no Brooklyn. 00:02:15.081 --> 00:02:17.121 Em 2011, ela me disse que seus professores 00:02:17.121 --> 00:02:20.302 estavam sendo avaliados por um algoritmo complexo e secreto, 00:02:20.322 --> 00:02:22.271 chamado "modelo de valor agregado". 00:02:22.375 --> 00:02:24.911 Disse a ela: "Descubra a fórmula dele e me mostre. 00:02:24.911 --> 00:02:26.842 Aí, posso explicá-lo a você". 00:02:27.002 --> 00:02:30.887 Ela disse: "Tentei conseguir a fórmula, mas meu contato na Secretaria de Educação 00:02:30.887 --> 00:02:34.123 me falou que era matemática e que eu não iria entender". NOTE Paragraph 00:02:35.266 --> 00:02:36.604 E a história só fica pior. 00:02:36.628 --> 00:02:40.158 O "New York Post" protocolou um pedido de transparência, 00:02:40.182 --> 00:02:43.141 pegou o nome de todos os professores, e todas suas avaliações 00:02:43.165 --> 00:02:46.497 e publicou como um ato para expor os professores. 00:02:47.084 --> 00:02:50.814 Quando tentei conseguir as fórmulas, o código-fonte, através dos mesmos meios, 00:02:50.868 --> 00:02:54.037 me disseram que não podia, me foi negado. 00:02:54.069 --> 00:02:58.465 Descobri mais tarde que ninguém em Nova Iorque tinha acesso àquela fórmula. 00:02:58.489 --> 00:03:00.414 Ninguém a entendia. 00:03:01.929 --> 00:03:05.153 Então, Gary Rubenstein, um cara muito inteligente, se envolveu. 00:03:05.177 --> 00:03:08.752 Ele descobriu 665 professores naqueles dados do "New York Post" 00:03:08.752 --> 00:03:10.728 que na verdade tinham duas avaliações. 00:03:10.728 --> 00:03:15.063 Aquilo podia acontecer se eles ensinavam matemática na sétima e na oitava série. 00:03:15.080 --> 00:03:16.618 Ele decidiu marcá-los. 00:03:16.642 --> 00:03:18.835 Cada ponto representa um professor. NOTE Paragraph 00:03:19.104 --> 00:03:21.483 (Risos) NOTE Paragraph 00:03:21.507 --> 00:03:23.028 O que é isto? NOTE Paragraph 00:03:23.052 --> 00:03:24.329 (Risos) NOTE Paragraph 00:03:24.353 --> 00:03:27.753 Isso nunca deveria ter sido usado numa avaliação individual. 00:03:27.753 --> 00:03:29.633 É quase um gerador aleatório de número. NOTE Paragraph 00:03:29.633 --> 00:03:32.193 (Aplausos) (Vivas) NOTE Paragraph 00:03:32.193 --> 00:03:33.309 Mas foi usado. 00:03:33.309 --> 00:03:34.749 Esta é Sarah Wysocki. 00:03:34.749 --> 00:03:37.394 Ela foi demitida, juntamente com 205 outros professores, 00:03:37.394 --> 00:03:39.914 da superintendência de ensino de Washington, D.C., 00:03:39.914 --> 00:03:44.553 mesmo tendo excelente recomendação de sua diretora e dos pais das crianças. NOTE Paragraph 00:03:45.020 --> 00:03:48.226 Muitos aqui devem estar pensando, especialmente cientistas de dados, 00:03:48.226 --> 00:03:49.823 os especialistas em IA: 00:03:49.823 --> 00:03:54.183 "Eu nunca faria um algoritmo inconsistente assim". 00:03:54.703 --> 00:03:56.450 Mas os algoritmos podem dar errado, 00:03:56.450 --> 00:04:01.158 mesmo os bem-intencionados podem ter efeitos profundamente destrutivos. 00:04:02.531 --> 00:04:06.900 E enquanto um avião mal projetado cai, e todo mundo vê, 00:04:06.910 --> 00:04:09.005 um algoritmo mal projetado 00:04:10.245 --> 00:04:14.410 pode continuar a causar destruição de forma silenciosa, por um longo tempo. NOTE Paragraph 00:04:15.748 --> 00:04:17.318 Este é Roger Ailes. NOTE Paragraph 00:04:17.342 --> 00:04:19.342 (Risos) NOTE Paragraph 00:04:20.524 --> 00:04:23.142 Ele fundou a Fox News em 1996. 00:04:23.436 --> 00:04:26.001 Mais de 20 mulheres reclamaram de assédio sexual. 00:04:26.001 --> 00:04:29.276 Elas disseram que não lhes foi permitido subir na Fox News. 00:04:29.300 --> 00:04:31.820 Ele foi afastado ano passado, mas vimos recentemente 00:04:31.844 --> 00:04:34.804 que os problemas continuaram. 00:04:35.654 --> 00:04:37.054 Uma pergunta se impõe aqui: 00:04:37.078 --> 00:04:40.262 o que a Fox News deveria fazer para virar essa página? NOTE Paragraph 00:04:41.245 --> 00:04:44.286 Que tal se eles substituírem seu processo de contratação 00:04:44.310 --> 00:04:47.604 por um algoritmo de aprendizado de máquina? Parece boa ideia, né? 00:04:47.607 --> 00:04:48.907 Pensem bem. 00:04:48.931 --> 00:04:51.036 Os dados, quais seriam os dados? 00:04:51.060 --> 00:04:56.007 Uma escolha razoável seria os últimos 21 anos de contratação da Fox News. 00:04:56.031 --> 00:04:57.533 Bem razoável. 00:04:57.557 --> 00:04:59.675 E a definição de sucesso? 00:04:59.921 --> 00:05:03.055 Seria uma escolha racional: quem é bem-sucedido para a Fox News? 00:05:03.071 --> 00:05:06.651 Digamos que seja alguém que tenha ficado lá por quatro anos 00:05:06.675 --> 00:05:08.509 e promovido pelo menos uma vez. 00:05:08.816 --> 00:05:10.377 Parece razoável. 00:05:10.401 --> 00:05:12.755 E então o algoritmo poderia ser treinado. 00:05:12.779 --> 00:05:17.026 Seria treinado para procurar pessoas para aprender o que leva ao sucesso, 00:05:17.069 --> 00:05:21.441 que tipo de contratações historicamente levaram ao sucesso 00:05:21.441 --> 00:05:23.225 segundo aquela definição. 00:05:24.200 --> 00:05:25.975 Agora pensem sobre o que aconteceria 00:05:25.999 --> 00:05:29.014 se aplicado a um conjunto atual de pedidos de emprego. 00:05:29.119 --> 00:05:31.098 Ele filtraria as mulheres, 00:05:31.663 --> 00:05:35.593 pois aparentemente elas não tiveram sucesso no passado. NOTE Paragraph 00:05:39.752 --> 00:05:42.289 Os algoritmos não tornam as coisas justas 00:05:42.313 --> 00:05:45.007 se forem aplicados de forma cega e displicente. 00:05:45.031 --> 00:05:46.513 Não tornam as coisas justas. 00:05:46.537 --> 00:05:49.656 Eles repetem nossas práticas passadas, nossos padrões. 00:05:49.656 --> 00:05:52.185 Eles automatizam o status quo. 00:05:52.568 --> 00:05:55.107 Isso seria ótimo se tivéssemos um mundo perfeito, 00:05:55.905 --> 00:05:57.217 mas não temos. 00:05:57.241 --> 00:06:01.343 E mais: a maioria das empresas não inclui os litígios constrangedores, 00:06:02.446 --> 00:06:05.034 mas os cientistas de dados dessas empresas 00:06:05.058 --> 00:06:07.247 são orientados a seguirem os dados, 00:06:07.271 --> 00:06:09.414 a terem rigor. 00:06:10.273 --> 00:06:11.654 Pensem no que isso significa. 00:06:11.678 --> 00:06:15.705 Como todos somos tendenciosos, significa que poderiam estar codificando sexismo 00:06:15.729 --> 00:06:18.395 ou qualquer outro tipo de intolerância. NOTE Paragraph 00:06:19.488 --> 00:06:22.099 Vamos fazer um exercício intelectual, pois gosto deles: 00:06:23.574 --> 00:06:26.929 uma sociedade inteiramente segregada, 00:06:28.067 --> 00:06:31.575 racialmente segregada, todas as cidades, todos os bairros, 00:06:31.599 --> 00:06:35.806 e onde enviamos a polícia apenas a bairros de minorias atrás de crimes. 00:06:36.451 --> 00:06:39.300 Os dados sobre os presos seriam muito tendenciosos. 00:06:39.851 --> 00:06:42.426 E se, além disso, pegássemos cientistas de dados 00:06:42.450 --> 00:06:46.861 e pagássemos a eles para predizerem onde vai ocorrer o próximo crime? 00:06:47.275 --> 00:06:48.762 Bairros de minorias. 00:06:49.285 --> 00:06:52.750 Ou predizer quem será o próximo criminoso? 00:06:52.888 --> 00:06:54.283 Alguém das minorias. 00:06:55.949 --> 00:07:00.460 Os cientistas de dados se gabariam da excelência e da precisão de seu modelo, 00:07:00.835 --> 00:07:02.134 e estariam certos. NOTE Paragraph 00:07:03.951 --> 00:07:08.566 Bem, a realidade não é drástica assim, mas temos graves segregações 00:07:08.590 --> 00:07:11.327 em muitas cidades e vilas, e muitas evidências 00:07:11.818 --> 00:07:14.776 de dados policiais e judiciários tendenciosos. 00:07:15.632 --> 00:07:18.447 Na verdade, predizemos focos de crise, 00:07:18.471 --> 00:07:20.281 lugares onde crimes podem ocorrer. 00:07:20.401 --> 00:07:24.267 E predizemos, de fato, a criminalidade individual, 00:07:24.291 --> 00:07:26.651 a criminalidade dos indivíduos. 00:07:26.972 --> 00:07:30.509 A organização de notícias ProPublica recentemente estudou 00:07:30.529 --> 00:07:34.093 um desses algoritmos, chamados de "risco de recidiva", 00:07:34.124 --> 00:07:37.898 que têm sido usados por juízes na Flórida para proferirem sentenças. 00:07:38.251 --> 00:07:42.426 Bernard, à esquerda, o homem negro, atingiu dez em dez. 00:07:43.179 --> 00:07:45.186 Dylan, à direita, três em dez. 00:07:45.210 --> 00:07:48.071 Então, dez em dez, alto risco; três em dez, baixo risco. 00:07:48.598 --> 00:07:50.983 Ambos foram pegos por posse de droga. 00:07:51.007 --> 00:07:54.971 Ambos tinham antecedentes, e Dylan tinha um delito grave, 00:07:55.015 --> 00:07:56.761 mas Bernard não. 00:07:57.818 --> 00:08:00.884 Isso é importante, pois, quanto maior a pontuação, 00:08:00.908 --> 00:08:04.381 maior a chance de se receber uma sentença mais severa. NOTE Paragraph 00:08:06.294 --> 00:08:08.058 O que que está havendo? 00:08:08.416 --> 00:08:10.268 Branqueamento dos dados. 00:08:10.930 --> 00:08:15.357 É um processo por meio do qual tecnólogos escondem verdades sujas 00:08:15.381 --> 00:08:18.832 dentro da caixa-preta dos algoritmos, e os chamam de objetivos, 00:08:19.320 --> 00:08:21.738 de meritocráticos. 00:08:22.908 --> 00:08:27.943 Cunhei um termo para esses algoritmos secretos, importantes e destrutivos: 00:08:28.038 --> 00:08:30.037 "armas de destruição em matemática". NOTE Paragraph 00:08:30.061 --> 00:08:32.995 (Aplausos) (Vivas) NOTE Paragraph 00:08:34.577 --> 00:08:37.081 Eles estão por toda parte, e isso não é um erro. 00:08:37.695 --> 00:08:41.368 Trata-se de empresas privadas criando algoritmos privados 00:08:41.392 --> 00:08:42.894 para fins privados. 00:08:43.214 --> 00:08:46.428 Mesmos aqueles que mencionei, para os professores e a polícia, 00:08:46.452 --> 00:08:50.351 foram criados por empresas privadas e vendidos a instituições governamentais. 00:08:50.470 --> 00:08:54.633 Eles os chamam de seu "molho secreto", e por isso não nos contam sobre eles. 00:08:54.649 --> 00:08:57.589 Isso é poder privado também. 00:08:57.924 --> 00:09:02.879 Eles estão lucrando para exercerem a autoridade do inescrutável. 00:09:04.994 --> 00:09:08.818 Vocês podem achar, já que isso é privado e não há competição, 00:09:08.828 --> 00:09:11.470 que talvez o livre comércio resolva o problema. 00:09:11.584 --> 00:09:12.833 Não vai resolver. 00:09:12.857 --> 00:09:16.397 Há muito dinheiro a ser ganho com a injustiça. NOTE Paragraph 00:09:17.127 --> 00:09:20.726 Além disso, não somos agentes econômicos racionais. 00:09:21.031 --> 00:09:22.703 Somos todos tendenciosos. 00:09:22.960 --> 00:09:26.337 Somos todos racistas e intolerantes de maneiras que desejávamos não ser, 00:09:26.361 --> 00:09:29.090 de maneiras das nem temos consciência. 00:09:29.352 --> 00:09:32.433 No entanto, sabemos disso 00:09:32.457 --> 00:09:35.677 porque os sociólogos têm demonstrado isso consistentemente 00:09:35.701 --> 00:09:39.696 com experimentos nos quais enviam um monte de currículos, 00:09:39.696 --> 00:09:41.142 todos igualmente qualificados, 00:09:41.142 --> 00:09:44.563 mas alguns com nomes que parecem ser de brancos, e outros, de negros, 00:09:44.563 --> 00:09:47.151 e os resultados são sempre frustrantes. NOTE Paragraph 00:09:47.360 --> 00:09:49.281 Então, nós somos tendenciosos, 00:09:49.305 --> 00:09:52.734 e estamos instilando esses preconceitos nos algoritmos 00:09:52.758 --> 00:09:54.570 quando escolhemos quais dados coletar, 00:09:54.594 --> 00:09:58.907 como quando escolhi descartar o Miojo, porque decidi que ele era irrelevante. 00:09:59.010 --> 00:10:04.694 Mas, ao confiar em dados que se baseiam em práticas do passado 00:10:04.718 --> 00:10:06.732 e ao escolher a definição de sucesso, 00:10:06.756 --> 00:10:10.739 como podemos esperar que os algoritmos saiam incólumes? 00:10:10.763 --> 00:10:13.579 Não dá, temos de fiscalizá-los. 00:10:14.165 --> 00:10:15.874 Temos de checar se são justos. NOTE Paragraph 00:10:15.898 --> 00:10:18.609 A boa notícia é que isso é possível. 00:10:18.633 --> 00:10:21.985 Os algoritmos podem ser questionados, 00:10:22.009 --> 00:10:24.043 e eles sempre vão nos dizer a verdade. 00:10:24.067 --> 00:10:26.560 E podemos repará-los, aperfeiçoá-los. 00:10:26.584 --> 00:10:28.959 Podemos chamar de auditoria de algoritmos, 00:10:28.983 --> 00:10:30.662 e vou mostrar como seria. NOTE Paragraph 00:10:30.686 --> 00:10:33.612 Primeiro, temos de checar a integridade dos dados. 00:10:34.132 --> 00:10:36.789 Para o algoritmo de risco de recidiva que mencionei, 00:10:37.582 --> 00:10:41.155 checar a integridade dos dados significa aceitarmos o fato 00:10:41.179 --> 00:10:44.705 de que, nos EUA, brancos e negros fumam maconha na mesma proporção, 00:10:44.729 --> 00:10:47.214 mas os negros têm muito mais chance de serem presos, 00:10:47.238 --> 00:10:50.762 quatro ou cinco vezes mais, dependendo da região. 00:10:51.317 --> 00:10:54.143 E como esse viés surge em outras categorias de crime 00:10:54.167 --> 00:10:55.978 e como justificamos isso? NOTE Paragraph 00:10:56.162 --> 00:10:59.201 Segundo, devemos pensar na definição de sucesso, 00:10:59.225 --> 00:11:00.606 auditar esse conceito. 00:11:00.630 --> 00:11:03.382 Lembram-se do algoritmo de contratação de que falei? 00:11:03.406 --> 00:11:06.571 Alguém que trabalhou por quatro anos e foi promovido uma vez? 00:11:06.595 --> 00:11:08.434 Bem, esse é um empregado de sucesso, 00:11:08.434 --> 00:11:11.467 mas é também um empregado que tem apoio da cultura da empresa. 00:11:11.789 --> 00:11:13.905 Isso pode ser bem tendencioso. 00:11:13.905 --> 00:11:16.104 Precisamos separar essas duas coisas. 00:11:16.128 --> 00:11:19.694 Deveríamos nos mirar na audição às cegas de orquestras. 00:11:19.698 --> 00:11:22.554 É quando os examinadores ficam atrás de uma planilha. 00:11:22.946 --> 00:11:24.877 O importante aí 00:11:24.901 --> 00:11:28.318 é que os examinadores decidem o que é importante 00:11:28.342 --> 00:11:30.371 e o que não é, 00:11:30.395 --> 00:11:32.744 e não se distraem com outras coisas. 00:11:32.961 --> 00:11:35.710 Quando as audições às cegas de orquestras começaram, 00:11:35.734 --> 00:11:39.428 o número de mulheres em orquestras cresceu cinco vezes mais. NOTE Paragraph 00:11:40.253 --> 00:11:42.808 Depois, temos de considerar o rigor. 00:11:43.043 --> 00:11:47.327 É aí que o modelo valor agregado para professores fracassaria imediatamente. 00:11:47.578 --> 00:11:49.740 Nenhum algoritmo é perfeito, claro, 00:11:50.620 --> 00:11:54.575 assim, temos de partir do pressuposto de que todos erram. 00:11:54.676 --> 00:11:59.195 Qual a frequência desses erros, e com quem esse modelo falha? 00:11:59.850 --> 00:12:01.568 Qual o preço desse fracasso? NOTE Paragraph 00:12:02.434 --> 00:12:04.641 E, finalmente, temos de considerar 00:12:05.973 --> 00:12:08.699 os efeitos de longo prazo dos algoritmos, 00:12:08.796 --> 00:12:11.413 os círculos viciosos que são gerados. 00:12:11.446 --> 00:12:14.472 Isso parece abstrato, mas imaginem se os engenheiros do Facebook 00:12:14.472 --> 00:12:16.300 tivessem considerado isso 00:12:16.300 --> 00:12:21.485 antes de decidirem nos mostrar apenas coisas que nossos amigos postam. NOTE Paragraph 00:12:21.761 --> 00:12:25.305 Tenho mais duas mensagens, uma para os cientistas de dados. 00:12:25.450 --> 00:12:28.859 Cientistas de dados: não devemos ser os árbitros da verdade. 00:12:29.520 --> 00:12:33.303 Devemos ser tradutores dos debates éticos que ocorrem 00:12:33.327 --> 00:12:34.981 na sociedade como um todo. NOTE Paragraph 00:12:35.579 --> 00:12:37.712 (Aplausos) (Vivas) NOTE Paragraph 00:12:37.736 --> 00:12:39.702 E os demais, 00:12:40.011 --> 00:12:43.547 os que não são cientistas de dados: isso não é um teste de matemática. 00:12:43.632 --> 00:12:45.990 Essa é uma luta política. 00:12:46.587 --> 00:12:50.844 Precisamos exigir prestação de contas dos "senhores dos algoritmos". NOTE Paragraph 00:12:51.468 --> 00:12:53.617 (Aplausos) (Vivas) NOTE Paragraph 00:12:53.641 --> 00:12:57.730 A era da fé cega no Big Data tem de acabar. NOTE Paragraph 00:12:57.730 --> 00:12:59.057 Muito obrigada. NOTE Paragraph 00:12:59.081 --> 00:13:01.994 (Aplausos) (Vivas)