1 00:00:00,875 --> 00:00:02,991 Os algoritmos estão por toda parte. 2 00:00:03,951 --> 00:00:07,236 Eles selecionam e separam os vencedores dos perdedores. 3 00:00:08,019 --> 00:00:12,077 Os vencedores conseguem o emprego ou a oferta de um bom cartão de crédito. 4 00:00:12,077 --> 00:00:14,945 Os perdedores não conseguem nem mesmo uma entrevista. 5 00:00:15,590 --> 00:00:17,927 Ou pagam mais caro pelo seu seguro. 6 00:00:18,197 --> 00:00:21,746 Estamos sendo avaliados com fórmulas secretas que não entendemos, 7 00:00:22,675 --> 00:00:26,632 que geralmente não têm como serem contestadas. 8 00:00:27,240 --> 00:00:28,536 Isso coloca uma questão: 9 00:00:28,560 --> 00:00:31,473 e se os algoritmos estiverem errados? 10 00:00:32,550 --> 00:00:34,964 Precisamos de duas coisas para criar um algoritmo: 11 00:00:34,964 --> 00:00:38,624 de dados, o que aconteceu no passado, e uma definição de sucesso, 12 00:00:38,624 --> 00:00:41,211 aquilo que estamos procurando e geralmente esperando. 13 00:00:41,235 --> 00:00:46,272 Treinamos um algoritmo procurando, calculando. 14 00:00:46,296 --> 00:00:49,615 O algoritmo descobre o que está associado com o sucesso, 15 00:00:49,659 --> 00:00:52,502 que situação leva ao sucesso. 16 00:00:52,881 --> 00:00:54,643 Na verdade, todos usamos algoritmos, 17 00:00:54,667 --> 00:00:57,155 apenas não os formalizamos num código escrito. 18 00:00:57,169 --> 00:00:58,411 Querem um exemplo? 19 00:00:58,411 --> 00:01:01,687 Todo dia uso um algoritmo pra preparar as refeições da minha família. 20 00:01:02,121 --> 00:01:03,597 Os dados que uso 21 00:01:04,394 --> 00:01:07,483 são os ingredientes da minha cozinha, o tempo disponível, 22 00:01:07,633 --> 00:01:08,861 minha ambição, 23 00:01:08,885 --> 00:01:10,594 e quem seleciona os dados sou eu. 24 00:01:10,618 --> 00:01:14,869 Não conto um pacote de Miojo como comida. 25 00:01:14,893 --> 00:01:16,762 (Risos) 26 00:01:16,786 --> 00:01:18,631 Minha definição de sucesso é: 27 00:01:18,655 --> 00:01:21,794 uma refeição é um sucesso quando meus filhos comem verduras. 28 00:01:22,181 --> 00:01:25,035 Muito diferente se meu filho mais novo estiver no comando. 29 00:01:25,059 --> 00:01:28,337 Para ele, sucesso é comer montes de Nutella. 30 00:01:29,179 --> 00:01:31,405 Mas eu é que escolho o que é sucesso. 31 00:01:31,429 --> 00:01:34,136 Eu estou no comando; minha opinião conta. 32 00:01:34,160 --> 00:01:36,835 Essa é a primeira regra dos algoritmos. 33 00:01:36,859 --> 00:01:40,319 Algoritmos são opiniões embutidas num código. 34 00:01:41,562 --> 00:01:45,225 Bem diferente do que a maioria de nós pensa sobre os algoritmos. 35 00:01:45,249 --> 00:01:49,753 Achamos que os algoritmos são objetivos, verdadeiros e científicos. 36 00:01:50,387 --> 00:01:52,506 Esse é um truque de marketing. 37 00:01:53,269 --> 00:01:55,394 É também um truque de marketing 38 00:01:55,418 --> 00:01:58,572 intimidar vocês com algoritmos, 39 00:01:58,596 --> 00:02:02,257 fazê-los acreditar nos algoritmos ou ter medo deles 40 00:02:02,281 --> 00:02:05,109 porque acreditamos na matemática, e temos medo dela. 41 00:02:05,477 --> 00:02:10,867 Muita coisa pode dar errado quando confiamos cegamente no Big Data. 42 00:02:11,514 --> 00:02:15,057 Esta é Kiri Soares, diretora de um colégio no Brooklyn. 43 00:02:15,081 --> 00:02:17,121 Em 2011, ela me disse que seus professores 44 00:02:17,121 --> 00:02:20,302 estavam sendo avaliados por um algoritmo complexo e secreto, 45 00:02:20,322 --> 00:02:22,271 chamado "modelo de valor agregado". 46 00:02:22,375 --> 00:02:24,911 Disse a ela: "Descubra a fórmula dele e me mostre. 47 00:02:24,911 --> 00:02:26,842 Aí, posso explicá-lo a você". 48 00:02:27,002 --> 00:02:30,887 Ela disse: "Tentei conseguir a fórmula, mas meu contato na Secretaria de Educação 49 00:02:30,887 --> 00:02:34,123 me falou que era matemática e que eu não iria entender". 50 00:02:35,266 --> 00:02:36,604 E a história só fica pior. 51 00:02:36,628 --> 00:02:40,158 O "New York Post" protocolou um pedido de transparência, 52 00:02:40,182 --> 00:02:43,141 pegou o nome de todos os professores, e todas suas avaliações 53 00:02:43,165 --> 00:02:46,497 e publicou como um ato para expor os professores. 54 00:02:47,084 --> 00:02:50,814 Quando tentei conseguir as fórmulas, o código-fonte, através dos mesmos meios, 55 00:02:50,868 --> 00:02:54,037 me disseram que não podia, me foi negado. 56 00:02:54,069 --> 00:02:58,465 Descobri mais tarde que ninguém em Nova Iorque tinha acesso àquela fórmula. 57 00:02:58,489 --> 00:03:00,414 Ninguém a entendia. 58 00:03:01,929 --> 00:03:05,153 Então, Gary Rubenstein, um cara muito inteligente, se envolveu. 59 00:03:05,177 --> 00:03:08,752 Ele descobriu 665 professores naqueles dados do "New York Post" 60 00:03:08,752 --> 00:03:10,728 que na verdade tinham duas avaliações. 61 00:03:10,728 --> 00:03:15,063 Aquilo podia acontecer se eles ensinavam matemática na sétima e na oitava série. 62 00:03:15,080 --> 00:03:16,618 Ele decidiu marcá-los. 63 00:03:16,642 --> 00:03:18,835 Cada ponto representa um professor. 64 00:03:19,104 --> 00:03:21,483 (Risos) 65 00:03:21,507 --> 00:03:23,028 O que é isto? 66 00:03:23,052 --> 00:03:24,329 (Risos) 67 00:03:24,353 --> 00:03:27,753 Isso nunca deveria ter sido usado numa avaliação individual. 68 00:03:27,753 --> 00:03:29,633 É quase um gerador aleatório de número. 69 00:03:29,633 --> 00:03:32,193 (Aplausos) (Vivas) 70 00:03:32,193 --> 00:03:33,309 Mas foi usado. 71 00:03:33,309 --> 00:03:34,749 Esta é Sarah Wysocki. 72 00:03:34,749 --> 00:03:37,394 Ela foi demitida, juntamente com 205 outros professores, 73 00:03:37,394 --> 00:03:39,914 da superintendência de ensino de Washington, D.C., 74 00:03:39,914 --> 00:03:44,553 mesmo tendo excelente recomendação de sua diretora e dos pais das crianças. 75 00:03:45,020 --> 00:03:48,226 Muitos aqui devem estar pensando, especialmente cientistas de dados, 76 00:03:48,226 --> 00:03:49,823 os especialistas em IA: 77 00:03:49,823 --> 00:03:54,183 "Eu nunca faria um algoritmo inconsistente assim". 78 00:03:54,703 --> 00:03:56,450 Mas os algoritmos podem dar errado, 79 00:03:56,450 --> 00:04:01,158 mesmo os bem-intencionados podem ter efeitos profundamente destrutivos. 80 00:04:02,531 --> 00:04:06,900 E enquanto um avião mal projetado cai, e todo mundo vê, 81 00:04:06,910 --> 00:04:09,005 um algoritmo mal projetado 82 00:04:10,245 --> 00:04:14,410 pode continuar a causar destruição de forma silenciosa, por um longo tempo. 83 00:04:15,748 --> 00:04:17,318 Este é Roger Ailes. 84 00:04:17,342 --> 00:04:19,342 (Risos) 85 00:04:20,524 --> 00:04:23,142 Ele fundou a Fox News em 1996. 86 00:04:23,436 --> 00:04:26,001 Mais de 20 mulheres reclamaram de assédio sexual. 87 00:04:26,001 --> 00:04:29,276 Elas disseram que não lhes foi permitido subir na Fox News. 88 00:04:29,300 --> 00:04:31,820 Ele foi afastado ano passado, mas vimos recentemente 89 00:04:31,844 --> 00:04:34,804 que os problemas continuaram. 90 00:04:35,654 --> 00:04:37,054 Uma pergunta se impõe aqui: 91 00:04:37,078 --> 00:04:40,262 o que a Fox News deveria fazer para virar essa página? 92 00:04:41,245 --> 00:04:44,286 Que tal se eles substituírem seu processo de contratação 93 00:04:44,310 --> 00:04:47,604 por um algoritmo de aprendizado de máquina? Parece boa ideia, né? 94 00:04:47,607 --> 00:04:48,907 Pensem bem. 95 00:04:48,931 --> 00:04:51,036 Os dados, quais seriam os dados? 96 00:04:51,060 --> 00:04:56,007 Uma escolha razoável seria os últimos 21 anos de contratação da Fox News. 97 00:04:56,031 --> 00:04:57,533 Bem razoável. 98 00:04:57,557 --> 00:04:59,675 E a definição de sucesso? 99 00:04:59,921 --> 00:05:03,055 Seria uma escolha racional: quem é bem-sucedido para a Fox News? 100 00:05:03,071 --> 00:05:06,651 Digamos que seja alguém que tenha ficado lá por quatro anos 101 00:05:06,675 --> 00:05:08,509 e promovido pelo menos uma vez. 102 00:05:08,816 --> 00:05:10,377 Parece razoável. 103 00:05:10,401 --> 00:05:12,755 E então o algoritmo poderia ser treinado. 104 00:05:12,779 --> 00:05:17,026 Seria treinado para procurar pessoas para aprender o que leva ao sucesso, 105 00:05:17,069 --> 00:05:21,441 que tipo de contratações historicamente levaram ao sucesso 106 00:05:21,441 --> 00:05:23,225 segundo aquela definição. 107 00:05:24,200 --> 00:05:25,975 Agora pensem sobre o que aconteceria 108 00:05:25,999 --> 00:05:29,014 se aplicado a um conjunto atual de pedidos de emprego. 109 00:05:29,119 --> 00:05:31,098 Ele filtraria as mulheres, 110 00:05:31,663 --> 00:05:35,593 pois aparentemente elas não tiveram sucesso no passado. 111 00:05:39,752 --> 00:05:42,289 Os algoritmos não tornam as coisas justas 112 00:05:42,313 --> 00:05:45,007 se forem aplicados de forma cega e displicente. 113 00:05:45,031 --> 00:05:46,513 Não tornam as coisas justas. 114 00:05:46,537 --> 00:05:49,656 Eles repetem nossas práticas passadas, nossos padrões. 115 00:05:49,656 --> 00:05:52,185 Eles automatizam o status quo. 116 00:05:52,568 --> 00:05:55,107 Isso seria ótimo se tivéssemos um mundo perfeito, 117 00:05:55,905 --> 00:05:57,217 mas não temos. 118 00:05:57,241 --> 00:06:01,343 E mais: a maioria das empresas não inclui os litígios constrangedores, 119 00:06:02,446 --> 00:06:05,034 mas os cientistas de dados dessas empresas 120 00:06:05,058 --> 00:06:07,247 são orientados a seguirem os dados, 121 00:06:07,271 --> 00:06:09,414 a terem rigor. 122 00:06:10,273 --> 00:06:11,654 Pensem no que isso significa. 123 00:06:11,678 --> 00:06:15,705 Como todos somos tendenciosos, significa que poderiam estar codificando sexismo 124 00:06:15,729 --> 00:06:18,395 ou qualquer outro tipo de intolerância. 125 00:06:19,488 --> 00:06:22,099 Vamos fazer um exercício intelectual, pois gosto deles: 126 00:06:23,574 --> 00:06:26,929 uma sociedade inteiramente segregada, 127 00:06:28,067 --> 00:06:31,575 racialmente segregada, todas as cidades, todos os bairros, 128 00:06:31,599 --> 00:06:35,806 e onde enviamos a polícia apenas a bairros de minorias atrás de crimes. 129 00:06:36,451 --> 00:06:39,300 Os dados sobre os presos seriam muito tendenciosos. 130 00:06:39,851 --> 00:06:42,426 E se, além disso, pegássemos cientistas de dados 131 00:06:42,450 --> 00:06:46,861 e pagássemos a eles para predizerem onde vai ocorrer o próximo crime? 132 00:06:47,275 --> 00:06:48,762 Bairros de minorias. 133 00:06:49,285 --> 00:06:52,750 Ou predizer quem será o próximo criminoso? 134 00:06:52,888 --> 00:06:54,283 Alguém das minorias. 135 00:06:55,949 --> 00:07:00,460 Os cientistas de dados se gabariam da excelência e da precisão de seu modelo, 136 00:07:00,835 --> 00:07:02,134 e estariam certos. 137 00:07:03,951 --> 00:07:08,566 Bem, a realidade não é drástica assim, mas temos graves segregações 138 00:07:08,590 --> 00:07:11,327 em muitas cidades e vilas, e muitas evidências 139 00:07:11,818 --> 00:07:14,776 de dados policiais e judiciários tendenciosos. 140 00:07:15,632 --> 00:07:18,447 Na verdade, predizemos focos de crise, 141 00:07:18,471 --> 00:07:20,281 lugares onde crimes podem ocorrer. 142 00:07:20,401 --> 00:07:24,267 E predizemos, de fato, a criminalidade individual, 143 00:07:24,291 --> 00:07:26,651 a criminalidade dos indivíduos. 144 00:07:26,972 --> 00:07:30,509 A organização de notícias ProPublica recentemente estudou 145 00:07:30,529 --> 00:07:34,093 um desses algoritmos, chamados de "risco de recidiva", 146 00:07:34,124 --> 00:07:37,898 que têm sido usados por juízes na Flórida para proferirem sentenças. 147 00:07:38,251 --> 00:07:42,426 Bernard, à esquerda, o homem negro, atingiu dez em dez. 148 00:07:43,179 --> 00:07:45,186 Dylan, à direita, três em dez. 149 00:07:45,210 --> 00:07:48,071 Então, dez em dez, alto risco; três em dez, baixo risco. 150 00:07:48,598 --> 00:07:50,983 Ambos foram pegos por posse de droga. 151 00:07:51,007 --> 00:07:54,971 Ambos tinham antecedentes, e Dylan tinha um delito grave, 152 00:07:55,015 --> 00:07:56,761 mas Bernard não. 153 00:07:57,818 --> 00:08:00,884 Isso é importante, pois, quanto maior a pontuação, 154 00:08:00,908 --> 00:08:04,381 maior a chance de se receber uma sentença mais severa. 155 00:08:06,294 --> 00:08:08,058 O que que está havendo? 156 00:08:08,416 --> 00:08:10,268 Branqueamento dos dados. 157 00:08:10,930 --> 00:08:15,357 É um processo por meio do qual tecnólogos escondem verdades sujas 158 00:08:15,381 --> 00:08:18,832 dentro da caixa-preta dos algoritmos, e os chamam de objetivos, 159 00:08:19,320 --> 00:08:21,738 de meritocráticos. 160 00:08:22,908 --> 00:08:27,943 Cunhei um termo para esses algoritmos secretos, importantes e destrutivos: 161 00:08:28,038 --> 00:08:30,037 "armas de destruição em matemática". 162 00:08:30,061 --> 00:08:32,995 (Aplausos) (Vivas) 163 00:08:34,577 --> 00:08:37,081 Eles estão por toda parte, e isso não é um erro. 164 00:08:37,695 --> 00:08:41,368 Trata-se de empresas privadas criando algoritmos privados 165 00:08:41,392 --> 00:08:42,894 para fins privados. 166 00:08:43,214 --> 00:08:46,428 Mesmos aqueles que mencionei, para os professores e a polícia, 167 00:08:46,452 --> 00:08:50,351 foram criados por empresas privadas e vendidos a instituições governamentais. 168 00:08:50,470 --> 00:08:54,633 Eles os chamam de seu "molho secreto", e por isso não nos contam sobre eles. 169 00:08:54,649 --> 00:08:57,589 Isso é poder privado também. 170 00:08:57,924 --> 00:09:02,879 Eles estão lucrando para exercerem a autoridade do inescrutável. 171 00:09:04,994 --> 00:09:08,818 Vocês podem achar, já que isso é privado e não há competição, 172 00:09:08,828 --> 00:09:11,470 que talvez o livre comércio resolva o problema. 173 00:09:11,584 --> 00:09:12,833 Não vai resolver. 174 00:09:12,857 --> 00:09:16,397 Há muito dinheiro a ser ganho com a injustiça. 175 00:09:17,127 --> 00:09:20,726 Além disso, não somos agentes econômicos racionais. 176 00:09:21,031 --> 00:09:22,703 Somos todos tendenciosos. 177 00:09:22,960 --> 00:09:26,337 Somos todos racistas e intolerantes de maneiras que desejávamos não ser, 178 00:09:26,361 --> 00:09:29,090 de maneiras das nem temos consciência. 179 00:09:29,352 --> 00:09:32,433 No entanto, sabemos disso 180 00:09:32,457 --> 00:09:35,677 porque os sociólogos têm demonstrado isso consistentemente 181 00:09:35,701 --> 00:09:39,696 com experimentos nos quais enviam um monte de currículos, 182 00:09:39,696 --> 00:09:41,142 todos igualmente qualificados, 183 00:09:41,142 --> 00:09:44,563 mas alguns com nomes que parecem ser de brancos, e outros, de negros, 184 00:09:44,563 --> 00:09:47,151 e os resultados são sempre frustrantes. 185 00:09:47,360 --> 00:09:49,281 Então, nós somos tendenciosos, 186 00:09:49,305 --> 00:09:52,734 e estamos instilando esses preconceitos nos algoritmos 187 00:09:52,758 --> 00:09:54,570 quando escolhemos quais dados coletar, 188 00:09:54,594 --> 00:09:58,907 como quando escolhi descartar o Miojo, porque decidi que ele era irrelevante. 189 00:09:59,010 --> 00:10:04,694 Mas, ao confiar em dados que se baseiam em práticas do passado 190 00:10:04,718 --> 00:10:06,732 e ao escolher a definição de sucesso, 191 00:10:06,756 --> 00:10:10,739 como podemos esperar que os algoritmos saiam incólumes? 192 00:10:10,763 --> 00:10:13,579 Não dá, temos de fiscalizá-los. 193 00:10:14,165 --> 00:10:15,874 Temos de checar se são justos. 194 00:10:15,898 --> 00:10:18,609 A boa notícia é que isso é possível. 195 00:10:18,633 --> 00:10:21,985 Os algoritmos podem ser questionados, 196 00:10:22,009 --> 00:10:24,043 e eles sempre vão nos dizer a verdade. 197 00:10:24,067 --> 00:10:26,560 E podemos repará-los, aperfeiçoá-los. 198 00:10:26,584 --> 00:10:28,959 Podemos chamar de auditoria de algoritmos, 199 00:10:28,983 --> 00:10:30,662 e vou mostrar como seria. 200 00:10:30,686 --> 00:10:33,612 Primeiro, temos de checar a integridade dos dados. 201 00:10:34,132 --> 00:10:36,789 Para o algoritmo de risco de recidiva que mencionei, 202 00:10:37,582 --> 00:10:41,155 checar a integridade dos dados significa aceitarmos o fato 203 00:10:41,179 --> 00:10:44,705 de que, nos EUA, brancos e negros fumam maconha na mesma proporção, 204 00:10:44,729 --> 00:10:47,214 mas os negros têm muito mais chance de serem presos, 205 00:10:47,238 --> 00:10:50,762 quatro ou cinco vezes mais, dependendo da região. 206 00:10:51,317 --> 00:10:54,143 E como esse viés surge em outras categorias de crime 207 00:10:54,167 --> 00:10:55,978 e como justificamos isso? 208 00:10:56,162 --> 00:10:59,201 Segundo, devemos pensar na definição de sucesso, 209 00:10:59,225 --> 00:11:00,606 auditar esse conceito. 210 00:11:00,630 --> 00:11:03,382 Lembram-se do algoritmo de contratação de que falei? 211 00:11:03,406 --> 00:11:06,571 Alguém que trabalhou por quatro anos e foi promovido uma vez? 212 00:11:06,595 --> 00:11:08,434 Bem, esse é um empregado de sucesso, 213 00:11:08,434 --> 00:11:11,467 mas é também um empregado que tem apoio da cultura da empresa. 214 00:11:11,789 --> 00:11:13,905 Isso pode ser bem tendencioso. 215 00:11:13,905 --> 00:11:16,104 Precisamos separar essas duas coisas. 216 00:11:16,128 --> 00:11:19,694 Deveríamos nos mirar na audição às cegas de orquestras. 217 00:11:19,698 --> 00:11:22,554 É quando os examinadores ficam atrás de uma planilha. 218 00:11:22,946 --> 00:11:24,877 O importante aí 219 00:11:24,901 --> 00:11:28,318 é que os examinadores decidem o que é importante 220 00:11:28,342 --> 00:11:30,371 e o que não é, 221 00:11:30,395 --> 00:11:32,744 e não se distraem com outras coisas. 222 00:11:32,961 --> 00:11:35,710 Quando as audições às cegas de orquestras começaram, 223 00:11:35,734 --> 00:11:39,428 o número de mulheres em orquestras cresceu cinco vezes mais. 224 00:11:40,253 --> 00:11:42,808 Depois, temos de considerar o rigor. 225 00:11:43,043 --> 00:11:47,327 É aí que o modelo valor agregado para professores fracassaria imediatamente. 226 00:11:47,578 --> 00:11:49,740 Nenhum algoritmo é perfeito, claro, 227 00:11:50,620 --> 00:11:54,575 assim, temos de partir do pressuposto de que todos erram. 228 00:11:54,676 --> 00:11:59,195 Qual a frequência desses erros, e com quem esse modelo falha? 229 00:11:59,850 --> 00:12:01,568 Qual o preço desse fracasso? 230 00:12:02,434 --> 00:12:04,641 E, finalmente, temos de considerar 231 00:12:05,973 --> 00:12:08,699 os efeitos de longo prazo dos algoritmos, 232 00:12:08,796 --> 00:12:11,413 os círculos viciosos que são gerados. 233 00:12:11,446 --> 00:12:14,472 Isso parece abstrato, mas imaginem se os engenheiros do Facebook 234 00:12:14,472 --> 00:12:16,300 tivessem considerado isso 235 00:12:16,300 --> 00:12:21,485 antes de decidirem nos mostrar apenas coisas que nossos amigos postam. 236 00:12:21,761 --> 00:12:25,305 Tenho mais duas mensagens, uma para os cientistas de dados. 237 00:12:25,450 --> 00:12:28,859 Cientistas de dados: não devemos ser os árbitros da verdade. 238 00:12:29,520 --> 00:12:33,303 Devemos ser tradutores dos debates éticos que ocorrem 239 00:12:33,327 --> 00:12:34,981 na sociedade como um todo. 240 00:12:35,579 --> 00:12:37,712 (Aplausos) (Vivas) 241 00:12:37,736 --> 00:12:39,702 E os demais, 242 00:12:40,011 --> 00:12:43,547 os que não são cientistas de dados: isso não é um teste de matemática. 243 00:12:43,632 --> 00:12:45,990 Essa é uma luta política. 244 00:12:46,587 --> 00:12:50,844 Precisamos exigir prestação de contas dos "senhores dos algoritmos". 245 00:12:51,468 --> 00:12:53,617 (Aplausos) (Vivas) 246 00:12:53,641 --> 00:12:57,730 A era da fé cega no Big Data tem de acabar. 247 00:12:57,730 --> 00:12:59,057 Muito obrigada. 248 00:12:59,081 --> 00:13:01,994 (Aplausos) (Vivas)