1 00:00:06,636 --> 00:00:09,224 As estatísticas são convincentes. 2 00:00:09,224 --> 00:00:12,819 A tal ponto que pessoas, organizações e muitos países 3 00:00:12,819 --> 00:00:17,747 baseiam algumas das suas decisões mais importantes em dados organizados. 4 00:00:17,747 --> 00:00:19,484 Mas há um problema com isso. 5 00:00:19,484 --> 00:00:23,501 Qualquer conjunto de estatísticas pode ter qualquer coisa escondida 6 00:00:23,501 --> 00:00:27,251 qualquer coisa que pode virar do avesso os resultados. 7 00:00:27,381 --> 00:00:31,198 Por exemplo, imaginem que precisam de escolher entre dois hospitais 8 00:00:31,198 --> 00:00:33,737 para a cirurgia de um familiar idoso. 9 00:00:33,867 --> 00:00:36,755 Entre os últimos 1000 doentes de cada hospital, 10 00:00:36,755 --> 00:00:39,829 no Hospital A sobreviveram 900 11 00:00:39,829 --> 00:00:43,021 enquanto no Hospital B só sobreviveram 800. 12 00:00:43,134 --> 00:00:46,170 Parece portanto que o Hospital A é a melhor escolha. 13 00:00:46,170 --> 00:00:48,138 Mas, antes de tomarem uma decisão, 14 00:00:48,138 --> 00:00:51,724 lembrem-se que nem todos os doentes chegam ao hospital 15 00:00:51,724 --> 00:00:53,811 com o mesmo nível de saúde. 16 00:00:54,190 --> 00:00:57,760 Se dividirmos os últimos 1000 doentes de cada hospital 17 00:00:57,760 --> 00:01:01,332 entre os que chegaram de boa saúde e os que chegaram em mau estado, 18 00:01:01,332 --> 00:01:04,930 o quadro começa a ser muito diferente. 19 00:01:04,145 --> 00:01:07,988 O Hospital A só teve 100 doentes que chegaram em mau estado, 20 00:01:07,988 --> 00:01:10,325 dos quais sobreviveram 30. 21 00:01:10,585 --> 00:01:14,852 Mas o Hospital B teve 400, e conseguiram salvar 210. 22 00:01:15,269 --> 00:01:17,334 Portanto, o Hospital B é a melhor escolha 23 00:01:17,334 --> 00:01:20,897 para doentes que chegam ao hospital em mau estado, 24 00:01:20,897 --> 00:01:24,526 com uma taxa de sobrevivência de 52,5%. 25 00:01:24,647 --> 00:01:28,445 E se a saúde do vosso familiar estiver boa quando ele chegar ao hospital? 26 00:01:28,662 --> 00:01:32,505 É estranho, mas o Hospital B continua a ser a melhor escolha, 27 00:01:32,505 --> 00:01:35,493 com uma taxa de sobrevivência de mais de 98%. 28 00:01:35,676 --> 00:01:39,290 Como é que o Hospital A tem uma melhor taxa de sobrevivência global 29 00:01:39,290 --> 00:01:42,586 se o Hospital B tem melhores taxas de sobrevivência para os pacientes 30 00:01:42,586 --> 00:01:44,490 em cada um dos dois grupos? 31 00:01:44,830 --> 00:01:48,754 Deparamo-nos com um caso do paradoxo de Simpson, 32 00:01:48,754 --> 00:01:52,620 em que o mesmo conjunto de dados pode parecer mostrar tendências opostas 33 00:01:52,620 --> 00:01:54,776 consoante a forma como agruparmos os dados. 34 00:01:54,776 --> 00:01:56,142 Isto ocorre com frequência, 35 00:01:56,142 --> 00:01:59,650 quando os dados agregados escondem uma variável condicional, 36 00:01:59,650 --> 00:02:01,655 por vezes conhecida por variável oculta, 37 00:02:01,655 --> 00:02:03,584 que é um fator oculto adicional 38 00:02:03,584 --> 00:02:06,584 que influencia significativamente os resultados. 39 00:02:06,705 --> 00:02:10,214 Aqui, o fator oculto é a proporção relativa dos doentes 40 00:02:10,214 --> 00:02:13,264 que chegam de boa saúde ou em mau estado. 41 00:02:13,264 --> 00:02:16,544 O paradoxo de Simpson não é apenas um cenário hipotético. 42 00:02:16,665 --> 00:02:19,210 Aparece de vez em quando no mundo real, 43 00:02:19,210 --> 00:02:21,844 por vezes em contextos importantes. 44 00:02:22,132 --> 00:02:24,190 Um estudo no Reino Unido parecia mostrar 45 00:02:24,190 --> 00:02:26,669 que os fumadores tinham uma taxa de sobrevivência 46 00:02:26,669 --> 00:02:28,469 mais alta que os não fumadores 47 00:02:28,469 --> 00:02:30,141 num período de 20 anos. 48 00:02:30,141 --> 00:02:33,541 Mas, quando se dividiram os participantes em grupos etários, 49 00:02:33,541 --> 00:02:38,205 verificou-se que os não fumadores eram muito mais velhos do que a média 50 00:02:38,205 --> 00:02:42,356 e, portanto, com maior probabilidade de morrer durante o período da experiência, 51 00:02:42,356 --> 00:02:45,460 precisamente porque, em geral, viviam mais tempo. 52 00:02:45,460 --> 00:02:47,598 Aqui, os grupos etários são a variável oculta, 53 00:02:47,598 --> 00:02:50,176 e são vitais para interpretar os dados corretamente. 54 00:02:50,384 --> 00:02:52,050 Noutro exemplo, 55 00:02:52,050 --> 00:02:54,681 uma análise dos processos de pena de morte na Flórida, 56 00:02:54,681 --> 00:02:58,682 parecia revelar que não havia disparidade racial nas condenações 57 00:02:58,682 --> 00:03:01,789 entre réus negros e brancos, condenados por homicídio. 58 00:03:01,789 --> 00:03:06,526 Mas a divisão dos processos pelas etnias das vítimas contou uma história diferente, 59 00:03:06,526 --> 00:03:08,438 Em qualquer das situações, 60 00:03:08,438 --> 00:03:11,543 os réus negros tinham mais hipóteses de serem condenados à morte. 61 00:03:11,543 --> 00:03:15,474 A taxa de condenação global levemente mais alta para os réus brancos 62 00:03:15,474 --> 00:03:19,170 devia-se ao facto de que os casos com vítimas brancas 63 00:03:19,170 --> 00:03:21,767 tinham mais hipóteses de levar à pena de morte 64 00:03:21,767 --> 00:03:24,317 do que os casos em que a vítima era negra, 65 00:03:24,317 --> 00:03:28,483 e a maior parte dos crimes ocorria entre pessoas da mesma etnia. 66 00:03:28,483 --> 00:03:31,623 Então, como evitamos cair no paradoxo? 67 00:03:31,623 --> 00:03:35,770 Infelizmente, não há uma resposta que sirva para todos os casos. 68 00:03:35,770 --> 00:03:38,686 Os dados podem ser agrupados e divididos de infinitas maneiras 69 00:03:38,686 --> 00:03:42,575 e os números globais, por vezes, dão uma imagem mais rigorosa 70 00:03:42,575 --> 00:03:46,829 do que os dados divididos em categorias enganadoras ou arbitrárias. 71 00:03:46,829 --> 00:03:52,480 Só podemos estudar cuidadosamente as situações que as estatísticas descrevem 72 00:03:52,480 --> 00:03:55,977 e considerar se pode haver variáveis ocultas. 73 00:03:56,281 --> 00:03:59,595 De outro modo, ficamos vulneráveis aos que vão usar os dados 74 00:03:59,595 --> 00:04:03,400 para manipular os outros e promover os seus programas.