WEBVTT 00:00:06.636 --> 00:00:09.224 As estatísticas são convincentes. 00:00:09.224 --> 00:00:12.819 A tal ponto que pessoas, organizações e muitos países 00:00:12.819 --> 00:00:17.747 baseiam algumas das suas decisões mais importantes em dados organizados. 00:00:17.747 --> 00:00:19.484 Mas há um problema com isso. 00:00:19.484 --> 00:00:23.501 Qualquer conjunto de estatísticas pode ter qualquer coisa escondida 00:00:23.501 --> 00:00:27.251 qualquer coisa que pode virar do avesso os resultados. 00:00:27.381 --> 00:00:31.198 Por exemplo, imaginem que precisam de escolher entre dois hospitais 00:00:31.198 --> 00:00:33.737 para a cirurgia de um familiar idoso. 00:00:33.867 --> 00:00:36.755 Entre os últimos 1000 doentes de cada hospital, 00:00:36.755 --> 00:00:39.829 no Hospital A sobreviveram 900 00:00:39.829 --> 00:00:43.021 enquanto no Hospital B só sobreviveram 800. 00:00:43.134 --> 00:00:46.170 Parece portanto que o Hospital A é a melhor escolha. 00:00:46.170 --> 00:00:48.138 Mas, antes de tomarem uma decisão, 00:00:48.138 --> 00:00:51.724 lembrem-se que nem todos os doentes chegam ao hospital 00:00:51.724 --> 00:00:53.811 com o mesmo nível de saúde. 00:00:54.190 --> 00:00:57.760 Se dividirmos os últimos 1000 doentes de cada hospital 00:00:57.760 --> 00:01:01.332 entre os que chegaram de boa saúde e os que chegaram em mau estado, 00:01:01.332 --> 00:01:04.930 o quadro começa a ser muito diferente. 00:01:04.145 --> 00:01:07.988 O Hospital A só teve 100 doentes que chegaram em mau estado, 00:01:07.988 --> 00:01:10.325 dos quais sobreviveram 30. 00:01:10.585 --> 00:01:14.852 Mas o Hospital B teve 400, e conseguiram salvar 210. 00:01:15.269 --> 00:01:17.334 Portanto, o Hospital B é a melhor escolha 00:01:17.334 --> 00:01:20.897 para doentes que chegam ao hospital em mau estado, 00:01:20.897 --> 00:01:24.526 com uma taxa de sobrevivência de 52,5%. 00:01:24.647 --> 00:01:28.445 E se a saúde do vosso familiar estiver boa quando ele chegar ao hospital? 00:01:28.662 --> 00:01:32.505 É estranho, mas o Hospital B continua a ser a melhor escolha, 00:01:32.505 --> 00:01:35.493 com uma taxa de sobrevivência de mais de 98%. 00:01:35.676 --> 00:01:39.290 Como é que o Hospital A tem uma melhor taxa de sobrevivência global 00:01:39.290 --> 00:01:42.586 se o Hospital B tem melhores taxas de sobrevivência para os pacientes 00:01:42.586 --> 00:01:44.490 em cada um dos dois grupos? 00:01:44.830 --> 00:01:48.754 Deparamo-nos com um caso do paradoxo de Simpson, 00:01:48.754 --> 00:01:52.620 em que o mesmo conjunto de dados pode parecer mostrar tendências opostas 00:01:52.620 --> 00:01:54.776 consoante a forma como agruparmos os dados. 00:01:54.776 --> 00:01:56.142 Isto ocorre com frequência, 00:01:56.142 --> 00:01:59.650 quando os dados agregados escondem uma variável condicional, 00:01:59.650 --> 00:02:01.655 por vezes conhecida por variável oculta, 00:02:01.655 --> 00:02:03.584 que é um fator oculto adicional 00:02:03.584 --> 00:02:06.584 que influencia significativamente os resultados. 00:02:06.705 --> 00:02:10.214 Aqui, o fator oculto é a proporção relativa dos doentes 00:02:10.214 --> 00:02:13.264 que chegam de boa saúde ou em mau estado. 00:02:13.264 --> 00:02:16.544 O paradoxo de Simpson não é apenas um cenário hipotético. 00:02:16.665 --> 00:02:19.210 Aparece de vez em quando no mundo real, 00:02:19.210 --> 00:02:21.844 por vezes em contextos importantes. 00:02:22.132 --> 00:02:24.190 Um estudo no Reino Unido parecia mostrar 00:02:24.190 --> 00:02:26.669 que os fumadores tinham uma taxa de sobrevivência 00:02:26.669 --> 00:02:28.469 mais alta que os não fumadores 00:02:28.469 --> 00:02:30.141 num período de 20 anos. 00:02:30.141 --> 00:02:33.541 Mas, quando se dividiram os participantes em grupos etários, 00:02:33.541 --> 00:02:38.205 verificou-se que os não fumadores eram muito mais velhos do que a média 00:02:38.205 --> 00:02:42.356 e, portanto, com maior probabilidade de morrer durante o período da experiência, 00:02:42.356 --> 00:02:45.460 precisamente porque, em geral, viviam mais tempo. 00:02:45.460 --> 00:02:47.598 Aqui, os grupos etários são a variável oculta, 00:02:47.598 --> 00:02:50.176 e são vitais para interpretar os dados corretamente. 00:02:50.384 --> 00:02:52.050 Noutro exemplo, 00:02:52.050 --> 00:02:54.681 uma análise dos processos de pena de morte na Flórida, 00:02:54.681 --> 00:02:58.682 parecia revelar que não havia disparidade racial nas condenações 00:02:58.682 --> 00:03:01.789 entre réus negros e brancos, condenados por homicídio. 00:03:01.789 --> 00:03:06.526 Mas a divisão dos processos pelas etnias das vítimas contou uma história diferente, 00:03:06.526 --> 00:03:08.438 Em qualquer das situações, 00:03:08.438 --> 00:03:11.543 os réus negros tinham mais hipóteses de serem condenados à morte. 00:03:11.543 --> 00:03:15.474 A taxa de condenação global levemente mais alta para os réus brancos 00:03:15.474 --> 00:03:19.170 devia-se ao facto de que os casos com vítimas brancas 00:03:19.170 --> 00:03:21.767 tinham mais hipóteses de levar à pena de morte 00:03:21.767 --> 00:03:24.317 do que os casos em que a vítima era negra, 00:03:24.317 --> 00:03:28.483 e a maior parte dos crimes ocorria entre pessoas da mesma etnia. 00:03:28.483 --> 00:03:31.623 Então, como evitamos cair no paradoxo? 00:03:31.623 --> 00:03:35.770 Infelizmente, não há uma resposta que sirva para todos os casos. 00:03:35.770 --> 00:03:38.686 Os dados podem ser agrupados e divididos de infinitas maneiras 00:03:38.686 --> 00:03:42.575 e os números globais, por vezes, dão uma imagem mais rigorosa 00:03:42.575 --> 00:03:46.829 do que os dados divididos em categorias enganadoras ou arbitrárias. 00:03:46.829 --> 00:03:52.480 Só podemos estudar cuidadosamente as situações que as estatísticas descrevem 00:03:52.480 --> 00:03:55.977 e considerar se pode haver variáveis ocultas. 00:03:56.281 --> 00:03:59.595 De outro modo, ficamos vulneráveis aos que vão usar os dados 00:03:59.595 --> 00:04:03.400 para manipular os outros e promover os seus programas.