WEBVTT 00:00:06.486 --> 00:00:09.077 As estatísticas são convincentes, 00:00:09.077 --> 00:00:12.541 a ponto de pessoas, organizações e países inteiros 00:00:12.541 --> 00:00:17.487 basearem algumas de suas decisões mais importantes em dados organizados. 00:00:17.487 --> 00:00:19.484 Mas há um problema aí. 00:00:19.484 --> 00:00:23.301 Qualquer grupo de dados estatísticos pode estar escondendo algo 00:00:23.301 --> 00:00:27.251 que pode acabar virando os resultados de cabeça para baixo. 00:00:27.251 --> 00:00:30.920 Por exemplo, imagine que você precise escolher entre dois hospitais 00:00:30.920 --> 00:00:33.737 para a cirurgia de uma parente idosa. 00:00:33.737 --> 00:00:36.434 Tomando os últimos mil pacientes de cada hospital, 00:00:36.434 --> 00:00:39.612 no Hospital A, 900 sobreviveram, 00:00:39.612 --> 00:00:43.021 enquanto, no Hospital B, apenas 800 sobreviveram. 00:00:43.021 --> 00:00:45.930 Portanto, aparentemente, o Hospital A é a melhor escolha. 00:00:45.930 --> 00:00:47.843 No entanto, antes de tomar a decisão, 00:00:47.843 --> 00:00:51.411 lembre-se de que nem todos os pacientes chegam a um hospital 00:00:51.411 --> 00:00:53.811 nas mesmas condições de saúde. 00:00:53.811 --> 00:00:56.813 Se dividirmos os mil pacientes mais recentes de cada hospital 00:00:56.813 --> 00:01:01.132 entre os que chegaram com boa saúde e os que chegaram com a saúde precária, 00:01:01.132 --> 00:01:03.772 um cenário bem diferente começa a se descortinar. 00:01:03.772 --> 00:01:07.849 No Hospital A, apenas 100 pacientes chegaram com a saúde debilitada. 00:01:07.849 --> 00:01:10.325 Destes, 30 sobreviveram. 00:01:10.325 --> 00:01:14.852 Mas, no Hospital B, havia 400, e eles foram capazes de salvar 210. 00:01:14.852 --> 00:01:17.169 Assim, o Hospital B é a melhor escolha 00:01:17.169 --> 00:01:20.741 para pacientes que chegam com a saúde precária, 00:01:20.741 --> 00:01:24.526 com uma taxa de sobrevivência de 52,5%. 00:01:24.526 --> 00:01:28.445 Mas e se sua parente estiver com boa saúde ao dar entrada no hospital? 00:01:28.445 --> 00:01:32.271 Curiosamente, o Hospital B ainda é a melhor escolha, 00:01:32.271 --> 00:01:35.676 com uma taxa de sobrevivência de cerca de 98%. 00:01:35.676 --> 00:01:38.733 Como é possível o Hospital A ter uma taxa de sobrevivência maior 00:01:38.733 --> 00:01:44.830 se a taxa de sobrevivência do Hospital B é maior para pacientes de ambos os grupos? 00:01:44.830 --> 00:01:48.589 Esbarramos aqui num caso do paradoxo de Simpson, 00:01:48.589 --> 00:01:51.979 em que o mesmo conjunto de dados parece mostrar tendências opostas, 00:01:51.979 --> 00:01:54.664 dependendo de como agrupamos os dados. 00:01:54.664 --> 00:01:58.744 Isso sempre ocorre quando dados agregados escondem variáveis condicionais, 00:01:58.744 --> 00:02:01.377 também chamadas de variáveis escondidas, 00:02:01.377 --> 00:02:06.464 um fator adicional oculto que influencia significativamente os resultados. 00:02:06.464 --> 00:02:10.023 Neste caso, o fator oculto é a proporção relativa de pacientes 00:02:10.023 --> 00:02:13.264 que chegam com saúde boa ou ruim. 00:02:13.264 --> 00:02:16.544 O paradoxo de Simpson não é apenas um cenário hipotético. 00:02:16.544 --> 00:02:18.924 Ele surge de tempos em tempos na vida real, 00:02:18.924 --> 00:02:22.132 algumas vezes em contextos importantes. 00:02:22.132 --> 00:02:24.130 Um estudo inglês pareceu mostrar, 00:02:24.130 --> 00:02:27.600 num período de 20 anos, que os fumantes tinham uma taxa de sobrevivência 00:02:27.600 --> 00:02:29.846 maior do que os não fumantes. 00:02:29.846 --> 00:02:33.307 Isto é, até a divisão dos participantes por grupos etários 00:02:33.307 --> 00:02:37.903 mostrar que os não fumantes eram, na média, significativamente mais velhos 00:02:37.903 --> 00:02:40.930 e, assim, com maior chance de morrer durante o período do teste, 00:02:40.930 --> 00:02:44.438 justamente porque, em geral, eles eram mais longevos. 00:02:44.438 --> 00:02:47.286 Aqui, os grupos etários são as variáveis ocultas, 00:02:47.286 --> 00:02:50.176 e foram vitais para a interpretação correta dos dados. 00:02:50.176 --> 00:02:51.559 Em outro exemplo, 00:02:51.559 --> 00:02:54.431 uma análise das mortes por pena de morte na Flórida 00:02:54.431 --> 00:02:58.265 parecia revelar não haver disparidade racial nas sentenças 00:02:58.265 --> 00:03:01.581 de réus negros e brancos condenados por assassinato. 00:03:01.581 --> 00:03:06.396 Mas, ao se dividir os casos pela raça da vítima, revelou-se uma outra história. 00:03:06.396 --> 00:03:07.969 Em ambas as situações, 00:03:07.969 --> 00:03:11.091 havia maior probabilidade de réus negros serem condenados à morte. 00:03:11.091 --> 00:03:15.136 A condenação um pouco maior, no geral, de réus brancos 00:03:15.136 --> 00:03:18.692 deveu-se ao fato de que os casos com vítimas brancas 00:03:18.692 --> 00:03:21.359 tinham mais chance de receber uma sentença de morte 00:03:21.359 --> 00:03:24.041 do que os casos em que a vítima era negra, 00:03:24.041 --> 00:03:28.483 e a maioria dos assassinatos ocorreram entre pessoas da mesma raça. 00:03:28.483 --> 00:03:31.319 Assim, como evitar cair no paradoxo? 00:03:31.319 --> 00:03:34.686 Infelizmente, não há uma resposta que resolva todos os casos. 00:03:34.686 --> 00:03:38.504 Os dados podem ser agrupados e divididos de inúmeras formas, 00:03:38.504 --> 00:03:42.106 e os números totais às vezes podem fornecer um quadro mais preciso 00:03:42.106 --> 00:03:46.638 do que dados divididos em categorias enganosas ou arbitrárias. 00:03:46.638 --> 00:03:52.089 O ideal é estudar com cuidado a situação real descrita pela estatística 00:03:52.089 --> 00:03:55.967 e checar se as variáveis enganosas estão presentes. 00:03:55.967 --> 00:03:59.378 Do contrário, estaremos vulneráveis aos que possam usar os dados 00:03:59.378 --> 00:04:02.649 para manipular as pessoas e promover as suas próprias agendas.