1 00:00:06,486 --> 00:00:09,077 As estatísticas são convincentes, 2 00:00:09,077 --> 00:00:12,541 a ponto de pessoas, organizações e países inteiros 3 00:00:12,541 --> 00:00:17,487 basearem algumas de suas decisões mais importantes em dados organizados. 4 00:00:17,487 --> 00:00:19,484 Mas há um problema aí. 5 00:00:19,484 --> 00:00:23,301 Qualquer grupo de dados estatísticos pode estar escondendo algo 6 00:00:23,301 --> 00:00:27,251 que pode acabar virando os resultados de cabeça para baixo. 7 00:00:27,251 --> 00:00:30,920 Por exemplo, imagine que você precise escolher entre dois hospitais 8 00:00:30,920 --> 00:00:33,737 para a cirurgia de uma parente idosa. 9 00:00:33,737 --> 00:00:36,434 Tomando os últimos mil pacientes de cada hospital, 10 00:00:36,434 --> 00:00:39,612 no Hospital A, 900 sobreviveram, 11 00:00:39,612 --> 00:00:43,021 enquanto, no Hospital B, apenas 800 sobreviveram. 12 00:00:43,021 --> 00:00:45,930 Portanto, aparentemente, o Hospital A é a melhor escolha. 13 00:00:45,930 --> 00:00:47,843 No entanto, antes de tomar a decisão, 14 00:00:47,843 --> 00:00:51,411 lembre-se de que nem todos os pacientes chegam a um hospital 15 00:00:51,411 --> 00:00:53,811 nas mesmas condições de saúde. 16 00:00:53,811 --> 00:00:56,813 Se dividirmos os mil pacientes mais recentes de cada hospital 17 00:00:56,813 --> 00:01:01,132 entre os que chegaram com boa saúde e os que chegaram com a saúde precária, 18 00:01:01,132 --> 00:01:03,772 um cenário bem diferente começa a se descortinar. 19 00:01:03,772 --> 00:01:07,849 No Hospital A, apenas 100 pacientes chegaram com a saúde debilitada. 20 00:01:07,849 --> 00:01:10,325 Destes, 30 sobreviveram. 21 00:01:10,325 --> 00:01:14,852 Mas, no Hospital B, havia 400, e eles foram capazes de salvar 210. 22 00:01:14,852 --> 00:01:17,169 Assim, o Hospital B é a melhor escolha 23 00:01:17,169 --> 00:01:20,741 para pacientes que chegam com a saúde precária, 24 00:01:20,741 --> 00:01:24,526 com uma taxa de sobrevivência de 52,5%. 25 00:01:24,526 --> 00:01:28,445 Mas e se sua parente estiver com boa saúde ao dar entrada no hospital? 26 00:01:28,445 --> 00:01:32,271 Curiosamente, o Hospital B ainda é a melhor escolha, 27 00:01:32,271 --> 00:01:35,676 com uma taxa de sobrevivência de cerca de 98%. 28 00:01:35,676 --> 00:01:38,733 Como é possível o Hospital A ter uma taxa de sobrevivência maior 29 00:01:38,733 --> 00:01:44,830 se a taxa de sobrevivência do Hospital B é maior para pacientes de ambos os grupos? 30 00:01:44,830 --> 00:01:48,589 Esbarramos aqui num caso do paradoxo de Simpson, 31 00:01:48,589 --> 00:01:51,979 em que o mesmo conjunto de dados parece mostrar tendências opostas, 32 00:01:51,979 --> 00:01:54,664 dependendo de como agrupamos os dados. 33 00:01:54,664 --> 00:01:58,744 Isso sempre ocorre quando dados agregados escondem variáveis condicionais, 34 00:01:58,744 --> 00:02:01,377 também chamadas de variáveis escondidas, 35 00:02:01,377 --> 00:02:06,464 um fator adicional oculto que influencia significativamente os resultados. 36 00:02:06,464 --> 00:02:10,023 Neste caso, o fator oculto é a proporção relativa de pacientes 37 00:02:10,023 --> 00:02:13,264 que chegam com saúde boa ou ruim. 38 00:02:13,264 --> 00:02:16,544 O paradoxo de Simpson não é apenas um cenário hipotético. 39 00:02:16,544 --> 00:02:18,924 Ele surge de tempos em tempos na vida real, 40 00:02:18,924 --> 00:02:22,132 algumas vezes em contextos importantes. 41 00:02:22,132 --> 00:02:24,130 Um estudo inglês pareceu mostrar, 42 00:02:24,130 --> 00:02:27,600 num período de 20 anos, que os fumantes tinham uma taxa de sobrevivência 43 00:02:27,600 --> 00:02:29,846 maior do que os não fumantes. 44 00:02:29,846 --> 00:02:33,307 Isto é, até a divisão dos participantes por grupos etários 45 00:02:33,307 --> 00:02:37,903 mostrar que os não fumantes eram, na média, significativamente mais velhos 46 00:02:37,903 --> 00:02:40,930 e, assim, com maior chance de morrer durante o período do teste, 47 00:02:40,930 --> 00:02:44,438 justamente porque, em geral, eles eram mais longevos. 48 00:02:44,438 --> 00:02:47,286 Aqui, os grupos etários são as variáveis ocultas, 49 00:02:47,286 --> 00:02:50,176 e foram vitais para a interpretação correta dos dados. 50 00:02:50,176 --> 00:02:51,559 Em outro exemplo, 51 00:02:51,559 --> 00:02:54,431 uma análise das mortes por pena de morte na Flórida 52 00:02:54,431 --> 00:02:58,265 parecia revelar não haver disparidade racial nas sentenças 53 00:02:58,265 --> 00:03:01,581 de réus negros e brancos condenados por assassinato. 54 00:03:01,581 --> 00:03:06,396 Mas, ao se dividir os casos pela raça da vítima, revelou-se uma outra história. 55 00:03:06,396 --> 00:03:07,969 Em ambas as situações, 56 00:03:07,969 --> 00:03:11,091 havia maior probabilidade de réus negros serem condenados à morte. 57 00:03:11,091 --> 00:03:15,136 A condenação um pouco maior, no geral, de réus brancos 58 00:03:15,136 --> 00:03:18,692 deveu-se ao fato de que os casos com vítimas brancas 59 00:03:18,692 --> 00:03:21,359 tinham mais chance de receber uma sentença de morte 60 00:03:21,359 --> 00:03:24,041 do que os casos em que a vítima era negra, 61 00:03:24,041 --> 00:03:28,483 e a maioria dos assassinatos ocorreram entre pessoas da mesma raça. 62 00:03:28,483 --> 00:03:31,319 Assim, como evitar cair no paradoxo? 63 00:03:31,319 --> 00:03:34,686 Infelizmente, não há uma resposta que resolva todos os casos. 64 00:03:34,686 --> 00:03:38,504 Os dados podem ser agrupados e divididos de inúmeras formas, 65 00:03:38,504 --> 00:03:42,106 e os números totais às vezes podem fornecer um quadro mais preciso 66 00:03:42,106 --> 00:03:46,638 do que dados divididos em categorias enganosas ou arbitrárias. 67 00:03:46,638 --> 00:03:52,089 O ideal é estudar com cuidado a situação real descrita pela estatística 68 00:03:52,089 --> 00:03:55,967 e checar se as variáveis enganosas estão presentes. 69 00:03:55,967 --> 00:03:59,378 Do contrário, estaremos vulneráveis aos que possam usar os dados 70 00:03:59,378 --> 00:04:02,649 para manipular as pessoas e promover as suas próprias agendas.