As estatísticas são convincentes,

a ponto de pessoas, organizações
e países inteiros

basearem algumas de suas decisões
mais importantes em dados organizados.

Mas há um problema aí.

Qualquer grupo de dados estatísticos
pode estar escondendo algo

que pode acabar virando os resultados
de cabeça para baixo.

Por exemplo, imagine que você precise
escolher entre dois hospitais

para a cirurgia de uma parente idosa.

Tomando os últimos mil pacientes
de cada hospital,

no Hospital A, 900 sobreviveram,

enquanto, no Hospital B,
apenas 800 sobreviveram.

Portanto, aparentemente,
o Hospital A é a melhor escolha.

No entanto, antes de tomar a decisão,

lembre-se de que nem todos os pacientes
chegam a um hospital

nas mesmas condições de saúde.

Se dividirmos os mil pacientes
mais recentes de cada hospital

entre os que chegaram com boa saúde
e os que chegaram com a saúde precária,

um cenário bem diferente
começa a se descortinar.

No Hospital A, apenas 100 pacientes
chegaram com a saúde debilitada.

Destes, 30 sobreviveram.

Mas, no Hospital B, havia 400,
e eles foram capazes de salvar 210.

Assim, o Hospital B é a melhor escolha

para pacientes que chegam
com a saúde precária,

com uma taxa de sobrevivência de 52,5%.

Mas e se sua parente estiver com boa saúde
ao dar entrada no hospital?

Curiosamente, o Hospital B
ainda é a melhor escolha,

com uma taxa de sobrevivência
de cerca de 98%.

Como é possível o Hospital A ter
uma taxa de sobrevivência maior

se a taxa de sobrevivência do Hospital B é
maior para pacientes de ambos os grupos?

Esbarramos aqui num caso
do paradoxo de Simpson,

em que o mesmo conjunto de dados
parece mostrar tendências opostas,

dependendo de como agrupamos os dados.

Isso sempre ocorre quando dados agregados
escondem variáveis condicionais,

também chamadas de variáveis escondidas,

um fator adicional oculto que influencia
significativamente os resultados.

Neste caso, o fator oculto
é a proporção relativa de pacientes

que chegam com saúde boa ou ruim.

O paradoxo de Simpson não é
apenas um cenário hipotético.

Ele surge de tempos 
em tempos na vida real,

algumas vezes em contextos importantes.

Um estudo inglês pareceu mostrar,

num período de 20 anos, que os fumantes
tinham uma taxa de sobrevivência

maior do que os não fumantes.

Isto é, até a divisão dos participantes
por grupos etários

mostrar que os não fumantes eram,
na média, significativamente mais velhos

e, assim, com maior chance de morrer
durante o período do teste,

justamente porque, em geral,
eles eram mais longevos.

Aqui, os grupos etários
são as variáveis ocultas,

e foram vitais para a interpretação
correta dos dados.

Em outro exemplo,

uma análise das mortes 
por pena de morte na Flórida

parecia revelar não haver
disparidade racial nas sentenças

de réus negros e brancos
condenados por assassinato.

Mas, ao se dividir os casos pela raça
da vítima, revelou-se uma outra história.

Em ambas as situações,

havia maior probabilidade de réus
negros serem condenados à morte.

A condenação um pouco maior,
no geral, de réus brancos

deveu-se ao fato de que os casos
com vítimas brancas

tinham mais chance de receber
uma sentença de morte

do que os casos em que a vítima era negra,

e a maioria dos assassinatos ocorreram
entre pessoas da mesma raça.

Assim, como evitar cair no paradoxo?

Infelizmente, não há uma resposta
que resolva todos os casos.

Os dados podem ser agrupados
e divididos de inúmeras formas,

e os números totais às vezes podem
fornecer um quadro mais preciso

do que dados divididos em categorias
enganosas ou arbitrárias.

O ideal é estudar com cuidado
a situação real descrita pela estatística

e checar se as variáveis
enganosas estão presentes.

Do contrário, estaremos vulneráveis
aos que possam usar os dados

para manipular as pessoas
e promover as suas próprias agendas.