As estatísticas são convincentes.
A tal ponto que pessoas, organizações
e muitos países
baseiam algumas das suas decisões
mais importantes em dados organizados.
Mas há um problema com isso.
Qualquer conjunto de estatísticas
pode ter qualquer coisa escondida
qualquer coisa que pode
virar do avesso os resultados.
Por exemplo, imaginem que precisam
de escolher entre dois hospitais
para a cirurgia de um familiar idoso.
Entre os últimos 1000 doentes
de cada hospital,
no Hospital A sobreviveram 900
enquanto no Hospital B
só sobreviveram 800.
Parece portanto que o Hospital A
é a melhor escolha.
Mas, antes de tomarem uma decisão,
lembrem-se que nem todos os doentes
chegam ao hospital
com o mesmo nível de saúde.
Se dividirmos os últimos 1000 doentes
de cada hospital
entre os que chegaram de boa saúde
e os que chegaram em mau estado,
o quadro começa a ser muito diferente.
O Hospital A só teve 100 doentes
que chegaram em mau estado,
dos quais sobreviveram 30.
Mas o Hospital B teve 400,
e conseguiram salvar 210.
Portanto, o Hospital B é a melhor escolha
para doentes que chegam ao hospital
em mau estado,
com uma taxa de sobrevivência de 52,5%.
E se a saúde do vosso familiar
estiver boa quando ele chegar ao hospital?
É estranho, mas o Hospital B continua
a ser a melhor escolha,
com uma taxa de sobrevivência
de mais de 98%.
Como é que o Hospital A tem
uma melhor taxa de sobrevivência global
se o Hospital B tem melhores
taxas de sobrevivência para os pacientes
em cada um dos dois grupos?
Deparamo-nos com um caso
do paradoxo de Simpson,
em que o mesmo conjunto de dados
pode parecer mostrar tendências opostas
consoante a forma
como agruparmos os dados.
Isto ocorre com frequência,
quando os dados agregados
escondem uma variável condicional,
por vezes conhecida por variável oculta,
que é um fator oculto adicional
que influencia significativamente
os resultados.
Aqui, o fator oculto
é a proporção relativa dos doentes
que chegam de boa saúde
ou em mau estado.
O paradoxo de Simpson
não é apenas um cenário hipotético.
Aparece de vez em quando no mundo real,
por vezes em contextos importantes.
Um estudo no Reino Unido parecia mostrar
que os fumadores tinham
uma taxa de sobrevivência
mais alta que os não fumadores
num período de 20 anos.
Mas, quando se dividiram
os participantes em grupos etários,
verificou-se que os não fumadores
eram muito mais velhos do que a média
e, portanto, com maior probabilidade
de morrer durante o período da experiência,
precisamente porque,
em geral, viviam mais tempo.
Aqui, os grupos etários
são a variável oculta,
e são vitais para interpretar
os dados corretamente.
Noutro exemplo,
uma análise dos processos
de pena de morte na Flórida,
parecia revelar que não havia
disparidade racial nas condenações
entre réus negros e brancos,
condenados por homicídio.
Mas a divisão dos processos pelas etnias
das vítimas contou uma história diferente,
Em qualquer das situações,
os réus negros tinham mais hipóteses
de serem condenados à morte.
A taxa de condenação global levemente
mais alta para os réus brancos
devia-se ao facto de que os casos
com vítimas brancas
tinham mais hipóteses
de levar à pena de morte
do que os casos em que a vítima era negra,
e a maior parte dos crimes ocorria
entre pessoas da mesma etnia.
Então, como evitamos cair no paradoxo?
Infelizmente, não há uma resposta
que sirva para todos os casos.
Os dados podem ser agrupados
e divididos de infinitas maneiras
e os números globais, por vezes,
dão uma imagem mais rigorosa
do que os dados divididos em categorias
enganadoras ou arbitrárias.
Só podemos estudar cuidadosamente
as situações que as estatísticas descrevem
e considerar se pode haver
variáveis ocultas.
De outro modo, ficamos vulneráveis
aos que vão usar os dados
para manipular os outros
e promover os seus programas.