As estatísticas são convincentes.

A tal ponto que pessoas, organizações
e muitos países

baseiam algumas das suas decisões
mais importantes em dados organizados.

Mas há um problema com isso.

Qualquer conjunto de estatísticas
pode ter qualquer coisa escondida

qualquer coisa que pode 
virar do avesso os resultados.

Por exemplo, imaginem que precisam
de escolher entre dois hospitais

para a cirurgia de um familiar idoso.

Entre os últimos 1000 doentes
de cada hospital,

no Hospital A sobreviveram 900

enquanto no Hospital B
só sobreviveram 800.

Parece portanto que o Hospital A
é a melhor escolha.

Mas, antes de tomarem uma decisão,

lembrem-se que nem todos os doentes
chegam ao hospital

com o mesmo nível de saúde.

Se dividirmos os últimos 1000 doentes
de cada hospital

entre os que chegaram de boa saúde
e os que chegaram em mau estado,

o quadro começa a ser muito diferente.

O Hospital A só teve 100 doentes
que chegaram em mau estado,

dos quais sobreviveram 30.

Mas o Hospital B teve 400,
e conseguiram salvar 210.

Portanto, o Hospital B é a melhor escolha

para doentes que chegam ao hospital
em mau estado,

com uma taxa de sobrevivência de 52,5%.

E se a saúde do vosso familiar
estiver boa quando ele chegar ao hospital?

É estranho, mas o Hospital B continua
a ser a melhor escolha,

com uma taxa de sobrevivência
de mais de 98%.

Como é que o Hospital A tem
uma melhor taxa de sobrevivência global

se o Hospital B tem melhores
taxas de sobrevivência para os pacientes

em cada um dos dois grupos?

Deparamo-nos com um caso
do paradoxo de Simpson,

em que o mesmo conjunto de dados
pode parecer mostrar tendências opostas

consoante a forma
como agruparmos os dados.

Isto ocorre com frequência,

quando os dados agregados
escondem uma variável condicional,

por vezes conhecida por variável oculta,

que é um fator oculto adicional

que influencia significativamente
os resultados.

Aqui, o fator oculto
é a proporção relativa dos doentes

que chegam de boa saúde 
ou em mau estado.

O paradoxo de Simpson
não é apenas um cenário hipotético.

Aparece de vez em quando no mundo real,

por vezes em contextos importantes.

Um estudo no Reino Unido parecia mostrar

que os fumadores tinham 
uma taxa de sobrevivência

mais alta que os não fumadores

num período de 20 anos.

Mas, quando se dividiram
os participantes em grupos etários,

verificou-se que os não fumadores
eram muito mais velhos do que a média

e, portanto, com maior probabilidade 
de morrer durante o período da experiência,

precisamente porque, 
em geral, viviam mais tempo.

Aqui, os grupos etários
são a variável oculta,

e são vitais para interpretar
os dados corretamente.

Noutro exemplo,

uma análise dos processos
de pena de morte na Flórida,

parecia revelar que não havia
disparidade racial nas condenações

entre réus negros e brancos,
condenados por homicídio.

Mas a divisão dos processos pelas etnias
das vítimas contou uma história diferente,

Em qualquer das situações,

os réus negros tinham mais hipóteses
de serem condenados à morte.

A taxa de condenação global levemente
mais alta para os réus brancos

devia-se ao facto de que os casos
com vítimas brancas

tinham mais hipóteses
de levar à pena de morte

do que os casos em que a vítima era negra,

e a maior parte dos crimes ocorria
entre pessoas da mesma etnia.

Então, como evitamos cair no paradoxo?

Infelizmente, não há uma resposta
que sirva para todos os casos.

Os dados podem ser agrupados
e divididos de infinitas maneiras

e os números globais, por vezes,
dão uma imagem mais rigorosa

do que os dados divididos em categorias
enganadoras ou arbitrárias.

Só podemos estudar cuidadosamente
as situações que as estatísticas descrevem

e considerar se pode haver
variáveis ocultas.

De outro modo, ficamos vulneráveis
aos que vão usar os dados

para manipular os outros
e promover os seus programas.