Las estadísticas son convincentes.
Tanto es así que personas,
organizaciones y países enteros
basan algunas de sus decisiones
más importantes en datos estadísticos.
Pero hay un problema en ellos.
Cualquier conjunto de datos estadísticos
podría contener algo
que puede poner los resultados al revés
y completamente patas arriba.
Por ejemplo, imagina que
tienes que elegir entre dos hospitales
para la operación de cirugía
de un pariente anciano.
De cada 1000 pacientes hospitalizados
900 sobrevivieron en el hospital A,
mientras que solo 800 lo hicieron
en el Hospital B.
Así que parece que el hospital A
es la mejor opción.
Pero antes de tomar la decisión,
recuerda que no todos
los pacientes llegan al hospital
con el mismo nivel de salud.
Y si dividimos los últimos 1000 pacientes
de cada hospital
en los que llegaron en buen estado de
salud y los que llegaron en mal estado,
esto empieza a verse muy diferente.
El hospital A solo tenía 100 pacientes
que llegaron en mal estado de salud,
de los cuales 30 sobrevivieron.
Pero el hospital B tenía 400,
y pudieron salvar a 210.
Así que el Hospital B es la mejor opción
para los pacientes que acuden
al hospital con problemas de salud,
con una tasa de supervivencia del 52,5 %.
¿Y si la salud de tu familiar es buena
cuando llega al hospital?
Curiosamente, el hospital B
sigue siendo la mejor opción,
con una tasa de supervivencia
de más del 98 %.
¿Cómo puede el hospital A tener
una mejor tasa de supervivencia
si el hospital B tiene mejores tasas de
supervivencia de pacientes en cada grupo?
Con lo que nos topamos aquí, es con
un caso de la paradoja de Simpson,
donde el mismo conjunto de datos
puede mostrar tendencias opuestas
dependiendo de cómo se agrupan.
Pasa a menudo cuando en datos agregados
se oculta una variable condicional,
conocida a veces como variable oculta,
que es un factor adicional oculto que
influye mucho en los resultados.
Aquí, el factor oculto es la proporción
relativa de pacientes
que llegan en buen o mal estado de salud.
La paradoja de Simpson
no es solo un escenario hipotético.
Aparece de vez en cuando
en el mundo real,
a veces en contextos importantes.
Un estudio en el Reino Unido
parecía demostrar
que los fumadores tenían una mayor tasa
de supervivencia que los no fumadores
durante un período de 20 años.
Es decir, hasta que dividieron
a los participantes por grupo de edad,
entonces demostraron que los no fumadores
eran mucho mayores en promedio,
y, por tanto, con mayor probabilidad
de morir durante el período de test,
precisamente porque vivían
más tiempo en general.
En este caso, los grupos de edad
son la variable oculta
y son vitales para interpretar
correctamente los datos.
En otro ejemplo,
un análisis de los casos de
pena de muerte de Florida
no parecía revelar ninguna
disparidad racial en las sentencias
entre los acusados blancos
y negros condenados por asesinato.
Pero la división de los casos por raza de
la víctima contó una historia diferente.
En cualquier situación,
los acusados negros tenían mayor
probabilidad de ser condenados a muerte.
La tasa global de la sentencia algo
superior para los acusados blancos
se debió al hecho de que
los casos con víctimas blancas
tenían mayor probabilidad
de obtener una sentencia de muerte
que en los casos
donde la víctima era negra,
y la mayoría de las muertes ocurrieron
entre personas de la misma raza.
Y ¿cómo evitar caer en la paradoja?
Desafortunadamente no hay
una receta única para todos los casos.
Los datos pueden agruparse y
dividirse en varias formas,
y los números generales a veces pueden
dar una imagen más precisa
que los datos divididos
en categorías erróneas o arbitrarias.
Lo que podemos hacer es estudiar
cuidadosamente las situaciones reales
que describen las estadísticas
y considerar si las variables ocultas
deberían estar presentes.
De lo contrario, nos hacemos vulnerables
a aquellos que usan los datos
para manipular a otros y
promover sus propias agendas.