WEBVTT 00:00:06.636 --> 00:00:09.077 Las estadísticas son convincentes. 00:00:09.077 --> 00:00:12.541 Tanto es así que personas, organizaciones y países enteros 00:00:12.541 --> 00:00:17.747 basan algunas de sus decisiones más importantes en datos estadísticos. 00:00:17.747 --> 00:00:19.484 Pero hay un problema en ellos. 00:00:19.484 --> 00:00:23.301 Cualquier conjunto de datos estadísticos podría contener algo 00:00:23.301 --> 00:00:27.251 que puede poner los resultados al revés y completamente patas arriba. 00:00:27.251 --> 00:00:30.920 Por ejemplo, imagina que tienes que elegir entre dos hospitales 00:00:30.920 --> 00:00:33.737 para la operación de cirugía de un pariente anciano. 00:00:33.737 --> 00:00:36.434 De cada 1000 pacientes hospitalizados 00:00:36.434 --> 00:00:39.612 900 sobrevivieron en el hospital A, 00:00:39.612 --> 00:00:43.021 mientras que solo 800 lo hicieron en el Hospital B. 00:00:43.021 --> 00:00:46.170 Así que parece que el hospital A es la mejor opción. 00:00:46.170 --> 00:00:47.843 Pero antes de tomar la decisión, 00:00:47.843 --> 00:00:51.411 recuerda que no todos los pacientes llegan al hospital 00:00:51.411 --> 00:00:53.811 con el mismo nivel de salud. 00:00:53.811 --> 00:00:56.703 Y si dividimos los últimos 1000 pacientes de cada hospital 00:00:56.703 --> 00:01:01.132 en los que llegaron en buen estado de salud y los que llegaron en mal estado, 00:01:01.132 --> 00:01:03.772 esto empieza a verse muy diferente. 00:01:03.772 --> 00:01:07.849 El hospital A solo tenía 100 pacientes que llegaron en mal estado de salud, 00:01:07.849 --> 00:01:10.325 de los cuales 30 sobrevivieron. 00:01:10.325 --> 00:01:14.852 Pero el hospital B tenía 400, y pudieron salvar a 210. 00:01:14.852 --> 00:01:17.169 Así que el Hospital B es la mejor opción 00:01:17.169 --> 00:01:20.741 para los pacientes que acuden al hospital con problemas de salud, 00:01:20.741 --> 00:01:24.526 con una tasa de supervivencia del 52,5 %. 00:01:24.526 --> 00:01:28.445 ¿Y si la salud de tu familiar es buena cuando llega al hospital? 00:01:28.445 --> 00:01:32.271 Curiosamente, el hospital B sigue siendo la mejor opción, 00:01:32.271 --> 00:01:35.386 con una tasa de supervivencia de más del 98 %. 00:01:35.386 --> 00:01:38.733 ¿Cómo puede el hospital A tener una mejor tasa de supervivencia 00:01:38.733 --> 00:01:44.830 si el hospital B tiene mejores tasas de supervivencia de pacientes en cada grupo? 00:01:44.830 --> 00:01:48.589 Con lo que nos topamos aquí, es con un caso de la paradoja de Simpson, 00:01:48.589 --> 00:01:51.899 donde el mismo conjunto de datos puede mostrar tendencias opuestas 00:01:51.899 --> 00:01:54.664 dependiendo de cómo se agrupan. 00:01:54.664 --> 00:01:58.744 Pasa a menudo cuando en datos agregados se oculta una variable condicional, 00:01:58.744 --> 00:02:01.377 conocida a veces como variable oculta, 00:02:01.377 --> 00:02:06.584 que es un factor adicional oculto que influye mucho en los resultados. 00:02:06.584 --> 00:02:10.023 Aquí, el factor oculto es la proporción relativa de pacientes 00:02:10.023 --> 00:02:13.264 que llegan en buen o mal estado de salud. 00:02:13.264 --> 00:02:16.544 La paradoja de Simpson no es solo un escenario hipotético. 00:02:16.544 --> 00:02:18.924 Aparece de vez en cuando en el mundo real, 00:02:18.924 --> 00:02:21.902 a veces en contextos importantes. 00:02:21.902 --> 00:02:24.130 Un estudio en el Reino Unido parecía demostrar 00:02:24.130 --> 00:02:27.830 que los fumadores tenían una mayor tasa de supervivencia que los no fumadores 00:02:27.830 --> 00:02:29.846 durante un período de 20 años. 00:02:29.846 --> 00:02:33.307 Es decir, hasta que dividieron a los participantes por grupo de edad, 00:02:33.307 --> 00:02:37.723 entonces demostraron que los no fumadores eran mucho mayores en promedio, 00:02:37.723 --> 00:02:41.210 y, por tanto, con mayor probabilidad de morir durante el período de test, 00:02:41.210 --> 00:02:44.438 precisamente porque vivían más tiempo en general. 00:02:44.438 --> 00:02:47.286 En este caso, los grupos de edad son la variable oculta 00:02:47.286 --> 00:02:50.176 y son vitales para interpretar correctamente los datos. 00:02:50.176 --> 00:02:51.559 En otro ejemplo, 00:02:51.559 --> 00:02:54.281 un análisis de los casos de pena de muerte de Florida 00:02:54.281 --> 00:02:58.265 no parecía revelar ninguna disparidad racial en las sentencias 00:02:58.265 --> 00:03:01.581 entre los acusados blancos y negros condenados por asesinato. 00:03:01.581 --> 00:03:06.086 Pero la división de los casos por raza de la víctima contó una historia diferente. 00:03:06.086 --> 00:03:07.639 En cualquier situación, 00:03:07.639 --> 00:03:11.281 los acusados negros tenían mayor probabilidad de ser condenados a muerte. 00:03:11.281 --> 00:03:15.066 La tasa global de la sentencia algo superior para los acusados blancos 00:03:15.066 --> 00:03:18.582 se debió al hecho de que los casos con víctimas blancas 00:03:18.582 --> 00:03:21.479 tenían mayor probabilidad de obtener una sentencia de muerte 00:03:21.479 --> 00:03:24.091 que en los casos donde la víctima era negra, 00:03:24.091 --> 00:03:28.483 y la mayoría de las muertes ocurrieron entre personas de la misma raza. 00:03:28.483 --> 00:03:31.319 Y ¿cómo evitar caer en la paradoja? 00:03:31.319 --> 00:03:34.686 Desafortunadamente no hay una receta única para todos los casos. 00:03:34.686 --> 00:03:38.504 Los datos pueden agruparse y dividirse en varias formas, 00:03:38.504 --> 00:03:42.106 y los números generales a veces pueden dar una imagen más precisa 00:03:42.106 --> 00:03:46.008 que los datos divididos en categorías erróneas o arbitrarias. 00:03:46.008 --> 00:03:49.389 Lo que podemos hacer es estudiar cuidadosamente las situaciones reales 00:03:49.389 --> 00:03:52.089 que describen las estadísticas 00:03:52.089 --> 00:03:55.977 y considerar si las variables ocultas deberían estar presentes. 00:03:55.977 --> 00:03:59.378 De lo contrario, nos hacemos vulnerables a aquellos que usan los datos 00:03:59.378 --> 00:04:02.649 para manipular a otros y promover sus propias agendas.