1 00:00:06,636 --> 00:00:09,077 Las estadísticas son convincentes. 2 00:00:09,077 --> 00:00:12,541 Tanto es así que personas, organizaciones y países enteros 3 00:00:12,541 --> 00:00:17,747 basan algunas de sus decisiones más importantes en datos estadísticos. 4 00:00:17,747 --> 00:00:19,484 Pero hay un problema en ellos. 5 00:00:19,484 --> 00:00:23,301 Cualquier conjunto de datos estadísticos podría contener algo 6 00:00:23,301 --> 00:00:27,251 que puede poner los resultados al revés y completamente patas arriba. 7 00:00:27,251 --> 00:00:30,920 Por ejemplo, imagina que tienes que elegir entre dos hospitales 8 00:00:30,920 --> 00:00:33,737 para la operación de cirugía de un pariente anciano. 9 00:00:33,737 --> 00:00:36,434 De cada 1000 pacientes hospitalizados 10 00:00:36,434 --> 00:00:39,612 900 sobrevivieron en el hospital A, 11 00:00:39,612 --> 00:00:43,021 mientras que solo 800 lo hicieron en el Hospital B. 12 00:00:43,021 --> 00:00:46,170 Así que parece que el hospital A es la mejor opción. 13 00:00:46,170 --> 00:00:47,843 Pero antes de tomar la decisión, 14 00:00:47,843 --> 00:00:51,411 recuerda que no todos los pacientes llegan al hospital 15 00:00:51,411 --> 00:00:53,811 con el mismo nivel de salud. 16 00:00:53,811 --> 00:00:56,703 Y si dividimos los últimos 1000 pacientes de cada hospital 17 00:00:56,703 --> 00:01:01,132 en los que llegaron en buen estado de salud y los que llegaron en mal estado, 18 00:01:01,132 --> 00:01:03,772 esto empieza a verse muy diferente. 19 00:01:03,772 --> 00:01:07,849 El hospital A solo tenía 100 pacientes que llegaron en mal estado de salud, 20 00:01:07,849 --> 00:01:10,325 de los cuales 30 sobrevivieron. 21 00:01:10,325 --> 00:01:14,852 Pero el hospital B tenía 400, y pudieron salvar a 210. 22 00:01:14,852 --> 00:01:17,169 Así que el Hospital B es la mejor opción 23 00:01:17,169 --> 00:01:20,741 para los pacientes que acuden al hospital con problemas de salud, 24 00:01:20,741 --> 00:01:24,526 con una tasa de supervivencia del 52,5 %. 25 00:01:24,526 --> 00:01:28,445 ¿Y si la salud de tu familiar es buena cuando llega al hospital? 26 00:01:28,445 --> 00:01:32,271 Curiosamente, el hospital B sigue siendo la mejor opción, 27 00:01:32,271 --> 00:01:35,386 con una tasa de supervivencia de más del 98 %. 28 00:01:35,386 --> 00:01:38,733 ¿Cómo puede el hospital A tener una mejor tasa de supervivencia 29 00:01:38,733 --> 00:01:44,830 si el hospital B tiene mejores tasas de supervivencia de pacientes en cada grupo? 30 00:01:44,830 --> 00:01:48,589 Con lo que nos topamos aquí, es con un caso de la paradoja de Simpson, 31 00:01:48,589 --> 00:01:51,899 donde el mismo conjunto de datos puede mostrar tendencias opuestas 32 00:01:51,899 --> 00:01:54,664 dependiendo de cómo se agrupan. 33 00:01:54,664 --> 00:01:58,744 Pasa a menudo cuando en datos agregados se oculta una variable condicional, 34 00:01:58,744 --> 00:02:01,377 conocida a veces como variable oculta, 35 00:02:01,377 --> 00:02:06,584 que es un factor adicional oculto que influye mucho en los resultados. 36 00:02:06,584 --> 00:02:10,023 Aquí, el factor oculto es la proporción relativa de pacientes 37 00:02:10,023 --> 00:02:13,264 que llegan en buen o mal estado de salud. 38 00:02:13,264 --> 00:02:16,544 La paradoja de Simpson no es solo un escenario hipotético. 39 00:02:16,544 --> 00:02:18,924 Aparece de vez en cuando en el mundo real, 40 00:02:18,924 --> 00:02:21,902 a veces en contextos importantes. 41 00:02:21,902 --> 00:02:24,130 Un estudio en el Reino Unido parecía demostrar 42 00:02:24,130 --> 00:02:27,830 que los fumadores tenían una mayor tasa de supervivencia que los no fumadores 43 00:02:27,830 --> 00:02:29,846 durante un período de 20 años. 44 00:02:29,846 --> 00:02:33,307 Es decir, hasta que dividieron a los participantes por grupo de edad, 45 00:02:33,307 --> 00:02:37,723 entonces demostraron que los no fumadores eran mucho mayores en promedio, 46 00:02:37,723 --> 00:02:41,210 y, por tanto, con mayor probabilidad de morir durante el período de test, 47 00:02:41,210 --> 00:02:44,438 precisamente porque vivían más tiempo en general. 48 00:02:44,438 --> 00:02:47,286 En este caso, los grupos de edad son la variable oculta 49 00:02:47,286 --> 00:02:50,176 y son vitales para interpretar correctamente los datos. 50 00:02:50,176 --> 00:02:51,559 En otro ejemplo, 51 00:02:51,559 --> 00:02:54,281 un análisis de los casos de pena de muerte de Florida 52 00:02:54,281 --> 00:02:58,265 no parecía revelar ninguna disparidad racial en las sentencias 53 00:02:58,265 --> 00:03:01,581 entre los acusados blancos y negros condenados por asesinato. 54 00:03:01,581 --> 00:03:06,086 Pero la división de los casos por raza de la víctima contó una historia diferente. 55 00:03:06,086 --> 00:03:07,639 En cualquier situación, 56 00:03:07,639 --> 00:03:11,281 los acusados negros tenían mayor probabilidad de ser condenados a muerte. 57 00:03:11,281 --> 00:03:15,066 La tasa global de la sentencia algo superior para los acusados blancos 58 00:03:15,066 --> 00:03:18,582 se debió al hecho de que los casos con víctimas blancas 59 00:03:18,582 --> 00:03:21,479 tenían mayor probabilidad de obtener una sentencia de muerte 60 00:03:21,479 --> 00:03:24,091 que en los casos donde la víctima era negra, 61 00:03:24,091 --> 00:03:28,483 y la mayoría de las muertes ocurrieron entre personas de la misma raza. 62 00:03:28,483 --> 00:03:31,319 Y ¿cómo evitar caer en la paradoja? 63 00:03:31,319 --> 00:03:34,686 Desafortunadamente no hay una receta única para todos los casos. 64 00:03:34,686 --> 00:03:38,504 Los datos pueden agruparse y dividirse en varias formas, 65 00:03:38,504 --> 00:03:42,106 y los números generales a veces pueden dar una imagen más precisa 66 00:03:42,106 --> 00:03:46,008 que los datos divididos en categorías erróneas o arbitrarias. 67 00:03:46,008 --> 00:03:49,389 Lo que podemos hacer es estudiar cuidadosamente las situaciones reales 68 00:03:49,389 --> 00:03:52,089 que describen las estadísticas 69 00:03:52,089 --> 00:03:55,977 y considerar si las variables ocultas deberían estar presentes. 70 00:03:55,977 --> 00:03:59,378 De lo contrario, nos hacemos vulnerables a aquellos que usan los datos 71 00:03:59,378 --> 00:04:02,649 para manipular a otros y promover sus propias agendas.