WEBVTT

00:00:06.636 --> 00:00:09.224
As estatísticas são convincentes.

00:00:09.224 --> 00:00:12.819
A tal ponto que pessoas, organizações
e muitos países

00:00:12.819 --> 00:00:17.747
baseiam algumas das suas decisões
mais importantes em dados organizados.

00:00:17.747 --> 00:00:19.484
Mas há um problema com isso.

00:00:19.484 --> 00:00:23.501
Qualquer conjunto de estatísticas
pode ter qualquer coisa escondida

00:00:23.501 --> 00:00:27.251
qualquer coisa que pode 
virar do avesso os resultados.

00:00:27.381 --> 00:00:31.198
Por exemplo, imaginem que precisam
de escolher entre dois hospitais

00:00:31.198 --> 00:00:33.737
para a cirurgia de um familiar idoso.

00:00:33.867 --> 00:00:36.755
Entre os últimos 1000 doentes
de cada hospital,

00:00:36.755 --> 00:00:39.829
no Hospital A sobreviveram 900

00:00:39.829 --> 00:00:43.021
enquanto no Hospital B
só sobreviveram 800.

00:00:43.134 --> 00:00:46.170
Parece portanto que o Hospital A
é a melhor escolha.

00:00:46.170 --> 00:00:48.138
Mas, antes de tomarem uma decisão,

00:00:48.138 --> 00:00:51.724
lembrem-se que nem todos os doentes
chegam ao hospital

00:00:51.724 --> 00:00:53.811
com o mesmo nível de saúde.

00:00:54.190 --> 00:00:57.760
Se dividirmos os últimos 1000 doentes
de cada hospital

00:00:57.760 --> 00:01:01.332
entre os que chegaram de boa saúde
e os que chegaram em mau estado,

00:01:01.332 --> 00:01:04.930
o quadro começa a ser muito diferente.

00:01:04.145 --> 00:01:07.988
O Hospital A só teve 100 doentes
que chegaram em mau estado,

00:01:07.988 --> 00:01:10.325
dos quais sobreviveram 30.

00:01:10.585 --> 00:01:14.852
Mas o Hospital B teve 400,
e conseguiram salvar 210.

00:01:15.269 --> 00:01:17.334
Portanto, o Hospital B é a melhor escolha

00:01:17.334 --> 00:01:20.897
para doentes que chegam ao hospital
em mau estado,

00:01:20.897 --> 00:01:24.526
com uma taxa de sobrevivência de 52,5%.

00:01:24.647 --> 00:01:28.445
E se a saúde do vosso familiar
estiver boa quando ele chegar ao hospital?

00:01:28.662 --> 00:01:32.505
É estranho, mas o Hospital B continua
a ser a melhor escolha,

00:01:32.505 --> 00:01:35.493
com uma taxa de sobrevivência
de mais de 98%.

00:01:35.676 --> 00:01:39.290
Como é que o Hospital A tem
uma melhor taxa de sobrevivência global

00:01:39.290 --> 00:01:42.586
se o Hospital B tem melhores
taxas de sobrevivência para os pacientes

00:01:42.586 --> 00:01:44.490
em cada um dos dois grupos?

00:01:44.830 --> 00:01:48.754
Deparamo-nos com um caso
do paradoxo de Simpson,

00:01:48.754 --> 00:01:52.620
em que o mesmo conjunto de dados
pode parecer mostrar tendências opostas

00:01:52.620 --> 00:01:54.776
consoante a forma
como agruparmos os dados.

00:01:54.776 --> 00:01:56.142
Isto ocorre com frequência,

00:01:56.142 --> 00:01:59.650
quando os dados agregados
escondem uma variável condicional,

00:01:59.650 --> 00:02:01.655
por vezes conhecida por variável oculta,

00:02:01.655 --> 00:02:03.584
que é um fator oculto adicional

00:02:03.584 --> 00:02:06.584
que influencia significativamente
os resultados.

00:02:06.705 --> 00:02:10.214
Aqui, o fator oculto
é a proporção relativa dos doentes

00:02:10.214 --> 00:02:13.264
que chegam de boa saúde 
ou em mau estado.

00:02:13.264 --> 00:02:16.544
O paradoxo de Simpson
não é apenas um cenário hipotético.

00:02:16.665 --> 00:02:19.210
Aparece de vez em quando no mundo real,

00:02:19.210 --> 00:02:21.844
por vezes em contextos importantes.

00:02:22.132 --> 00:02:24.190
Um estudo no Reino Unido parecia mostrar

00:02:24.190 --> 00:02:26.669
que os fumadores tinham 
uma taxa de sobrevivência

00:02:26.669 --> 00:02:28.469
mais alta que os não fumadores

00:02:28.469 --> 00:02:30.141
num período de 20 anos.

00:02:30.141 --> 00:02:33.541
Mas, quando se dividiram
os participantes em grupos etários,

00:02:33.541 --> 00:02:38.205
verificou-se que os não fumadores
eram muito mais velhos do que a média

00:02:38.205 --> 00:02:42.356
e, portanto, com maior probabilidade 
de morrer durante o período da experiência,

00:02:42.356 --> 00:02:45.460
precisamente porque, 
em geral, viviam mais tempo.

00:02:45.460 --> 00:02:47.598
Aqui, os grupos etários
são a variável oculta,

00:02:47.598 --> 00:02:50.176
e são vitais para interpretar
os dados corretamente.

00:02:50.384 --> 00:02:52.050
Noutro exemplo,

00:02:52.050 --> 00:02:54.681
uma análise dos processos
de pena de morte na Flórida,

00:02:54.681 --> 00:02:58.682
parecia revelar que não havia
disparidade racial nas condenações

00:02:58.682 --> 00:03:01.789
entre réus negros e brancos,
condenados por homicídio.

00:03:01.789 --> 00:03:06.526
Mas a divisão dos processos pelas etnias
das vítimas contou uma história diferente,

00:03:06.526 --> 00:03:08.438
Em qualquer das situações,

00:03:08.438 --> 00:03:11.543
os réus negros tinham mais hipóteses
de serem condenados à morte.

00:03:11.543 --> 00:03:15.474
A taxa de condenação global levemente
mais alta para os réus brancos

00:03:15.474 --> 00:03:19.170
devia-se ao facto de que os casos
com vítimas brancas

00:03:19.170 --> 00:03:21.767
tinham mais hipóteses
de levar à pena de morte

00:03:21.767 --> 00:03:24.317
do que os casos em que a vítima era negra,

00:03:24.317 --> 00:03:28.483
e a maior parte dos crimes ocorria
entre pessoas da mesma etnia.

00:03:28.483 --> 00:03:31.623
Então, como evitamos cair no paradoxo?

00:03:31.623 --> 00:03:35.770
Infelizmente, não há uma resposta
que sirva para todos os casos.

00:03:35.770 --> 00:03:38.686
Os dados podem ser agrupados
e divididos de infinitas maneiras

00:03:38.686 --> 00:03:42.575
e os números globais, por vezes,
dão uma imagem mais rigorosa

00:03:42.575 --> 00:03:46.829
do que os dados divididos em categorias
enganadoras ou arbitrárias.

00:03:46.829 --> 00:03:52.480
Só podemos estudar cuidadosamente
as situações que as estatísticas descrevem

00:03:52.480 --> 00:03:55.977
e considerar se pode haver
variáveis ocultas.

00:03:56.281 --> 00:03:59.595
De outro modo, ficamos vulneráveis
aos que vão usar os dados

00:03:59.595 --> 00:04:03.400
para manipular os outros
e promover os seus programas.