1
00:00:06,636 --> 00:00:09,077
Статистиката е убедителна.

2
00:00:09,077 --> 00:00:12,541
Дотолкова, че хора, организации
и цели държави

3
00:00:12,541 --> 00:00:17,747
основават някои от най-важните си решения
на преработена информация.

4
00:00:17,747 --> 00:00:19,484
Но съществува проблем в това.

5
00:00:19,484 --> 00:00:23,301
Всяка статистика може да съдържа
нещо подвеждащо в себе си,

6
00:00:23,301 --> 00:00:27,251
нещо, което преобръща резултатите
с главата надолу.

7
00:00:27,251 --> 00:00:30,920
Например, представи си, че трябва
да избереш между две болници

8
00:00:30,920 --> 00:00:33,737
за операция на възрастен роднина.

9
00:00:33,737 --> 00:00:36,434
От последните 1000 пациенти
на всяка болница,

10
00:00:36,434 --> 00:00:39,612
900 оцелели в Болница А,

11
00:00:39,612 --> 00:00:43,021
докато само 800 оцелели в Болница Б.

12
00:00:43,021 --> 00:00:46,170
Изглежда, сякаш Болница А
е по-добрият избор.

13
00:00:46,170 --> 00:00:47,843
Но преди да вземеш решение,

14
00:00:47,843 --> 00:00:51,411
помни, че не всички пациенти
са приети в болницата

15
00:00:51,411 --> 00:00:53,811
с еднакво здравословно състояние.

16
00:00:53,811 --> 00:00:56,703
Ако разделим последните 1000 пациенти
на всяка болница

17
00:00:56,703 --> 00:01:01,132
на приети в добро състояние
и приети във влошено състояние,

18
00:01:01,132 --> 00:01:03,772
картинката придобива различен вид.

19
00:01:03,772 --> 00:01:07,849
Болница А е имала само 100 пациенти
във влошено състояние,

20
00:01:07,849 --> 00:01:10,325
от които 30 оцелели.

21
00:01:10,325 --> 00:01:14,852
Но Болница Б е имала 400,
от които успели да спасят 210.

22
00:01:14,852 --> 00:01:17,169
Така че Болница Б е по-добрият избор

23
00:01:17,169 --> 00:01:20,741
за пациенти, които пристигат
с лошо здравословно състояние,

24
00:01:20,741 --> 00:01:24,526
тъй като шансът за оцеляване е 52,5%.

25
00:01:24,526 --> 00:01:28,445
А какво става, ако здравето на роднината
е добро, когато е приет в болницата?

26
00:01:28,445 --> 00:01:32,271
Колкото и да е странно, Болница Б
отново е по-добрият избор,

27
00:01:32,271 --> 00:01:35,676
защото шансът за оцеляване 
в този случай е над 98%.

28
00:01:35,676 --> 00:01:38,733
Но как може Болница А да има цялостно
по-добър шанс за оцеляване,

29
00:01:38,733 --> 00:01:44,830
ако Болница Б има по-добра статистика
за пациенти и в двете групи?

30
00:01:44,830 --> 00:01:48,589
Натъкнали сме се на случай, засягащ
парадокса на Симпсън,

31
00:01:48,589 --> 00:01:51,899
където еднаква информация може
да показва противоположни тендеции

32
00:01:51,899 --> 00:01:54,664
в зависимост от това как се групира.

33
00:01:54,664 --> 00:01:58,744
Това често се случва, когато обобщена
информация крие условна променлива,

34
00:01:58,744 --> 00:02:01,377
понякога наричана подвеждаща променлива,

35
00:02:01,377 --> 00:02:06,584
която е скрит допълнителен фактор,
значително повлияващ резултатите.

36
00:02:06,584 --> 00:02:10,023
Тук скритият фактор е относителната
пропорция на пациенти,

37
00:02:10,023 --> 00:02:13,264
които са приети в добро или 
влошено състояние.

38
00:02:13,264 --> 00:02:16,544
Парадоксът на Симпсън не е просто
хипотетичен сценарий.

39
00:02:16,544 --> 00:02:18,924
Появява се от време на време
в реалния свят,

40
00:02:18,924 --> 00:02:22,132
понякога във важен контекст.

41
00:02:22,132 --> 00:02:24,130
Едно проучване във Великобритания показало

42
00:02:24,130 --> 00:02:27,600
по-висок шанс за оцеляване при пушачите, 
отколкото при непушачите

43
00:02:27,600 --> 00:02:29,846
за период от 20 години.

44
00:02:29,846 --> 00:02:33,307
Разделянето на участниците
във възрастови групи

45
00:02:33,307 --> 00:02:37,823
показало, че непушачите били 
значително по-възрастни

46
00:02:37,823 --> 00:02:40,930
и, следователно, с по-голяма вероятност
да починат по време на експеримента,

47
00:02:40,930 --> 00:02:44,438
именно защото живели по-дълго по принцип.

48
00:02:44,438 --> 00:02:47,286
Тук възрастовите групи са 
подвеждащата променлива

49
00:02:47,286 --> 00:02:50,176
и са ключови за правилното интерпретиране
на данните.

50
00:02:50,176 --> 00:02:51,559
В друг пример,

51
00:02:51,559 --> 00:02:54,281
анализ на случаите на 
смъртна присъда във Флорида

52
00:02:54,281 --> 00:02:58,265
показал липса на расово пристрастие
при осъждането

53
00:02:58,265 --> 00:03:01,581
между цветнокожи и бели обвиняеми,
осъдени за убийство.

54
00:03:01,581 --> 00:03:06,396
Но разделянето на случая по раса
на жертвата променило цялата история.

55
00:03:06,396 --> 00:03:07,969
И в двете ситуации,

56
00:03:07,969 --> 00:03:11,091
имало тенденция цветнокожите обвиняеми 
да бъдат осъдени на смърт.

57
00:03:11,091 --> 00:03:15,066
Малко по-високият процент на осъждане
на бели обвиняеми

58
00:03:15,066 --> 00:03:18,692
се дължал на факта, че 
при случаите с бели жертви

59
00:03:18,692 --> 00:03:21,359
било по-вероятно да се издаде
смъртна присъда,

60
00:03:21,359 --> 00:03:24,091
отколкото в случаите, където 
жертвата била цветнокожа

61
00:03:24,091 --> 00:03:28,483
и повечето убийства се случвали
между хора с еднаква раса.

62
00:03:28,483 --> 00:03:31,319
Тогава как да избегнем
попадането в този парадокс?

63
00:03:31,319 --> 00:03:34,686
За съжаление, няма универсален отговор.

64
00:03:34,686 --> 00:03:38,504
Информацията може да бъде групирана
поделена по многобройни начини

65
00:03:38,504 --> 00:03:42,106
и обобщените показатели понякога
предлагат по-точна картина,

66
00:03:42,106 --> 00:03:46,638
отколкото поделените в подвеждащи
или случайни категории.

67
00:03:46,638 --> 00:03:52,089
Само можем внимателно да проучим реалните 
ситуации, които статистиките описват

68
00:03:52,089 --> 00:03:55,977
и да преценим дали съществуват
подвеждащи променливи.

69
00:03:55,977 --> 00:03:59,378
В противния случай оставяме на тези,
които използват информацията

70
00:03:59,378 --> 00:04:02,649
да манипулират останалите
в полза на собствените си виждания.