1 00:00:06,636 --> 00:00:09,077 Thống kê rất có tính thuyết phục. 2 00:00:09,077 --> 00:00:12,541 Đến nỗi nhiều người, tổ chức, và đất nước 3 00:00:12,541 --> 00:00:17,747 đưa ra các quyết định quan trọng dựa trên số liệu. 4 00:00:17,747 --> 00:00:19,484 Nhưng thống kê có một vấn đề. 5 00:00:19,484 --> 00:00:23,301 Bất cứ số liệu thống kê nào cũng có điều ẩn chứa đằng sau, 6 00:00:23,301 --> 00:00:27,251 điều có thể hoàn toàn đảo lộn kết quả. 7 00:00:27,251 --> 00:00:30,920 Ví dụ như tưởng tượng bạn sẽ chọn một trong hai bệnh viện 8 00:00:30,920 --> 00:00:33,737 để phẫu thuật cho người thân lớn tuổi của bạn. 9 00:00:33,737 --> 00:00:36,434 Trong số 1000 bệnh nhân gần đây của mỗi bệnh viện, 10 00:00:36,434 --> 00:00:39,612 900 người sống sót ở bệnh viện A, 11 00:00:39,612 --> 00:00:43,021 trong khi chỉ có 800 sống sót ở bệnh viện B. 12 00:00:43,021 --> 00:00:46,170 Vậy nên có vẻ bệnh viện A là lựa chọn tốt hơn. 13 00:00:46,170 --> 00:00:47,843 Nhưng trước khi quyết định, 14 00:00:47,843 --> 00:00:51,411 nhớ rằng không phải tất cả bệnh nhân đến bệnh viện 15 00:00:51,411 --> 00:00:53,811 với tình trạng sức khỏe giống nhau. 16 00:00:53,811 --> 00:00:56,703 Và nếu ta chia 1000 bệnh nhân ở mỗi bệnh viện 17 00:00:56,703 --> 00:01:01,132 thành nhóm người có sức khỏe tốt và nhóm có sức khỏe kém, 18 00:01:01,132 --> 00:01:03,772 bạn sẽ thấy sự khác biệt. 19 00:01:03,772 --> 00:01:07,849 Bệnh viện A chỉ có 100 bệnh nhân có sức khỏe kém, 20 00:01:07,849 --> 00:01:10,325 mà chỉ có 30 người sống sót. 21 00:01:10,325 --> 00:01:14,852 Nhưng bệnh viện B có 400 người nhưng lại cứu sống 210 người. 22 00:01:14,852 --> 00:01:17,169 Vì thế bệnh viện B là lựa chọn tốt hơn 23 00:01:17,169 --> 00:01:20,741 cho bệnh nhân có tình trạng sức khỏe xấu, 24 00:01:20,741 --> 00:01:24,526 với tỉ lệ sống sót là 52.5%. 25 00:01:24,526 --> 00:01:28,445 Và nếu sức khỏe người thân bạn tốt khi đến bệnh viện? 26 00:01:28,445 --> 00:01:32,271 Lạ lùng là bệnh viện B vẫn tốt hơn, 27 00:01:32,271 --> 00:01:35,676 với tỉ lệ sống sót là 98%. 28 00:01:35,676 --> 00:01:38,733 Vậy làm sao bệnh viện A lại có tỉ lệ sống sót cao hơn 29 00:01:38,733 --> 00:01:44,830 khi bệnh viện B có tỉ lệ bệnh nhân sống sót ở mỗi nhóm cao hơn? 30 00:01:44,830 --> 00:01:48,589 Vấn đề ta gặp phải gọi là Nghịch lí Simpson, 31 00:01:48,589 --> 00:01:51,899 khi nhóm số liệu giống nhau cho các xu hướng trái ngược 32 00:01:51,899 --> 00:01:54,374 dựa vào cách nó được phân nhóm. 33 00:01:54,374 --> 00:01:58,744 Điều này thường xảy ra khi dữ liệu tổng hợp mất một biến có điều kiện 34 00:01:58,744 --> 00:02:01,377 đôi khi được gọi là biến ẩn, 35 00:02:01,377 --> 00:02:06,584 là một yếu tố gián tiếp gây ảnh hưởng lớn đến kết quả. 36 00:02:06,584 --> 00:02:10,023 Ở đây, yếu tố gián tiếp là lượng bệnh nhân 37 00:02:10,023 --> 00:02:13,264 đến trong tình trạng sức khỏe tốt hay kém. 38 00:02:13,264 --> 00:02:16,544 Nghịch lí Simpston không chỉ xuất hiện trong lí thuyết. 39 00:02:16,544 --> 00:02:18,924 Nó còn hay xuất hiện trong cuộc sống, 40 00:02:18,924 --> 00:02:22,132 thỉnh thoảng còn trong các trường hợp quan trọng. 41 00:02:22,132 --> 00:02:24,130 Một nghiên cứu ở Anh cho thấy 42 00:02:24,130 --> 00:02:27,600 lượng người hút thuốc sống sót nhiều hơn người không hút 43 00:02:27,600 --> 00:02:29,846 trong khoảng thời gian 20 năm. 44 00:02:29,846 --> 00:02:33,307 Tuy nhiên, khi chia người tham gia nghiên cứu theo nhóm tuổi 45 00:02:33,307 --> 00:02:37,823 trung bình người không hút thuốc lớn tuổi hơn nhiều, 46 00:02:37,823 --> 00:02:40,930 và vì thế dễ chết trong thời gian thí nghiệm, 47 00:02:40,930 --> 00:02:44,438 phần vì họ nhìn chung sống lâu hơn. 48 00:02:44,438 --> 00:02:47,286 Ở đây, nhóm tuổi chính là biến ẩn, 49 00:02:47,286 --> 00:02:50,176 và quyết định đến tính đúng đắn của số liệu. 50 00:02:50,176 --> 00:02:51,559 Trong trường hợp khác, 51 00:02:51,559 --> 00:02:54,281 một phân tích các vụ tử hình ở Florida 52 00:02:54,281 --> 00:02:58,265 cho thấy không có sự phân biệt sắc tộc khi tuyên án 53 00:02:58,265 --> 00:03:01,581 giữa những người da trắng và da đen bị kết tội giết người. 54 00:03:01,581 --> 00:03:06,396 Nhưng khi chia các trường hợp theo sắc tộc lại có sự khác biệt. 55 00:03:06,396 --> 00:03:07,969 Trong mỗi trường hợp, 56 00:03:07,969 --> 00:03:11,091 bị cáo da đen có xu hướng bị án tử hình hơn. 57 00:03:11,091 --> 00:03:15,066 Nhìn chung tỉ lệ tuyên án cho bị cáo da trắng cao hơn 58 00:03:15,066 --> 00:03:18,692 bởi vì trường hợp các nạn nhân là người da trắng 59 00:03:18,692 --> 00:03:21,359 có xu hướng đưa ra án tử hình, 60 00:03:21,359 --> 00:03:24,091 hơn trường hợp nạn nhân là người da đen, 61 00:03:24,091 --> 00:03:28,483 và phần lớn vụ giết người diễn ra giữa nguời cùng màu da. 62 00:03:28,483 --> 00:03:31,319 Vậy làm sao để tránh nghịch lí này? 63 00:03:31,319 --> 00:03:34,686 Tiếc rằng, không có câu trả lời nào đúng cho mọi trường hợp. 64 00:03:34,686 --> 00:03:38,504 Số liệu có thể được nhóm lại và chia ra theo nhiều cách khác nhau, 65 00:03:38,504 --> 00:03:42,106 và các số liệu tổng hợp thường đưa ra kết quả chính xác 66 00:03:42,106 --> 00:03:46,258 hơn là số liệu được phân chia thành các nhóm không phù hợp. 67 00:03:46,258 --> 00:03:52,089 Những gì ta có thể làm là khảo sát kĩ các tình huống thực tế được mô tả 68 00:03:52,089 --> 00:03:55,977 và xem xét khả năng xuất hiện của các thay đổi ẩn. 69 00:03:55,977 --> 00:03:59,378 Nếu không, ta sẽ dễ trở thành đối tượng của những người dùng thông tin 70 00:04:18,985 --> 00:04:22,985 để chi phối người khác và phục vụ cho lợi ích của bản thân.