WEBVTT 00:00:06.636 --> 00:00:09.077 Thống kê rất có tính thuyết phục. 00:00:09.077 --> 00:00:12.541 Đến nỗi nhiều người, tổ chức, và đất nước 00:00:12.541 --> 00:00:17.747 đưa ra các quyết định quan trọng dựa trên số liệu. 00:00:17.747 --> 00:00:19.484 Nhưng thống kê có một vấn đề. 00:00:19.484 --> 00:00:23.301 Bất cứ số liệu thống kê nào cũng có điều ẩn chứa đằng sau, 00:00:23.301 --> 00:00:27.251 điều có thể hoàn toàn đảo lộn kết quả. 00:00:27.251 --> 00:00:30.920 Ví dụ như tưởng tượng bạn sẽ chọn một trong hai bệnh viện 00:00:30.920 --> 00:00:33.737 để phẫu thuật cho người thân lớn tuổi của bạn. 00:00:33.737 --> 00:00:36.434 Trong số 1000 bệnh nhân gần đây của mỗi bệnh viện, 00:00:36.434 --> 00:00:39.612 900 người sống sót ở bệnh viện A, 00:00:39.612 --> 00:00:43.021 trong khi chỉ có 800 sống sót ở bệnh viện B. 00:00:43.021 --> 00:00:46.170 Vậy nên có vẻ bệnh viện A là lựa chọn tốt hơn. 00:00:46.170 --> 00:00:47.843 Nhưng trước khi quyết định, 00:00:47.843 --> 00:00:51.411 nhớ rằng không phải tất cả bệnh nhân đến bệnh viện 00:00:51.411 --> 00:00:53.811 với tình trạng sức khỏe giống nhau. 00:00:53.811 --> 00:00:56.703 Và nếu ta chia 1000 bệnh nhân ở mỗi bệnh viện 00:00:56.703 --> 00:01:01.132 thành nhóm người có sức khỏe tốt và nhóm có sức khỏe kém, 00:01:01.132 --> 00:01:03.772 bạn sẽ thấy sự khác biệt. 00:01:03.772 --> 00:01:07.849 Bệnh viện A chỉ có 100 bệnh nhân có sức khỏe kém, 00:01:07.849 --> 00:01:10.325 mà chỉ có 30 người sống sót. 00:01:10.325 --> 00:01:14.852 Nhưng bệnh viện B có 400 người nhưng lại cứu sống 210 người. 00:01:14.852 --> 00:01:17.169 Vì thế bệnh viện B là lựa chọn tốt hơn 00:01:17.169 --> 00:01:20.741 cho bệnh nhân có tình trạng sức khỏe xấu, 00:01:20.741 --> 00:01:24.526 với tỉ lệ sống sót là 52.5%. 00:01:24.526 --> 00:01:28.445 Và nếu sức khỏe người thân bạn tốt khi đến bệnh viện? 00:01:28.445 --> 00:01:32.271 Lạ lùng là bệnh viện B vẫn tốt hơn, 00:01:32.271 --> 00:01:35.676 với tỉ lệ sống sót là 98%. 00:01:35.676 --> 00:01:38.733 Vậy làm sao bệnh viện A lại có tỉ lệ sống sót cao hơn 00:01:38.733 --> 00:01:44.830 khi bệnh viện B có tỉ lệ bệnh nhân sống sót ở mỗi nhóm cao hơn? 00:01:44.830 --> 00:01:48.589 Vấn đề ta gặp phải gọi là Nghịch lí Simpson, 00:01:48.589 --> 00:01:51.899 khi nhóm số liệu giống nhau cho các xu hướng trái ngược 00:01:51.899 --> 00:01:54.374 dựa vào cách nó được phân nhóm. 00:01:54.374 --> 00:01:58.744 Điều này thường xảy ra khi dữ liệu tổng hợp mất một biến có điều kiện 00:01:58.744 --> 00:02:01.377 đôi khi được gọi là biến ẩn, 00:02:01.377 --> 00:02:06.584 là một yếu tố gián tiếp gây ảnh hưởng lớn đến kết quả. 00:02:06.584 --> 00:02:10.023 Ở đây, yếu tố gián tiếp là lượng bệnh nhân 00:02:10.023 --> 00:02:13.264 đến trong tình trạng sức khỏe tốt hay kém. 00:02:13.264 --> 00:02:16.544 Nghịch lí Simpston không chỉ xuất hiện trong lí thuyết. 00:02:16.544 --> 00:02:18.924 Nó còn hay xuất hiện trong cuộc sống, 00:02:18.924 --> 00:02:22.132 thỉnh thoảng còn trong các trường hợp quan trọng. 00:02:22.132 --> 00:02:24.130 Một nghiên cứu ở Anh cho thấy 00:02:24.130 --> 00:02:27.600 lượng người hút thuốc sống sót nhiều hơn người không hút 00:02:27.600 --> 00:02:29.846 trong khoảng thời gian 20 năm. 00:02:29.846 --> 00:02:33.307 Tuy nhiên, khi chia người tham gia nghiên cứu theo nhóm tuổi 00:02:33.307 --> 00:02:37.823 trung bình người không hút thuốc lớn tuổi hơn nhiều, 00:02:37.823 --> 00:02:40.930 và vì thế dễ chết trong thời gian thí nghiệm, 00:02:40.930 --> 00:02:44.438 phần vì họ nhìn chung sống lâu hơn. 00:02:44.438 --> 00:02:47.286 Ở đây, nhóm tuổi chính là biến ẩn, 00:02:47.286 --> 00:02:50.176 và quyết định đến tính đúng đắn của số liệu. 00:02:50.176 --> 00:02:51.559 Trong trường hợp khác, 00:02:51.559 --> 00:02:54.281 một phân tích các vụ tử hình ở Florida 00:02:54.281 --> 00:02:58.265 cho thấy không có sự phân biệt sắc tộc khi tuyên án 00:02:58.265 --> 00:03:01.581 giữa những người da trắng và da đen bị kết tội giết người. 00:03:01.581 --> 00:03:06.396 Nhưng khi chia các trường hợp theo sắc tộc lại có sự khác biệt. 00:03:06.396 --> 00:03:07.969 Trong mỗi trường hợp, 00:03:07.969 --> 00:03:11.091 bị cáo da đen có xu hướng bị án tử hình hơn. 00:03:11.091 --> 00:03:15.066 Nhìn chung tỉ lệ tuyên án cho bị cáo da trắng cao hơn 00:03:15.066 --> 00:03:18.692 bởi vì trường hợp các nạn nhân là người da trắng 00:03:18.692 --> 00:03:21.359 có xu hướng đưa ra án tử hình, 00:03:21.359 --> 00:03:24.091 hơn trường hợp nạn nhân là người da đen, 00:03:24.091 --> 00:03:28.483 và phần lớn vụ giết người diễn ra giữa nguời cùng màu da. 00:03:28.483 --> 00:03:31.319 Vậy làm sao để tránh nghịch lí này? 00:03:31.319 --> 00:03:34.686 Tiếc rằng, không có câu trả lời nào đúng cho mọi trường hợp. 00:03:34.686 --> 00:03:38.504 Số liệu có thể được nhóm lại và chia ra theo nhiều cách khác nhau, 00:03:38.504 --> 00:03:42.106 và các số liệu tổng hợp thường đưa ra kết quả chính xác 00:03:42.106 --> 00:03:46.258 hơn là số liệu được phân chia thành các nhóm không phù hợp. 00:03:46.258 --> 00:03:52.089 Những gì ta có thể làm là khảo sát kĩ các tình huống thực tế được mô tả 00:03:52.089 --> 00:03:55.977 và xem xét khả năng xuất hiện của các thay đổi ẩn. 00:03:55.977 --> 00:03:59.378 Nếu không, ta sẽ dễ trở thành đối tượng của những người dùng thông tin 00:04:18.985 --> 00:04:22.985 để chi phối người khác và phục vụ cho lợi ích của bản thân.