WEBVTT 00:00:06.636 --> 00:00:09.077 สถิติสามารถโน้มน้าวคนได้ 00:00:09.077 --> 00:00:12.541 มากพอที่ทำให้คน องค์กร และประเทศทั้งหลาย 00:00:12.541 --> 00:00:17.747 ตัดสินใจในสิ่งสำคัญ ๆ บนพื้นฐาน ของข้อมูลที่ถูกจัดเป็นระบบแล้ว 00:00:17.747 --> 00:00:19.484 แต่ตรงนั้นแหละที่เป็นปัญหา 00:00:19.484 --> 00:00:23.301 สถิติชุดใด ๆ อาจมีสิ่งที่ซุ่มซ่อนอยู่ในนั้น 00:00:23.301 --> 00:00:27.251 บางอย่างทีอาจทำให้ผลลัพธ์ กลับหัวกลับหางไปอย่างสิ้นเชิง 00:00:27.251 --> 00:00:30.920 ยกตัวอย่างเช่น ลองนึกภาพว่า คุณต้องเลือกระหว่าง 2 โรงพยาบาล 00:00:30.920 --> 00:00:33.737 ให้กับญาติสูงอายุของคุณ เข้ารับการผ่าตัด 00:00:33.737 --> 00:00:36.434 จากคนไข้ 1,000 คนล่าสุด ของแต่ละโรงพยาบาล 00:00:36.434 --> 00:00:39.612 900 คน รอดชีวิตจากโรงพยาบาล A 00:00:39.612 --> 00:00:43.021 ในขณะที่มีเพียง 800 คน ที่รอดชีวิตจากโรงพยาบาล B 00:00:43.021 --> 00:00:46.170 ดังนั้น มันอาจดูเหมือนว่าโรงพยาบาล A น่าจะเป็นทางเลือกที่ดีกว่า 00:00:46.170 --> 00:00:47.843 แต่ก่อนที่คุณจะตัดสินใจ 00:00:47.843 --> 00:00:51.411 พึงจำไว้ว่า คนไข้ทั้งหมด ที่เข้ามาที่โรงพยาบาล 00:00:51.411 --> 00:00:53.811 ไม่ได้เข้ามา ด้วยสภาวะสุขภาพแบบเดียวกัน 00:00:53.811 --> 00:00:56.703 และถ้าหากเราแบ่งคนไข้ 1,000 คนสุดท้าย ของแต่ละโรงพยาบาลออกเป็น 00:00:56.703 --> 00:01:01.132 ผู้ที่เข้ามายังโรงพยาบาลด้วยสภาพร่างกาย ที่แข็งแรงและไม่แข็งแรง 00:01:01.132 --> 00:01:03.772 ภาพรวมก็เริ่มที่จะดูต่างออกไป 00:01:03.772 --> 00:01:07.849 โรงพยาบาล A มีคนไข้เพียง 100 คน ที่เข้ามาด้วยสภาพร่างกายที่ไม่แข็งแรง 00:01:07.849 --> 00:01:10.325 ซึ่งมีผู้รอดชีวิต 30 คน 00:01:10.325 --> 00:01:14.852 แต่โรงพยาบาล B มี 400 คน และพวกเขาช่วยชีวิตไว้ได้ 210 คน 00:01:14.852 --> 00:01:17.169 ฉะนั้น โรงพยาบาล B เป็นตัวเลือกที่ดีกว่า 00:01:17.169 --> 00:01:20.741 สำหรับผู้ป่วยที่เข้ามายังโรงพยบาล ด้วยสภาพร่างกายที่ไม่แข็งแรง 00:01:20.741 --> 00:01:24.526 ซึ่งอัตราการรอดชีวิตคือ 52.5% 00:01:24.526 --> 00:01:28.445 แล้วญาติของคุณมีสภาพร่างกายที่ดี ตอนเข้ามาที่โรงพยาบาลหรือเปล่า 00:01:28.445 --> 00:01:32.271 น่าแปลกที่โรงพยาบาล B ยังเป็นตัวเลือกที่ดีกว่า 00:01:32.271 --> 00:01:35.676 ด้วยอัตราการรอดชีวิต 98% 00:01:35.676 --> 00:01:38.733 แล้วโรงพยาบาล A มีอัตราการรอดชีวิตทั้งหมดดีกว่าได้อย่างไร 00:01:38.733 --> 00:01:44.830 ถ้าโรงพยาบาล B มีอัตราการอดชีวิต สำหรับผู้ป่วยในแต่ละกลุ่มสูงกว่า 00:01:44.830 --> 00:01:48.589 สิ่งที่เราเจออยู่นี้ คือ ซิมสันพาราด๊อก (Simpson's paradox) 00:01:48.589 --> 00:01:51.899 ซึ่งข้อมูลกลุ่มเดียวกัน สามารถที่จะแสดงแนวโน้มที่ตรงข้ามกันได้ 00:01:51.899 --> 00:01:54.664 ขึ้นอยู่กับว่าเราจะจัดกลุ่มมันอย่างไร 00:01:54.664 --> 00:01:58.744 มันเกิดขึ้นเป็นประจำเมื่อข้อมูลที่ถูกนำมารวมกัน ซ่อนตัวแปรที่มีเงื่อนไขเอาไว้ 00:01:58.744 --> 00:02:01.377 บางครั้งมันถูกเรียกว่า ตัวแปรซุกซ่อน 00:02:01.377 --> 00:02:06.584 ซึ่งซ่อนปัจจัยอื่น ๆ ที่มีผลต่อผลลัพท์อย่างมีนัยสำคัญ 00:02:06.584 --> 00:02:10.023 ในที่นี้ ปัจจัยที่ถูกซ่อนอยู่ คืออัตราส่วนสัมพัทธ์ของคนไข้ 00:02:10.023 --> 00:02:13.264 ผู้ซึ่งมาที่โรงพยาบาลด้วยสภาพร่างกาย ที่แข็งแรงหรือไม่แข็งแรง 00:02:13.264 --> 00:02:16.544 ซิมสันพาราด๊อกไม่ได้เป็นเพียง เหตุการณ์ในทางทฤษฎี 00:02:16.544 --> 00:02:18.924 มันเกิดขึ้นจริง ๆ เป็นครั้งคราว 00:02:18.924 --> 00:02:22.132 บางครั้งในบริบทที่สำคัญ 00:02:22.132 --> 00:02:24.130 การศึกษาหนึ่งในสหราชอาณาจักร แสดงว่า 00:02:24.130 --> 00:02:27.600 ผู้ที่สูบบุหรี่มีอัตราการรอดชีวิต สูงกว่าผู้ที่ไม่สูบบุหรี่ 00:02:27.600 --> 00:02:29.846 ตลอดระยะเวลายี่สิบปี 00:02:29.846 --> 00:02:33.307 จนกระทั่งเราแบ่งกลุ่มคนไข้ตามกลุ่มอายุ 00:02:33.307 --> 00:02:37.823 ซึ่งจะแสดงให้เห็นว่าผู้ที่ไม่สูบบุหรี่ มีอายุเฉลี่ยมากกว่าอย่างมีนัยสำคัญ 00:02:37.823 --> 00:02:40.930 และดังนั้น จึงเป็นไปได้มากกว่า ที่พวกเขาจะเสียชีวิตในช่วงทดสอบ 00:02:40.930 --> 00:02:44.438 เนื่องจากพวกเขาโดยส่วนมากมีอายุมากกว่า 00:02:44.438 --> 00:02:47.286 นี่คือกลุ่มอายุที่มีตัวแปรซุกซ่อน 00:02:47.286 --> 00:02:50.176 และมีความสำคัญต่อการตีความข้อมูล อย่างถูกต้อง 00:02:50.176 --> 00:02:51.559 ในอีกตัวอย่างหนึ่ง 00:02:51.559 --> 00:02:54.281 การวิเคราะห์คดีของรัฐฟลอริด้า เกี่ยวกับการลงโทษประหารชีวิต 00:02:54.281 --> 00:02:58.265 เหมือนว่าจะเปิดเผยว่า ไม่มีความแตกต่างระหว่างเชื้อชาติ 00:02:58.265 --> 00:03:01.581 ระหว่างผู้ต้องหาผิวดำและขาว ที่โดนตั้งข้อหาฆาตกรรม 00:03:01.581 --> 00:03:06.396 แต่การแบ่งคดีตามสีผิวของเหยื่อ บอกเรื่องราวที่ต่างกันออกไป 00:03:06.396 --> 00:03:07.969 ไม่ว่าในสถานการณ์ไหน 00:03:07.969 --> 00:03:11.091 ผู้ต้องหาผิวดำ มักจะถูกตัดสินประหารชีวิตมากกว่า 00:03:11.091 --> 00:03:15.066 อัตราการตัดสินที่สูงกว่าเล็กน้อย สำหรับผู้ต้องหาผิวขาว 00:03:15.066 --> 00:03:18.692 เป็นเพราะว่าคดีที่มีเหยื่อเป็นคนผิวขาว 00:03:18.692 --> 00:03:21.359 มักจะถูกตัดสินให้ได้รับโทษประหาร 00:03:21.359 --> 00:03:24.091 มากกว่ากรณีที่เหยื่อเป็นคนผิวดำ 00:03:24.091 --> 00:03:28.483 และฆาตกรรมส่วนใหญ่จะเกิดขึ้น ในกลุ่มผู้มีสีผิวเดียวกัน 00:03:28.483 --> 00:03:31.319 ฉะนั้น เราจะหลีกเลี่ยง การตกหลุมพาราด๊อกได้อย่างไร 00:03:31.319 --> 00:03:34.686 น่าเสียดายที่มันไม่มีคำตอบตายตัว 00:03:34.686 --> 00:03:38.504 ข้อมูลสามารถถูกจัดกลุ่ม และถูกแบ่งได้หลายรูปแบบ 00:03:38.504 --> 00:03:42.106 และจำนวนทั้งหมด บางครั้งให้ภาพที่แม่นยำ 00:03:42.106 --> 00:03:46.638 กว่าข้อมูลที่ถูกแบ่งเป็นหมวดหมู่ ที่ชวนสับสนและไร้กฎเกณฑ์ 00:03:46.638 --> 00:03:52.089 ทั้งหมดที่เราทำได้คือศึกษาสถานการณ์ ที่สถิติอธิบายอย่างระมัดระวัง 00:03:52.089 --> 00:03:55.977 และพิจารณาว่ามันมีตัวแปรซุกซ่อนอยู่หรือเปล่า 00:03:55.977 --> 00:03:59.378 มิฉะนั้นแล้ว เราทำให้ตัวเราเสี่ยง กับผู้ที่อาจใช้ข้อมูล 00:03:59.378 --> 00:04:02.649 ในการเหนี่ยวนำคนอื่น ๆ และส่งเสริมแผนการของพวกเขาเอง