1 00:00:06,636 --> 00:00:09,077 สถิติสามารถโน้มน้าวคนได้ 2 00:00:09,077 --> 00:00:12,541 มากพอที่ทำให้คน องค์กร และประเทศทั้งหลาย 3 00:00:12,541 --> 00:00:17,747 ตัดสินใจในสิ่งสำคัญ ๆ บนพื้นฐาน ของข้อมูลที่ถูกจัดเป็นระบบแล้ว 4 00:00:17,747 --> 00:00:19,484 แต่ตรงนั้นแหละที่เป็นปัญหา 5 00:00:19,484 --> 00:00:23,301 สถิติชุดใด ๆ อาจมีสิ่งที่ซุ่มซ่อนอยู่ในนั้น 6 00:00:23,301 --> 00:00:27,251 บางอย่างทีอาจทำให้ผลลัพธ์ กลับหัวกลับหางไปอย่างสิ้นเชิง 7 00:00:27,251 --> 00:00:30,920 ยกตัวอย่างเช่น ลองนึกภาพว่า คุณต้องเลือกระหว่าง 2 โรงพยาบาล 8 00:00:30,920 --> 00:00:33,737 ให้กับญาติสูงอายุของคุณ เข้ารับการผ่าตัด 9 00:00:33,737 --> 00:00:36,434 จากคนไข้ 1,000 คนล่าสุด ของแต่ละโรงพยาบาล 10 00:00:36,434 --> 00:00:39,612 900 คน รอดชีวิตจากโรงพยาบาล A 11 00:00:39,612 --> 00:00:43,021 ในขณะที่มีเพียง 800 คน ที่รอดชีวิตจากโรงพยาบาล B 12 00:00:43,021 --> 00:00:46,170 ดังนั้น มันอาจดูเหมือนว่าโรงพยาบาล A น่าจะเป็นทางเลือกที่ดีกว่า 13 00:00:46,170 --> 00:00:47,843 แต่ก่อนที่คุณจะตัดสินใจ 14 00:00:47,843 --> 00:00:51,411 พึงจำไว้ว่า คนไข้ทั้งหมด ที่เข้ามาที่โรงพยาบาล 15 00:00:51,411 --> 00:00:53,811 ไม่ได้เข้ามา ด้วยสภาวะสุขภาพแบบเดียวกัน 16 00:00:53,811 --> 00:00:56,703 และถ้าหากเราแบ่งคนไข้ 1,000 คนสุดท้าย ของแต่ละโรงพยาบาลออกเป็น 17 00:00:56,703 --> 00:01:01,132 ผู้ที่เข้ามายังโรงพยาบาลด้วยสภาพร่างกาย ที่แข็งแรงและไม่แข็งแรง 18 00:01:01,132 --> 00:01:03,772 ภาพรวมก็เริ่มที่จะดูต่างออกไป 19 00:01:03,772 --> 00:01:07,849 โรงพยาบาล A มีคนไข้เพียง 100 คน ที่เข้ามาด้วยสภาพร่างกายที่ไม่แข็งแรง 20 00:01:07,849 --> 00:01:10,325 ซึ่งมีผู้รอดชีวิต 30 คน 21 00:01:10,325 --> 00:01:14,852 แต่โรงพยาบาล B มี 400 คน และพวกเขาช่วยชีวิตไว้ได้ 210 คน 22 00:01:14,852 --> 00:01:17,169 ฉะนั้น โรงพยาบาล B เป็นตัวเลือกที่ดีกว่า 23 00:01:17,169 --> 00:01:20,741 สำหรับผู้ป่วยที่เข้ามายังโรงพยบาล ด้วยสภาพร่างกายที่ไม่แข็งแรง 24 00:01:20,741 --> 00:01:24,526 ซึ่งอัตราการรอดชีวิตคือ 52.5% 25 00:01:24,526 --> 00:01:28,445 แล้วญาติของคุณมีสภาพร่างกายที่ดี ตอนเข้ามาที่โรงพยาบาลหรือเปล่า 26 00:01:28,445 --> 00:01:32,271 น่าแปลกที่โรงพยาบาล B ยังเป็นตัวเลือกที่ดีกว่า 27 00:01:32,271 --> 00:01:35,676 ด้วยอัตราการรอดชีวิต 98% 28 00:01:35,676 --> 00:01:38,733 แล้วโรงพยาบาล A มีอัตราการรอดชีวิตทั้งหมดดีกว่าได้อย่างไร 29 00:01:38,733 --> 00:01:44,830 ถ้าโรงพยาบาล B มีอัตราการอดชีวิต สำหรับผู้ป่วยในแต่ละกลุ่มสูงกว่า 30 00:01:44,830 --> 00:01:48,589 สิ่งที่เราเจออยู่นี้ คือ ซิมสันพาราด๊อก (Simpson's paradox) 31 00:01:48,589 --> 00:01:51,899 ซึ่งข้อมูลกลุ่มเดียวกัน สามารถที่จะแสดงแนวโน้มที่ตรงข้ามกันได้ 32 00:01:51,899 --> 00:01:54,664 ขึ้นอยู่กับว่าเราจะจัดกลุ่มมันอย่างไร 33 00:01:54,664 --> 00:01:58,744 มันเกิดขึ้นเป็นประจำเมื่อข้อมูลที่ถูกนำมารวมกัน ซ่อนตัวแปรที่มีเงื่อนไขเอาไว้ 34 00:01:58,744 --> 00:02:01,377 บางครั้งมันถูกเรียกว่า ตัวแปรซุกซ่อน 35 00:02:01,377 --> 00:02:06,584 ซึ่งซ่อนปัจจัยอื่น ๆ ที่มีผลต่อผลลัพท์อย่างมีนัยสำคัญ 36 00:02:06,584 --> 00:02:10,023 ในที่นี้ ปัจจัยที่ถูกซ่อนอยู่ คืออัตราส่วนสัมพัทธ์ของคนไข้ 37 00:02:10,023 --> 00:02:13,264 ผู้ซึ่งมาที่โรงพยาบาลด้วยสภาพร่างกาย ที่แข็งแรงหรือไม่แข็งแรง 38 00:02:13,264 --> 00:02:16,544 ซิมสันพาราด๊อกไม่ได้เป็นเพียง เหตุการณ์ในทางทฤษฎี 39 00:02:16,544 --> 00:02:18,924 มันเกิดขึ้นจริง ๆ เป็นครั้งคราว 40 00:02:18,924 --> 00:02:22,132 บางครั้งในบริบทที่สำคัญ 41 00:02:22,132 --> 00:02:24,130 การศึกษาหนึ่งในสหราชอาณาจักร แสดงว่า 42 00:02:24,130 --> 00:02:27,600 ผู้ที่สูบบุหรี่มีอัตราการรอดชีวิต สูงกว่าผู้ที่ไม่สูบบุหรี่ 43 00:02:27,600 --> 00:02:29,846 ตลอดระยะเวลายี่สิบปี 44 00:02:29,846 --> 00:02:33,307 จนกระทั่งเราแบ่งกลุ่มคนไข้ตามกลุ่มอายุ 45 00:02:33,307 --> 00:02:37,823 ซึ่งจะแสดงให้เห็นว่าผู้ที่ไม่สูบบุหรี่ มีอายุเฉลี่ยมากกว่าอย่างมีนัยสำคัญ 46 00:02:37,823 --> 00:02:40,930 และดังนั้น จึงเป็นไปได้มากกว่า ที่พวกเขาจะเสียชีวิตในช่วงทดสอบ 47 00:02:40,930 --> 00:02:44,438 เนื่องจากพวกเขาโดยส่วนมากมีอายุมากกว่า 48 00:02:44,438 --> 00:02:47,286 นี่คือกลุ่มอายุที่มีตัวแปรซุกซ่อน 49 00:02:47,286 --> 00:02:50,176 และมีความสำคัญต่อการตีความข้อมูล อย่างถูกต้อง 50 00:02:50,176 --> 00:02:51,559 ในอีกตัวอย่างหนึ่ง 51 00:02:51,559 --> 00:02:54,281 การวิเคราะห์คดีของรัฐฟลอริด้า เกี่ยวกับการลงโทษประหารชีวิต 52 00:02:54,281 --> 00:02:58,265 เหมือนว่าจะเปิดเผยว่า ไม่มีความแตกต่างระหว่างเชื้อชาติ 53 00:02:58,265 --> 00:03:01,581 ระหว่างผู้ต้องหาผิวดำและขาว ที่โดนตั้งข้อหาฆาตกรรม 54 00:03:01,581 --> 00:03:06,396 แต่การแบ่งคดีตามสีผิวของเหยื่อ บอกเรื่องราวที่ต่างกันออกไป 55 00:03:06,396 --> 00:03:07,969 ไม่ว่าในสถานการณ์ไหน 56 00:03:07,969 --> 00:03:11,091 ผู้ต้องหาผิวดำ มักจะถูกตัดสินประหารชีวิตมากกว่า 57 00:03:11,091 --> 00:03:15,066 อัตราการตัดสินที่สูงกว่าเล็กน้อย สำหรับผู้ต้องหาผิวขาว 58 00:03:15,066 --> 00:03:18,692 เป็นเพราะว่าคดีที่มีเหยื่อเป็นคนผิวขาว 59 00:03:18,692 --> 00:03:21,359 มักจะถูกตัดสินให้ได้รับโทษประหาร 60 00:03:21,359 --> 00:03:24,091 มากกว่ากรณีที่เหยื่อเป็นคนผิวดำ 61 00:03:24,091 --> 00:03:28,483 และฆาตกรรมส่วนใหญ่จะเกิดขึ้น ในกลุ่มผู้มีสีผิวเดียวกัน 62 00:03:28,483 --> 00:03:31,319 ฉะนั้น เราจะหลีกเลี่ยง การตกหลุมพาราด๊อกได้อย่างไร 63 00:03:31,319 --> 00:03:34,686 น่าเสียดายที่มันไม่มีคำตอบตายตัว 64 00:03:34,686 --> 00:03:38,504 ข้อมูลสามารถถูกจัดกลุ่ม และถูกแบ่งได้หลายรูปแบบ 65 00:03:38,504 --> 00:03:42,106 และจำนวนทั้งหมด บางครั้งให้ภาพที่แม่นยำ 66 00:03:42,106 --> 00:03:46,638 กว่าข้อมูลที่ถูกแบ่งเป็นหมวดหมู่ ที่ชวนสับสนและไร้กฎเกณฑ์ 67 00:03:46,638 --> 00:03:52,089 ทั้งหมดที่เราทำได้คือศึกษาสถานการณ์ ที่สถิติอธิบายอย่างระมัดระวัง 68 00:03:52,089 --> 00:03:55,977 และพิจารณาว่ามันมีตัวแปรซุกซ่อนอยู่หรือเปล่า 69 00:03:55,977 --> 00:03:59,378 มิฉะนั้นแล้ว เราทำให้ตัวเราเสี่ยง กับผู้ที่อาจใช้ข้อมูล 70 00:03:59,378 --> 00:04:02,649 ในการเหนี่ยวนำคนอื่น ๆ และส่งเสริมแผนการของพวกเขาเอง