1 00:00:06,636 --> 00:00:08,947 Η στατιστική είναι πειστική. 2 00:00:08,947 --> 00:00:12,541 Τόσο πολύ που άνθρωποι, οργανώσεις και ολόκληρες χώρες 3 00:00:12,541 --> 00:00:17,517 βασίζουν ορισμένες από τις πιο κρίσιμες αποφάσεις τους σε οργανωμένα δεδομένα. 4 00:00:17,517 --> 00:00:19,484 Ωστόσο, υπάρχει ένα πρόβλημα με αυτό. 5 00:00:19,484 --> 00:00:22,941 Κάθε στατιστικό δείγμα ενδέχεται να ελλοχεύει 6 00:00:22,941 --> 00:00:27,061 κάτι που ανατρέπει εξ ολοκλήρου τα αποτελέσματα. 7 00:00:27,061 --> 00:00:30,920 Για παράδειγμα, φαντάσου ότι χρειάζεται να αποφασίσεις μεταξύ δύο νοσοκομείων 8 00:00:30,920 --> 00:00:33,737 για τη χειρουργική επέμβαση ενός ηλικιωμένου συγγενή. 9 00:00:33,737 --> 00:00:36,434 Από τους τελευταίους 1.000 ασθενείς κάθε νοσοκομείου, 10 00:00:36,434 --> 00:00:39,612 στο πρώτο νοσοκομείο επέζησαν 900 11 00:00:39,612 --> 00:00:42,761 και μόνο 800 στο δεύτερο. 12 00:00:42,761 --> 00:00:45,730 Επομένως, το πρώτο νοσοκομείο φαντάζει καλύτερη επιλογή. 13 00:00:45,730 --> 00:00:47,673 Όμως πριν αποφασίσεις, 14 00:00:47,673 --> 00:00:51,411 θυμίσου ότι δεν έφτασαν όλοι οι πάσχοντες στο νοσοκομείο 15 00:00:51,411 --> 00:00:53,641 στην ίδια κατάσταση. 16 00:00:53,811 --> 00:00:57,073 Αν σε κάθε νοσοκομείο διαιρέσουμε τους 1.000 τελευταίους ασθενείς 17 00:00:57,073 --> 00:01:01,132 σε αυτούς που φτάνουν σε καλή και σε αυτούς που φτάνουν σε άσχημη κατάσταση, 18 00:01:01,132 --> 00:01:03,772 η εικόνα αρχίζει να αλλάζει σημαντικά. 19 00:01:03,772 --> 00:01:07,849 Το νοσοκομείο Α είχε μόλις 100 ασθενείς που έφτασαν σε άσχημη κατάσταση υγείας, 20 00:01:07,849 --> 00:01:10,325 30 από τους οποίους επέζησαν. 21 00:01:10,325 --> 00:01:14,852 Όμως, το νοσοκομείο Β είχε 400 και μπόρεσε να σώσει τους 210. 22 00:01:14,852 --> 00:01:17,169 Οπότε το δεύτερο είναι καλύτερη επιλογή 23 00:01:17,169 --> 00:01:20,741 για ασθενείς που φτάνουν στο νοσοκομείο σε κακή κατάσταση υγείας, 24 00:01:20,741 --> 00:01:24,526 με ποσοστό επιβίωσης 52,5%. 25 00:01:24,526 --> 00:01:28,445 Αν η κατάσταση υγείας του συγγενή σας είναι καλή όταν φτάνει στο νοσοκομείο; 26 00:01:28,445 --> 00:01:32,271 Περιέργως, το νοσοκομείο Β είναι πάλι καλύτερη επιλογή, 27 00:01:32,271 --> 00:01:35,506 με ποσοστό επιβίωσης πάνω από 98%. 28 00:01:35,506 --> 00:01:38,923 Πώς είναι δυνατό να έχουμε ένα μεγαλύτερο ποσοστό επιβίωσης στο Α 29 00:01:38,923 --> 00:01:44,830 όταν το Β έχει καλύτερα ποσοστά επιβίωσης και στις δύο ομάδες ασθενών; 30 00:01:44,830 --> 00:01:48,589 Έχουμε πέσει πάνω στην περίπτωση του παράδοξου του Σίμπσονς 31 00:01:48,589 --> 00:01:51,899 όπου ίδιες ομάδες δεδομένων μπορούν να δείξουν διαφορετικές τάσεις, 32 00:01:51,899 --> 00:01:54,164 ανάλογα με την ομαδοποίηση. 33 00:01:54,504 --> 00:01:58,534 Αυτό συμβαίνει όταν ομαδοποιημένα δεδομένα κρύβουν έναν μεταβλητό παράγοντα, 34 00:01:58,534 --> 00:02:01,107 γνωστή και ως «κρυφή μεταβλητή», 35 00:02:01,107 --> 00:02:06,374 που είναι ένας επιπρόσθετος παράγοντας που επηρεάζει σημαντικά τα αποτελέσματα. 36 00:02:06,374 --> 00:02:10,023 Εδώ, ο κρυφός παράγοντας είναι η σχετική αναλογία των ασθενών 37 00:02:10,023 --> 00:02:13,074 που φτάνουν σε καλή και κακή κατάσταση. 38 00:02:13,074 --> 00:02:16,304 Το παράδοξο του Σίμπσον δεν είναι ένα υποθετικό σενάριο. 39 00:02:16,304 --> 00:02:18,924 Εμφανίζεται σποραδικά στον πραγματικό κόσμο, 40 00:02:18,924 --> 00:02:22,002 μερικές φορές σε σημαντικές περιστάσεις. 41 00:02:22,002 --> 00:02:23,530 Μια έρευνα στο Ηνωμένο Βασίλειο 42 00:02:23,530 --> 00:02:26,800 έδειξε πως οι καπνιστές έχουν μεγαλύτερο ποσοστό επιβίωσης 43 00:02:26,800 --> 00:02:29,846 από τους μη καπνιστές, σε περίοδο είκοσι ετών. 44 00:02:29,846 --> 00:02:33,307 Όταν έγινε ο διαχωρισμός των συμμετέχοντων ανά ηλικιακή ομάδα 45 00:02:33,307 --> 00:02:37,633 η έρευνα έδειξε πως οι μη καπνιστές ήταν σαφώς μεγαλύτερης ηλικίας, 46 00:02:37,633 --> 00:02:40,780 οπότε, πολύ πιθανότερο να πεθάνουν κατά την ελεγχόμενη περίοδο, 47 00:02:40,780 --> 00:02:44,438 ακριβώς επειδή είχαν ζήσει ήδη περισσότερο. 48 00:02:44,438 --> 00:02:47,156 Εδώ, οι ηλικιακές ομάδες είναι ο κρυφός παράγοντας 49 00:02:47,156 --> 00:02:50,176 και είναι ζωτικής σημασίας να ληφθούν υπόψη στην ανάλυση. 50 00:02:50,176 --> 00:02:51,559 Σε ένα άλλο παράδειγμα, 51 00:02:51,559 --> 00:02:54,281 μιας ανάλυσης περιπτώσεων θανατικών ποινών στη Φλόριντα, 52 00:02:54,281 --> 00:02:58,265 φαινόταν να μην υπάρχει φυλετική διάκριση 53 00:02:58,265 --> 00:03:01,581 μεταξύ μαύρων και λευκών καταδικασμένων σε θάνατο. 54 00:03:01,581 --> 00:03:06,396 Όμως, χωρίζοντας τις περιπτώσεις ανά φυλή κάθε θύματος προέκυψε άλλη ερμηνεία. 55 00:03:06,396 --> 00:03:07,929 Σε κάθε περίπτωση, 56 00:03:07,929 --> 00:03:11,091 ήταν πολύ πιθανότερη η καταδίκη των μαύρων κατηγορούμενων. 57 00:03:11,091 --> 00:03:15,066 Το ελαφρώς μεγαλύτερο ποσοστό καταδίκης για τους λευκούς εναγόμενους 58 00:03:15,066 --> 00:03:18,692 οφειλόταν στο ότι οι υποθέσεις με θύματα λευκούς 59 00:03:18,692 --> 00:03:21,359 ήταν πιο πιθανό να προβλέπουν θανατική ποινή 60 00:03:21,359 --> 00:03:24,091 σε σχέση με τις υποθέσεις με θύματα μαύρους, 61 00:03:24,091 --> 00:03:28,483 και οι περισσότεροι φόνοι συνέβησαν μεταξύ ανθρώπων της ίδιας φυλής. 62 00:03:28,483 --> 00:03:31,319 Πώς μπορούμε να αποφύγουμε να πέσουμε σε παράδοξο; 63 00:03:31,319 --> 00:03:34,686 Δυστυχώς, δεν υπάρχει μία απάντηση για όλες τις περιπτώσεις. 64 00:03:34,686 --> 00:03:38,504 Τα δεδομένα μπορούν να ομαδοποιηθούν και να καταμεριστούν με διάφορους τρόπους 65 00:03:38,504 --> 00:03:42,106 και τα σύνολα μερικές φορές δίνουν μια πιο σαφή εικόνα 66 00:03:42,106 --> 00:03:46,638 από δεδομένα διαιρεμένα σε παραπλανητικές ή αυθαίρετες κατηγορίες. 67 00:03:46,638 --> 00:03:50,269 Αυτό που μπορούμε είναι να μελετήσουμε προσεκτικά τις πραγματικές καταστάσεις 68 00:03:50,269 --> 00:03:52,089 που περιγράφονται με χρήση στατιστικής 69 00:03:52,089 --> 00:03:55,767 και να αναλογιστούμε τυχόν ύπαρξη κρυφών μεταβλητών. 70 00:03:55,767 --> 00:03:59,370 Διαφορετικά, γινόμαστε ευάλωτοι σε αυτούς που χρησιμοποιούν τα δεδομένα 71 00:03:59,370 --> 00:04:04,030 για να χειραγωγήσουν τους άλλους και να προωθήσουν τα δικά τους σχέδια.