WEBVTT 00:00:06.636 --> 00:00:08.947 Η στατιστική είναι πειστική. 00:00:08.947 --> 00:00:12.541 Τόσο πολύ που άνθρωποι, οργανώσεις και ολόκληρες χώρες 00:00:12.541 --> 00:00:17.517 βασίζουν ορισμένες από τις πιο κρίσιμες αποφάσεις τους σε οργανωμένα δεδομένα. 00:00:17.517 --> 00:00:19.484 Ωστόσο, υπάρχει ένα πρόβλημα με αυτό. 00:00:19.484 --> 00:00:22.941 Κάθε στατιστικό δείγμα ενδέχεται να ελλοχεύει 00:00:22.941 --> 00:00:27.061 κάτι που ανατρέπει εξ ολοκλήρου τα αποτελέσματα. 00:00:27.061 --> 00:00:30.920 Για παράδειγμα, φαντάσου ότι χρειάζεται να αποφασίσεις μεταξύ δύο νοσοκομείων 00:00:30.920 --> 00:00:33.737 για τη χειρουργική επέμβαση ενός ηλικιωμένου συγγενή. 00:00:33.737 --> 00:00:36.434 Από τους τελευταίους 1.000 ασθενείς κάθε νοσοκομείου, 00:00:36.434 --> 00:00:39.612 στο πρώτο νοσοκομείο επέζησαν 900 00:00:39.612 --> 00:00:42.761 και μόνο 800 στο δεύτερο. 00:00:42.761 --> 00:00:45.730 Επομένως, το πρώτο νοσοκομείο φαντάζει καλύτερη επιλογή. 00:00:45.730 --> 00:00:47.673 Όμως πριν αποφασίσεις, 00:00:47.673 --> 00:00:51.411 θυμίσου ότι δεν έφτασαν όλοι οι πάσχοντες στο νοσοκομείο 00:00:51.411 --> 00:00:53.641 στην ίδια κατάσταση. 00:00:53.811 --> 00:00:57.073 Αν σε κάθε νοσοκομείο διαιρέσουμε τους 1.000 τελευταίους ασθενείς 00:00:57.073 --> 00:01:01.132 σε αυτούς που φτάνουν σε καλή και σε αυτούς που φτάνουν σε άσχημη κατάσταση, 00:01:01.132 --> 00:01:03.772 η εικόνα αρχίζει να αλλάζει σημαντικά. 00:01:03.772 --> 00:01:07.849 Το νοσοκομείο Α είχε μόλις 100 ασθενείς που έφτασαν σε άσχημη κατάσταση υγείας, 00:01:07.849 --> 00:01:10.325 30 από τους οποίους επέζησαν. 00:01:10.325 --> 00:01:14.852 Όμως, το νοσοκομείο Β είχε 400 και μπόρεσε να σώσει τους 210. 00:01:14.852 --> 00:01:17.169 Οπότε το δεύτερο είναι καλύτερη επιλογή 00:01:17.169 --> 00:01:20.741 για ασθενείς που φτάνουν στο νοσοκομείο σε κακή κατάσταση υγείας, 00:01:20.741 --> 00:01:24.526 με ποσοστό επιβίωσης 52,5%. 00:01:24.526 --> 00:01:28.445 Αν η κατάσταση υγείας του συγγενή σας είναι καλή όταν φτάνει στο νοσοκομείο; 00:01:28.445 --> 00:01:32.271 Περιέργως, το νοσοκομείο Β είναι πάλι καλύτερη επιλογή, 00:01:32.271 --> 00:01:35.506 με ποσοστό επιβίωσης πάνω από 98%. 00:01:35.506 --> 00:01:38.923 Πώς είναι δυνατό να έχουμε ένα μεγαλύτερο ποσοστό επιβίωσης στο Α 00:01:38.923 --> 00:01:44.830 όταν το Β έχει καλύτερα ποσοστά επιβίωσης και στις δύο ομάδες ασθενών; 00:01:44.830 --> 00:01:48.589 Έχουμε πέσει πάνω στην περίπτωση του παράδοξου του Σίμπσονς 00:01:48.589 --> 00:01:51.899 όπου ίδιες ομάδες δεδομένων μπορούν να δείξουν διαφορετικές τάσεις, 00:01:51.899 --> 00:01:54.164 ανάλογα με την ομαδοποίηση. 00:01:54.504 --> 00:01:58.534 Αυτό συμβαίνει όταν ομαδοποιημένα δεδομένα κρύβουν έναν μεταβλητό παράγοντα, 00:01:58.534 --> 00:02:01.107 γνωστή και ως «κρυφή μεταβλητή», 00:02:01.107 --> 00:02:06.374 που είναι ένας επιπρόσθετος παράγοντας που επηρεάζει σημαντικά τα αποτελέσματα. 00:02:06.374 --> 00:02:10.023 Εδώ, ο κρυφός παράγοντας είναι η σχετική αναλογία των ασθενών 00:02:10.023 --> 00:02:13.074 που φτάνουν σε καλή και κακή κατάσταση. 00:02:13.074 --> 00:02:16.304 Το παράδοξο του Σίμπσον δεν είναι ένα υποθετικό σενάριο. 00:02:16.304 --> 00:02:18.924 Εμφανίζεται σποραδικά στον πραγματικό κόσμο, 00:02:18.924 --> 00:02:22.002 μερικές φορές σε σημαντικές περιστάσεις. 00:02:22.002 --> 00:02:23.530 Μια έρευνα στο Ηνωμένο Βασίλειο 00:02:23.530 --> 00:02:26.800 έδειξε πως οι καπνιστές έχουν μεγαλύτερο ποσοστό επιβίωσης 00:02:26.800 --> 00:02:29.846 από τους μη καπνιστές, σε περίοδο είκοσι ετών. 00:02:29.846 --> 00:02:33.307 Όταν έγινε ο διαχωρισμός των συμμετέχοντων ανά ηλικιακή ομάδα 00:02:33.307 --> 00:02:37.633 η έρευνα έδειξε πως οι μη καπνιστές ήταν σαφώς μεγαλύτερης ηλικίας, 00:02:37.633 --> 00:02:40.780 οπότε, πολύ πιθανότερο να πεθάνουν κατά την ελεγχόμενη περίοδο, 00:02:40.780 --> 00:02:44.438 ακριβώς επειδή είχαν ζήσει ήδη περισσότερο. 00:02:44.438 --> 00:02:47.156 Εδώ, οι ηλικιακές ομάδες είναι ο κρυφός παράγοντας 00:02:47.156 --> 00:02:50.176 και είναι ζωτικής σημασίας να ληφθούν υπόψη στην ανάλυση. 00:02:50.176 --> 00:02:51.559 Σε ένα άλλο παράδειγμα, 00:02:51.559 --> 00:02:54.281 μιας ανάλυσης περιπτώσεων θανατικών ποινών στη Φλόριντα, 00:02:54.281 --> 00:02:58.265 φαινόταν να μην υπάρχει φυλετική διάκριση 00:02:58.265 --> 00:03:01.581 μεταξύ μαύρων και λευκών καταδικασμένων σε θάνατο. 00:03:01.581 --> 00:03:06.396 Όμως, χωρίζοντας τις περιπτώσεις ανά φυλή κάθε θύματος προέκυψε άλλη ερμηνεία. 00:03:06.396 --> 00:03:07.929 Σε κάθε περίπτωση, 00:03:07.929 --> 00:03:11.091 ήταν πολύ πιθανότερη η καταδίκη των μαύρων κατηγορούμενων. 00:03:11.091 --> 00:03:15.066 Το ελαφρώς μεγαλύτερο ποσοστό καταδίκης για τους λευκούς εναγόμενους 00:03:15.066 --> 00:03:18.692 οφειλόταν στο ότι οι υποθέσεις με θύματα λευκούς 00:03:18.692 --> 00:03:21.359 ήταν πιο πιθανό να προβλέπουν θανατική ποινή 00:03:21.359 --> 00:03:24.091 σε σχέση με τις υποθέσεις με θύματα μαύρους, 00:03:24.091 --> 00:03:28.483 και οι περισσότεροι φόνοι συνέβησαν μεταξύ ανθρώπων της ίδιας φυλής. 00:03:28.483 --> 00:03:31.319 Πώς μπορούμε να αποφύγουμε να πέσουμε σε παράδοξο; 00:03:31.319 --> 00:03:34.686 Δυστυχώς, δεν υπάρχει μία απάντηση για όλες τις περιπτώσεις. 00:03:34.686 --> 00:03:38.504 Τα δεδομένα μπορούν να ομαδοποιηθούν και να καταμεριστούν με διάφορους τρόπους 00:03:38.504 --> 00:03:42.106 και τα σύνολα μερικές φορές δίνουν μια πιο σαφή εικόνα 00:03:42.106 --> 00:03:46.638 από δεδομένα διαιρεμένα σε παραπλανητικές ή αυθαίρετες κατηγορίες. 00:03:46.638 --> 00:03:50.269 Αυτό που μπορούμε είναι να μελετήσουμε προσεκτικά τις πραγματικές καταστάσεις 00:03:50.269 --> 00:03:52.089 που περιγράφονται με χρήση στατιστικής 00:03:52.089 --> 00:03:55.767 και να αναλογιστούμε τυχόν ύπαρξη κρυφών μεταβλητών. 00:03:55.767 --> 00:03:59.370 Διαφορετικά, γινόμαστε ευάλωτοι σε αυτούς που χρησιμοποιούν τα δεδομένα 00:03:59.370 --> 00:04:04.030 για να χειραγωγήσουν τους άλλους και να προωθήσουν τα δικά τους σχέδια.