Φυλλο

Φυλλο

Δευτέρα 6 Ιουλίου 2015

Ενα θαυμάσιο παράδοξο της Στατιστικής

Simpson's Paradox

1. Ενα Πανεπιστημιο έχει δυο σχολες που παιρνουν και άντρες και γυναίκες

Στη Σχολή 1 δοκιμάζουν να πάνε 100 αντρες και 100 γυναικες και περνά το 80% απο την καθεμιά κατηγορία

Αρα

Αντρες  (συνολο 100)                            Γυναικες(συνολο 100)
Περνουν   Δεν περνουν                  Περνουν    Δεν περνουν
80               20                                    80                20


Στη Σχολή 2 πηγαινουν συνηθως περισσοτεροι άντρες απο γυναικες. Ομως και για τους 2 περνά το 60%
Πανε λοιπον 50 αντρες και περνούν 30 και 10 γυναικες και περνουν 6

Αρα


Αντρες  (συνολο 50)                           Γυναικες(συνολο 10)
Περνουν   Δεν περνουν                  Περνουν    Δεν περνουν
30               20                                   6               4


Οπως βλέπετε το Πανεπιστημιο ΔΕΝ κάνει καμιά διάκριση.
Ας δουμε ομως τα συνολικά αποτελέσματα

Στο Πανεπιστήμιο αυτο δοκιμάζουν να πάνε συνολικά 150 αντρες και 110 γυναικες

Απο τους άντρες σε κάθε σχολή του Πανεπιστημίου περνούν 80+ 30= 110 και επομένως το ποσοστο επιτυχίας ειναι 110/150=  73%

Απο τις γυναίκες σε κάθε σχολή του Πανεπιστημίου περνούν 80+6= 86 και επομένως το ποσοστό επιτυχίας ειναι 86/110= 78%

Αρα το Πανεπιστήμιο κάνει διακρίσεις σε βαρος των ανδρων (73%<78%)

2. Αλλη εφαρμογή

Ειμαι μια εταιρεια και ρωτάω τις γνώμες των πολιτών. θέλω να μάθουν ποσοι προτιμουν τα α και ανεξάρτητα πόσοι προτιμουν το β. Ομως μεσα στον πληθυσμό υπαρχουν διαφορετικές ομάδες
Στην ομάδα Α προτιμουν το α κατα 80% και το β κατα 70%
Στην ομάδα Β προτιμουν το α κατα 50% και το β κατα 40%

Σε καθε περιπτωση το Α το α ειναι πιο δημοφιλές απο το β

Αν ομως εγω επιτηδες επιλέξω η ομάδα Β να αντιπροσωπευθει ελάχιστα σε αυτους που ρωτώνται για το β τοτε τα αποτελέσματα θα πλησιάσουν το 70% ενω αναφορικά με το α οι προτιμήσεις θα "αραιωσουν" μεταξυ 80% και 50%

3. Η γενικοτερη σκεψη ειναι: αν συγκρινουμε μια προοπτική α με μια προοπτική β αλλα οι "ψηφοφοροι" ειναι χωρισμένοι σε ομάδες και υπάρχουν διαφορετικοι "μηχανισμοι" που οδηγουν  στο να προτιμηθει η α ή η β τοτε αναλογα με το αν κάποιος πληθυσμος απο τυχη ή επιλογή ή λαθος σχεδιασμου υποεκπροσωπειται τοτε το "συνολικο αποτέλεσμα" μπορει να ξεγελάσει.

Δηλαδή το να πεις: εγω ψάχνω στατιστικές κανονικότητες χωρις να με απασχολει το πώς προκυπτουν, δεν ειναι τοσο ασφαλής μέθοδος οσο ακουγεται.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου