Συμβολή της ευκλείδιας και Χ2 (τετράγωνο) μετρικής στον προσδιορισμό της ιδανικότερης ταξινόμησης κατά αύξουσα ιεραρχία

Γιάννης Παπαδημητρίου, Γιαννούλα Φλώρου

Abstract


Σκοπός της εργασίας είναι να προσδιορισθεί ποια από τις τρεις μεθόδους της ταξινόμησης κατά αύξουσα ιεραρχία (C.A.H.), (Min, Max, Moyenne), είναι ιδανικότερη για κάθε συγκεκριμένο πίνακα δεδομένων, ώστε η αδράνεια των κλάσεων κάθε διαμελισμού να πλησιάζει όσο γίνεται περισσότερο στην αρχική ολική αδράνεια. Επίσης επιχειρείται ο προσδιορισμός του ιδανικότερου διαμελισμού των δεδομένων για κάθε συγκεκριμένο πλήθος κλάσεων. Από τον πίνακα των αρχικών δεδομένων, υπολογίζεται ένας νέος πίνακας με τις αποστάσεις ανά δύο όλων των στοιχείων του. Για τον υπολογισμό των αποστάσεων, εφαρμόζεται η ευκλείδεια μετρική, αν οι μεταβλητές είναι ποσοτικές, και η μετρική τoυ χ2, όταν αυτές είναι ποιοτικές ή όταν αναλύεται πίνακας συχνοτήτων, ενώ για τη δημιουργία του δενδρογράμματος και τον υπολογισμό των αποστάσεων μεταξύ των κλάσεων χρησιμοποιούνται οι τρεις μέθοδοι: Min, Max και Moyenne. Αρχικά, προσδιορίζεται ποια από τις τρεις μεθόδους προσαρμόζεται καλύτερα στα δεδομένα. Αυτό επιτυγχάνεται με τον υπολογισμό του ποσοστού της ερμηνεύσιμης αδράνειας διαδοχικά για ένα πλήθος κλάσεων από π (πλήθος δεδομένων) μέχρι 2 (υψηλότερος κόμβος του δενδρογράμματος). Η μεταβολή του ποσοστού αυτού για κάθε μία από τις μεθόδους δίνεται γραφικά σε ένα κοινό διάγραμμα, όπου σχετικά εύκολα παρατηρείται η γενική εικόνα των μεταβολών του. Στη συνέχεια, για κάθε επιθυμητό τελικό διαμελισμό, εξετάζεται σε ποια από τις τρεις μεθόδους διατηρείται το μεγαλύτερο ποσοστό της αρχικής ολικής αδράνειας, πράγμα που δηλώνει την καλύτερα προσαρμοζόμενη μέθοδο, για το συγκεκριμένο αριθμό κλάσεων. Σημειώνεται ότι είναι δυνατό μία από τις τρεις μεθόδους να θεωρηθεί, σύμφωνα με τη γενική εικόνα της ιεράρχησης, η καλύτερα προσαρμοζόμενη στα δεδομένα, ενώ για κάποιο συγκεκριμένο αριθμό κλάσεων μια άλλη να ερμηνεύει μεγαλύτερο ποσοστό της αρχικής ολικής αδράνειας.

Keywords


Discriminant analysis; Cluster analysis; Mathematical statistics

Full Text:

PDF (Greek)

Refbacks

  • There are currently no refbacks.