Ziel d. Clusteranalyse (2)
Ziel: Gruppierung von Objekten anhand ihrer Merkmale
– Minimale Distanzen der Objekte innerhalb eines Clusters
– Maximale Distanzen der Cluster untereinander
'Clusteranalyse' beschreibt eine Gruppe multivariater Verfahren
• Forschungsbeispiele
– Taxonomie psychischer Störungen
– Auffinden von Persönlichkeitstypen
– Gruppierung von Studierenden nach Studieninteressen
Abgenzung zur log. Regression & Faktoranalyse ()
Abgrenzung
– Im Gegensatz zur Logistischen Regression gibt es kein externes Kriterium für die Gruppierung
– Im Gegensatz zur Faktorenanalyse werden nicht Variablen sondern Objekte gruppiert
Einschränkungen in der Interpretation (3)
• Clusteranalysen sind a-theoretisch / explorativ
• Die Clusteranalyse ist ein rein deskriptives Verfahren
• Es fehlt eine inferenzstatistische Absicherung
• Es können immer Cluster 'gefunden' werden (auch wenn keine Struktur in den Daten existiert)
Die Generalisierbarkeit der Clusterlösung ist eingeschränkt
– Wichtig (1): Theoretische / konzeptionelle Fundierung
—> Ist eine Struktur der Stichprobe zu erwarten?
—> Welche Variablen sind wichtig?
– Wichtig (2): Große und Repräsentative Stichprobe
• Weil die Clusteranalyse kein inferenzstatistisches Verfahren ist, spielen die Normalverteilungsannahme, Linearität, Homoskedastizität keine Rolle
Grundprinzipien der Clusteranalyse (1)
Grundprinzipien der Clusteranalyse
• Einfaches Datenbeispiel: Klassifikation von Psychologiestudierenden nach ihrem
Interesse für klinische Psychologie (V1) und für Methodenlehre (V2)
Entscheidungen bei der Clusteranalyse (5)
Entscheidungen bei der Clusteranalyse
• Festlegung eines Ähnlichkeitsmaßes
– Distanz
– Korrelation
– Assoziation
• Standardisierung der Cluster-Variablen?
• Gruppierungsprozedur
– Hierarchisch
– Non-Hierarschich
• Regeln für die Zusammenfassung von Cluster
• Anzahl der Cluster
– Wenige große heterogene Gruppen
– Viele kleine homogene Gruppen
Ähnlichkeitsmaße (1): Distanz (4)
• Berechnet wird die Distanz zwischen allen
Person 𝑖 und 𝑗 über alle Variablen 𝑥𝑘
mit 𝑘 = 1, … , 𝐾
• Mahalanobis Distanz
– Variablen werden standardisiert
– Interkorrelationen werden berücksichtigt
Ähnlichkeitsmaße (2): Profilkorrelation (2)
• Ähnlichkeiten werden über die Korrelation der
Werte zweier Personen 𝑖 und 𝑗 bestimmt
• Nachteil: Korrelationen berücksichtigen nicht die
absolute Merkmalsausprägungen, sondern nur
die Form des Profils
– Personen mit ganz unterschiedlichen
Niveaus können als sehr ähnlich
klassifiziert werden
– Personen mit ähnlichen Niveaus können
als unähnlich klassifiziert werden
Ähnlichkeitsmaße (3): Assoziation (2)
• Ähnlichkeit ist hier als relative Anzahl übereinstimmender Merkmalsausprägungen
definiert
• Geeignet für non-metrische Variablen
• Beispiel: Interesse für Studiengebiete wird binär erhoben
– 6 von 10 Übereinstimmungen —>a = 0.6
Ähnlichkeitsmaße (3): Assoziation: Distanzmatrix ()
Distanzmatrix
• Aus den Ähnlichkeitsmaßen kann jetzt eine Distanzmatrix gebildet werden
• Ähnliche Objekte (mit geringer Distanz) werden in
gemeinsame Cluster eingeordnet
Standardisierung der Variablen (2)
• Variablen mit großem Wertebereich (großer Varianz) haben einen größeren Einfluss auf die Clusterbildung
• Wenn Variablen unterschiedlich skaliert sind, müssen diese vor der Distanzberechnung standardisiert werden
– Methode: z-Standardisierung (R-Befehl: scale(…))
– Dadurch erhält jede Variable das gleiche Gewicht
Auswahl einer Gruppierungsprozedur: Hierarchische Gruppierung (2)
• Hierarchische Gruppierung
– Agglomerativ
• Zunächst bildet jede Person ein eigenes Cluster
• Dann werden diese schrittweise zusammengefasst, bis es nur noch ein einziges Cluster gib
– Divisiv
• Zunächst sind alle Personen in einem Cluster
• Schrittweise werden Cluster getrennt, biss jedes Cluster nur noch mit einer Person besetzt ist
Auswahl einer Gruppierungsprozedur: Nicht-Hierarchische Gruppierung (4)
Nicht-Hierarchisch Gruppierung
1. Festlegung der Cluster-Anzahl
2. Festlegung der Anfangswerte (seeds) der Cluster
3. Zuordnung der Objekte zu den Clustern nach Ähnlichkeit zu den Anfangswerten
4. Iterative Neuzuordnungen der Elemente
Hierarchische Gruppierungsprozeduren: Linkage Methoden (3)
Hierarchische Gruppierungsprozeduren (1)
• Beim hierarchischen Vorgehen werden jeweils die ähnlichsten
Cluster zusammengefasst
• Dazu muss die Ähnlichkeit zwischen Clustern definiert werden
• Single-Linkage Methode
– Ähnlichkeit zwischen Clustern wird durch die nächsten
Nachbarn bestimmt
– Gefahr der 'Schlangenbildung' mit sehr unähnlichen
Objekten an beiden Enden
• Complete-Linkage Methode
– Ähnlichkeit zwischen Clustern wird durch die entferntesten
– Es entstehen 'kompakte' (homogene) Cluster
• Average Linkage Methode
– Ähnlichkeit zwischen Clustern wird durch die mittlere
Distanz aller Objektpaare beider Cluster bestimmt
– Alle entstehenden Cluster haben ähnlicher Homogenität
Hierarchische Gruppierungsprozeduren: weitere Methoden (3)
• Zentroid Methode
– Ähnlichkeit der Cluster wird durch Distanz der Zentroide
bestimmt
– Robust gegen Ausreißer
– Manchmal ergeben sich schwer interpretierbare Cluster-
Lösungen
• Ward Methode
– Es werden die Cluster kombiniert, die zur geringsten
Erhöhung der Intra-Cluster Varianz (𝑆𝑆𝑤𝑖𝑡ℎ𝑖𝑛) führt
– Kleine Cluster werden bevorzugt kombiniert
• Homogene Clustergrößen
• Kleine Gruppen der Population werden nicht durch
eigene Cluster repräsentiert
– Anfällig gegen Ausreißer
Non-Hierarchische Gruppierungsprozeduren (3)
• Zunächst wird die Anzahl der Cluster festgelegt
• Anschließend werden für alle Cluster jeweils für alle Variablen Anfangswerte (seeds) festgelegt
– Festlegung durch den Anwender (theoretische Erwartungen)
– Generierung aus der Stichprobe
—>Für 𝐾 Cluster werden die Werte von 𝐾 zufällig ausgewählten Probanden als Startwerte verwendet
– Bestimmung aus der Lösung einer hierarchischen Clusteranalyse
—>Zentroide der gefundenen Cluster
• Die Anfangswerte haben Einfluss auf die endgültige Lösung
—>ggf. mit mehrmals mit unterschiedlichen Startwerten berechnen
• Dann werden alle Fälle anhand der seed-Werte den Clustern zugeordnet
• Sequential Threshold Methode
– Alle Elemente, deren Distanz zu den seed-Werten eines Clusters unterhalb einer festgelegten Schwelle liegt (z.B. 𝐷 < 1), werden diesem Cluster zugeordnet
– Das Clusterzentrum wird aus den nun zugeordneten Fällen neu berechnet
– Die Schwelle für die Zuordnung wird so lange schrittweise erhöht, bis alle Fälle einem der Cluster zugeordnet wurden
• Parallel Threshold Methode
– Alle Elemente werden in einem Schritt dem Cluster zugeordnet, zu dessen Startwerten sie die geringste Distanz aufweisen
• Es folgt eine Optimierungsphase
• Da sich die Clusterzentren durch die Zuordnung verschieben, ist für manche Fälle die Distanz zum eigenen Clusterzentrum größer als zu einem anderen Clusterzentrum
• In einer iterativen Prozedur werden so lange Fälle in das passendere Cluster verschoben, bis keine weiteren Optimierungen möglich sind
• Durch die Optimierung steigt die Cluster-Homogenität
Anzahl der Cluster (2)
• Die gewünschte Zahl der Cluster muss beim non-hierarchischen Vorgehen a priori festgelegt werden
• Bei einer hierarchischen Clusteranalyse kann die Festlegung posthoc erfolgen
• Dazu kann ein Dendrogramm verwendet werden
—>Anstieg der Heterogenität innerhalb der Cluster
Die Clusteranalyse in R ()
• Forschungsfrage: Welche Gruppen (Typen) von Psychologiestudierenden können anhand der Studieninteressen gebildet werden?
• Daten: Studieninteressen (Ratings: 0 bis 6) von 𝑁 = 78 Masterstudierenden der Psychologie für 14 Inhaltsbereiche der Psychologie
• Hierarchische Cluster cluster::agnes(…)
• Non-hierarchische Cluster cluster::pam(…)
Zusammenfassung (5)
• Ziel: Gruppierung von Objekten anhand ihrer Merkmale
• Einschränkungen in der Interpretation: Clusteranalyse ist ein deskriptives Verfahren; es fehlt eine inferenzstatistische Absicherung
• Wichtige Entscheidungen zur Clusterbildung
– Maß für die Ähnlichkeit (Distanz, Korrelation, Assoziation)
– Standardisierung der Variablen
– Gruppierungsprozeduren (hierarchisch vs. non-hierarchisch)
– Anzahl der Cluster
• Hierarchische Prozeduren
– Oft ist complete linkage eine gute Methode —>homogene Cluster
– Die Clusterzahl kann mit einem Dendrogramm festgelegt werden
• Non-Hierarchische Prozeduren
– Die Clusterzahl und Startwerte müssen a priori festgelegt werden
Last changed2 years ago