Ziele einer Clusteranalyse
Ablauf der Clusteranalyse
Bestimmung der Ähnlichkeiten
-> Beispiel Währungsunion in der Vorlesung
Abstandsbemessung
Tschebyscheff: Beispiel Datenpunkte X. (1|3) und Y. (4|1)
Max( |1-4|,|3-1|) = 3
Ähnlichkeitsmessung
Kosinus -> Beschreibt den Winkel zwischen zwei Vektoren -> Je kleiner dieser ist, desto ähnlicher sind sich die Vektoren
Richtige Kosinus Version:
Auswahl des Fusionierungsalgorithmus
Wenn Clustermenge vorgegeben wird, dann kann man den Vorgang der Bildung an anderen Stellen verändern
Abstandsmessung beim Fusionsalgorithmus
Achtung: Bei Single und Complete Linkage werden ebenfalls alle Abstände gemessen, wei bei Average Linkage, aber es wird halt zur Bemessung nur ein Abstand verwendet, entweder der Größe oder kleinste
Ward-Verfahren
Charakterisierung der Cluster
Partitionierendes Verfahren: K-Means Clustering
=> Zufällig werden Punkte nicht gewählt, dabei gibt es andere Berechnungen oder man nimmt einfach Werte aus den bereits vorhandenen
=> Funktioniert gut bei runden und kugelförmigen Cluster => für eher lineare gibt es andere Verfahren
Terminierungskriterien K-Means-Clustering
hierarchisches vs. partitionierendes Verfahren
Auswahl der Clusteranzahl bei Hierarchischen Algorithmen
Oder als zweites Kriterium:
Weitere Möglichkeit mit dem Silouettenplot:
!Normalerweise wird die mittlere Diszanz innerhalb des Clusters zum Mittelpunkt des Clusters berechnet, so wird jetzt aber die Distanz von einem einzelnen Punkt gesehen
Gibt es negative Punkte, dann werden diese eigentlich einer anderen Gruppe zugeordnet
Herausforderungen bei K-Means
KNN
Spectral Clustering
Zuletzt geändertvor 2 Tagen