Was ist ein Centroid
Mittelpunkt eines Clusters.
Beispiel: Punkte (2,4), (4,6), (6,8) → Centroid = ( (2+4+6)/3 , (4+6+8)/3 ) = (4,6)
Was ist Variability
Wie weit die Punkte vom Centroid entfernt sind. Gemessen oft mit der Summe der quadrierten Abstände:
(SSE = Sum of Squared Errors). Ziel von K-means: diese Summe minimal machen.
Was bedeutet SSE
sum of squared errors
Was bedeutet Dissimilarity
Abstand zwischen zwei Objekten
Wie sind die 5 Schritte
K wählen (Anzahl Cluster).
Initialisierung: wähle zufällig K Centroids.
Zuweisungsschritt: ordne jeden Punkt dem Centroid zu, zu dem er die kleinste Distanz hat.
Update-Schritt: berechne für jedes Cluster den neuen Centroid (Mittelwert).
Wiederholen, bis die Centroids sich kaum noch ändern oder max. Iterationen erreicht sind.
Ziel: Minimierung der Variability (kompakte, trennbare Cluster).
Beispiel Code:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(X) # X = Datenmatrix
labels = kmeans.labels_ # Cluster-Zugehörigkeit
centroids = kmeans.cluster_centers_
Last changed18 days ago