Was sind Cluster? Wie werden sie gebildet?
Cluster sind Gruppen ähnlicher Objekte.
Um Cluster in gegebenen Daten zu identifizieren, ist zwingend ein Ähnlichkeitsmaß definiert werden. Häufig wird die Distanz zur Quantifizierung der Ähnlichkeit verwendet. In Abhängigkeit der Anwendung und Daten können aber auch andere Abstandsmaße sinnvoll sein.
Wichtig ist, dass die verwendeten Abstandsfunktionen auch im -Dimensionalen definiert sind.
Erläutere den k-means Algorithmus
Der Algorithmus dient der Identifikation von Clustern in einer gegebenen Datenmenge. Er basiert auf der Arbeit von Lloyd (1982)
—> neue Zentroide berechnen indem Mittelwerte gebildet werden
Was ist das Business Understanding?
—> k ergibt sich aus dem Business Understanding
Was geschieht beim Data Understanding?
1. Daten importieren
2. Daten analysieren
Bsp. Beobachtungen
Der Datensatz hat 4 Dimensionen und in allen Dimensionen quantitative Werte enthalten
Die Dimensionen max und mean enthalten kontinuierliche, die Dimensionen count und rating diskrete Werte.
Die Werte der Unterschiedlichen Dimensionen sind sehr unterschiedliche skaliert. Eine Normierung ist notwendig
Wie verläuft die Wahl des k? Was ist WCSS?
Auch für eine falsch gewählte Zahl von Clustern liefert k-means ein Ergebnis. Daher ist die Wahl des richtigen k wichtig.
Zur Identifikation der richtigen Anzahl von Clustern sollten unterschiedliche Werte für k ausprobiert werden. Die beste Lösung legt das zu wählende k fest.
Es wird demnach lediglich eine Bewertungsmethode für die Ergebnisse des Clusterings benötigt, mit der unterschiedliche Ergebnisse in ihrer Qualität verglichen werden können. Hier sind unterschiedliche Metriken und Vorgehen etabliert.
Eine häufig verwendete Heuristik ist die WCSS (within cluster sum of squares). Es wird innerhalb jedes Clusters für jeden Punkt der Abstand zum Zentroid berechnet. Diese Abstände werden dann quadriert und summiert. Mit zunehmender Clusterzahl wird der WCSS kleiner.
Was sind Nachteile von k-means?
Lokale Maxima
Ergebnis abhängig von den Startwerten
k muss apriori bekannt sein
Unüberwachtes Verfahren
Kein Modellwissen anwendbar
Auch Rauschen wird einem Cluster zugeordnet
Konvexe Cluster
Last changeda year ago