Was ist das Lernziel dieser Vorlesung?
Was sind die 7 Schritte des K-Means?
Funktionsweise:
1. Festlegen der gewünschten Clusteranzahl K
2. 3 zufällige Datenpunkte auswählen
3. Abstand Punkt 1 zu initialen Clustern (von Schritt 2) bestimmen
4. Punkt 1 zu initialem Cluster mit geringstem Abstand zuweisen
5. Schritt 3 und 4 für alle weiteren Punkte wiederholen —> jedem Punkt ist ein initiales Cluster Xi zugewiesen
6. Mittelwert der neuen Cluster berechnen
Ziel: Minimierung der Standardabweichung
7. Neue Startpunkte wählen, Schritte 3-6 wiederholen bis gewünschte SD erreicht
Wie ist es auf mehrdimensonale Problemstellungen übertragbar?
1. Festlegen der Clusteranzahl
2. Initiale Zuteilung nach kürzestem Abstand zu initialem Cluster
3. Mittelwertbildung
4. 1. Bis 3. solange wiederholen bis gewünschtes Ergebnis erreicht
Was muss beim Sonderfall (k nicht bekannt) getan werden?
· Durchführung mit unterschiedlichem K und jeweils die SD berechnen
· Optimale Kategorienanzahl an „Ellbogenpunkt“
· Info: wenn K=Anzahl Punkte, dann SD=0
Wann ist k-means anwendbar und welche Vor - und Nachteile gibt es?
· Nur Zahlen sind auswertbar, kategorische Eigenschaften müssen übersetzt werden
· Jeder Datenpunkt muss gleiche Eigenschaft haben & Datenbank muss vollständig sein
· Abweichung einzelner Datenpunkte zu optimalem Cluster darf nicht zu groß sein, sonst verfälschtes Ergebnis
Pro
Con
Einfache Implementierung
K-Bestimmung aufwendig
Geringe Rechenleistung notwendig —> auch für große Datenmengen geeignet
Initiale Datenpunkte haben großen Einfluss auf Ergebnisse
Einfach auf neue Anwendungen zu übertragen
Problem bei stark unterschiedlichen Kategoriegrößen
Welche Erweiterungen des K-Means gibt es?
K-Median:
· Bei Neuberechnung des Clusterpunktes wird Median statt Mittelwert verwendet
· Vorteil: Verringerung des Abstandes zwischen Clusterpunkt und Werten
K-Means++:
· Verfahren:
1. Wähle beliebigen Datenpunkt
2. Berechne Abstand D(x) aller anderen Punkte x zu gewählten Punkt
3. Wähle neuen Punkt mit gewichteter Wahrscheinlichkeit, wobei die Wahrscheinlichkeit jedes Punkt x proportional zu D(x)2 ist
4. Schritt 2 und 3 wiederholen bis k-Startpunkte gefunden sind
5. Normalen k-Menas Algorithmus starten
· Vorteil: durch intelligentere Initialisierung der Zentroide wird Qualität des Clustering verbessert
· Nachteil: Erhöhung der Rechendauer durch optimalen Startpunkt
Neues Thema: DBSCAN
Nenen des Ziel von DBSCAN
= Density-Based Spatial Clustering of Applications with Noise
· Abtrennung von Gruppen mit hoher Dichte an Datenpunkte von Gebieten mit niedriger Dichte
· Anzahl Cluster muss nicht bekannt sein
· kann Rauschpunkte identifizieren und beim Clustering ignorieren
· Cluster können beliebige Form haben
Welche Parameter gibt es beim DBSCAN?
Notation:
Hyperparameter:
ε: Distanz/Radius eines Punktes
n: Mindestanzahl von Punkten, die zusammen geclustert werden müssen, damit eine Region als dicht gilt
Datenpunkte
Kernpunkte: haben innerhalb der Distanz ε mindestens n andere Datenpunkte (inklusive Punkt selbst)
Randpunkte: haben innerhalb Distanz ε mindestens einen Kernpunkt
Rauschpunkte: haben innerhalb Distanz ε keinen Kernpunkt
Gebe die 6 Schritte der Funktionsweise von DBSCAN an.
Wie werden die Parameter geschätzt?
· n
o Faustregel: n = 2 * D (D = Anzahl der Dimensionen im Datensatz)
o Große Werte: sinnvoll für Datensätze mit Rauschen —> mehr signifikante Cluster
o Kleine Werte: n≥3, da bei =1 jeder Punkt für sich bereits Cluster ist
· ε
o Verwendung des k-Abstandsdiagrams: Abstand von k=n-1 nächsten Nachbarn wird vom größten zum kleinsten Wert geordnet -> gute Werte für ε bei Ellbogen-Punkt —> Idee: k-Distanz der Kern- und Grenzpunkte liegt innerhalb eines bestimmten Bereichs, Rauschpunkte haben eine viel größere k-Distanz
o Eher keine Werte, aber:
Zu klein: großer Teil der Daten wird nicht geclustert (als Rauschen geordnet) & viele kleine Cluster können entstehen (Granulation)
Zu groß: Cluster verschmelzen, Rauschpunkte werden Cluster zugeordnet
Nenne den Unterschied bei K-Means und DBSCAN in folgenden Punkten:
Ausreißer
Topologie
Anomalien
Effizienz
Hyperparameter
Homogenität
Neues Thema: Bagging
Erkläre das Ziel, die Idee und die Funktionsweise von Bagging. Erkläre auch was Bias und Varianz bedeuten.
= Ensemble-Methode, um Varianz einer Mehrzahl von Modellen zu reduzieren
Idee: Verwendung mehrerer Basislerner, die mit Teilmengen des Trainingssets trainiert werden, Modelle sind parallel trainiert
Funktionsweise: Nutzung von Bootstrap Sampling und Training mehrere Modelle, wobei finale Modellentscheidung (Bagging) der Mittelwert aller Einzelentscheidungen (Aggregating) der Modelle ist
—> einzelne Zeilen werden aus dem Trainingsdatensatz zufällig gewählt, sodass die Größe des neuen
Datensatzes der des ursprünglichen Datensatzes entspricht. Einzelne Trainingstupel (Zeilen) können daher doppelt / gar nicht vorkommen
Neues Thema: Boosting
Erkläre die Idee und Funktionsweise von Boosting
Idee: Gruppe schwacher Lerner zu einem starken Lerner kombiniert, um Trainingsfehler zu minimieren, Modelle werden sequentiell trainiert, Versuch des Ausgleichs von Schwächen des Vorgängers
1. Basisalgorithmus liest Daten und weist jeder Beobachtungsprobe das gleiche Gewicht zu
2. Falsche Vorhersagen der Basismodell werden identifiziert. In nächster Iteration wird diesen eine höhere Gewichtung zugewiesen —> dadurch konzentriert sich Algorithmus auf die falschen werde
3. Wiederholen
Welche Algorithmen gibt es beim Boosting und was sind die Vor - und Nachteile Boosting?
· AdaBoost:
o Durch Gewichtungsvektor wird Verteilung erzeugt: es ist wahrscheinlicher, dass die Stichproben mit höherem Gewicht zu falsch klassifizierten Outputs zugeordnet wird
o Jedem Basis-Lerner in der Sequenz wird ein Gewicht zugewiesen: je höher die Leistung, desto höher das Gewicht
o Vorhersage jedes Modells wird bewertet (Klassifikation) oder gemittelt (Regression)
· GradientBoosting:
o Kein Gewichtungsvektor: optimaler Gradient einer Verlustfunktion wird optimiert
o Minimierung der Residuen auf sequenzielle Weise
o Jeder zur Sequenz hinzugefügte Basis-Lerner reduziert die von vorherigen Basis-Lerner ermittelter Residuen
o Um schließlich eine Vorhersage zu treffen, wird jeder der Basis-Lerner mit den Testdaten gefüttert, deren Ausgaben parametrisiert und anschließend addiert werden, um die endgültige Vorhersage zu erstellen
Pro Boosting
Con Boosting
Einfache Implementierung: mehrere Hyperparameter ermöglichen angepasste Modelle, keine Datenvorverarbeitung erforderlich
Overfitting
Reduzierung von Bias
Intensive Berechnung:sequenzielles Training ist schwer zu skalieren; jeder Schätzer baut auf Vorgängern auf (Parallelisierungsproblem)
Recheneffizienz: Da während des Trainings nur Merkmale auswählt werden, die ihre Vorhersagekraft erhöhen, kann dies dazu beitragen, die Dimensionalität zu reduzieren & die Recheneffizienz zu erhöhen
Vergleiche Bagging und Boosting in folgenden Punkten:
Input typ
Ziel
Gewichtung
Einfluss untereinander
Datenauswahl
Training
Beispiel
Praktisches Beispie:
Klausurfrage: Was ist ein Predictive Maintenance System und wie wird es umgesetzt?
Predictive Maintenance nutzt Datenanalyse zur Vorhersage und Verhinderung von Geräteausfällen.
Vorgehensweise: Erfassung von Sensordaten, Datenfüllung, Normalisierung, Merkmalsreduktion durch PCA.
Ziel: Vorbeugende Wartung zur Vermeidung ungeplanter Stillstände.
Methoden: Ensemble-Modelle wie Bagging und Boosting zur Behandlung von Klassifizierungsproblemen mit ungleichmäßiger Klassenverteilung.
Zuletzt geändertvor 9 Monaten