Aufbau eines Entscheidungsbaumverfahren
Grund für den Entscheidungsbaum und Vor, sowie Nachteile
=> Verminderung der Schwächen durch Ensembles
Probleme des Entscheidungsbaumverfahren
Attributauswahl
Metrische Attribute
Entwurfsfragen eines Entscheidungsbaums
Split-Kriterium
Unreinheit
Die gemachten Fehler
Unreinheit eines Baumes
=> Wenn jede Klasse keine gute Zuordnung haben, dann ist eine zufällige Zuordnung sinnvoller
=> Fehlklassifizierung wird eher seltener verwendet, weil es weniger Informationen beinhaltet
Vergleiche der Distanzfunktionen
Wichtig: Es wird nicht die Version ausgerechnet, sondern die Distanzfunktion mit Hilfe der Version
Formel: Unreinheit des Elternknotens - Unreinheit des linken Knotens - Unreinheit des rechten Knotens
Stop-Kriterium
Pruning
=> Basierend auf Statistik von Over und Underfitting, kann entschieden werden, wie viele Nodes genutzt werden sollten
Pre-Pruning vs. Post-Pruning
Schritte ID3 Algorithmus
Im Teilbaum muss nochmal die Entropie des Zielattributs für den Teilbaum berechnet werden -> Wirklich alle Schritte werden rekursiv wiederholt
Informationsgehalt
=> Ist die gleiche Formel, wie für die Berechnung der Entropie bei Klassenunreinheit, es lässt sich auch der GINI oder die Fehlklassifizierung verwenden
=> Wird deswegen auch nicht für die Entscheidung zwischen den Klassen genutzt, sondern beispielsweise als Stoppkriterium, um die Bestimmung des Baumes, bei einer kleinen Änderung des Informationsgehalt zu ändern
Was sind Ensembles?
Ensemble-Verfahren: Hard Voting
Andere Möglichkeiten
Einstimmigkeit
Gewichtung
Ensembles-Verfahren: Soft-Voting
Bsp.:
M1: ja 90%, da > 50 %
M2: nein 45%, da < 50 %
M3: nein 45%, da < 50 %
Hardvoting würde nein klassifizieren
Softvoting: (0,9+0,45+0,45)/3=0,6
Ergebnis wäre ja, da es mehr als 50% WSK hat
Soft vs Hard Voting
Darstellung des gesamten Fehlers
Beispiel: Zeitaufwandschätzung von verschiedenen Personen
Varianz: viele Personen schätzen andere Zeiten
Verzerrungen: bestimmte Personen schätzen immer zu viel oder zu wenig
Irreduzibler Fehler kann nicht bestimmt werden, sodass wir den gesamten Fehler nicht ausrechnen können. Deswegen wird nur geschätzt.
=> Modelle sind Vereinfachungen der Wirklichkeit und damit falsch -> aber sie sind oft nützlich
Nutzung der Bernoulli-Kette zur Verbesserung der Vorhersage
Wenn jedes Modell besser als 50 % ist, dann verbessere ich die Vorhersagekraft deutlich
Bagging
Vorteile und Nachteile von Bootstrap Aggregation (Bagging)
Schwierige Beispiele sind Datensätze, die nicht so leicht zu trennen und damit schwer richtig zugeordnet werden können.
Bagging + Feature-Randomisierung, sowie Vor- und Nachteile
Feature Importance
Gibt an, wie wichtig einzelne Merkmale (Features) für die Vorhersage eines Modells sind. Beim Random Forest wird standardmäßig die Gini Importance genutzt: Sie misst, wie stark ein Feature zur Reduktion der Unreinheit (Impurity) beim Splitten beiträgt.
🔹 Berechnung: Je größer die durchschnittliche Verbesserung der Gini-Impurity durch ein Feature über alle Bäume, desto wichtiger ist es.
Boosting
Boosting vs. Bagging
AdaBoost
Welchen Einfluss haben die Parameter max_depth und n_estimator auf den AdaBoost Algorithmus?
Sie verbessern die Anpassung des Modells an die Trainingsdaten, man darf sie aber auch nicht zu hocheinstellen, damit kein Overfitting entsteht
max_depth = Tiefe des Baumes
n_estimator = Anzahl der Bäume
Gradient Boosting
Werte werden immer in die Richtung des negativen Gradient der Verlustfunktion korregiert, um den Fehler zu minimieren
Optimierung von Modellen
Zuletzt geändertvor 2 Stunden