Entscheidungsbäme

Buffl

Grundlagen des maschinellen Lernens

von Hendrik S.

Aufbau eines Entscheidungsbaumverfahren

Grund für den Entscheidungsbaum und Vor, sowie Nachteile

=> Verminderung der Schwächen durch Ensembles

Probleme des Entscheidungsbaumverfahren

Attributauswahl

Metrische Attribute

Entwurfsfragen eines Entscheidungsbaums

Split-Kriterium

Unreinheit

Die gemachten Fehler

Unreinheit eines Baumes

=> Wenn jede Klasse keine gute Zuordnung haben, dann ist eine zufällige Zuordnung sinnvoller

=> Fehlklassifizierung wird eher seltener verwendet, weil es weniger Informationen beinhaltet

Vergleiche der Distanzfunktionen

Wichtig: Es wird nicht die Version ausgerechnet, sondern die Distanzfunktion mit Hilfe der Version

Formel: Unreinheit des Elternknotens - Unreinheit des linken Knotens - Unreinheit des rechten Knotens

Stop-Kriterium

Pruning

=> Basierend auf Statistik von Over und Underfitting, kann entschieden werden, wie viele Nodes genutzt werden sollten

Pre-Pruning vs. Post-Pruning

Schritte ID3 Algorithmus

Im Teilbaum muss nochmal die Entropie des Zielattributs für den Teilbaum berechnet werden -> Wirklich alle Schritte werden rekursiv wiederholt

Informationsgehalt

=> Ist die gleiche Formel, wie für die Berechnung der Entropie bei Klassenunreinheit, es lässt sich auch der GINI oder die Fehlklassifizierung verwenden

=> Wird deswegen auch nicht für die Entscheidung zwischen den Klassen genutzt, sondern beispielsweise als Stoppkriterium, um die Bestimmung des Baumes, bei einer kleinen Änderung des Informationsgehalt zu ändern

Was sind Ensembles?

Ensemble-Verfahren: Hard Voting

Andere Möglichkeiten

Einstimmigkeit
Gewichtung

Ensembles-Verfahren: Soft-Voting

Bsp.:

M1: ja 90%, da > 50 %

M2: nein 45%, da < 50 %

M3: nein 45%, da < 50 %

Hardvoting würde nein klassifizieren

Softvoting: (0,9+0,45+0,45)/3=0,6

Ergebnis wäre ja, da es mehr als 50% WSK hat

Soft vs Hard Voting

Darstellung des gesamten Fehlers

Beispiel: Zeitaufwandschätzung von verschiedenen Personen

Varianz: viele Personen schätzen andere Zeiten

Verzerrungen: bestimmte Personen schätzen immer zu viel oder zu wenig

Irreduzibler Fehler kann nicht bestimmt werden, sodass wir den gesamten Fehler nicht ausrechnen können. Deswegen wird nur geschätzt.

=> Modelle sind Vereinfachungen der Wirklichkeit und damit falsch -> aber sie sind oft nützlich

Nutzung der Bernoulli-Kette zur Verbesserung der Vorhersage

Wenn jedes Modell besser als 50 % ist, dann verbessere ich die Vorhersagekraft deutlich

Bagging

Vorteile und Nachteile von Bootstrap Aggregation (Bagging)

Schwierige Beispiele sind Datensätze, die nicht so leicht zu trennen und damit schwer richtig zugeordnet werden können.

Bagging + Feature-Randomisierung, sowie Vor- und Nachteile

Feature Importance

Gibt an, wie wichtig einzelne Merkmale (Features) für die Vorhersage eines Modells sind. Beim Random Forest wird standardmäßig die Gini Importance genutzt: Sie misst, wie stark ein Feature zur Reduktion der Unreinheit (Impurity) beim Splitten beiträgt.

🔹 Berechnung: Je größer die durchschnittliche Verbesserung der Gini-Impurity durch ein Feature über alle Bäume, desto wichtiger ist es.

Boosting

Boosting vs. Bagging

AdaBoost

Idee: ich trainiere einen baum, belege die gewichte, dann nach diesem werden die gewichte verändert und ein neuer baum trainiert. Später werden Entscheidungen basierend auf den Bäumen und den Gewichtungen getroffen

Welchen Einfluss haben die Parameter max_depth und n_estimator auf den AdaBoost Algorithmus?

Sie verbessern die Anpassung des Modells an die Trainingsdaten, man darf sie aber auch nicht zu hocheinstellen, damit kein Overfitting entsteht

max_depth = Tiefe des Baumes

n_estimator = Anzahl der Bäume

Gradient Boosting