Wann sind Entscheidungsbäume geeignet?
Allgemein:
Bei kategorischen Attribut-Wert-Paaren
Für diskrete Ausgaben (Klassen)
Keine Annahmen über Verteilungen (nicht-parametrisch)
Interpretierbar
Geringer Rechenaufwand
Lernen von nicht-linearen Problemen möglich
Keine Normalisierung der Daten nötig, vielfältige Formate
Mit Erweiterungen:
Für Regression nutzbar (Regression Tree)
Verarbeitung von verrauschten Daten
Umgang mit kontinuierlichen Attributen
Fehlende Daten handhabba
"Was ist Entropie im Kontext von Entscheidungsbäumen?"
"Was bedeutet hohe und niedrige Entropie in einem Entscheidungsbaum?"
Hohe Entropie: Fast gleichverteilte Wahrscheinlichkeitsdichte, Vorhersage schwierig, repräsentiert durch 1 Bit
Niedrige Entropie: Hohe Wahrscheinlichkeit für eine Klasse, Vorhersage leicht, kann 0 Bits erreichen
"Ziel der Entropiereduktion in Entscheidungsbäumen"
Ziel: Daten schnell nach Klassen sortieren durch Auswahl geeigneter Attribute
Strategie: Entropie so schnell wie möglich reduzieren, um Daten zu klassifizieren
"Was ist Informationsgewinn (Information Gain) und wie wird er berechnet?"
"Wie wird die Attributauswahl durch Informationsgewinn gesteuert?"
Schritte zur Berechnung:
Entropie des Elternknotens berechnen.
Entropie der Kindknoten berechnen.
Informationsgewinn für alle Attribute berechnen.
Attribut mit dem höchsten Informationsgewinn wählen.
Beispiel:
Informationsgewinn für Feuchtigkeit ist höher als für Wind.
Feuchtigkeitsattribut minimiert Entropie am besten, wird zur Aufteilung genutzt.
"Was ist Overfitting und wie wird es formal definiert?"
"Was ist der Bias-Variance Tradeoff?"
Am Minimum: Bei einer gewissen Tiefe des Baums haben wir ein Optimum.
"Was illustrieren hoher Bias und niedrige Varianz sowie niedriger Bias und hohe Varianz?"
Hoher Bias, niedrige Varianz (meistens Underfitting):
Das Modell ist zu einfach und kann die Daten nicht gut abbilden.
Gerade Linie, die nicht flexibel genug ist, um die Trainingsdaten anzupassen.
Geringe Varianz, da das Modell nicht stark von den Trainingsdaten beeinflusst wird.
Niedriger Bias, hohe Varianz (meistens Overfitting):
Das Modell ist zu komplex und passt sich den Trainingsdaten zu genau an.
Kurvige Linie, die versucht, jeden Datenpunkt im Trainingset einzufangen.
Hohe Varianz, da das Modell zu sehr auf die zufälligen Schwankungen im Trainingsset reagiert und schlecht auf neue Daten generalisier
"Strategien zur Reduzierung von Overfitting im ID3-Algorithmus
Maximale Tiefe: Begrenzung der Baumtiefe, um Overfitting zu vermeiden.
Mindestanzahl an Beispielen: Verhindert das Teilen eines Knotens bei zu wenigen Trainingsbeispielen.
Frühzeitiger Stopp: Wachstum des Baumes stoppen, wenn der Validierungsfehler steigt.
Beschneiden (Pruning): Nicht-kritische Teile des Baumes entfernen, um die Komplexität zu verringern.
Mehrere Bäume: Verwendung von Bagging und Random Forests, um Overfitting zu reduzieren.
"Early Stopping und Pruning zur Vermeidung von Overfitting"
Early Stopping:
Intuition: Baumwachstum vor Overfitting stoppen.
Implementierung: Stoppen, wenn der Validierungsfehler nicht um einen bestimmten Wert ϵϵ abnimmt.
Pro: Einfach umzusetzen.
Kontra: Kann zu kurzfristig sein, da der Validierungsfehler eventuell im nächsten Schritt wieder sinkt.
Pruning:
Intuition: Vereinfachung des Baumes nach dem Lernen.
Implementierung: Entfernen von Knoten und Ersetzen durch Blattknoten der häufigsten Klasse.
Von unten nach oben: Beginnend bei den Blättern, bis der Validierungsfehler steigt.
Was ist Ensemble Learning und warum wird es verwendet?
Ensemble Learning ist ein Ansatz im maschinellen Lernen, bei dem mehrere Modelle (wie Entscheidungsbäume, SVMs und Naive Bayes) trainiert und zu einem stärkeren Gesamtmodell kombiniert werden. Es wird verwendet, um die Vorhersagequalität zu verbessern und die Robustheit gegenüber Overfitting zu erhöhen.
Welche Vor- und Nachteile hat Ensemble Learning?
Antwort: Vorteile:
Bessere Vorhersagequalität
Bessere Robustheit gegenüber Overfitting
Nachteile:
Zeitaufwändig und rechnerisch teuer
Verlust der Interpretierbarkeit
Vorhersagen aus allen Modellen können gleich behandelt oder unterschiedlich gewichtet werden, zum Beispiel durch Mehrheitsentscheidung für Klassifikation oder Durchschnittsbildung für Regression.
Was ist Bagging und wie trägt es zum Ensemble Learning bei?
Bagging, oder Bootstrap Aggregating, ist ein Ensemble-Lernverfahren, bei dem mehrere Datensätze durch Bootstrap (mit Zurücklegen) erstellt werden, separate Modelle auf diesen Datensätzen trainiert und dann aggregiert werden, um die Varianz ohne Erhöhung des Bias zu reduzieren. Es reduziert die Varianz und kann daher mit Modellen mit hoher Varianz verwendet werden, ist parallelisierbar, bietet jedoch Herausforderungen wie erhöhte Berechnungskosten, kann nicht vollständige Varianzreduktion garantieren, da die bootstrappten Proben nicht unabhängig und identisch verteilt sind, und es verliert an Interpretierbarkeit.
Was sind Random Forests und wie unterscheiden sie sich von klassischem Bagging?
Random Forests sind eine Modifikation von Bagging, bei der für jede Teilung in den Entscheidungsbäumen eine zufällige Teilmenge der Attribute ausgewählt wird. Dies reduziert die Korrelation zwischen den Bäumen und führt zu einer allgemeinen Verbesserung der Modellergebnisse im Vergleich zu einzelnen Entscheidungsbäumen. Random Forests kombinieren viele Entscheidungsbäume, die auf verschiedenen Daten-Subsets mit Layback-Sampling trainiert wurden, und verwenden für jeden Split im Baum eine zufällige Attributauswahl, um die Varianz zu reduzieren, ohne den Bias zu erhöhen.
Last changeda year ago