Was ist und was kann das „Random Forest“ Modell?
Wodurch entstand das „Random Forest“?
Was existiert für Entscheidungsbäume und welches ist am bekanntesten??
—> CART („Classification and Regression Trees“) Algorithmus
Wofür steht hier jeweils y𝑖?
Wie heißen die Punkte? Was bedeuten die Farben? Wie werden die Vorhersagen kalkulliert? Was bedeuten die nummer?
Wie entsteht die Struktur eines Entscheidungsbaumes, basierend auf einem vorliegenden Datensatz (mit bekannten Werten für alle Variablen)?
Wie heißt dieses Vorgehen?
Rekursiver Split – Algorithmus
1. División repetida del conjunto de datos utilizando variables predictivas individuales hasta que se alcanza un criterio de interrupción específico
2. La variable de división y el punto de división de cada partición del conjunto de datos se determinan simultáneamente utilizando un criterio de optimalidad
—> Para cada división posible, se comparan entre sí todas las combinaciones de la variable de división y el punto de división.
—> Objetivo (criterio de optimalidad): los nodos deben ser lo más puros posible, es decir, las observaciones deben tener valores lo más similares posible en la variable criterio.
—> Determinación de la pureza de un nodo mediante una «medida de impureza» (medida diferente según se trate de regresión o clasificación).
MMCE als Impurity–Maß bei Klassifikation
Gleichung
Wofür steht ŷE?
Was entspricht die Unreinheit bei Verwendung des MMCEs?
Welche Impurity Maße werden ansonsten in der Praxis angewendet und wieso?
Berechne die Impurity der markierten Knoten mit dem MMCE
MSE als Impurity–Maß bei Regression
Was entspricht die Unreinheit bei Verwendung des MSEs?
Wie wird bei der Schätzung des Baums jeweils ein optimaler Split bestimmt?
Erkläre die Parameter
Wieso muss man Abbruchkriterien bestimmen?
Welche mögliche Abbruchkriterien kann man bestimmen?
• En principio, el algoritmo de división puede continuar hasta que en cada nodo final solo haya observaciones con el mismo valor de criterio o solo una única observación.
• En ambos casos, todas las observaciones con las que se entrenó el modelo se predicen perfectamente. Sin embargo, la predicción con nuevos datos suele ser muy mala (sobreajuste). Por lo tanto, para lograr una mejor calidad de predicción con nuevos datos, es necesario interrumpir el algoritmo prematuramente.
—> Reducir la «profundidad» del árbol
• Posibles criterios de interrupción (también combinables):
• Número mínimo de observaciones en el nodo padre
• Número mínimo de observaciones en el nodo hijo
• Reducción mínima de impureza
• Número máximo de niveles en el árbol de decisión
Wie würde dies im Entscheidungsbaum aussehen?
(Titanic mit nur 2 Prädiktoren)
Wo findet der Split bei numerischen Prädiktorvariablen?
Und bei diskrete Prädiktoren?
Diskrete Prädiktoren, die nur einzelne Werte wie 1, 2, 3 usw. annehmen können.
Wenn wir uns den Split ansehen, können wir den häufigsten Kriteriumswert nicht erkennen. In diesem Diagramm war die größte Split-Reduktion 2,5.
Was kann man hier sehen?
Welche Rolle spielen die Ausreißerwerten? Wieso?
Nenne 6 Vorteile
Last changed6 days ago