5 Vorteile von Entscheidungsbäume
Was berücksichtigt die Baumstruktur der Entscheidungsbäume?
Wie ist der Bias und die Varianz bei den Entscheidungsbäumen?
Was passiert mit der Baumstruktur bei neuen Stichproben aus der gleichen Population?
Was ist mit der Interpretation?
Was ist mit Instabilität bei den Entscheidungsbäumen gemeint?
Entscheidungsbäume sind instabil, weil sich die Baumstruktur und damit auch die Vorhersagen des Baums stark ändern können, bei einer neuen Stichprobe aus der gleichen Population.
Daraus wird abgeleitet, dass die intuitive Interpretierbarkeit fragwürdig wird.
Con nuevos Datos se puede cambiar la estructura del Arbol.
El cambio es mas fuerte mientras mas profundo es el arbol
Was wird hier Veranschaulicht?
Hier wird die Linearität bei Klassifikation veranschaulicht. Hier merkt man, dass eine multiple logistische Regression besser gewesen wäre
Dass lineare Zussamenhänge durch die Baumen APPROXIMIERT WERDEN KÖNNEN.
Nachteile von Entscheidungsbäumen?
Was kann man machen, um die Vorhersagegüte von Entscheidungsbäume zu verbessern?
Ziel:
Naive Idee:
Problem:
Lösung:
Objetivo: mejorar la calidad de predicción de los árboles de decisión mediante la reducción de la varianza (sin aumentar simultáneamente el sesgo).
• Idea ingenua:
• Extraer varias muestras de la población.
• Entrenar un árbol de decisión propio con cada muestra.
(Los árboles son ligeramente diferentes debido a la alta varianza).
• Para predecir una nueva observación, calcular la media
de las predicciones de los árboles/muestras individuales
• Con un gran número de árboles/muestras, las
predicciones combinadas deberían ser relativamente estables
• Problema: tomar varias muestras no es viable en la práctica
• Solución: utilice los datos disponibles para generar varias «pseudo-muestras» del mismo tamaño que el conjunto de datos original
Was ist Bootstrap? Idee?
Wie macht man Bootstrap?
Wie viele Bootstrapstichproben git es theoretisch?
Deshalb…
Modellschätzung:
Berechnung von Vorhersagen:
Gesamtvorhersage in der Regression ist…
Was bezeichnet man als Bagging?
Bagging hier?
Erkläre was jede b ist
Jede b ist eine Bootrtappedstichprobe. Das heißt, dass die Daten nicht so unterschiedlich sind, jedoch sind die Bäume total anders.
In jedem Baum, wird eine Vorhersage für jedenBeobachtung.
Mehrheitsentscheid bei Klassifikation, bei Regression Mittelwert der B einzelnen Vorhersagen
Wie verbessert man den Tree Bagging?
Wie macht man dies?
Idee dahinter?
Je ____ der Bias ___ ____, desto ….
Je ______ die Struktur ___ _____ _____, desto_____ kann die _____ durch_______
Mejora del tree bagging mediante la modificación de los árboles individuales:
• Utiliza árboles profundos sin criterios de interrupción prematura (o con un criterio de interrupción muy suave. X ej. en la regresión, mantener al menos 5 observaciones en cada nodo final o 1 en la clasificacion).
• No considere todos los factores predictivos para cada split, sino solo un subconjunto seleccionado al azar de todos los factores predictivos (en principio, todos los factores predictivos estarán disponibles de nuevo en cada nueva división).
Idea:
• Cuanto menor sea el bias de los árboles individuales, menor será también el bias de las predicciones combinadas (el bias permanece prácticamente igual). —> por lo tanto, árboles profundos.
• Cuanto más diferente sea la estructura de los árboles individuales (es decir, baja correlación entre las predicciones de los árboles individuales), mejor se puede reducir la varianza de la predicción del «bosque aleatorio» mediante el uso de un gran número de árboles.
(«El promedio es más eficaz con variables aleatorias no correlacionadas»).
Was bezeichnet man als Hyperparameter?
Die wichtigsten 3 Hyperparameter beim Random Forest sind: (3)
Standardwerte jeder??
Son opciones de configuración de una clase de modelos predictivos que deben fijarse en un valor determinado antes del entrenamiento (no pueden estimarse).
• Los hiperparámetros más importantes en Random Forest son:
1. Número de árboles (ntree)
—> Standard: ntree = 500 (cuantos más árboles, mejor)
2. Número de variables predictivas por split seleccionadas aleatoriamente (mtry).
—> Standard: (p = número de variables predictoras): Regresión: p/3 (redondear hacia abajo). Clasificación: raíz de 𝑝 (redondear hacia abajo)
3. Número mínimo de observaciones en el nodo final (min.node.size).
—> Standard: Regresión: 5, Clasificación: 1
Anzahl der Bäume ntree
Vor– und Nachteile
Ventajas:
• Todas las ventajas de los árboles de decisión individuales (excepto la buena interpretabilidad y la representación gráfica del modelo).
• La calidad de la predicción suele ser comparable a la de los procesos de aprendizaje automático mucho más complejos (uno de los mejores algoritmos «listos para usar»).
• En la mayoría de los casos, no es necesario un ajuste complicado de los hiperparámetros.
—> Bajo sesgo y baja varianza con la configuración estándar.
• En la mayoría de los casos, no es necesaria una preselección adicional de variables predictivas.
—> Uso eficaz de un gran número de variables predictivas.
Desventaja:
• El modelo es difícil de interpretar...
(En la práctica, es imposible realizar una interpretación gráfica de cientos de árboles de decisión profundos con estructuras en parte muy diferentes).
Dos aspectos importantes para la interpretación de un modelo predictivo:
Posible solucion respecto al punto 1:
Posible solucion respecto al punto 2:
• Dos aspectos importantes para la interpretación de un modelo predictivo:
1. ¿Qué variables predictivas tienen mayor influencia?
2. ¿De qué manera influye una variable predictiva en las predicciones?
– Dirección del efecto: positivo o negativo
– Forma del efecto: lineal o no lineal
– Tipo de efecto: efectos principales o efectos de interacción
• Posibles soluciones:
• para el 1.: cálculo de medidas de «importancia variable»
relativamente sencillo para el bosque aleatorio (véase a continuación)
• para el 2.: análisis descriptivo de «expectativas condicionales individuales»
Was ist eine OOB Beobachtung?
Was stellt eine OOB bei Bootstraping dar?
Was kann man anhand der OOB Beobachtungen abschätzen?
Berechnung der „Permutation Variable Importance“ für eine ________:
Für jeden Baum im Random Forest ...
berechne…
Cálculo de la «importancia de la variable de permutación» para una variable predictora:
Para cada árbol del bosque aleatorio...
1. Calcular 𝑀𝑆𝐸 OOB (o 𝑀𝑀𝐶𝐸 OOB) para las observaciones OOB
2. Mezclar («permutar») aleatoriamente los valores de las observaciones OOB en la variable predictora de interés
—> destrucción de la información contenida sobre la variable criterio
3. calcular 𝑀𝑆𝐸permOOB para las observaciones OOB con la variable predictora permutada (todas las demás variables predictoras permanecen sin cambios)
4. Calcular la diferencia 𝑀𝑆𝐸permOOB − 𝑀𝑆𝐸 OOB:
¿En qué medida empeora la predicción OOB si «rompemos» una variable predictora?
Importancia de la variable: Valor medio de las diferencias en todos los árboles del bosque.
Cuanto mayor sea la importancia de un predictor, más importante es este predictor para la predicción del criterio.
—> Consideración del efecto principal y de todas las interacciones con esta variable.
Zuletzt geändertvor 7 Tagen