Erkläre was Benchmarking ist und wieso ähnelt sich zu einem wissenschaftlichen Experiment?
Objetivo del modelado predictivo: predicción lo más precisa posible de una variable criterio, basada en una serie de variables predictivas
Para alcanzar este objetivo, se dispone de diferentes clases de modelos (por ejemplo, clases de modelos lineales frente a no lineales)
Dado que nunca se sabe con certeza qué clase de modelo proporcionará las predicciones más precisas para una cuestión concreta, en principio siempre se deben probar varios modelos predictivos y compararlos entre sí en cuanto a su calidad de predicción estimada.
==> Benchmarking
De este modo, el modelado predictivo se asemeja a un experimento científico:
• Comparación de diferentes condiciones experimentales (en este caso: clases de modelos).
• Para cada condición se identifica la operacionalización óptima (por ejemplo, número de variables predictivas, ajustes de hiperparámetros)
• Condiciones externas iguales (por ejemplo, medidas de rendimiento, estrategia de remuestreo) para poder comparar mejor las condiciones experimentales
• Aumento de la comparabilidad:
Para poder comparar de la mejor manera posible la calidad predictiva de las diferentes clases de modelos predictivos, todas las clases de modelos se entrenan con los mismos FOLDS de validación cruzada.
—> Todas las clases de modelos «ven» exactamente los mismos conjuntos de entrenamiento y prueba
• Interpretación de los resultados:
El resultado de una evaluación comparativa es un valor estimado del error de predicción esperado de cada una de las clases de modelos examinadas. Hay que tener en cuenta que estos valores estimados son solo estimadores puntuales.
IMPORTANTE: A la hora de decidir qué modelo predictivo se debe utilizar concretamente en la práctica, también hay que tener en cuenta la varianza del estimador puntual.
Lamentablemente, no es posible derivar intervalos de confianza exactos o pruebas de hipótesis para el estimador de validación cruzada.
—> ¡Observa de forma descriptiva la varianza de los valores estimados de los pliegues individuales!
Was ist Stratifizierung bei Klassifikation?
Wann ist diese besonnders sinnvoll?
Was ist die Idee dahinter?
Gleichung
Para la validación cruzada en la clasificación, normalmente se ajusta la proporción de clases dentro de los folds a la proporción en el conjunto de datos total.
La estratificación nunca es perjudicial (por lo que siempre se puede realizar); resulta especialmente útil en muestras pequeñas y clases desequilibradas
Idea:
Estimación más precisa del error de predicción esperado dentro de los folds.
Evitar que la clase más pequeña quede demasiado infrarrepresentada por la distribución aleatoria en un pliegue (mala calidad de predicción).
Repeated Cross.Validation ist eine Lösung für welches Problem?
Woher merkt man dieses Problem?
Worin besteht die Repeated cross Validation?
Je____, desto____
Standard in der Praxis?
En muestras pequeñas, el valor estimado de validación cruzada del error de predicción esperado puede variar considerablemente si se elige otra división aleatoria del conjunto de datos en los K folds.
—> Problema: al repetir el remuestreo, cambia repentinamente la clasificación de los diferentes modelos predictivos.
Solución: «validación cruzada repetida»
1. Repita la validación cruzada K-fold W veces
2. Para cada repetición W, seleccione una nueva distribución aleatoria del conjunto de datos total en K folds
3. Calcule el valor medio de los valores estimados de validación cruzada W.
Cuantas más repeticiones W, más «estable» será el estimador de validación cruzada repetida (en la práctica se suele utilizar K = 5 o 10 y W = 10).
Was passiert mit den Performancemaßen (z.B. MSE, MMCE), wenn in der Population die Punktprävalenz einer Erkrankung 1% beträgt, und mann alle Personen automatisch als gesund klassifiziert?
Was bedeutet dies?
Was macht man in diesen Fällen?
Wie evaluiert man dieses Vorgehen?
La mayoría de las medidas de rendimiento (por ejemplo, MSE, MMCE) son difíciles de interpretar de forma absoluta. Por ejemplo, no es obvio si un modelo predictivo logra una mayor calidad de predicción que un modelo trivial que ignora todos los predictores y solo «adivina inteligentemente».
• Ejemplo: si la prevalencia puntual de una enfermedad en la población es del 1 %, entonces se puede lograr un MMCE esperado de 0,01 (y, de forma análoga, una precisión de 1 - MMCE = 99 %) simplemente clasificando automáticamente a todas las personas como sanas.
• Idea: compara siempre un modelo predictivo con un «modelo ficticio» cuya precisión debe superarse en cualquier caso.
• Regresión:
Predicción constante del valor medio del criterio en el conjunto de datos de entrenamiento.
• Clasificación:
Predicción constante del valor más frecuente del criterio en el conjunto de datos de entrenamiento.
• La calidad de predicción del modelo ficticio se evalúa en la prueba comparativa con la misma estrategia de remuestreo que los demás modelos predictivos.
Was ist diese Syntax?
Diese Syntax ist ein Benchmark experiment
Was ist diesen Output?
Was kann man hier lesen?
Boston Housing: Random Forest scheint bessere Vorhersagen zu liefern als lineare Modelle
=> Vermutlich nicht lineare Zusammenhänge und/oder Interaktionen
Welches Modell ist besser und wieso?
Was ist eigentlich diese Grafik?
Aqui estamos viendo las varianzas de manera descriptiva.
El random forest es el mejor modelo
Was wurde gemacht?
Was bedeutet diese Syntax?
En el Dummy modell el MMCE es casi igual a el numero de falsh klassifizierten “tod”
Titanic: Vorhersagegüte verschiedener Modele ist bezüglich des MMCE sehr ähnlich, dabei unterscheiden sich die Modelle jedoch leicht bezüglich SENS und SPEC
=> Welches Modell am besten ist, hängt von der praktischen Anwendung ab
La distribucion de el mean misclassification error es muy parecido. La linea negra horizontal en los plots es la mediana
Aqui no se diferencian mucho los diferentes modelos
Que es esta grafica y que puedes leer?
Esto es exclusivo del random forest. Solo tiene sentido cuando el modelo es mejor que el dummy.
La variable mas importante es geschlecht.
(one minus area under the curve) es un performancemaße. nos dice que tan bueno es un moelo para diferenciar entre dos clases. y beruchsichtig sens y spez.
Esto se saco con los OOB
En la x podria ser un mmce u otra performancemaß.
Was ist dieses Output und was kann man hier lesen?
Was ist diesen output und was kann man hier lessen?
Was ist der Wert da unten unter klammern (0.0214487)?
Was wurde hier gemacht?
Aqui queriamos ver si la diagnose era vorhanden o no, con los items de bdi etc como predictores.
Lo que es nuevo aqui en comparacion con el ejemplo del titanic es que aqui usamos 2 diferentes predictorsets que comparamos uno con otro.
en bsp 1 prediktoren auf skalenlevel alter geschlecht, bdi gesamt y fie gesamt als prediktoren und wie wollen vergleichen, wie gut die Vorhersage funktioniert, wenn wir das nicht machen, sondern wenn wir einfach die einzelne Itemwerten einzeln als predictoren reinschmeißen.
Se usa la stratifizierung für beiden porque las clases son de diferentes tamaños
Was wurde gemacht und welche sind die Ergebnisse?
Depression: Random Forest scheint bessere Vorhersagen zu liefern als lineare Modelle
Depression: Beste Vorhersagegüte wenn die BDI und FIE-Items nicht zu Summenwerten zusammengefasst werden, sondern als einzelne Prädiktor-variablen in den Random Forest eingehen
=> Vermutlich Informationsverlust bei Verwendung der Summenwerte
Was ist dies?
Solo para el random forest
• Depression: Die Prädiktorvariable Alter scheint für die Vorhersagen des Random Forests besonders wichtig zu sein
=> Bias in Datensatz: Probanden ohne depressive Diagnose waren alles Studierende
PhoneStudy: Random Forest scheint bessere Vorhersagen zu liefern als lineare Modelle
LASSO WAR AUCH OK ABER NICHT BESSER ALS RANDOM FOREST
Ziel der prädiktiven Modellierung
Was ist LEAKAGE?
Wieso ist das ein Problem?
Was wird dadurch in Benchmarking-Experimente passieren?
El objetivo del modelado predictivo es desarrollar un modelo que realice predicciones precisas para datos nuevos que no se hayan visto durante el entrenamiento.
• A veces, la información del conjunto de entrenamiento «se filtra» (leakage) al conjunto de prueba sin que nos demos cuenta.
• En ese caso, los datos del conjunto de prueba no son completamente nuevos, sino que contienen información del conjunto de entrenamiento y, por lo tanto, presentan el problema del sobreajuste.
• Los datos realmente nuevos, que no tienen la ventaja de que ya se haya aprendido (parte de) la información en el conjunto de entrenamiento, se predicen peor. Por lo tanto, el rendimiento real es menor (y se sobreestima debido a la filtración en el experimento de benchmarking).
Gefahren bei abhängigen Beobachtungen
Kann der normalen Random-Forest bekannte Abhängigkeiten berücksichtigen?
Was sollte man machen?
Worauf muss man aufpassen, wenn man durch Resampling die Vorhersagegüte eines prädiktiven Modells evaluieren möchte, das mit abhängigen Daten trainiert wurde?
Bei abhängigen Beobachtungen gibt es typischerweise verschiedene Vorhersageszenarien z.B.:
1. Vorhersage für neue Schüler*in aus einer bekannten Schule
2. Vorhersage für neue Schüler*in aus einer neuen Schule
Was kann der normaler K-fold CV und was nicht und wieso?
Lösung zu Gefahren bei abhängigen Beobachtungen?
Was wird dadurch sichergestellt?
Spezialfall?
Problem und Falsches und Richtiges Vorgehen
erkläre
Last changed5 days ago