Nenne was jede Modellierung macht.
Nenne das Ziel jeder
Nenne wofür jede gut bzw schlecht ist
klassische Modellierung: Empirisch erhobenen Daten durch einen stochastischen Modell beschreiben. Ziel: Schauen, ob ein Zusammenhang liegt und ihn erklären.
—> Schlecht für Vorhersagen.
Prediktive Modellierung: wie finden Funktionen, die möglichst präzise Vorhersagen liefern (für neue Beobachtungen).
—> Schlecht für Erklärungen
Vorhersage z.B. von Berufserfolg: Kriterium Kontinuierlich
Vorhersage z.B. von Suizidversuche (ja/nein)
Je nach Szenario variiert:
Je nach Szenario variiert: Die Modellklase und die Maße zur Güte. (MSE für kontinuierliche, MMSE für Klassifikation
Kennen wir die Population, bräuchten dies nicht. (wir arbeiten immer mit Stichprobendaten)
Bias: wie gut ist das Modell, um die Struktur des wahren Zusamenhangs in der Population abzubilden.
Varianz: wie stabil funktionieren die Vorhersagen des prädiktiven Modells über verschiedenen Stichproben hinweg.
Menos Flexibilidad, menos Varianza pero más Bias
Je flexiblere Modelle: menos Bias aber mehr Varianz
Para reducir tanto la Varianza como el Bias, debemos reducir la Flexibilidad (un poco) pero agrandar las muestras
Ideal son ambos pequeños
Bei weches Modell gibt es Overfitting?
Overfitting Insbesondere bei…
Was passiert, wenn ich das trainierte Prädiktionsmodell auf neue Daten anwende? Wie werden die Performancemaßen aussehen?
Bei B1: poco bias, mucha varianza. N= 12
• No podemos confiar en las medidas de rendimiento calculadas a partir del conjunto de datos de entrenamiento («in-sample»): estarán muy sobrevaloradas, especialmente en modelos complejos.
• Tan pronto como aplique el modelo de predicción entrenado a nuevos datos, el rendimiento de la predicción será peor.
Wie kommt man nun zu einer Abschätzung des Vorhersagefehlers für neue Daten?
• Was ist das Problem mit der Schätzung des erwarteten Vorhersagefehler durch Berechnung des Performancemaßes in derselben Stichprobe, die bereits zur Schätzung des Modells verwendet wurde?
Was kann man anstattdessen machen?
• Empfohlenes Vorgehen: Schlaues „Recyclen“ der vorliegenden Stichprobe für eine realistische Abschätzung des Vorhersagefehlers. «reciclar» de forma inteligente la muestra disponible para obtener una estimación realista del error de predicción.
—> Resampling Methoden
Simuliere die Anwendung des trainierten Modells auf neue Beobachtungen, mithilfe der zur Verfügung stehenden Stichprobe.
Nutze diese Simulation zur Berechnung einer realistischen Schätzung ist des erwarteten Vorhersagefehlers.
Grundprinzip: Strikte Trennung von Modellschätzung und Modellevaluation.
Was macht man zur Modellevaluation? Beschreibt das Ganze VORGEHEN
Der Gesamtdatensatz ZUFÄLLIG in 2 Teile teilen: 1 TRAININGSset, und 1 TESTset.
TRAININGSset: zum Trainieren des Modells und Schätzung der Parameter
TESTset: zur Abschätzung der Vorhersagegüte
Schätzung der Modellparameter anhand der Beobachtungen im TRAININGSset.
Berechnung der Vorhersagen für die Beobachtungen im TESTset anhand des trainierten Modells
Vergleichen der Vorhersagen im TESTset mit den tatsächlichen KriteriumsWERTEN anhand eines geeigneten Performancemaßes.
Hinweis: Im Folgenden wird von einer Regressionsfragestellung mit dem MSE als Performancemaß ausgegangen. Klassifikation oder Verwendung anderer Performancemaße funktioniert analog
Für zukünftige Daten haben wir nur…
Prädiktorwerte.
Beispiel: Berufserfolg. Uns liegen Daten über Jahre hinweg. Mit allen diesen Erhebungen schätzen wir die Prediktorwerte. Hier kann man diese aber für neue Beobachtungen nicht anwenden, weil die Vorhersage überschätzt wird. Deswegen müssen wir die Stichprobe zufällig aufteilen.
Was soll geschätzt werden?
Geschätzt werden soll der erwartete Vorhersagefehler des auf der gesamten Stichprobe trainierten grünen Modells!
Schätzwert für erwarteten VorhersageFEHLER.
Wir schätzen die Modellparameter andhand der Beobachtungen ins Trainingsset, dann verwenden wir dieses trainierte Modell, um für die Beobachtungen im Testset vorhersagen zu machen und im 3. Schritt vergleichen wir die vorhergesagten Werte im Testset mit der tatsächlichen Kriteriumswerte im Testset. Dazu wählen wir eine geeignete Performancemaße
Blaues Trainiertes Modell nur anhand des Trainingssetz, Dann vom Testsset haben wir Prädiktorwerte, die schmeisen wir in das trainierte Modell, um Vorhersagen zu kommen. Vom Testset haben wir auch tatsächliche Kriteriumswerte für die Beobachtungen im Testset, und wir haben die Vorhergesagten Werten des Testsets anhand des trainierten Modells.
Nun wählen wir ein Performancemaß aus, zB MSE, und wir sehen wie IM MITTEL DIE VORHERGESAGTE WERTE VON DEN TATSÄCHLICHEN KRITERIUMSWERTE ABWEICHEN
==> daraus bekommen wir einen Schätzwert für den erwarteten VorhersageFEHLER.
WICHTIG: Wir wollen einen Schätzwert der erwarteten Vorhersagenfehlers für das trainierte Modell auf dem GESAMTEN DATENSATZ (grünes Modell). Der Schätzwert, den das blaue Modell liefert, das nur auf den Trainingsdaten trainiert wurde, ist der Schätzwert für die VorhersageFEHLER, wenn ich in auf die Gesamte Stichprobe anwende.—> Der sagt wie gut das Modell funktioniert, wenn wir es auf den gesamten Datensatz verwenden
Gleichungen für MSEtrain und MSEtest
In-Sample Performance (naives Vorgehen)—> oben
unten hast du alle Kriteriumswerte der personen aus Testset, y les restas el geschätzte Wert für diese Person des Testset, den du anhand des trainings geschätzt hast
—> Dies heißt Holdout Schätzer
Was alles kann man hier sehen?
Welches Modell hat hohes Bias? Varianz?
Was kann man hier lesen?
Hier sehen wir die MSE des trainings und testsets. Wir sehen, dass je komplexer das modell, höhere Varianz. Aber, wird das Modell zu flexible, wird die Varianz wieder hoch.
Die schwarze Linie sagt aber, dass das besser ist, jedoch im testset wurde diese Vorhersagegute total anders. Optimal tradeoff zwischen ist im 5
𝑅 ²
Welche werte soll 𝑅 ² nehmen? Für training und test?
Was bedeutet, wenn 𝑅 ²train = 0?
Was bedeutet ein negatives 𝑅 ² test < 0?
Negatives R ² te dice que hay overfitting!
Interpretiere diese Grafiken
Je mehr Daten zur Schätzung eines prädiktiven Modells verwendet werden, desto ______ sind dessen Vorhersagen
Da das Trainingsset immer kleiner ist als der Gesamtdatensatz, wird die _______ des gesamten prädiktiven Modells _________
• Bias ist _______, je kleiner das Trainingsset
Je mehr Daten zur Berechnung der Performance verwendet werden, desto ___________ wird der erwartete Vorhersagefehler geschätzt
• Varianz ist _______, je kleiner das Testset
—> Kann man sowohl Bias als auch Varianz minimieren?
Optimale Größe von Trainings- und Testset Daumenregel zur Aufteilung
Wie groß soll das Trainingsset im Verhältnis zum Testset
optimalerweise gewählt werden?
Worin besteht die 2-Fold Cross-Validation?
Wozu wird sie angewendet?
Wie wird den Bias und dies Varianz bei gleicher Größe des Trainingssets’ im vergleich zum Holdout?
Wieso?
Zur Verbesserung des Holdout SCHÄTZERS
Weil indem man diese gemittelt hat, hat man mehr punkte zur Schätzung des Vorhersagefehlers wie bei Holdout.
Se parten de manera aleatoria
Worin besteht die K-Fold Cross-Validation?
Beschreibe sie Schritt pro Schritt
Wie viele Folds solte man verwenden?
Partes aleatoriamente la muestra total en 2 (o mas Ks) del mismo tamaño.
Fold K = Testset
Fold K -1 = Trainingsset
Cada K será tanto Trainings como Testset
Saca el MSEtest para cada uno de los K Testsets.Para las predicciones usa el modelo de los respectivos Trainingssets.
Saca el error de prediccion esperado mediante el promedio de MSEtest, de todos los K Testsets
Repeated Cross Validation: K Fold lo mismo pero repetido mas veces.
Leave-1-out Cross Validation : immer eine einzelne Beobachtung raus lassen. das Modell wurde dann N - 1 Beobachtungen anwenden zum Training und dann diese Beobachtung zur Modellevaluation
Bootstrap: Ziehen mit zurücklegen. Ziehe neue Daten und einen davon zum Trainieren und der Rest zur Evaluation
Subsampling: 1/5 für Testen und die anderen zum trainieren
Gleichung
MSEcv =
Zufällige Aufteilung in 3 GLEICH GROßE Folds
Durchgang 1: Fold 1 wurde zum Testset, und mit Fold 2 und 3 trainiere ich das Modell und evaluieren wir am Testset. Ich Schätze den MSEtest
Durchgang 2: Fold 2 Testset, und Fold 1 y 3 Trainingsset, und berechne ich diesen MSEtest… usw.
MSEcv = 1/3 (MSEtest1 + MSEtest2 + MSEtest3
Gleichungen
MSEtest (k) =
ŷ𝑖 Kriteriums vorhergesagter wert
Worin besteht der beste Weg die Vorhersagegüte prädiktiver Modelle in einem konkreten Anwendungsfall zu verbessern?
Gründe?
La mejor manera de mejorar la precisión de los modelos predictivos en un caso de aplicación concreto es aumentar la muestra disponible.
Zuletzt geändertvor 14 Tagen