IMMER: Theoriegeleitete Modellbildung
-THEORIE ==> Hypothesen ==> Modell ==> Datenanalyse
-Modellierung bzw. Datenanalysen dienen der Prüfung von Hypothesen.
-Evtl. grafische Darstellung der Forschungsfrage
Angemessene Modellspezifikation
-Eine angemessene Modellspezifikation zeichnet sich aus durch
o 1. eine angemessene Funktionsform (z.B. linear, quadratisch, log-linear, ...)
-... für Fragestellung, die über Prognosen und reine Deskription hinausgehen
o 2. eine Richtung des Zusammenhangs
o 3. keine (starken) Wechselwirkung zwischen den unabhängigen Variablen
o 4. alle relevanten Variablen enthalten
o 5. keine irrelevanten Variablen enthalten
-Grundfrage: Ist βjXj im Modell nötig, nützlich oder überflüssig?
-Wenn Y=f(Xj) der zentrale, interessierende Zusammenhang ist: REIN
-Mögliche Confounder: REIN
-Collider: nicht rein
-Kontrollvariablen: hm, kommt drauf an ...
-Berücksichtigen von (Kontroll-)Variablen: kommt auf das Ziel der Analyse an
o 1. Bestmögliche Prognose (z.B. Wettervorhersage): so viele Variablen und Daten wie möglich
o 2. Zusammenhangsanalysen/Kausalanalysen (Fragen der Art "βk = 0 ?" )
§ THEORIE und LITERATUR
§ Big data/Machine Learning (aber: möglicherweise spurious correlations)
==> Gute Modellanpassung bei gleichzeitig geringer Komplexität
-(Zu) viele X-Variablen und Zufallsfehler
o Bsp. 20 X-Variablen im Modell enthalten
o Davon: ein einziger Koeffizient βk ist mit p<0.05 signifikant
==> 1 Koeffizient von insgesamt 20 = 5% aller Koeffizienten sind signifikant
o Gleichzeitig: jeder einzelne Koeffizient hat eine 5% Wahrscheinlichkeit die H0: βk = 0 fälschlich zu verwerfen ("Fehler erster Art")
==> sparsame Modellierung
-Wechselseitige Abhängigkeiten: X beeinflusst Y und Y beeinflusst X (= X ist mit dem Fehlerterm 𝜀 korreliert)
-Kommt in Beobachtungsdaten/ Querschnittsbefragungen häufig vor! D.h. man kann es häufig nicht direkt sehen oder bestimmen
-Lösung
o Theorie!
o Zeitliche Reihenfolge klären und ggf. Messung/Datenerhebung verbessern (ideal sind wechselseitige Messungen)
o Simultane Schätzverfahren (fortgeschrittene Statistik...) ( welcher Faktor hat es bestimmt, etc.?)
Wiederholung R2
-Regr.koeffizienten schätzen den Zusammenhang ("um wieviel verändert sich Y, wenn sich X um eine Einheit ändert")
-R2 beschreibt die Streuung um die Regressionsgerade
-Die Schätzung der Koeffizienten hängt nicht von der Größe von R2 ab
-Niedrige R2-Werte verringern jedoch die Aussagekraft von Vorhersagen
-1. Schritt Sequenzielle Regressionsanalyse
o X-Variablen werden theoriegeleitet, nacheinander in Regressionsmodell aufgenommen
o ≠ schrittweise-vorwärts-rückwärts Regression: irgendwelche Variablen, irgendwie, berechne irgendwas ...
-2. Schritt: Vergleich der 'geschachtelten' Modellspezifikationen
-1. Schritt: Sequenzielle Modellspezifikationen
-2. Schritt: Vergleiche die Modellspezifikationen
o Vergleiche das restringierte Modell (manchmal: "Null-Modell") mit den unrestringierten ("erweiterten") Modellen (manchmal: "Full-Modell")
o Prüfe, ob die hinzugefügten Modellparameter die Erklärungskraft signifikant verbessern z.B. vergleiche Modell 2 mit Modell 3: H0: 𝛽$ = 0 und 𝛽% = 0
==>F-Test für genestete Modelle
§ dieselbe Y-Variable
§ ineinander geschachtelte Modelle
§ gleiche Fallzahl in allen Schätzungen
-Modellierung bzw. Datenanalysen dienen der Prüfung von Hypothesen
==> Ergebnisinterpretation ist keine 'reine' Zahlenbeschreibung! Sondern: Wie sind die Ergebnisse in Hinblick auf die Hypothesen zu interpretieren?
Last changed19 days ago