Eine sinnvolle Unterscheidung bei systematischen Fehlern sind zwei verschiedene Fehlertypen
Residuen 𝜖
Abweichung der Daten von geschätzter Funktion
Störgröße/Fehlerterm u
Abweichung der Daten von der echten Geraden
Wenn die Schätzung unverzerrt ist,
Fehler vs. Residuen
These: Je weiter rechts eine Pflanze auf dem Tisch steht, desto mehr Wasser, und
desto mehr Licht bekommt sie"
𝑊𝑢𝑐ℎ𝑠ℎöℎ𝑒 = 𝑓 𝑊𝑎𝑠𝑠𝑒𝑟
– Eine verzerrte mit dem Licht
– Und eine „echte“ Gerade ohne das Licht
Konkret müssen die Störterme…
…statistisch unabhängig von der UV sein
Sie dürfen im Erwartungswert also nicht z.B. größer oder kleiner werden, wenn die UV zunimmt
…sich im Mittel zu 0 addieren
…Homoskedastisch/varianzgleich sein
(An jeder Stelle der UV die gleiche Varianz haben)
…voneinander statistisch unabhängig sein
…normalverteilt sein
Was passiert, wenn diese Annahmen verletzt werden?
Verletzung von Unabhängigkeit zwischen u und X:
Dann haben wir Endogenität! cov(x, u) ≠ 0
Und damit ist die Schätzung verzerrt
Die Fehler addieren sich im Mittel nicht zu 0:
Die Konstante ist falsch geschätzt
Aber nicht unbedingt unser Zusammenhang
Keine Homoskedastizität (Heteroskedastizität)…
…ODER die Fehler sind statistisch voneinander abhängig (Autokorrelation)…
…ODER die Fehler sind nicht normalverteilt:
Die Standardfehler sind dann normalerweise zu niedrig geschätzt, und damit die Signifikanztests falsch
Heteroskedastizität
Heteroskedastizität kann quasi immer vorliegen, die ist mehr oder wenige unvorhersehbar
Und sie liegt eigentlich auch immer vor
Autokorrelation
hat man dann, wenn es irgendeine „übergeordnete“ Variable gibt, die dafür sorgt, dass sich manche Beobachtungen systematisch (!) ähnlicher sind als andere
Bsp: Das BIP von Deutschland 2023 ist dem BIP von 2024 ähnlicher als dem BIP von 1950; der Aktienkurs der Deutschen Bank 2023 ist dem Kurs von 2024 ähnlicher als dem Kurs von 1990
→ zeitliche Autokorrelation
Umgang mit Annahmeverletzungen
nicht normalverteilung wird ignoriert
im Mittel nicht zu 0 addieren wird ignoriert
Heteroskedastizität: Robuste Standardfehler
Autokorrelation: Geclusterte Standardfehler
Alternative: Bootstrapping für P-Werte
Effektstärken messen
man muss erst standardisieren
Ergebnis dann in %
die Veränderung der AV in Standardabweichungen nennt man auch "Cohen's D"
Als Faustregel gilt: Ein Cohen's D größer als 0,1 ist bei Verhaltensänderungen ziemlich groß
Bestimmtheitsmaß R²
Wie relevant ist denn eine UV relativ zur Gesamtheit aller anderen UVs?
R² ist der Teil der Gesamtvarianz der AV, der durch die Varianz der UV erklärt wird
R² misst, um wie viel sich die Erklärung verbessert, wenn man eine UV zur Erklärung nutzt anstelle des Nullmodells mit dem arithmetischen Mittel von Y
R² berechnen
𝑅2 = 𝐸𝑆𝑆 // 𝑇𝑆𝑆
𝑇𝑆𝑆 (Total Sum of Squares) = Varianz von Y
𝐸𝑆𝑆 (Explained SoSq) = Erklärte Varianz => 𝑇𝑆𝑆 - R𝑆𝑆
R𝑆𝑆 (Residual SoSq) = unerklärte Varianz
=> 𝑅2:
je höher der ist, desto relevanter ist die UV für die AV, denn umso weniger bleibt für andere UVs zu erklären übrig
Wert zwischen 0 und 1
Wenn man Korrelation kennt, kann man quadrieren und erhält R²
Pseudo-R²
Nichtlineare Regressionen (wie logistische Regressionen) nutzen normalerweise kein
OLS, und haben auch keine Quadratsummen im Sinne der OLS => hier gibt es Pseudo R²
multiple R²
R² im multiplen Regressionsmodell
Zwei Probleme durch zu viele Regressoren
Ein rein mechanisches Problem
Man kann eine Gerade perfekt durch zwei Punkte legen, egal welche Variablen diese Punkte repräsentieren → R² = 1
Man kann eine Ebene durch drei Punkte legen, egal welche Variablen diese drei Punkte repräsentieren → R² = 1
Man kann eine (n-1)-dimensionale Hyperebene durch n Punkte legen, egal welche Variablen diese n Punkte repräsentieren → R² = 1
→ Je mehr Regressoren, desto höher R², selbst wenn die Variablen im Modell purer Blödsinn sind
Ein inhaltliches Problem: Overfitting
Eine Stichprobe weicht immer von ihrer Grundgesamtheit ab
Diese Idiosynkratien sind normalerweise irrelevant, aber je mehr Regressoren man hat, desto mehr Idiosynkratien nutzt man als Erklärung
→ die externe Validität des Modells nimmt ab
(man spricht dann auch von einer schlechter werdenden Out-of-Sample-Prediction)
Um dieses Problem des wachsenden R² in den Griff zu bekommen, gibt es alternative Kennzahlen:
welche 2?
– Adjustiertes R² (adj. R²)
– Informationskriterien
Adjustiertes R²
Problem des wachsenden R² in den Griff zu bekommen
Adj. R² ist das intuitivste: R², aber minus eine Strafe für jeden irrelevanten Regressor
Wenn alle verwendeten Regressoren relevant sind, entspricht es R², ansonsten ist es kleiner
Je weiter das adj. R² von R² abweicht, desto mehr irrelevante Regressoren sind im Modell
Kann negativ werden, das ist natürlich ganz schlecht für das Modell
Informationskriterien
Informationskriterien sind abstrakter
Hier gilt: Je kleiner, desto besser
Achtung: Wenn die Werte negativ sein sollten, gilt das ebenfalls
→ je „negativer“ der Wert, desto besser das Modell
Wozu F test?
Man kann sich den F-Test intuitiv vorstellen als einen Signifikanztest auf R² (oder adj. R², spielt keine Rolle)
→ Wenn der F-Test signifikant ist, ist auch R² signifikant
Die Erklärungskraft ist vermutlich echt und nicht nur zufällig
In einem gewissen Sinne testen wir die Signifikanz der Relevanz
Zuletzt geändertvor 4 Monaten