Stundenlohn = f(Studienfach, ....)
Interpretationsbeispiel:
Im Vergleich zum Studienfach humanities haben Studierende der natural sciences einen 0,95 € geringeren Stundenlohn (unter Kontrolle von .... (!)).
Der Unterschied ist signifikant.
Mögliche Erklärung: monetärer Nutzen vs. Qualifikations- nutzen
Interpretieren Sie Haupt- und Interaktionseffekt.
Stundenlohn = f(Elternhaus, Studienjahr, Elternhaus * Studienjahr, ....)
-Haupteffekte:
o Zu Beginn des Studiums (Studienjahr = 0) verdienen Studierenden aus privilegierten Familien 1,09 € mehr.
o Pro Studienjahr erhöht sich der Stundenlohn um 0,25 €
-Interaktionseffekt (in beide Richtungen möglich: X*Z und Z*X!)
o Mit jedem Studienjahr verringert sich der Unterschied zwischen den Herkunftsgruppen um 0,20 €
o Der Zuwachs pro Studienjahr ist geringer für Studierende aus privilegierten Herkunftsfamilien – Lohn gleicht sich immer mehr an
-Grafische Darstellung des Interaktionseffekts
==> Add-on ... alles zusammen: Stundenlohn = f(Studienfach*, Elternhaus und Studienjahr, ... ) * vereinfacht: occupation-related fields vs. arts and humanities
==> Daten sind in einer linearen Geraden nicht immer ideal repräsentiert
o OLS-Schätzung von Regressionskoeffizienten ✓
o Statistische Tests (F-Test, t-Tests)
o Aber:
§ Unser bisheriges Vorgehen liefert nur dann sinnvolle und unverzerrte Ergebnisse, wenn eine Reihe von Voraussetzungen erfüllt sind (nächste Folie)
§ Ein Teil davon wird auch als BLUE-Annahmen bezeichnet („best linear unbiased estimator")
o Variabilität in X: X-Variablen müssen variieren, d.h. Var(X) größer als 0
o Linearität in Variablen und/oder in Parametern
Lineare Regression eignet sich nur für Zusammenhönge, die linear(also immer gleich) ablaufen
Erinnerung: Regresionskoeffizient besagt: Wenn X um eine Einheit steigt ändert sich Y um den Wert des Regressionskoeffizienten
o Korrekte Spezifizierung des Modells (Modell und Daten sind der Form angemessen)
Annahme: keine Subgruppen
Unser Modell nimmt erstmal an, dass der Effekt von beispielsweise Arbeitszeit auf Einkommen immer gleich ist und rechnet für alle den selben Effekt aus Aber was wenn das nicht der Fall ist?
Unser Modell ist in diesem Fall nicht gut in der Lage die Realität darzustellen!
o Stichprobe ist größer, als die Anzahl unabh. Variablen: Zahl der zu schätzenden Parameter (j+1) ist kleiner als die Zahl der vorliegenden Beobachtungen (n)
o Residuendiagnostik
Residuen haben den Erwartungswert Null
Homoskedastizität: Residuen haben eine konstante Varianz
Keine Autokorrelation: Residuen sind unkorreliert
Keine Korrelation zwischen den unabhängigen Variablen und den Residuen
o Keine Multikollinearität: Zwischen den unabhängigen Variablen besteht keine Abhängigkeit
-Nicht alle Zusammenhänge laufen linear ab, wenn wir aber so tun als wäre das so, beschreiben wir den Zusammenhäng falsch ==> Lineare Regression eignet sich also nicht immer für alle Zusammenhänge
-Eine Lösung kann sein: Polynominalregression und prüfen, ob das Modell dadurch besser wird!
-Ansonsten können Scatterplots sehr hilfreich sein!
-Residuum = Abweichung zwischen beobachtetem und durch die Regressionsgleichung vorhergesagtem Wert (sollten möglichst klein gehalten werden)
o Beispiel: Unser Modell z.B. schätzt für 20-Jährige 2.300 Euro Einkommen aber eine Person erklärt sie verdiene nur 2.200 Euro → Residuum von 100
==> Ziel der Regression: Residuum minimieren
o Residuen sollten zufällig und ohne systematisches Muster auftreten... andernfalls sind z.B. die Signifikanztests (F-Test, t-Tests) nicht korrekt
o εi sind iid (= independent and idenically distributed)
o mit E(εi) = 0 und
o Var(εi) = σ2 für alle ("Homoskedasizität")
o zusätzlich: N(0, σ2)
Annahmen Homoskedastizität
-Perfekt wird unsere Schätzung wohl nie sein, im Mittel wird sie aber hoffentlich gut sein
-Wichtig ist jetzt das die Residuen nur zufällig abweichen und nicht nach einem Muster
-Sonst ist unser Modell nicht in der Lage den Zusammenhang gut darzustellen und t und F-tests sind nicht korrekt
Beispiel Einkommen = f(Bildung, Geschlecht, Berufserfahrung)
-Grafische Betrachtung
o Das folgende Modell ist für geringere Werte besser als für höhere Werte
==> Es wäre alles gut, wenn wir uns zumindest immer gleich stark irren würden
-Robuste Standardfehler
-Falls Heteroskedasizität vorliegt, führt die OLS-Methode nicht zu effizienten Schätzwerten für die Regressionskoeffizienten
o Standardfehler der Schätzwerte nicht korrekt
o t-Werte sind keine zuverlässigen Schätzer
-Eine mögliche Lösung: Verwende 'robuste' Standardfehler (robust gegen Verletzung der Homoskedastizitätsannahme)
-Huber-White-Sandwich-Estimator (in Stata: Option vce(robust))
-Links: Altes Modell mit normalen Standardfehlern
-Rechts: Neues Modell mit robusten Standardfehlern
-Die Koeffizienten unterscheiden sich nicht
-Die Standardfehler sind aber rechts größer, was zu kleineren t-Werten führt → weniger signifikant/höhere Irrtumschance aber dafür ist das Problem der Heteroskedastizität gelöst
-Wir gehen davon aus das jeder Prädiktor in unserem Modell grundsätzlich erstmal unabhängig von den anderen Prädiktoren ist und es keine zu Hohe Korrelation zwischen zwei unanhängigen Variablen gibt
-Jede Variable tut ihren Beitrag um die Streuung von Y zu erklären
==> Kollinearität (bzw. Mulikollinearität) liegt vor, wenn zwei oder mehrere unabhängige X-Variablen sehr hoch miteinander korrelieren
-Standardfehler werden nicht korrekt geschätzt (mit Folgen für Tests und Konfidenzintervalle, siehe oben)
-F-Test signifikant ("es gibt irgendeinen Zusammenhang zwischen Y und den X's"), trotzdem keiner der einzelnen Regressionskoeffizienten signifikant
-Einfluss einer einzelnen unabhängigen Variablen lässt sich nicht isolieren
-Modellschätzung insgesamt sehr instabil
-Falls perfekte Multikollinearität: Berechnung des Koeffizienten nicht möglich (siehe VL 4. Dummy-Variablen-Problem, Stata "omitted")
-Zunächst kann man sich alle unabhängigen Variablen, die wir
untersuchen in paarweisen Korrelationen ansehen
• pwcorr varlist
-Erster Anhaltspunkt: paarweise Streudiagramme und Korrelationen zwischen den einzelnen unabhängigen Variablen (r > 0.8 -> "schlecht")
-Varianzinflationsanalyse (VIF - variance inflation factor)
o (Hilfs-)Regression der jeweiligen X-Variablen abhängig von allen anderen X- Variablen, z.B. Xk= f(X1, X2, ... ); betrachte dann, welcher Anteil der Varianz einer Variablen von den anderen X-Variablen erklärt wird – daraus wird dann jweils ein R-Squared ermittelt
o VIF = 1/(1-R2k)
o Faustregel VIF > 10 : mittlere Koll., VIF > 30 : starke Koll. ("schlecht") (==> wie stark hängen die X-Variablen zusammen?
o Befehl: zuerst reg, dann estat vif
Beispiel: Einkommen = f(Bildung, Erwerbserf., Beruf des Vaters, eigener Beruf, Geschlecht)
-Betrachte zunächst paarweise Zusammenhänge der X-Variablen
-Zunächst kann man sich alle unabhängigen Variablen, die wir untersuchen in paarweisen Korrelationen ansehen pwcorr varlist
==> überprüfen auf Kollinearität mittels Varianzinflation
-Einzelne Stark vom Mittel abweichende Beobachtungen können die Regression massiv beeinflussen (Regression: Model of the Mean!)
==> Beachten - meist starke Kollinearität in Interaktionstermen
o Einzelne X-Variablen (theoriegeleitet! ) entfernen
o Mehrere X-Variablen zu Indizes oder Faktoren zusammenfassen (z.B. mittels Faktorenanalyse)
§ Laufen+Springen+Werfen="Sportlichkeit"
· Zwei Stichproben derselben Gesellschaft, uns interessiert Wohnungsgröße beeinflusst vom Einkommen
· Stichprobe1 : N = 100, Einkommens-Mittelwert bei ca. 3.000, positiver Zusammenhang zwischen Einkommen und Wohnungsgröße
· Stichprobe2: N = 100, Jetzt ist aber aus Zufall ein Multimilliardär der kleine Wohnungen liebt dabei → Mittelwert bei ca. 5.000, plötzlich negativer Zusammenhang zwischen Einkommen und Wohnungsgröße
· Einzelne Stark vom Mittel abweichende Beobachtungen können die Regression massiv beeinflussen (Regression: Model of the mean)
-Ausreißer können die Koeffizientenschätzung beeinflussen, müssen es aber nicht
==> betrachte Sensitivität der Regression
-Ein Datenpunkt ist einflussreich, wenn seine Beseitigung die Ergebnisse der Regression deutlich verändert, d.h. Fälle mit ungewöhnlichen X und Y-Wert (Ausreißer) (z.B. oben rechts)
-Diagnose
o IMMER: bivariate Deskription (z.B. Streudiagramm (scatter plot))
o In multipler Regression: partielle Streudiagramme ("kontrolliert für die anderen X's")
o Statistische Maßzahlen: DFBETA, Cook's D , Leverage (Hebelwirkung) zusammen mit studentisierten Residuen, und andere
==> geht auch über partielle Streudiagramme
-1.Zurück zu den Ur-Daten
o Ist der einflussreiche Datenpunkt korrekt eingegeben?
-2. Alternative Modellspezifikation , z.B. nicht-linearer Zusammenhang
-3. Anderes Schätzverfahren: z.B. LAD (least absolute deviations), WLS (weighted least squares, ...) -> siehe Lit.
==> Einfach so weglassen ist keine Lösung, das ist Manipulation!
Zuletzt geändertvor 16 Tagen