Wie lauten die Grundannahmen der linearen Regressionsanalyse?
Erwartungstreue
Effizienz
Konsistenz
bei Vergrößerung der Stichprobe wird der Erwartungswert genauer
Wann wird eine Schätzung als erwartungstreu bezeichnet?
wenn ihr Erwartungswert dem Parameter in der Grundgesamtheit entspricht
1) Linearitätsannahme
= die funktionale Form der Beziehung zwischen den X-Variablen und der Y-Variable ist linear
-> Annahme bezieht sich auf die unstandardisierten Regressionskoeffizienten
die Beziehung kann auch nicht linear sein im Bezug auf die X-Variablen
2) Messniveau
X-Variablen müssen ein metrisches Messniveau aufweisen -> oder als Dummy Variablen in die Regressionsgleichung miteinbezogen werden (Dummy Kodierung der kategorialen Variablen)
Y-Variable soll metrisch und kontinuierlich sein, wird durch eine höhere Zahl an Ausprägungen erreicht
3) Messqualität
Alle Variablen eines Regressionsmodells müssen ohne Messfehler sein
Zufällige Messfehler in den X-Variablen führen zu Verzerrungen der Regressionsschätzung, Bsp.: Unterschätzung d. Regressionskoeffizienten
Systematische Messfehler: Führen immer zu verzerrten Schätzungen des Interzepts
4) Varianz
Jede Variable muss eine Varianz aufweisen die größer als 0 ist
UND X-Variablen dürfen keine Konstanten sein
Wozu dient Regressionsdiagnostik?
Eine X-Variable darf nicht perfekt über eine andere X-Variable vorhergesagt werden
=> Keine X-Variable darf eine Linearkombination von einer anderen X-Variable sein
6) Untersuchungseinheiten
die Anzahl der Untersuchungseinheiten (UE) in einer Stichprobe muss mindestens genauso groß sein wie die Anzahl der geschätzten Regressionskoeffizienten
7) Annahmen über die nicht beobachtbaren Störgrößen ε i = ( Y - Y) der Regressionsfunktion in der Grundgesamtheit
E = 0, für alle UEi = 1,…,n
E = Erwartungswert
eine konstante Abweichung aller Beobachtungen vom Mittelwert hat zur Folge, dass das Interzept um diesen Betrag verzerrt geschätzt wird
eine variable Abweichung der Beobachtungen könnte dazu führen, dass die Regressionkoeffizienten verzerrt geschätzt werden (Ursache => eine X-Variable wurde nicht berücksichtigt)
8) Annahmen über die nicht beobachtbaren Störgrößen ε i = ( Y - Y) der Regressionsfunktion in der Grundgesamtheit
die Varianz Var (ε i x ,x ,..., x ) = σ2 , für alle Untersuchungseinheiten i = 1,…,n
= die Störgröße muss für jeden Wert die gleiche Streuung besitzen (konstante Varianz)
Homoskedastizität
9) Autokorrelation
Cov( ε i x ,x ,..., x , I ε j x ,x ,..., x ) =0 , für alle UE i, j=1, … n ( i ≠ j)
Störgrößen ε dürfen nicht untereinander korreliert sein i => keine Autokorrelation, wie sie häufig bei Zeitreihenanalysen oder Regressionen mit Paneldaten zu beobachten sind
Heteroskedastizität
Unterscheiden sich die Vairanzen der Störgrößen, dann spricht man von Heteroskedastizität
Konsequenz heteroskedastischer Störgrößen:
Schätzung der Regressionskoeffizienten nicht mehr effizient
die Standardfehler für die Regressionskoeffizienten werden verzerrt geschätzt
10) Kovariation der X-Variablen
Cov(X,ε) = 0, für alle Variablen Xj
die Störgröße soll nicht mit X-Variablen korrelieren
falls eine Korrelation vorliegt, ist es möglich das eine bedeutsame X-Variable nicht in das Regressionsmodell einbezogen wurde
Gauss-Markov-Theorem
Dieses Theorem besagt, dass wenn die Annahmen
7) alle ε den Mittelwert 0 haben
8) Homoskedastizität und 9) keine Autokorrelation erfüllt sind, die OLS-Schätzfunktion BLUE ist
-> Best
-> Linear
-> Unbiased
-> Estimation (Schätzung)
Zuletzt geändertvor 20 Tagen