VL 7: Regressionsmethoden

Buffl

Evaluation und Forschungsmethoden

by Greta R.

Vorraussetzungen einfache Regressionen

Intervallskaliert
Linearität des Zusammenhangs von UV und AV
Linearität der Regressionskoeffizienten (Gauß-Markov-Annahme 1)
Zufallsstichprobe (2)
Bedingter Erwartungswert von 0: jeder Wert der UV hat Fehlerwert Ewartungswert 0 (3)
Ausprägungen der UVs nicht konstant (Stichprobenvariation) (4)
Homoskedastizität: für jeden Wert der Uvs hat Fehlerwert die gleiche Varianz (5)
Fehlerwerte hängen nicht voneinander ab
Fehlerwerte sind normalverteilt

Lineare Regression

Regressionsgleichung und koeffizienzen

Eigenschaften der (Regressions) Residuen

X= Beobachtungswert, E=Erwartungswert

Determinationskoeffizient

(Erklärt wie gut die AV durch UVs erklärt wird -> Anteil der Varianz)

Regressionsrichtung

Abzissenabschnitt= Punkt an dem Gerade X-Achse schneidet
Ordinatenabschnitt= Punkt an dem Gerade Y-Achse schneidet
Winkel a gibt an wie beide Geraden auseinander scheren Arbeit mit Gewichten

Nicht-lineare Regression

Kategoriale Pädiktoren

Analyse kategorialer Pädiktoren

Z.B.: Geschlecht, Altersgruppen, Schultypen….

Generelles Vorgehen
- Eine Kategorie wird zur Referenzkategorie
- Für alle andern Stufen des Prädiktors lassen sich Effekte der Abweichung von Referenzkategorie bestimmen
- Bei Prädiktor mit c Stufen werden generell c-1 Hilfsvariablen benötigt, auf die man Prädiktorstufen aufteilt
Mögliche Varianten
- Dummy-Kodierung
- Ungewichtete / Gewichtete Effektkodierung

Dummy-Kodierung

Vorgehen
- eine Kategorie wird zur Referenzkategorie
- Bei insgesamt c Kategorien werden c-1 Dummy Varibalen angelgt
- Bei jeder Dummy-Variable erhält eine Stufe Zahl 1, anderen 0 (1=anwesenheit, 0= abwesenheit)
Z.B:
- Kleinstadt ist Referenzkategorie
- X1 kodiert Unterschiedt zw. Großstadt und Kleinsatd
- X2 kodiert Unterschied zw. Mittelstadt und Kleinstadt

Ungewichtete Effekt-Kodierung

Vorgehen
- Eine Kategorie sit Referenzkategorie
- Bei insgesamt c Kategorien werden c-1 Dummy Variablen angelegt
- Bei jeder Dummy Variable erhält eine Stufe die Zahl 1
- Referenzkategorie hat Zahl -1
z.b.
- X1 kodiert Unterschied zw. Großstadt und (ungewichteten) mittleren Ausprägung der anderen Stufen
- Gilt genauso für X2 (Mittelstadt)

Gewichtete Effekt-Kodierung

Interpretatiom der Regressionsgewichte

Empfehlung

Bei beideutungsvollen Referenzkategorie: Dummy Kodierung, sonst Effektkodierung
Ungewichtete Effektkodierung sinnvill, wenn Ausfälle rein zufällig sind (z.b. Experiment)
Gewichtete Kodierung, wenn Unterscheide in Häufikgeit v. Stufen exisiteren/relevant sind (z.b. repräsentative Bevölerungsstichproben)

Voraussetzungenn der multiplen Regressionen

AV intervallskaliert, UV intervallskaliert/dummy skaliert
Linearität des Zusammenhangs von allen UVs und Av
Linearität der Regressionskoeffizienten (Annahme 1)
Zufallsstichprobe (2)
Fehlerwert hat Erwartungswert 0 (3)
Stichprobenvariation der UVs (auspärgungen nicht konstant) (4)
Homoskedastizität (5)
Unahbhänigkeit des Fehlerwerts
Normalverteilung Fehlerwert
Keine Multikollinearität (Uvs korrelieren nicht stark)

Multiple Prädiktoren (Beispiel Modellvergleich)

Suppressionseffekte

Aufnahme eines wieteren Prädiktors X2 kann auch zu einer Vegrößerung der Voraussage eines Prädiktos X1 führen, somit Gesamtovraussage vergrößern
Klassische Suppression
- 2. Prädiktorvariable X2 korreliert 0 mit Kriteriumsvaraible Y, aber mit 1. Pärdiktorvaribale X1
- -> unterdrückt X2 einen Teil von X1 der nicht mit Kriteriumsvariable Y korreliert ist (korreliert stärke)
Reziproke Suppression
- Beide Prädiktoren (X1 und X2) haben positive Relation mit Kriteirum Y, untereinander negativ korreliert
Negative Suppression
- Alle Variablen untereinander positiv korreliert, Prädiktorvariable zeigt kleinere Korrelation mit Krierium als das Produkt der Relation des andernen Prädiktors& Korrelation der Prädiktoren (Relation wird abgeschwächt)

Regressionsdiagnostik

korrekte Spezifikation des Modells
Messfehlerfreiheit der UVs
Ausreißer und einflussreiche Datenpunkte
Mulitkollinearität (UVs korrelieren hoch)
Homoskedastizität
Unabhängigkeit der Residuen
Normalverteilung Residuen

Regressionsdiagnostik

(1 Spezifikation des Modells

Anzahl und Relevanz v. Variablen
- Alle relevanten Variablen sind enthalten, keine die unbedeutend sind
- Overfititng: Variablen im Modell die irrelevant sind
- Underfitting: relevante Variablen nicht im modell
Funktion des Zusammenhangs
- linear oder kurven linear?
- Ggr. Exploration mit LOWESS (Locally weighed scatterplot Smoother)

2) Ausreißer und einflussreiche Datenpunkte

Mahalanobis Distanz

Werte mit Mahalanobis Distanzen “viel größer” als diejenigen der anderen Datenpunkte gelten als Extremwert

(zentrierter) Hebelwert

Bei großen Stichproben sollte eine Schwellenwert bei 2k/n und bei kleiner von 3k/n gewählt werden (k=Parameter, n=Stichprobenumfang)

3) Multikollinearität

Wenn Prädiktoren (UVs) hoch korreliert sind, werden Regressionsgewichte mit großem Standardfehler geschätzt (=unpräzise)
Ausmaß der Multikollinearität lässt sich über Indizes angeben:

Toleranz (TOL)

Wennn TOL=0 ist Variable komplett linear abhängig von anderen Variablen
Wenn TOL=1 ist Variable komplett unkorreleirt mit anderen Variablen

Varianzinflations-Faktor (VIF)

Kehrwert der Toleranz: Untere Grenze liegt bei 1 (=gut, Variable unabhängig)
Je höher Varianzinflation wird, desto problematischer (VIF>10 = auffällig)

Hilfe bei Multikolliniearitätsproblem

Zentrierung
Elliminieren v. UVs
Aggregation (z.b. Score aus hoch korrelierten Prädiktorvariablen berechnen)
Faktoranalytische Reduktion (Faktorwerte als Prädiktoren verwenden, nicht beobachteten Prädiktoren; Varinate der Aggregation)

3) Homoskedastizität

Homoskedastizität = Residuen hängen nicht von Auspärgung der Variablen ab (vs. Heteroskedastizität= Residuenunterschieden sich je nach Ausprägungen der variablen)

Umgang mit Heteroskedastizität

Schätzmethode weighted least sqaures (WLS) statt ordinary least squares (OLS)
Gewichte so wählen, dass Summe der quadrierten Abweichungen minimal ist
Technisch 2 Regressionen: 1. Residuen bestimmen 2. Residuen auf UVs zurückführen
- Residualterme fungieren dann als Gewichte

4) Unabhängigkeit der Residuen

Klumpenstichprobe
- Personen werden in natürlichen Clustern gezogen (z.b. Schuklassen)
  - Standardfehler wird unterschätzt, hilfe: bei wenigen Klumpen diese als Variablen kodieren, bei vielen Klumpen Mehrebenenmodelle schätzen
Serielle Abhängigkeit
- Typischer Faöl bei Zeireihen/Einzelfallanalysen: Drittfaktoren, welche Abweichung erzeugen bleiben über Zeitintervall, sodass benchabrte Messungen durch vergelichabre Faktoren beeinflusst sind und somit kovariieren
Autokorrelation
- Ausmaß, in dem Wert über benachbarte Werte (i.d.R. vorausgegangene) vorausgesagt wird
  - Wird in Zeitreihenanalysen modelliert um dafpr zu korriegieren