Vorraussetzungen einfache Regressionen
Intervallskaliert
Linearität des Zusammenhangs von UV und AV
Linearität der Regressionskoeffizienten (Gauß-Markov-Annahme 1)
Zufallsstichprobe (2)
Bedingter Erwartungswert von 0: jeder Wert der UV hat Fehlerwert Ewartungswert 0 (3)
Ausprägungen der UVs nicht konstant (Stichprobenvariation) (4)
Homoskedastizität: für jeden Wert der Uvs hat Fehlerwert die gleiche Varianz (5)
Fehlerwerte hängen nicht voneinander ab
Fehlerwerte sind normalverteilt
Lineare Regression
Regressionsgleichung und koeffizienzen
Eigenschaften der (Regressions) Residuen
X= Beobachtungswert, E=Erwartungswert
Determinationskoeffizient
(Erklärt wie gut die AV durch UVs erklärt wird -> Anteil der Varianz)
Regressionsrichtung
Abzissenabschnitt= Punkt an dem Gerade X-Achse schneidet
Ordinatenabschnitt= Punkt an dem Gerade Y-Achse schneidet
Winkel a gibt an wie beide Geraden auseinander scheren Arbeit mit Gewichten
Nicht-lineare Regression
Kategoriale Pädiktoren
Analyse kategorialer Pädiktoren
Z.B.: Geschlecht, Altersgruppen, Schultypen….
Generelles Vorgehen
Eine Kategorie wird zur Referenzkategorie
Für alle andern Stufen des Prädiktors lassen sich Effekte der Abweichung von Referenzkategorie bestimmen
Bei Prädiktor mit c Stufen werden generell c-1 Hilfsvariablen benötigt, auf die man Prädiktorstufen aufteilt
Mögliche Varianten
Dummy-Kodierung
Ungewichtete / Gewichtete Effektkodierung
Vorgehen
eine Kategorie wird zur Referenzkategorie
Bei insgesamt c Kategorien werden c-1 Dummy Varibalen angelgt
Bei jeder Dummy-Variable erhält eine Stufe Zahl 1, anderen 0 (1=anwesenheit, 0= abwesenheit)
Z.B:
Kleinstadt ist Referenzkategorie
X1 kodiert Unterschiedt zw. Großstadt und Kleinsatd
X2 kodiert Unterschied zw. Mittelstadt und Kleinstadt
Ungewichtete Effekt-Kodierung
Eine Kategorie sit Referenzkategorie
Bei insgesamt c Kategorien werden c-1 Dummy Variablen angelegt
Bei jeder Dummy Variable erhält eine Stufe die Zahl 1
Referenzkategorie hat Zahl -1
z.b.
X1 kodiert Unterschied zw. Großstadt und (ungewichteten) mittleren Ausprägung der anderen Stufen
Gilt genauso für X2 (Mittelstadt)
Gewichtete Effekt-Kodierung
Interpretatiom der Regressionsgewichte
Empfehlung
Bei beideutungsvollen Referenzkategorie: Dummy Kodierung, sonst Effektkodierung
Ungewichtete Effektkodierung sinnvill, wenn Ausfälle rein zufällig sind (z.b. Experiment)
Gewichtete Kodierung, wenn Unterscheide in Häufikgeit v. Stufen exisiteren/relevant sind (z.b. repräsentative Bevölerungsstichproben)
Voraussetzungenn der multiplen Regressionen
AV intervallskaliert, UV intervallskaliert/dummy skaliert
Linearität des Zusammenhangs von allen UVs und Av
Linearität der Regressionskoeffizienten (Annahme 1)
Fehlerwert hat Erwartungswert 0 (3)
Stichprobenvariation der UVs (auspärgungen nicht konstant) (4)
Homoskedastizität (5)
Unahbhänigkeit des Fehlerwerts
Normalverteilung Fehlerwert
Keine Multikollinearität (Uvs korrelieren nicht stark)
Multiple Prädiktoren (Beispiel Modellvergleich)
Suppressionseffekte
Aufnahme eines wieteren Prädiktors X2 kann auch zu einer Vegrößerung der Voraussage eines Prädiktos X1 führen, somit Gesamtovraussage vergrößern
Klassische Suppression
2. Prädiktorvariable X2 korreliert 0 mit Kriteriumsvaraible Y, aber mit 1. Pärdiktorvaribale X1
-> unterdrückt X2 einen Teil von X1 der nicht mit Kriteriumsvariable Y korreliert ist (korreliert stärke)
Reziproke Suppression
Beide Prädiktoren (X1 und X2) haben positive Relation mit Kriteirum Y, untereinander negativ korreliert
Negative Suppression
Alle Variablen untereinander positiv korreliert, Prädiktorvariable zeigt kleinere Korrelation mit Krierium als das Produkt der Relation des andernen Prädiktors& Korrelation der Prädiktoren (Relation wird abgeschwächt)
Regressionsdiagnostik
korrekte Spezifikation des Modells
Messfehlerfreiheit der UVs
Ausreißer und einflussreiche Datenpunkte
Mulitkollinearität (UVs korrelieren hoch)
Homoskedastizität
Unabhängigkeit der Residuen
Normalverteilung Residuen
(1 Spezifikation des Modells
Anzahl und Relevanz v. Variablen
Alle relevanten Variablen sind enthalten, keine die unbedeutend sind
Overfititng: Variablen im Modell die irrelevant sind
Underfitting: relevante Variablen nicht im modell
Funktion des Zusammenhangs
linear oder kurven linear?
Ggr. Exploration mit LOWESS (Locally weighed scatterplot Smoother)
2) Ausreißer und einflussreiche Datenpunkte
Mahalanobis Distanz
Werte mit Mahalanobis Distanzen “viel größer” als diejenigen der anderen Datenpunkte gelten als Extremwert
(zentrierter) Hebelwert
Bei großen Stichproben sollte eine Schwellenwert bei 2k/n und bei kleiner von 3k/n gewählt werden (k=Parameter, n=Stichprobenumfang)
3) Multikollinearität
Wenn Prädiktoren (UVs) hoch korreliert sind, werden Regressionsgewichte mit großem Standardfehler geschätzt (=unpräzise)
Ausmaß der Multikollinearität lässt sich über Indizes angeben:
Toleranz (TOL)
Wennn TOL=0 ist Variable komplett linear abhängig von anderen Variablen
Wenn TOL=1 ist Variable komplett unkorreleirt mit anderen Variablen
Varianzinflations-Faktor (VIF)
Kehrwert der Toleranz: Untere Grenze liegt bei 1 (=gut, Variable unabhängig)
Je höher Varianzinflation wird, desto problematischer (VIF>10 = auffällig)
Hilfe bei Multikolliniearitätsproblem
Zentrierung
Elliminieren v. UVs
Aggregation (z.b. Score aus hoch korrelierten Prädiktorvariablen berechnen)
Faktoranalytische Reduktion (Faktorwerte als Prädiktoren verwenden, nicht beobachteten Prädiktoren; Varinate der Aggregation)
3) Homoskedastizität
Homoskedastizität = Residuen hängen nicht von Auspärgung der Variablen ab (vs. Heteroskedastizität= Residuenunterschieden sich je nach Ausprägungen der variablen)
Umgang mit Heteroskedastizität
Schätzmethode weighted least sqaures (WLS) statt ordinary least squares (OLS)
Gewichte so wählen, dass Summe der quadrierten Abweichungen minimal ist
Technisch 2 Regressionen: 1. Residuen bestimmen 2. Residuen auf UVs zurückführen
Residualterme fungieren dann als Gewichte
4) Unabhängigkeit der Residuen
Klumpenstichprobe
Personen werden in natürlichen Clustern gezogen (z.b. Schuklassen)
Standardfehler wird unterschätzt, hilfe: bei wenigen Klumpen diese als Variablen kodieren, bei vielen Klumpen Mehrebenenmodelle schätzen
Serielle Abhängigkeit
Typischer Faöl bei Zeireihen/Einzelfallanalysen: Drittfaktoren, welche Abweichung erzeugen bleiben über Zeitintervall, sodass benchabrte Messungen durch vergelichabre Faktoren beeinflusst sind und somit kovariieren
Autokorrelation
Ausmaß, in dem Wert über benachbarte Werte (i.d.R. vorausgegangene) vorausgesagt wird
Wird in Zeitreihenanalysen modelliert um dafpr zu korriegieren
Normalverteilung
Histogramm der studentisierten (skalierten) Residuen
Residuen sollten normalverteilt um null sein
Probability-Probability (P-P) Plot bzw. Quantile-Quantile (Q-Q) Plot
Für angenommene Verteilungsfomr der Residuen werden (kumulativen) Wahrscheinlichkeiten vorausgesagt und mit empirischen abgeglichen
Abhilfe bei Nicht-Normalverteilung
Transformation der Variablen, sodass diese ungefähr normalverteilt sind
Rekodierung der Variablen und Wahl eines robusten regressionsmodells
Verletzungen der Annahmen und Konsequenzen
Intercept und Slope
Intercept = Achsenabschnitt
Repräsentiert den Wert der AV wenn UV 0 ist, Schnittpunkt y-Achse (b)
Slope= Steigung
Gibt an wie stark sich AV ändert wenn UV um eine Einheit zunimmt (m)
Zuletzt geändertvor 10 Monaten