Multiple Regression

Buffl

MASTER: Methoden & Statistik

by Jonas S.

Ziel (1)

Vorhersage eine Kriteriums aus einem oder mehreren Prädiktoren

Voraussetzungen (7)

• Normalverteilte Residuen

– Intervallskaliertes, normalverteiltes Kriterium

– Intervallskalierte, normalverteilte Prädiktoren oder dichotome Prädiktoren

• Multivariate Normalverteilung

• Homoskedastiziät

• Unabhängige Beobachtungen (Messwerte einer VPN beeinflussen nicht die MW einer anderen VPN)

• Lineare Zusammenhänge

• Keine Multikollinearität, Singularität

• Große Stichproben

– Empfehlungen: Mindestens 𝑁 > 60 Probanden

– und: bei k Prädiktoren 𝑁 > 20 ⋅ 𝑘 Probanden

Strukturgleichung & Regressionsparameter (4)

Regressionsparameter

• Bestimmung über die Methode „kleinsten Quadrate“ (engl. „Ordinary Least Square

Regression“), d.h. die Parameter werden so gewählt, dass die Summe der quadrierten Residuen minimal ist

• Die Regressionsgewichte (𝛽1, 𝛽2, …) geben an, wie sich das Kriterium im Durchschnitt ändert, wenn der Prädiktor um den Wert 1 steigt

• Die Regressionskonstante (𝛽0) gibt den durchschnittlichen Wert des Kriteriums an, wenn alle Prädiktoren 0 sind

• Die Ergebnisse für die Regressionsparameter sind kontextabhängig, d.h. sie gelten nur im Kontext der für die Analyse ausgewählten Prädiktoren!

Signifikanztest der multiplen Regression (2)

t-Test für einzelne Prädiktoren —> inkrementelle Validität wird geprüft!

– Regressionsgewichte geteilt durch ihren Standardfehler folgen der t-Verteilung mit 𝑑𝑓 = N − 𝑘 − 1

– Wenn nicht-signifikant Prädiktoren weggelassen werden sollen, muss die Regression erneut berechnet werden!

• Ominibustest

– Klären die Prädiktoren insgesamt einen signifikanten Anteil der Kriteriumsvarianz auf?

– F-Test mit k Zählerfreiheitsgraden und 𝑁 − 𝑘 − 1 Nennerfreiheitsgraden

Aufgeklärte Varianz (2)

Aufgeklärte Varianz

• R² gibt den Anteil aufgeklärter Varianz an

• Generell ist die Angabe des korrigierten R² (Schätzer für aufgeklärte Varianz in Population) vorzuziehen; hier wird R² um erwartete zufällige Anteile nach unten korrigiert (R2 überschätzt (sehr wahrscheinlich) Zusammenhänge da es nur die Stichprobe betrachtet und der Populationswert geringer ist/sein muss --> größer je kleiner N und je mehr Prädiktoren)

Multiple Regression in R ()

model = lm(LZH~extra+control+sozial+erfolg)

summary(model)

Ausgabe:

Schrittweises Vorgehen (Hierarchische Regression) (3)

• Auswahl von verwendeten Prädiktoren auf statistischer Basis

• Achtung: Vergrößerte Gefahr, Zusammenhänge zu überschätzen („Overfitting“ / „Capitalization of Chance“)

• Methoden

– Vorwärts-Selektion (forward): Man startet mit einem Nullmodell ohne Prädiktoren, und nimmt schrittweise die Prädiktoren auf, die einen substantiellen Beitrag zur Varianzaufklärung

leisten

– Rückwärts-Eliminierung (backward) : Man startet mit dem vollen Modell mit allen Prädiktoren, und schließt schrittweise die Prädiktoren aus, die keinen substantiellen Beitrag zur Varianzaufklärung leisten

– Gemischtes Vorgehen (stepwise): Hier werden abwechselnd Vorwärts- und Rückwärtsschritte probiert

Kriterien zur Aufnahme/Ausschluss eines Parameters

– Akaike Information Criterion (AIC)

– Bayes Information Criterion (BIC) —> Modellkomplexität wird stärker „bestraft“

– Modelle mit kleinerem AIC / BIC Wert werden bevorzugt

Hierarchische Regression in R (1)

start.model = lm(LZH ~ 1)

fwd.model = step(start.model, direction='forward',

scope=(~extra+control+sozial+erfolg))

Nominalskalierte oder Ordinalskalierte Prädiktoren (3)

Nominalskalierte Prädiktoren müssen mit 𝑘 − 1 Dummy-Variablen kodiert werden

Es ergeben sich unterschiedliche Interpretationen für die Regressionsparameter

und die zugehörigen Signifikanztests

– Dummykodierung (Unterscheiden sich die Gruppenmittelwerte der Gruppen d1 d2 oder d3?):

𝛽0: Mittelwert der Kontrollgruppe;

𝛽𝑖: Abweichung von der Kontrollgruppe

– Effektkodierung (Unterscheidet sich der Wert einer Gruppe von der einer anderen?):

𝛽0: Gesamtmittelwert;

𝛽𝑖 Abweichung vom Gesamtmittelwert

Die Art der Kodierung hat aber keinen Einfluss den globalen F-Test oder die aufgeklärte Varianz (𝑅²)

Nominalskalierte Prädiktoren in R (2)

Nominalskalierte Prädiktoren in R

• Nominalskalierte Prädiktoren werden als Faktor definiert

• Es erfolgt per Voreinstellung eine Dummycodierung mit der ersten Gruppe als Referenzkategorie

• Für die Effektkodierung muss der Unterbefehl contrasts(…)verwendet werden.

Interaktionseffekte (Moderatoranalyse) (1)

• Interaktionseffekte besagen, dass der Effekt eines Prädiktors A von der Ausprägung eines Prädiktors B abhängt

• Beispiel: Einsamkeit hat besonders negative Auswirkungen, wenn man Misserfolge erlebt hat

Interaktionseffekte (Moderatoranalyse): Vorgehen (3)

Schritt 1: Zentrierung der Prädiktoren

– Die Zentrierung der Prädiktoren erleichtert die Interpretation der Haupteffekte

– … und hilft, Multikollinearität zu vermeiden

– Häufig werden die Prädiktoren z-Standardisiert

• Schritt 2: Berechnung eines neuen Prädiktors als Produkt der Einzelprädiktoren

• Schritt 3: Berechnung der Multiplen Regression mit den zentrierten Prädiktoren und

deren Produkt

– In R werden automatisch die Haupteffekte und Interaktionseffekte berechnet, wenn die Prädiktoren mit

einem „*“ verbunden werden.

Polynomiale Regression (3)

Bei der polynomialen Regression werden lineare, quadratische, kubische, … Effekte der Prädiktoren in die Regressionsgleichungen aufgenommen:

• Lineare Effekte (𝑥): Zusammenhang von Prädiktor und Kriterium wird durch eine

Gerade beschrieben

• Quadratische Effekte (𝑥2): U-Förmiger oder umgekehrt U-förmiger Zusammenhang von

Prädiktor und Kriterium

• Kubische Effekte (𝑥3): Zwei „Richtungswechsel“: S-förmiger Verlauf der Vorhersagefunktion

Beispiel: „Zeit alleine“ und „Lebenszufriedenheit“

– Umgekehrt U-Förmiger Zusammenhang mittleres Niveau ist optimal

– I(a^2)verursacht, dass der Term a^2 direkt arithmetisch ausgewertet wird, also vor der Parameterschätzung

Das Gesamtmodell: Was macht Sie glücklich? ()

Was macht Sie glücklich?

• Hierarchische Auswahl aus allen Prädiktoren und Interaktionen

• Konservatives Vorgehen:

– BIC statt AIC

– Hier werden zusätzlich Parameter stärker „bestraft“

– In R geschieht dies über die Verwendung des Faktors 𝑘 = ln 𝑁

– 𝐴𝐼𝐶 = 𝟐 ⋅ 𝑝 − 2 ⋅ l𝑜𝑔 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

– 𝐵𝐼𝐶 = 𝐥𝐧 𝐍 ⋅ 𝑝 − 2 ⋅ log 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 mit 𝑝 = 𝐴𝑛𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 Prä𝑑𝑖𝑘𝑡𝑜𝑟𝑒𝑛

Zusammenfassung: Multiple Regression ()

• Voraussetzungen der Multiplen Regression

– Intervallskalenniveau; Normalverteilung; Homoskedastizität; Unabhängige Beobachtungen;

Linearität; Keine Multikollinearität; Große Stichproben

• Interpretation der Regressionsparameter

– Kontextabhängigkeit

• Hierarchische Regression

• Nominalskalierte Prädiktoren

– Dummy-Kodierung

– Effektkodierung

• Interaktionseffekte

– Zentrierung der Parameter beachten!

• Polynomiale Regression

– Lineare Effekte

– Quadratische Effekte

Join Course

Preview

Author

Jonas S.

Information

Last changed
3 years ago

Report course