Multiple Regression (Vorteile, Nutzen)
Berücksichtigung von Redundanzen und Kontrolle von Störvariablen
Gegenseitige Kontrolle mehrerer Prädiktoren im Modell
Prognose und Erklärung
Analyse komplexer Zusammenhänge
Untersuchung eventueller Wechselwirkungen
Interpretation der (Partial)regressionsgewichte muss nun immer die übrigen Prädiktoren im Modell berücksichtigen
Elemente der Modellgleichung
Y = Beobachtete Kriteriumswerte
E = Residualvariable
b0 = Achsenabschnitt, Intercept
Schnittpunkt der Regressionsebene und der Y-Achse
Vorhergesagter Wert für Personen mit X1 = 0 und X2 = 0
b1 = Partialregressionsgewicht von X1
Steigung aller bedingten Regressionsgeraden von Y auf X1 I Unterschied im vorhergesagten Wert bei gleichem X2 und Unterschied in X1 um eine Einheit
b2 = Partialregressionsgewicht von X2
Steigung aller bedingten Regressionsgeraden von Y auf X2 I Unterschied im vorhergesagten Wert bei gleichem X1 und Unterschied in X2 um eine Einheit
Darstellung als Regressionsebene
—> Schnittgeraden nennt man auch bedingte Regressionsgeraden
Zentrierung
= von jedem beobachteten Wert xm wird der Mittelwert abgezogen
resultierende zentrierte Varaible hat einen Mittelwert von 0 und die Standardabweichung der Ursprungsvariable
für kontinuierliche Prädiktoren fast immer sinnvoll
Ausnahme: sinnvoller Nullpunkt vorhanden
Abhängige Variable wird typischerweise nicht zentriert
Vorteile Zentrierung
Sinnvoll Interpretation des Intercepts möglich
Reduktion von nicht-essentieller Multikollinearität
Determinationskoeffizient R^2 und Partialregressionsgewichte ändern sich (im additiven Fall) nicht
Standardisierung
= Von jedem beobachteten Wert xm wird der Mittelwert abgezogen und diese Differenz durch die Standardabweichung geteilt (z-Standardisierung)
resultierende z-standardisierte Variable hat einen Mittelwert von 0 und eine Standardabweichung von 1
standardisierte Regressionskoeffizienten ergeben sich aus der Regression standardisierter Variablen
Interpretation der Standardabweichungen als Einheiten
Dichotome Variablen werden nicht standardisiert
-> p-Werte bleiben gleich
-> b0 wird null
-> b1 und b2 ändern sich
Welche Kennwerte ändern sich nach Standardisierung?
Punktschätzer des Intercepts
Punktschätzer der Steigungskoeffizienten
inferenzstatistische Kennwerte des Intercepts
nicht verändern tun sich:
inferenzstatistische Kennwerte der Steigungskoeffizienten
Determinationskoeffizient + inferenzstatistische Kennwerte
Standardisierung Anwendung
-> Angabe standardisierter Gewichte oft als zusätzliche Information als eine Art Effektgröße
-> Vergleich des Einflusses verschiedener Prädiktoren mit unterschiedlichen Skalen
-> zum Vergleich verschiedener Studien mit denselben Konstrukten, die aber nicht mit denselben Instrumenten/Fragebogen gemessen wurden
Vorsicht bei homogenen Stichproben: Durch kleine Standardabweichungen scheinen die Effekte sehr groß.
—> Berichten von unstandardisierten und standardisierten Gewichten!!
(Partial-) Regressionsgewichte
Regressionsgewicht einfache Regression
= standardisierte Korrelation nullter Ordnung
Partialregressionsgewicht multiple Regression
berücksichtigt Redundanz der Prädiktoren
Reihenfolge der Prädiktoren in der Gleichung irrelevant
Entspricht genau dann dem Regressionsgewicht der einfachen Regression, wenn keine Redundanz vorhanden ist (unkorrelierte Prädiktoren)
ist oft kleiner als bei einfacher Regression
kann unter bestimmten Umständen auch größer sein als bei einfacher Regression (Suppression)
entspricht standardisiert nicht Semipartialkorrelationen
R und R^2
R = multiple Korrelation = Korrelation zwischen vorhergesagten und beobachteten Werten
R^2 = quadrierte Korrelation = Determination = Determinationskoeffizient
standardisiertes Maß für die Güte der Vorhersage von Y durch X bzw. das Gesamtmodell
Anteil der Variation vorhergesagter Werte an der Gesamtvariation von Y
Wertebereich [0;1]
R^2 = 0 : Y unabhängig von den Prädiktoren
R^2 = 1 : Y-Werte perfekt vorhersagbar
R^2 = c : c*100% der Unterschiede in Y können durch das Modell vorhergesagt bzw. erklärt werden
R^2 (weitere Darstellung)
-> R^2 lässt sich auch darstellen als Summe von Semipartialdeterminationen (quadrierte Semipartialkorrelationen) zunehmend höherer Ordnung (jeweils ein weiterer Prädiktor wird auspartialisiert)
-> Annahme einer Reihe von Regressiosnmodellen, die jeweils einen weiteren Prädiktor enthalten
-> die quadrierte Semipartialkorrelation des Kriteriums mit dem zusätzlichen Prädiktor, der um die übrigen Prädiktoren bereinigt wurde, entspricht dem Zuwachs in R^2
Nützlichkeit (Utility)
Wie viel Varianz klären zusätzliche Prädiktoren auf?
∆R^2 ist die sog. Änderung bzw. das Inkrement in R2
Differenz der R^2-Werte zweier geschachtelter Modelle
Modelle sind geschachtelt, wenn das restriktivere Modell (mit weniger Prädiktoren) ein Sonderfall des allgemeineren Modells ist.
Reihenfolge der Aufnahme der Prädiktoren für den Modellvergleich entscheidend!
Entspricht der Nützlichkeit U eines einzelnen Prädiktors, wenn sich die verglichenen Modelle nur in diesem Prädiktor unterscheiden.
Spezialfälle (Zusammenhangsmuster und wie verändert sich R^2)
Unkorreliertheit der Prädiktoren -> R^2 ist die Summe aus den beiden einzelnen R^2 der Prädiktoren
Exakte Kollinearität der Prädiktoren -> Multiples R^2 wäre gleich des einzelnen R^2 eines Prädiktors
Vollständige Redundanz (Scheinkorrelation, vollständige Mediation durch X2) -> Änderung im R^2 ist gleich null
Partielle Redundanz der Prädiktoren: bER > bMR
Suppression (z.B. maskierter Zusammenhang, Verbesserung/Bereinigung eines Prädiktors: bER < bMR -> multiples R^2 größer als die Addition aus den einzelnen R^2s
Partielle Redundanz
standardisierte Partialregressionsgewichte kleiner als standardisierte Regressionsgewichte in einfacher Regression (die der Korrelation nullter Ordnung entsprechen)
Redundanz in den Prädiktoren wird berücksichtigt, Prädiktoren werden kontrolliert
Suppression
verschiedene Definitionen:
Conger (1974): Über Vergleich des standardisierten Partialregressionsgewichts mit der Korrelation nullter Ordnung (alle Werte positiv gepolt)
Velicer (1978), auch Enhancement: Über Vergleich der Nützlichkeit mit Korrelation nullter Ordnung -> wenn Nützlichkeit unerwartet hoch, dann wahrscheinlich Suppressionseffekt
Spezialfälle:
klassische Suppression (unkorrelierter Suppressor X2)
reziproke Suppression (gegenseitige Kontrolle)
negative Suppression
Negative Suppression
schlimmster Typ von Suppression
Nützlichkeit nicht unbedingt erhöht
nicht darstellbar als Venn-Diagramm
Indikation: Vorzeichenwechsel des Regressionsgewichts von “Suppressor” X2
Unterschied im Vorzeichen zwischen Korrelation nullter Ordnung mit dem Kriterium (bzw. dem Regressionsgewicht aus der einfachen bivariaten Regression) und dem Partialregressionsgewicht in der multiplen Regression
Fazit Suppression
Suppression modellgebunden, selten genau einer Variable zuzuordnen
Hauptindikator: R^2 für multiples Modell größer als Summer der quadrierten Korrelationen aus der einfachen Regression
Prädiktorauswahl auf Basis der Korrelationen nullter Ordnung mit dem Kriterium irreführend
Korrelierte Prädiktoren bedeuten nicht immer redundante Zusammenhänge
Regressive Zusammenhänge sind nicht ohne weiteres kausal zu interpretieren
Inferenzstatistik: Vorgehen
Aufstellung von Null- und Alternativhypothese
Berechnung einer empirischen Prüfgröße auf Basis der Stichprobenkennwerte
Vergleich mit der theoretischen Verteilung der Prüfgröße unter der H0 (über p-Werte, kritische Werte oder Konfidenzintervalle)
Statistische Entscheidung (Beibehaltung oder Verwerfung der H0)
Präzisere Information über Bestimmung einer Effektgröße
Zusätzliche Information über Intervallschätzung der Effektgröße
(Post-Hoc-Poweranalyse)
Standardschätzfehler
= Maß für die Streuung der beobachteten Werte um die vorhergesagten Werte
= Standardabweichung der Residualvariablen
Residual standard error in R-Output
Geschätzter Standardfehler
für jedes Partialregressionsgewicht
Standardabweichung der Stichprobenkennwerteverteilung von Bj
Information über Präzision der Parameterschätzung
Für inferenzstatistische Absicherung benötigt
Berechnung über Standardschätzfehler möglich
engl: Standard Error SE
bei R: Spalte neben Estimates
Adjusted R^2 (Korrekturformel)
R^2 ist kein erwartungstreuer Schätzer für den Populations-Determinationskoeffizienten P^2
R^2 überschätzt P^2 systematisch, daher adjsutiertes/korrigiertes/geschrumpftes R^2
Verzerrung wird kleiner mit größerem n (Stichprobengröße)
Verzerrung wird größer mit größerem k (Anzahl Prädiktoren)
Konfidenzintervalle für R^2
R^2 kann nur positiv werden, daher wird alpha verdoppelt -> 90% KI
Unterschiedliche Berechnungen für stochastische und deterministische Regressoren (gleiche Parameterschätzungen, aber unterschiedliche Stichprobenkennwerteverteilungen)
Deterministischer Regressor:
Ausprägungen der UV sind feste Werte (vollständig durch Versuchsplanung determiniert)
Annahmen bezüglich Residuen: Homoskedastizität, Normalverteilung, Unabhängigkeit
Stochastischer Regressor:
Ausprägungen der UV sind Realisierungen einer Zufallsvariablen X (nicht vollständig durch Versuchsplanung determiniert)
Annahme: multivariate Normalverteilung der Variablen
Signifikanztest für ∆R^2
Modellvergleich:
Modelle müssen auf Basis derselben Daten geschätzt sein (gleiche Anzahl Personen)
Modelle müssen geschachtelt sein
uneingeschränktes bzw. vollständiges Modell u: enthält alle UVs
eingeschränktes bwz. reduziertes Modell e: Ohne die UVs, deren Einfluss getestet werden soll
Nullhypothese: Alle Partialregressionskoeffizienten der zusätzlichen UVs sind gleich null
Prüfgröße F
Auswahlstrategien Prädiktoren
Theoretische Auswahl:
A priori Überlegungen zu Reihenfolge sinnvoller Einflussvariablen
Auch Überlegungen zum Einschluss nicht-linearer Terme, Interaktionen
Wahl eines Basis-Modells mit Kontrollvariablen entsprechend der Literatur
Testung des inkrementellen Beitrags zusätzlicher Variablen, ggfs. blockweise
Sparsamkeitsprinzip: einfachstes Modell mit allen relevanten Termen
Ziel: Modell mit interpretierbaren Komponenten
Datengesteuerte Auswahl:
Vorwärtsselektion: Aufnahme der Prädiktoren in Reihenfolge der Höhe ihrer Korrelation mit dem Kriterium bzw. nach (signifikantem) Inkrement in R2.
Rückwärtselimination: Ausgehend von vollständigem Modell Ausschluss von Prädiktoren, die zu nicht-signifikanter Reduktion in R2 führen.
Schrittweise: Vorwärtsselektion mit optionaler Elimination, wenn Prädiktoren durch zusätzlich aufgenommene Variablen an Vorhersagekraft verlieren.
Ziel: Maximierung der Vorhersage, Identifikation von Prädiktoren
Arten kategorialer Variablen
Nominalskalierte Variablen
Dichotome Variablen
zwei Kategorien bzw. Faktorstufen
Experimentelle Bedingung (Therapie- vs. Kontrollgruppe)
Polytome Variablen
mehr als zwei ungeordnete Kategorien
Experimentelle Bedingung (Treatment 1, Treatment 2, Kontrollgruppe)
Ordinale Variablen
Mehr als zwei geordnete Antwortkategorien
Ratingsskalen
Schulnoten (1-6)
Kodiervariablen
-> Dichotome Prädiktoren können nur unter bestimmten Umständen direkt in das Regressionsmodell aufgenommen werden
-> Polytome kategoriale Prädiktoren können unter keinen Umständen direkt in das Modell aufgenommen werden
-> Erstellung von Kodiervariablen nötig
Für eine UV mit c Kategorien werden c-1 Kodiervariablen benötigt
verschiedene Kodierschemata: zB Dummy- und Effektkodierung
Art der Kodierung hat keinen Einfluss auf die Güte des Gesamtmodells (R^2)
Art der Kodierung entscheidend für die Interpretation der Regressionskoeffizienten
Kategoriale Prädiktoren: Häufigste Kodierschemata
Dummykodierung
Effektkodierung (ungewichtet oder gewichtet)
Kontrastkodierung
Wahl des Kodierschemas
Dummy:
sinnvolle Referenzgruppe
Gruppenunterschiede im Fokus
Effekt:
Keine eindeutige Referenzgruppe
Gruppenabweichungen von Gesamtmittelwert im Fokus
Unterschiede in Gruppengröße zufällig -> ungewichtet
Unterschiedliche Gruppengrößen nicht ignorierbar -> gewichtet
zB bei Nationen
Kontraste:
spezifische Hypothesen zu Struktur der Mittelwertsunterschiede
Dummy-Kodierung Vorgehen
Wähle eine der c Kategorien der unabhängigen Variablen als Referenzkategorie aus.
Weise dieser Referenzkategorie auf allen Kodiervariablen den Wert 0 zu.
Weise allen anderen Kategorien der unabhängigen Variablen Werte auf den c − 1 Kodiervariablen derart zu, dass
jede Kategorie nur auf einer einzigen Kodiervariablen einen Wert von 1 aufweist, auf allen anderen Kodiervariablen den Wert 0,
jede Kodiervariable nur für eine einzige Kategorie den Wert 1 aufweist, für alle anderen den Wert 0.
Bedeutung der Koeffizienten
b0 Mittelwert der Referenzkategorie
bj Abweichung des jeweiligen Gruppenmittelwerts vom Mittelwert der Referenzkategorie
Ungewichtete Effekt-Kodierung Vorgehen
Vorgehen
Weise dieser Referenzkategorie auf allen c − 1 Kodiervariablen den Wert -1 zu.
jede Kodiervariable nur für eine einzige Kategorie den Wert 1 aufweist, für die Referenzkategorie -1, für alle anderen den Wert 0.
b0 Ungewichteter Gesamtmittelwert der abhängigen Variable (= Mittelwert über
Kategorien-Mittelwerte)
≠ Gesamtmittelwert über alle Personen hinweg (bei ungleichen Gruppengrößen)
bj Abweichung des jeweiligen Gruppenmittelwerts vom ungewichteten Gesamtmittelwert (Effekt der Kategorie)
Gewichtete Effekt-Codierung
Weise dieser Referenzkategorie auf der Kodiervariablen Xj den Wert −(nX j/nR) zu.
jede Kodiervariable nur für eine einzige Kategorie den Wert 1 aufweist und für die Referenzkategorie −(nX j/nR), für alle anderen den Wert 0.
b0 Gewichteter Gesamtmittelwert der abhängigen Variable (= Mittelwert über alle
Personen)
bj Abweichung des jeweiligen Gruppenmittelwerts vom Gesamtmittelwert
Zusammenfassung Kodierschemata
Kovarianzanalyse ANCOVA
Kombination kategorialer und kontinuierlicher Prädiktoren
Additive Verknüpfung ohne Interaktion (klassische ANCOVA)
Untersuchung der Mittelwertsunterschiede zwischen Faktorstufen nach Kontrolle kontinuierlicher Kovariaten (Kontrollvariablen)
Im besten Fall Erhöhung der Power zur Absicherung des Gruppenunterschieds
Kontinuierliche Kovariaten sollten am Gesamtmittelwert zentriert sein
ANCOVA Modellgleichung
C = Dummyvariable für Nicht-Referenzgruppe
X = Zentrierte Kovariate
Adjustierte Mittelwerte
Gruppenvergleich basiert auf adjustierten Mittelwerten
Adjustiert um Unterschiede zwischen den Gruppen auf den/der Kovariaten
= formal bedingte Erwartungswerte
Bedingungen für korrekte Adjustierung:
Messfehlerfreiheit der unabhängigen Variablen (Lord’s Paradox)
Korrekte Spezifikation des Regressionsmodells (keine ausgelassenen Variablen und Terme)
Ausreichende Überlappung der gruppenspezifischen Verteilungen der Kovariaten
Keine Interaktion zwischen Gruppe und Kovariate
Interaktion zwischen Gruppe und Kovariate
Auswirkung des kontinuierlichen Prädiktors auf die abhängige Variable kann sich zwischen den Gruppen unterscheiden
-> Generalisierte ANCOVA
Generalisierte ANCOVA: Allgemeines Vorgehen
Zentrierung des kontinuierlichen Prädiktors, Kodierung der Gruppenvariable
Erstellung einer Produktvariable der Prädiktoren
Personen in der Referenzgruppe erhalten auf der Produktvariable eine 0 (bei Dummy-Kodierung)
Personen in der Nicht-Referenzgruppe erhalten auf der Produktvariable ihre Werte des kontinuierlichen Prädiktors
Modellgleichung
Gruppenspezifische Modellgleichungen
Modellgleichung:
Gruppenspezifische Modellgleichungen:
Moderierte Regression
-> Interaktion zwischen kontinuierlichen Prädiktoren
-> Intercept und Steigung ändern sich abhängig von Ausprägung des anderen Prädiktors
Moderierte Regression: Allgemeines Vorgehen
Vorüberlegung zu theoretisch sinnvollen Interaktionen (theoriegeleitet vorgehen)
Prädiktoren zur besseren Interpretierbarkeit zentrieren
Produkt aus zentrierten Prädiktoren bilden (ggfs. implizit in R)
Produktterm zusätzlich zu zentrierten Prädiktoren in Regressionsgleichung aufnehmen
Signifikanztestung über Regressionsgewicht des Produktterms oder ∆R2
Interpretation der Haupteffekte der Prädiktoren als bedingte Regression
E(Y |X1 = 0, X2 = 0) − E(Y |X1 = 1, X2 = 0)
Darstellung & Interpretation der Interaktion z. B. über Simple Slopes
Moderierte Regression: Elemente der Modellgleichung
Moderierte Regression: Darstellung
Gekrümmte Ebene
-> Produktterm biegt die Ebene (b3 = Krümmungsfaktor, da X1X2 perfekt von X1 und X2 abhängig ist
Bedingte Regressionsgeraden
= simple slopes
Entscheiden welche Variable soll Moderator sein?
Für welche Werte stelle ich die bedingten Regressionsgeraden auf? (zB Extremwerte, Mittelwerte)
Einsetzen von bestimmten Ausprägungen für den Moderator, zB Mittelwert (0, da zentriert), +1SD und -1SD
Ausrechnen der spezifischen Intercepts und Steigungen
Inferenz für bedingte Regressionsgeraden
Testung der Terme b1 + b3X2 und b2 + b3X1 über Berechnung des Standardfehlers und Testung für bestimmte Prädiktorwerte
Alternativ: Johnson-Neyman-Intervall (JNI), das angibt, für welchen Bereich eines Moderators das Regressionsgewicht signifikant ist
Y Achse: Regressionsgewicht
X Achse: Ausprägung des Moderators
Ist die Steigung signifikant
KI überschreitet an einer Stelle die 0, ab diesem Punkt sind die Steigungen der Regressionsgeraden nicht mehr signifikant
Was ändert sich bei der Zentrierung bzw. Standardisierung der kontinuierlichen Prädiktoren im Vergleich zum unzentrierten Modell?
Additives Modell:
Intercept ändert sich durch Zentrierung, inkl. t- und p-Werte
Haupteffekte unverändert nach Zentrierung der Prädiktoren
Intercept wird durch Standardisierung 0 (und damit n. s.)
Haupteffekte (und Metrik) ändern sich durch Standardisierung, t- und p-Werte aber nicht
Modell mit Interaktion:
Intercept und Haupteffekte ändern sich durch Zentrierung, inkl. t- und p-Werte
Interaktionseffekt unverändert nach Zentrierung der Prädiktoren
Intercept und Haupteffekte ändern sich durch Standardisierung (inkl. t- und p-Werte)
Interaktionseffekt (und Metrik) ändern sich durch Standardisierung, dazugehörige t- und p-Werte aber nicht
-> Gesamtanpassung (R^2 mit F und p) ändert sich NIE!
Nicht-lineare Zusammenhänge
= Steigung soll sich ändern für die Ausprägung des selben Prädiktors
Inferenz wie üblich (t-Test des Regressionsgewichts bzw. F-Test für ∆R2)
Alle Polynome niedrigerer Ordnung (z. B. X) müssen in Regressionsgleichung enthalten sein, auch wenn sie nicht signifikant sind
Möglichst theoriegeleitet vorgehen
Prädiktor zentrieren
Rein explorative Befunde replizieren
Auf Ausreißerwerte achten (! Annahmen)
Kurven sind an Extremwerten von X nicht informativ, wenn dort nur wenige Datenpunkte vorliegen
Keine Extrapolationen über den vorliegenden Wertebereich von X hinaus vornehmen
Form des Zusammenhangs
meist Parabel (quadratisch), d.h. Richtung des Zusammenhangs ändert sich einmal, ein Scheitelpunkt
selten kubischt (zwei Scheitelpunkte) oder höher
auch andere Formen denkbar: zB exponentiell
Nicht lineare Zusammenhänge: Allgemeines Vorgehen
Prädiktor sollte wieder zentriert sein
Erstellung der transformierten Variable, des Polynoms (X^2)
In das Regressionsmodell die transformierte Variable zusätzlich als Prädiktor aufgenommen
Alle Polynome niedrigerer Ordnung müssen in der Modellgleichung enthalten sein
Nicht-lineare Zusammenhänge: Elemente der Modellgleichung
Explorative Linienanpassung
-> LOWESS Anpassungsverfahren
= Modellfreies Verfahren zur graphischen Überprüfung der Form (Linearität) eines bivariaten Zusammenhangs
-> Definition der Brite eines Glättungsfensters
mini Gerade wird berechnet für genau einen Punkt zum nächsten
einzelnen Geraden werden notiert und eingezeichnet
Kurve wird eingezeichnet durch ganz viele einzelne Steigungen
Last changed2 years ago