Prinzip der Regression
Kann Variable x einen signifikanten Anteil der Varianz von Variable y erklären?
= Anteil aufgeklärter Varianz (R2)
Ist der Zusammenhang zwischen den Variablen x und y signifikant von 0 verschieden?
= Zusammenhangsmaß (B, r)
Welche Variable wird als Prädiktor aufgenommen
zeitliche Reihenfolge
experimentelle Manipulation
theoretische Überlegungen
etc.
Determinationskoeffizient R2
Anteil der Varianz von y, die durch x erklärt werden kann bzw. durch die lineare Kombination mehrerer Prädiktoren
0 bis 1
kann als % interpretiert werden
Korrigierter Determinationskoeffizient
R2 tendiert zur Überschätzung in der Population
je größer N, desto kleiner die Korrektur
Unstandardisierte Regressionskoeffizienten
a = Konstante (Interzept)
vorhergesagter Wert von y an der Stelle x = 0
b = Steigung
erwartete Veränderung des Kriteriums y, wenn der Prädiktor x um eine Einheit erhöht wird
Residuen
= Vorhersagefehler
Differenz zwischen dem beobachteten Wert und dem mithillfe der Regressionsgeraden vorhergesagten Wert y
Anteile des Kriteriums, die nicht durch den Prädiktor erfasst werden
Messfehler
Bestandteile, die durch andere Prädiktoren erklärt werden können
Methode der kleinsten Quadrate
zur Bestimmung der Regressionsgerade
gesucht wird die Regressionsgerade, die den Zusammenhang zwischen x und y am besten repräsentiert
= die kleinsten Residuen aufweist
Summe der quadrierten Abweichungen der beobachteten von den vorhergesagten Werten wird minimiert
Mittelwert der Residuen idealerweise 0
Standardschätzfehler se
kennzeichnet Streuung der y-Werte um die Regressionsgerade
Gütemaß für die Genauigkeit der Regressionsvorhersagen
Problem von unstandardisierten Regressionskoeffizienten
Steigung b ist abhängig von der SD
daher kein standardisiertes Maß
kein Vergleich zwischen verschiedenen Variablen (in unterschiedlichen Einheiten) möglich
auch kein Vergleich zwischen b1 und b2 innerhalb einer multiplen Regression (nur wenn gleiche Skala)
Standardisierte Regressionsgerade
A = 0
B = r = standardisierte Steigung oder Beta-Gewicht
Mittelwerte und SD von x und y standardisiert
M = 0; SD = 1
Prinzip der multiplen Regression
Analyse von linearen Beziehungen zwischen
einer Kriteriumsvariable y
mehreren Prädiktorvariablen x1, x2, …, xk (k = Anzahl Prädiktoren)
Einfluss jedes Prädiktors auf das y wird gemessen während der Einfluss aller anderen Prädiktoren kontrolliert wird
Multiple Regression im 3D-Raum
bei einem Prädiktor haben wir eine Gerade
Bei >2 Prädiktoren haben wir eine Regressionsebene oder -fläche
Zu welchen Effekten kann die Aufnahme weiterer Prädiktoren bei den bereits vorhandenen Steigungskoeffizienten führen?
keine Veränderung (Prädiktoren unkorreliert)
Verringerung der Steigungskoeffizienten
Prädiktoren korrelieren
Steigungskoeffizienten werden kleiner, da die gemeinsame Varianz subtrahiert wird
Reduktion der Vorhersagekraft der einzelnen Prädiktoren durch Redundanz
Anstieg der Steigungskoeffizienten oder Vorzeichenwechsel (Suppressionseffekt)
Prädiktoren korrelieren, aber Prädiktor 2 korreliert nur gering mit dem Kriterium
b1 wird durch Hinzunahme von Prädiktor 2 größer, weil der Fehler eliminiert wird
Anteil der Varianz, den Prädiktor 1 erklären kann, wird größer
Multiple vs. einfache Regression
Beziehung zwischen den Prädiktoren wird berücksichtigt
weniger Alpha-Fehler-Kumulierung
mehr potenzielle Varianzaufklärung
Voraussetzungen für multiple Regression
(keine) Multikollinearität = hohes Maß an Abhängigkeit zwischen den Prädiktoren
Problem: Abhängigkeit führt zu einer Instabilität der Regressionskoeffizienten
wenn hoch korrelierende Prädiktoren verwendet werden
wenn viele Prädiktoren verwendet werden
Diagnose: Betrachtung der Toleranzen oder der Varianz-Inflations-Faktoren (VIF) = Kollinearitätskennwerte
Toleranz = Anteil des Prädiktors xj, der nicht durch die anderen Prädiktoren erklärt werden kann
Toleranzwerte < 0,25 bzw. VIF > 4: erhebliche Redundanz der Prädiktorwerte
Zuletzt geändertvor einem Jahr