Voraussetzungen in der Multiplen Regression
-> Bedingungen für die Zulässigkeit der Interpretation und statistische Schlüsse
-> Betrachtung der modellbedingten Datenstrukturen
ANNAHMEN:
Korrekte Spezifikation des Modells
Messfehlerfreiheit der UVs
Homoskedastizität
Unabhängigkeit der Residuen
Normalverteilung der Residuen
Zufälligkeit fehlender Werte (nicht regressionsspezifisch)
Problematische Datenstrukturen
Mulitkollinearität
Ausreißer und einflussreiche Datenpunkte
Annahme: Korrekte Spezifikation des Modells
= alle relevanten Prädiktoren drin, aber keine zu viel
Bedeutung:
angenommene Form des Zusammenhangs korrekt
alle relevanten Variablen (und Terme) sind im Modell (kein Underfitting)
keine irrelevanten Variablen im Modell (kein Overfitting)
Konsequenzen bei Verletzung:
Verzerrung der Regressionsgewichte
Verzerrung der Standardfehler der Regressionsgewichte (geringe Teststärke)
Überprüfung:
Theoretisch angenommener Zusammenhang?
Vivariate Streudiagramme mit LOWESS-Anpassungslinie
Aufnahme und statistische Überprüfung von nicht-linearen Termen oder Interaktionen
Annahme: Messfehlerfreiheit der UVs
Reliabilität = 1
In der Psychologie Reliabilitäten typischerweise zwischen .7 und .9
Bivariate Regression -> Unterschätzung der Regressionsgewichte
Multiple Regression -> Unter- oder Überschätzung der Regressionsgewichte
Verzerrung der Standardfehler der Regressionsgewichte
Reliabilitäten berechnen oder der Literatur entnehmen
Abhilfe:
möglichst reliable Skalen auswählen
ausreichend Items zur Skalenbildung verwenden
Strukturgleichungsmodelle mit latenten Variablen verwenden
Homoskedastizität und Normalverteilung
= Annahme bedingter Normalverteilungen mit konstanter Varianz über den Wertebereich der Prädiktoren bzw der vorhergesagten Werte hinweg
Annahme Homoskedastizität
konstante Varianz = Homoskedastizität
bedingte Varianzhomogenität der AV bzw. der Residuen über die Ausprägungen der vorhergesagten Werte hinweg
Bei Nichtvorliegen liegt Heteroskedastizität vor
Erwartungstreue Schätzung des Regressionskoeffizienten
Verzerrte Standardfehler -> verzerrte KIs und p-Werte
graphisch: Residuen gegen vorhergesagte Werte plotten
Statistisch: Non-Constant-Varaince Test (H0 = Homoskedastizität)
Ausmaß feststellen: Gruppen nach vorhergesagten Werten einteilen
Varainzen der Gruppen vergleichen, gravierenden Verletzung erst bei Verhältnis der größten zu kleinsten Varianz > 10
zur Not robuste Schätzverfahren wählen
Arten von Residuen
Unstandardisiert: Abweichung des vorhergesagten von den beobachteten Werten
Standardisiert: Residuen geteilt durch den Standardschätzfehler
Studentisiert: Residuen geteilt durch die geschätzte Populationsstandardabweichung der Residuen an der Stelle xm
Gelöscht: Abweichung des vorhergesagten Wertes - geschätzt über ein Modell ohne entsprechende Person - von ihrem beobachteten Wert
studentisiert gelöscht: gelöschte Residuen werden studentisiert
-> Einschätzung der Extremität nach Quantilen der Standardnormalverteilung
Residuen vs. vorhergesagte Werte: Graphische Überprüfung
-> wir wollen keine Struktur sehen
-> wenn Lowess-Linie (rote Linie) völlig auf 0 liegen würden, gäbe es in keinem Bereich eine Über oder Unterschätzung
-> Annahme: Residuen und vorhergesagte Werte korrelieren zu 0
-> Einteilung der Gruppen anhand vorhergesagter Werte
-> Heteroskedastizität erst gegeben bei sehr großen Unterschieden (zB eine Box 10 Mal so groß wie eine andere)
-> Box gibt die mittleren 50% der Werte wieder, dicker schwarzer Strich=Median
Annahme: Unabhängigkeit der Residuen
Innerhalb der Residuen sollten keine systematischen Zusammenhänge vorliegen
häufig nicht gegeben bei mehrstufigen Stichproben oder Längsschnittdaten
Erwartungstreue Schätzung der Regressionskoeffizienten
Verzerrte Standardfehler -> Verzerrte KIs und p-Werte
gedanklich: Untersuchungsdesign
Statistisch:
Intraklassen-Korrelation bei geclusterten Daten (Multilevel)
Autokorrelation bei serialer Abhängigkeit (Vortestwert als Prädiktor mit reinnehmen und rausrechnen)
Graphisch: Indexplots, zB Boxplots getrennt nach Subgruppen
Multilevelanalysen oder Kodierung der Gruppenzugehörigkeit
Autokorrelation mit Lag-Variable auspartialisieren
Annahme: Normalverteilung der Residuen
(hängt eng mit Homoskedastizität zusammen)
an jedem Punkt der regressionsgeraden Residuen bedingt normalverteilt
auch insgesamt normalverteilt
graphisch:
Histogramm
QQ-Plot der Residuen
Modellspezifikation überprüfen
Eventuell Daten transformieren oder das verallgemeinerte lineare Modell nutzen
QQ-Plot
-> so lange alle Punkte in dem Konfindenzintervall (hellblauer Bereich) liegen, alles okay
-> hier eine Person nicht drin: 166
Dichtekurve
= wie ein Histogramm ohne Säulen
-> Dichte = Vorkommen der Residuen (roter Bereich)
-> Verletzung: roter Bereich außerhalb der blauen Kurve
Übersicht Konsequenzen bei Verletzung der Annahmen
Fehlende Werte: Entstehungsprozesse
MCAR (Missing completely at random)
-> Ob ein Wert fehlt, ist unabhängig von dem nicht-gemessenen Wert und anderen Eigenschaften der Person
MAR (Missing at random)
-> Ob ein Wert fehlt, hängt von beobachteten Eigenschaften der Personen ab
MNAR (Missing not at random)
-> Ob ein Wert fehlt, hängt systematisch von seinem eigentlichen Wert ab, auch nach Kontrolle von anderen beobachteten Eigenschaften der Personen
Umgang mit fehlenden Werten
MCAR testbar für vorhaandene X
MAR nicht testbar
bei MAR und bekannten Kovariaten:
multiples Imputationsverfahren (R: MICE oder Hmisc Pakete)
MICE
Hmisc
Full Information ML Schätzverfahren (für fehlende Werte werden plausible Werte eingesetzt)
Daten auf unplausible Werte kontrollieren:
Eingabefehler, Kodierungen fehlender Werte
zB im Plot oder den Deskriptivstatistiken erkennbar
Starker Einfluss auf Regressionsparameter?
-> DfBetaS-Werte untersuchen
Starker Einfluss auf die geschätzten Werte?
-> DfFitS-Werte untersuchen
Beurteilung:
Werte jeweils Variablen, d.h. Verteilung berücksichtigen
Kritische Werte in der Literatur sind kein strenger Cutoff
Identifikation von Ausreißern …
… auf der AV:
-> studentisierte gelöschte Residuen
… auf den UVs:
-> Hebelwerte oder Mahalanobis-Distanzen
Ausreißer auf der AV
studentisiert gelöschte Residuen theoretisch t-verteilt mit df = n - k - 1
Beurteilung extremer Abweichungen graphisch, Hilfslinien 99% Quantil
-> jenseits der gestrichelten Linie würden wir nur 1% der Werte erwarten
-> Punkte die außerhalb liegen = auffällig bzgl der AV
Ausreißer auf den UVs: Hebelwerte hm
= engl. leverage oder hatvalues
-> basieren auf der absuluten Abweichung eines Wertes vom Mittelwert bzw. vom Schwerpunkt
-> je weiter ein individueller Wert vom MW abweicht, desto stärker “zieht” er an der Regressionsgeraden
Vorgehen:
Verteilung der Hebelwerte plotten
Auffällig hohe Werte (in Relation zur Verteilung) identifizieren
Verteilungskennwerte:
Ausreißer: Einfluss auf Regressionskoeffizienten
DfBeta = Differenz (Df) Regressionskoeffizienten (beta)
wie stark verändert sich ein Regressionskoeffizient, wenn eine bestimmte Person entfernt wird?
Je ein Wert pro Person und Regressionskoeffizient (DfBeta0, DfBeta1 …)
Größen skalenabhängig -> wird daher standardisiert zu DfBetaS
DfBetaS
S = standardisiert am Standardfehler der Regressionskoeffizienten (ohne diese Person)
skalenunabhängig, daher Größe absolut bewertbar
absolute Werte > 1 -> auffällig in kleinen bis mittelgroßen Stichproben
absolute Werte > 2/Wurzel n -> auffällig in großen Stichproben
-> Interaktionen und Quadratische Zusammenhänge besonders anfällig für Ausreißerwerte
Ausreißer: Einfluss auf geschätzte Werte
DfFit = Differenz (Df) des vorhergesagten Wertes (Fit) einer Person in einem Modell ohne diese Person und einem Modell mit dieser Person
DfFitS (hier gibt es nur 1 pro Person)
DfFit-Werte standardisiert an geschätztem Standardfehler der vorhergesagten Werte (ohne diese Person)
absolute Werte > 2*Wurzel (k+1)/n -> auffällig in großen Stichproben
Cook-Distanz (in R)
basieren auf quadrierten DfFitS-Werten (Werte also nicht negativ)
Vorschlag, extreme Abweichungen über das 0.5-Quantil einer F-Verteilung zu ermitteln
Umgang mit auffälligen Werten
Identifikation:
Gibt es überhaupt auffällige Werte?
Schwellenwerte nicht bindend, Bezug zu Gesamtverteilung wichtig
Verschiedene Indizes sollten möglichst schlüssiges Bild ergeben
Werte v. a. problematisch, wenn Schätzungen beeinflusst werden
Exploration & Dokumentation:
Wie extrem sind die Werte und welche Eigenschaften haben die Personen?
Eingabefehler, Boykott, etc.? -> entfernen & protokollieren
Besonderer Einzelfall? -> entfernen & protokollieren
Verschiedene Subpopulationen? -> Mischverteilungsmodelle
Allgemein:
Werte oft schon in Streudiagrammen auffällig
Nicht leichtfertig Fälle ausschließen
Jeden Ausschluss mit Begründung dokumentieren
Population, auf die sich die Interpretation bezieht, explizit nennen
Multikollinearität
hohe multiple Korrelation eines Prädiktors mit anderen Prädiktoren
häufig bei Verwendung verschiedener Messzeitpunkte oder Subskalen desselben Konstrukts als Prädiktoren bzw. bei großer überlappung, Redundanz der UVs
Konsequenzen bei Vorliegen:
Erhöhung der Standardfehler der Partialregressionskoeffizienten
Verzerrung von Teststatistiken, Verlust von statistischer Power (Teststärke)
Unpräzise Schätzung und Erschwerung der Interpretation der Partialregressionskoeffizienten
statistisch: Toleranz & Varianzinflations-Faktor
Redundante Prädiktoren zusammenfassen (Aggregation) oder ausschließen (Eliminierung)
Verwendung von Strukturgleichungsmodellen
Toleranz
= Eigenschaft der PRÄDIKTOREN: Wie groß ist die Varianz jedes Prädiktors, die nicht durch die Varianz der anderen Prädiktoren erklärbar ist (wir sagen jeden Prädiktor aus allen anderen vorher)
TOLj = Uniquenessmaß für den Prädiktor Xj
Wertebereich:
TOLj = 0 -> Perfekte Multikollinearität (Prädiktor kann durch andere Prädiktoren vollständig vorhergesagt werden
TOLj = 1 -> Einzigartigkeit (Prädiktor ist unkorreliert mit allen anderen Prädiktoren)
TOLj < .10 -> Daumenregel für sehr hohe Multikollinearität
Varianzinflationsfaktor
= Kehrwert der Toleranz
gibt an, um welchen Faktor sich der Standardfehler durch Einschluss der Variablen Xj erhöht
VIFj = 1 Prädiktor ist unkorreliert mit allen anderen Prädiktoren
VIFj > 10 sehr hohe Multikollinearität
Übersicht graphische Prüfverfahren
Übersicht diagnostischer Indizes
-> Schwellenangaben für große Stichproben (≥ 100)
-> Veränderung bezieht sich immer auf den Vergleich zwischen Ergebnissen mit und ohne Person m
-> lieber nach extremen Personen suchen, da bei kritischen Werten oft zu viele Personen ausgeschlossen werden
Zuletzt geändertvor 2 Jahren