Regressionsdiagnostik

Buffl

Statistik Master

by Sarah P.

Voraussetzungen in der Multiplen Regression

-> Bedingungen für die Zulässigkeit der Interpretation und statistische Schlüsse

-> Betrachtung der modellbedingten Datenstrukturen

ANNAHMEN:

Korrekte Spezifikation des Modells
Messfehlerfreiheit der UVs
Homoskedastizität
Unabhängigkeit der Residuen
Normalverteilung der Residuen
Zufälligkeit fehlender Werte (nicht regressionsspezifisch)

Problematische Datenstrukturen

Mulitkollinearität
Ausreißer und einflussreiche Datenpunkte

Annahme: Korrekte Spezifikation des Modells

= alle relevanten Prädiktoren drin, aber keine zu viel

Bedeutung:

angenommene Form des Zusammenhangs korrekt
alle relevanten Variablen (und Terme) sind im Modell (kein Underfitting)
keine irrelevanten Variablen im Modell (kein Overfitting)

Konsequenzen bei Verletzung:

Verzerrung der Regressionsgewichte
Verzerrung der Standardfehler der Regressionsgewichte (geringe Teststärke)

Überprüfung:

Theoretisch angenommener Zusammenhang?
Vivariate Streudiagramme mit LOWESS-Anpassungslinie
Aufnahme und statistische Überprüfung von nicht-linearen Termen oder Interaktionen

Annahme: Messfehlerfreiheit der UVs

Bedeutung:

Reliabilität = 1
In der Psychologie Reliabilitäten typischerweise zwischen .7 und .9

Konsequenzen bei Verletzung:

Verzerrung der Regressionsgewichte
Bivariate Regression -> Unterschätzung der Regressionsgewichte
Multiple Regression -> Unter- oder Überschätzung der Regressionsgewichte
Verzerrung der Standardfehler der Regressionsgewichte

Überprüfung:

Reliabilitäten berechnen oder der Literatur entnehmen

Abhilfe:

möglichst reliable Skalen auswählen
ausreichend Items zur Skalenbildung verwenden
Strukturgleichungsmodelle mit latenten Variablen verwenden

Homoskedastizität und Normalverteilung

= Annahme bedingter Normalverteilungen mit konstanter Varianz über den Wertebereich der Prädiktoren bzw der vorhergesagten Werte hinweg

Annahme Homoskedastizität

konstante Varianz = Homoskedastizität

Bedeutung:

bedingte Varianzhomogenität der AV bzw. der Residuen über die Ausprägungen der vorhergesagten Werte hinweg
Bei Nichtvorliegen liegt Heteroskedastizität vor

Konsequenzen bei Verletzung:

Erwartungstreue Schätzung des Regressionskoeffizienten
Verzerrte Standardfehler -> verzerrte KIs und p-Werte

Überprüfung:

graphisch: Residuen gegen vorhergesagte Werte plotten
Statistisch: Non-Constant-Varaince Test (H0 = Homoskedastizität)

Abhilfe:

Ausmaß feststellen: Gruppen nach vorhergesagten Werten einteilen
Varainzen der Gruppen vergleichen, gravierenden Verletzung erst bei Verhältnis der größten zu kleinsten Varianz > 10
zur Not robuste Schätzverfahren wählen

Arten von Residuen

Unstandardisiert: Abweichung des vorhergesagten von den beobachteten Werten
Standardisiert: Residuen geteilt durch den Standardschätzfehler
Studentisiert: Residuen geteilt durch die geschätzte Populationsstandardabweichung der Residuen an der Stelle xm
Gelöscht: Abweichung des vorhergesagten Wertes - geschätzt über ein Modell ohne entsprechende Person - von ihrem beobachteten Wert
studentisiert gelöscht: gelöschte Residuen werden studentisiert

-> Einschätzung der Extremität nach Quantilen der Standardnormalverteilung

Residuen vs. vorhergesagte Werte: Graphische Überprüfung

-> wir wollen keine Struktur sehen

-> wenn Lowess-Linie (rote Linie) völlig auf 0 liegen würden, gäbe es in keinem Bereich eine Über oder Unterschätzung

-> Annahme: Residuen und vorhergesagte Werte korrelieren zu 0

-> Einteilung der Gruppen anhand vorhergesagter Werte

-> Heteroskedastizität erst gegeben bei sehr großen Unterschieden (zB eine Box 10 Mal so groß wie eine andere)

-> Box gibt die mittleren 50% der Werte wieder, dicker schwarzer Strich=Median

Annahme: Unabhängigkeit der Residuen

Bedeutung:

Innerhalb der Residuen sollten keine systematischen Zusammenhänge vorliegen
häufig nicht gegeben bei mehrstufigen Stichproben oder Längsschnittdaten

Konsequenzen bei Verletzung:

Erwartungstreue Schätzung der Regressionskoeffizienten
Verzerrte Standardfehler -> Verzerrte KIs und p-Werte

Überprüfung:

gedanklich: Untersuchungsdesign
Statistisch:
- Intraklassen-Korrelation bei geclusterten Daten (Multilevel)
- Autokorrelation bei serialer Abhängigkeit (Vortestwert als Prädiktor mit reinnehmen und rausrechnen)
Graphisch: Indexplots, zB Boxplots getrennt nach Subgruppen

Abhilfe:

Multilevelanalysen oder Kodierung der Gruppenzugehörigkeit
Autokorrelation mit Lag-Variable auspartialisieren

Annahme: Normalverteilung der Residuen

(hängt eng mit Homoskedastizität zusammen)

Bedeutung:

an jedem Punkt der regressionsgeraden Residuen bedingt normalverteilt
auch insgesamt normalverteilt

Konsequenzen bei Verletzung:

Erwartungstreue Schätzung der Regressionskoeffizienten
Verzerrte Standardfehler -> verzerrte KIs und p-Werte

Überprüfung:

graphisch:
- Histogramm
- QQ-Plot der Residuen

Abhilfe:

Modellspezifikation überprüfen
Eventuell Daten transformieren oder das verallgemeinerte lineare Modell nutzen

QQ-Plot

-> so lange alle Punkte in dem Konfindenzintervall (hellblauer Bereich) liegen, alles okay

-> hier eine Person nicht drin: 166

Dichtekurve

= wie ein Histogramm ohne Säulen

-> Dichte = Vorkommen der Residuen (roter Bereich)

-> Verletzung: roter Bereich außerhalb der blauen Kurve

Übersicht Konsequenzen bei Verletzung der Annahmen

Fehlende Werte: Entstehungsprozesse

MCAR (Missing completely at random)
-> Ob ein Wert fehlt, ist unabhängig von dem nicht-gemessenen Wert und anderen Eigenschaften der Person
MAR (Missing at random)
-> Ob ein Wert fehlt, hängt von beobachteten Eigenschaften der Personen ab
MNAR (Missing not at random)
-> Ob ein Wert fehlt, hängt systematisch von seinem eigentlichen Wert ab, auch nach Kontrolle von anderen beobachteten Eigenschaften der Personen

Umgang mit fehlenden Werten

MCAR testbar für vorhaandene X
MAR nicht testbar
bei MAR und bekannten Kovariaten:
- multiples Imputationsverfahren (R: MICE oder Hmisc Pakete)
- Full Information ML Schätzverfahren (für fehlende Werte werden plausible Werte eingesetzt)

Ausreißer und einflussreiche Datenpunkte

Daten auf unplausible Werte kontrollieren:

Eingabefehler, Kodierungen fehlender Werte
zB im Plot oder den Deskriptivstatistiken erkennbar

Starker Einfluss auf Regressionsparameter?

-> DfBetaS-Werte untersuchen

Starker Einfluss auf die geschätzten Werte?

-> DfFitS-Werte untersuchen

Beurteilung:

Werte jeweils Variablen, d.h. Verteilung berücksichtigen
Kritische Werte in der Literatur sind kein strenger Cutoff

Identifikation von Ausreißern …

… auf der AV:

-> studentisierte gelöschte Residuen

… auf den UVs:

-> Hebelwerte oder Mahalanobis-Distanzen

Ausreißer auf der AV

studentisiert gelöschte Residuen theoretisch t-verteilt mit df = n - k - 1
Beurteilung extremer Abweichungen graphisch, Hilfslinien 99% Quantil

-> jenseits der gestrichelten Linie würden wir nur 1% der Werte erwarten

-> Punkte die außerhalb liegen = auffällig bzgl der AV

Ausreißer auf den UVs: Hebelwerte hm

= engl. leverage oder hatvalues

-> basieren auf der absuluten Abweichung eines Wertes vom Mittelwert bzw. vom Schwerpunkt

-> je weiter ein individueller Wert vom MW abweicht, desto stärker “zieht” er an der Regressionsgeraden

Vorgehen:

Verteilung der Hebelwerte plotten
Auffällig hohe Werte (in Relation zur Verteilung) identifizieren

Verteilungskennwerte:

Ausreißer: Einfluss auf Regressionskoeffizienten

DfBeta = Differenz (Df) Regressionskoeffizienten (beta)

wie stark verändert sich ein Regressionskoeffizient, wenn eine bestimmte Person entfernt wird?
Je ein Wert pro Person und Regressionskoeffizient (DfBeta0, DfBeta1 …)
Größen skalenabhängig -> wird daher standardisiert zu DfBetaS

DfBetaS

S = standardisiert am Standardfehler der Regressionskoeffizienten (ohne diese Person)
skalenunabhängig, daher Größe absolut bewertbar
absolute Werte > 1 -> auffällig in kleinen bis mittelgroßen Stichproben
absolute Werte > 2/Wurzel n -> auffällig in großen Stichproben

-> Interaktionen und Quadratische Zusammenhänge besonders anfällig für Ausreißerwerte

Ausreißer: Einfluss auf geschätzte Werte

DfFit = Differenz (Df) des vorhergesagten Wertes (Fit) einer Person in einem Modell ohne diese Person und einem Modell mit dieser Person

DfFitS (hier gibt es nur 1 pro Person)

DfFit-Werte standardisiert an geschätztem Standardfehler der vorhergesagten Werte (ohne diese Person)
absolute Werte > 1 -> auffällig in kleinen bis mittelgroßen Stichproben
absolute Werte > 2*Wurzel (k+1)/n -> auffällig in großen Stichproben

Cook-Distanz (in R)

basieren auf quadrierten DfFitS-Werten (Werte also nicht negativ)
Vorschlag, extreme Abweichungen über das 0.5-Quantil einer F-Verteilung zu ermitteln

Umgang mit auffälligen Werten

Identifikation:

Gibt es überhaupt auffällige Werte?
Schwellenwerte nicht bindend, Bezug zu Gesamtverteilung wichtig
Verschiedene Indizes sollten möglichst schlüssiges Bild ergeben
Werte v. a. problematisch, wenn Schätzungen beeinflusst werden

Exploration & Dokumentation:

Wie extrem sind die Werte und welche Eigenschaften haben die Personen?
Eingabefehler, Boykott, etc.? -> entfernen & protokollieren
Besonderer Einzelfall? -> entfernen & protokollieren
Verschiedene Subpopulationen? -> Mischverteilungsmodelle

Allgemein:

Werte oft schon in Streudiagrammen auffällig
Nicht leichtfertig Fälle ausschließen
Jeden Ausschluss mit Begründung dokumentieren
Population, auf die sich die Interpretation bezieht, explizit nennen

Multikollinearität

Bedeutung:

hohe multiple Korrelation eines Prädiktors mit anderen Prädiktoren
häufig bei Verwendung verschiedener Messzeitpunkte oder Subskalen desselben Konstrukts als Prädiktoren bzw. bei großer überlappung, Redundanz der UVs

Konsequenzen bei Vorliegen:

Erhöhung der Standardfehler der Partialregressionskoeffizienten
Verzerrung von Teststatistiken, Verlust von statistischer Power (Teststärke)
Unpräzise Schätzung und Erschwerung der Interpretation der Partialregressionskoeffizienten

Überprüfung:

statistisch: Toleranz & Varianzinflations-Faktor

Abhilfe:

Redundante Prädiktoren zusammenfassen (Aggregation) oder ausschließen (Eliminierung)
Verwendung von Strukturgleichungsmodellen

Toleranz

= Eigenschaft der PRÄDIKTOREN: Wie groß ist die Varianz jedes Prädiktors, die nicht durch die Varianz der anderen Prädiktoren erklärbar ist (wir sagen jeden Prädiktor aus allen anderen vorher)

TOLj = Uniquenessmaß für den Prädiktor Xj

Wertebereich:

TOLj = 0 -> Perfekte Multikollinearität (Prädiktor kann durch andere Prädiktoren vollständig vorhergesagt werden
TOLj = 1 -> Einzigartigkeit (Prädiktor ist unkorreliert mit allen anderen Prädiktoren)
TOLj < .10 -> Daumenregel für sehr hohe Multikollinearität

Varianzinflationsfaktor

= Kehrwert der Toleranz