Logistische Regression

Buffl

MASTER: Methoden & Statistik

by Jonas S.

Kapitel 4 Logistische Regression

Einführung in die Logistische Regressionsanalyse (3)

Einführung in die Logistische Regressionsanalyse

• Die Logistische Regressionsanalyse dient zur Vorhersage eines kategorialen

Kriteriums (Gruppenzugehörigkeit) aus metrischen (oder kategorialen)

Prädiktorvariablen

• Meist werden binäre Kriterien verwendet

– Es können aber auch mehrstufige nominal- oder ordinalskalierte Kriterien

verwendet werden

• Forschungsziele

– Zusammenhänge von Prädiktoren und Kriterium

– Vorhersage des Kriteriums (Klassifikation)

– Wie bei der multiplen Regression

• Beispiel: Vorhersage einer Herzerkrankung (ja/nein) aus verschiedenen

medizinischen Parametern

Kapitel 4 Logistische Regression

Grenzen und Voraussetzungen

• Unabhängige Beobachtungen (sonst: logistische Multilevel-Analyse)

• Multikollinearität / Singularität machen die Parameterschätzung instabil

• Stichprobengröße

− Kleine Stichproben (kleine Gruppen) können problematisch sein (besonders

komplexen Modellen mit vielen Prädiktoren)

− Extrem hohe Parameterwerte (𝛽) oder fehlenden Konvergenz bei der

Parametersuche sind Hinweise auf zu kleine Stichproben

• Ausreißer können die Power schwächen

– Identifikation über die Residuen

• Nicht vorausgesetzt werden:

− Normalverteilung der Prädiktoren

− Varianzhomogenität (zwischen Gruppen)

− Linearität (zwischen den Prädiktoren)

Kapitel 4 Logistische Regression

Modellgleichung der Logistischen Regression

• Vorhergesagt wird die Wahrscheinlichkeit für eine Zugehörigkeit in Gruppe „1“:

• Der Exponent 𝑢 wird (wie bei einer multiplen Regression) als Linearkombination der

Prädiktoren gebildet:

Kapitel 4 Logistische Regression

Parameterschätzung

• Maximum Likelihood Verfahren

• Die logarithmierte Zuordnungswahrscheinlichkeit für die wahre Gruppe (𝑌𝑖 ∈ {0,1}) wird maximiert:

• Die Log-Likelihood für die gesamte Stichprobe wird berechnet als:

Kapitel 4 Logistische Regression

Die logit-Form der Modellgleichung

• Manchmal wird die „logit“ Form dargestellt:

• Diese Formel ist äquivalent zu der Darstellung:

Kapitel 4 Logistische Regression

Auswahl der Prädiktoren (3)

Auswahl der Prädiktoren

• Theoriegeleitetes Vorgehen

– Direktes Vorgehen: Alle ausgewählte Prädiktoren werden in einem Schritt

eingegeben

– Sequenzielles Vorgehen:

• Die Reihenfolge, in der Prädiktoren eingegeben werden, wird

theoriegeleitet festgelegt

• Mit dem LR Test kann geprüft werden, ob die neuen Prädiktoren einen

signifikanten Beitrag zur Vorhersage leisten

• Exploratives Vorgehen

– Prädiktoren werden aufgrund statistischer Kriterien ausgewählt

(R-Befehl: step(…))

– Es werden schrittweise Prädiktoren aufgenommen („forward“) oder

ausgeschlossen („backward“)

– Problem: Die Gefahr des overfittings ist besonders groß

—> Kreuzvalidierung erforderlich!

Kapitel 4 Logistische Regression

Datenbeispiel: Vorhersage der Studienschwerpunks

• Kriterium: DCP (0) vs. OBAC (1)

• Prädiktoren: Interesse für …

– 𝑥1: … Psychische Störungen und ihre Ursachen

– 𝑥2: … Gruppenprozesse

– 𝑥3: … Denken und Kognition

– 𝑥4: … Datenauswertung und Statistik

• Daten

Ergebnisse der Parameterschätzung

• 𝑢 = 0.75 − 0.18 ⋅ 𝑥1 + 0.05 ⋅ 𝑥2 + 0.04 ⋅ 𝑥3 + 0.04 ⋅ 𝑥4

Likelihood ratio test ()

Modellvergleiche mit dem Likelihood-Ratio-Test

• Genestete Modelle können mit einem Likelihood-Ratio-Test vergleichen werden

• Bewertung anhand des kritischen 𝜒2-Werts

− Signifikantes Ergebnis die zusätzlichen Prädiktoren verbessern den Modellfit

− Nicht-Signifikantes Ergebnis die zusätzlichen Prädiktoren verbessern den

Modellfit nicht!

• Omnibustest: Vergleich mit dem Nullmodell (ohne Prädiktoren)

• Alternativ: Modellvergleich (auch bei nicht genesteten Modellen) mit AIC/BIC

Goodness-of-fit: Hosmer–Lemeshow Test (4)

• Einteilung der Probanden in (z.B. 10) Risiko-Gruppen von sehr geringer bis

sehr hohe Zuordnungswahrscheinlichkeit für Gruppe 1

• Vorhersage für jede Risikogruppe: Erwartete Zahl der „Kategorie 1“ Zugehörigkeiten

• Vergleich der tatsächlichen und vorhergesagten Häufigkeiten mit einem 𝜒²-Tests

– 𝑑𝑓 = 𝑛𝑔𝑟𝑜𝑢𝑝 − 2

– Nicht-Signifikantes Ergebnis —>Gute Modellpassung

– Signifikantes Ergebnis —>Probleme bei der Modellpassung

• Gründe für signifikante Abweichungen

– Die logistische „Linkfunktion“ passt nicht zu den Daten

– (Nicht berücksichtigte) Interaktionen zwischen Prädiktoren

• Wichtig: Der HL-Test prüft nicht, ob ein starker Zusammenhang zwischen den

Prädiktoren und dem Kriterium besteht!

– Auch wenn die vorhergesagten Wahrscheinlichkeiten in allen Gruppe

nahe 50% ist, kann der HL Test unauffällig sein!

Die Effektstärke der Logistischen Regression (3)

Die Effektstärke der Logistischen Regression

• 𝑅2 als Maß für die aufgeklärte Varianz kann nicht direkt berechnet werden

• Alternative: McFadden‘s (korrigiertes) 𝜌2

– Schätzung von 𝑅2 aus der Log-Likelihood

–

wobei 𝐿1 die Likelihood des vollen Modells, 𝐿0 die Likelihood des Null-Modells

(ohne Prädiktoren), und 𝐾 die Anzahl der Prädiktoren ist

– Durch die Korrektur (−𝐾), ist 𝜌2 < 0 möglich

• Nagelkerkes Pseudo 𝑅2

– Schätzung der aufgeklärten Varianz aus der Likelihood

Interpretation der B-Gewichte (4)

• Aus den 𝛽-Gewichte kann bestimmt werden, wie sich die odds für die Gruppenzuordnung ändern, wenn der Prädiktor um den Wert 1 steigt

– 𝑒𝛽 ist das sogenannte „odds ratio“

– Wenn 𝑥 um 1 steigt, ändern sich die Odds für die Zuordnung zu Gruppe 1 um den Faktor 𝑒𝛽

• Beispiel: Interesses für psychische Störungen (𝑥1)

– 𝛽1 = −0.18

– Odds ratio: 𝑒𝛽1 = 𝑒−0.18 = 0.83

– Wenn 𝑒𝛽 < 1 (d.h. 𝛽 < 0) verringern hohe Werte auf dem Prädiktor die

Zuordnungswahrscheinlichkeit zu Gruppe 1

– Wenn 𝑒𝛽 > 1 (d.h. 𝛽 > 0) vergrößern hohe Werte auf dem Prädiktor die Zuordnungswahrscheinlichkeit zu Gruppe 1

Multinomiale Logistische Regression ()

• Es gibt mehrere Gruppen (mehrstufiges Kriterium)

− Bei k Stufen werden k-1 Regressionsgleichungen geschätzt

• Nominalskalierte Kriterien

− Vorhergesagte Wahrscheinlichkeit für eine Zuordnung von Person 𝑖 in Gruppe 𝑗:

− Die Zuordnungswahrscheinlichkeit der letzten Gruppe ergibt sich dann als:

• Ordinalskalierte Kriterien

– Bei ordinalskalierten Kriterien gibt jede Gleichung die Wahrscheinlichkeit an, dass das Kriterium größer als j ist:

Die logistische Regression in R ()

• Datenbeispiel: Vorhersage des Studienschwerpunkts aus den Studieninteressen

• Kriterium: 0 = 𝐷𝐶𝑃; 1 = 𝑂𝐵𝐴𝐶

• Prädiktoren

– 14 (potentielle) Prädiktoren [Wertebereich jeweils 0 bis 6]

– Interesse für …

(1) Psychische Störungen und ihre Ursachen

(2) Gruppenprozesse

(3) Denken und Kognition

(4) Datenauswertung und Statistik

(5) Personalauswahl und -entwicklung

(6) Motivation und Emotion

(7) Entwicklung über die Lebensspanne

(8) Biologische Grundlagen des Verhaltens

(9) Beratung und Coaching

(10)Schulpsychologie

(11)Mathematische Modellierung psychologischer Prozesse

(12)Psychologische Diagnostik

(13)Gesundheit und Prävention

(14)Umweltpsychologie

Berechnung des Null-Modells in R ()

Berechnung des Null-Modells

• Es soll ein Nullmodell als Baseline für die Log-Likelihood berechnet werden

• R-Befehl: glm(…) („Generalized Linear Models“)

– Angabe der Modellgleichung (wie bei lm())

– Das Kriterium (fos_n) muss als 𝟎/𝟏 kodiert sein

– In einem Nullmodell werden keine Prädiktoren angegeben

– fos_n~1 bedeutet, dass nur einen Konstante geschätzt wird

—>Gleiche Vorhersage für alle Personen (—>𝑝 entspricht dann der relative Häufigkeit der Gruppe 1)

– Zusätzlich muss die „link-Funktion“ angegeben werden: family = binomial('logit')

Schrittweise Aufnahme von Prädiktoren (nach AIC)

Odds Ratio

Konfidenzintervalle für Odds Ratio

– Wenn der Wert 1 nicht in den Konfidenzintervallen liegt, ist eine eindeutige Interpretation (Vergrößerung bzw. Verkleinerung der Odds) möglich

Vorhersage der Gruppenzugehörigkeit

Graph

Hosmer-Lemeshow Test

—> Im Hosmer-Lemeshow Test ergeben sich keine signifikanten Abweichung zwischen den vorhergesagten und den beobachteten Häufigkeiten, 𝜒2 8 = 5.60; 𝑝 = .693

—> Dies belegt die Anpassungsgüte (goodness-of-fit) des logistischen Regressionsmodells

Effektstärke: McFaddens 𝝆𝟐

—> Durch die Prädiktoren können 32% der Kriteriumsvarianz aufgeklärt werden

Zusammenfassung ()

• Die Logistische Regressionsanalyse dient zur Vorhersage der Gruppenzugehörigkeit aus einer Reihe von Prädiktorvariablen

• Dabei werden keine Annahmen zur Normalverteilung, Varianzhomogenität und Linearität gemacht

• Aus den Regressionskoeffizienten kann die Wahrscheinlichkeit einer Gruppenzugehörigkeit berechnet werden:

Odds ratio (𝑒𝛽)

gibt an, wie sich die odds verändern, wenn ein Prädiktor um den Wert 1 steigt

• Mit dem Likelihoodratio-Test können genestete Modell verglichen werden

• Der Hosemer-Lemeshow Test prüft den goodness of Fit

• Die Effektstärke kann über McFaddens 𝜌2

geschätzt werden

• Bei der multinomialen logistischen Regression werden in 𝑘 − 1 Gleichungen die Zugehörigkeitswahrscheinlichkeiten für jede Gruppe bestimmt

Join Course

Preview

Author

Jonas S.

Information

Last changed
2 years ago

Report course