==> Hier gilt immer: wenn X um eine Einheit steigt, steigt Y um den Wert des Koeffizienten
==> Regression kann noch so viel mehr sein
o Was ist wenn uns ein binäres Outcome (0 = Merkmal tritt nicht ein; 1 = Merkmal tritt ein) interessiert?
o Beispiele: Abitur geschafft ja/nein? Ist eine Person tendenziell eher politisch Rechts oder Links? Wie wahrscheinlich ist es, dass eine Person (generell) Zeitung liest
o Was ist wenn das Outcome eine Dummy-Variable ist?
-Hier gilt immer: wenn X um eine Einheit steigt, steigt Y um den Wert des Koeffizienten
-Man kann eine binäre (dichotome, 0-1-kodierte) Y-Variablen linear modellieren
-Genauso aufgebaut wie die lineare Regression nur aber mit einem dichotomen Y von dem es die Wahrscheinlichkeit ausrechnet, dass es eintritt
-E(Y)= 𝛽0+ 𝛽1X1+ ... 𝛽kXk = 𝛽' X
-Es gilt E(Y)=P(Y=0)·0+ P(Y=1)·1= P(Y=1)
-Und daher folgt: E(Y) = P(Y=1) = 𝛽' X
-Die Regression (LPM) beschreibt also "die (bedingte) Wahrscheinlichkeit, dass Y = 1 ist, gegeben X" ==> Unter gegebenen X schätzt dieses Modell das Y zu X% eintritt (1 wird)
LPM fragt nach der Wahrscheinlichkeit, ob ein Event eintritt, OLS danach wie hoch ein Event ausfällt
-Beispiele für dichotome (binäre) Variablen:
o Abitur ja/nein, Corona-Infektion: ja/nein, AfD-Wähler: ja/nein, ...
==> Frage ist: Wie hoch ist die Wahrscheinlichkeit für ein bestimmtes Outcome?
-Zwei verschiedene Ansätze
o Lineares Wahrscheinlichkeitsmodell (linear probability model, LPM)
o Nicht-lineare Modelle z.B. Logistische Regression (Logit)
-Interpretation LPM: funktioniert analog zu OLS
o Regressionsparameter β (× 100) ist die Veränderung der Wahrscheinlichkeit von Y=1, wenn sich die unabhängige Variable X um eine Einheit verändert
o Achtung: Interpretation bezieht sich auf Prozentpunkte
o Hier: Mit jedem Punkt auf der Berufsskala (des Vaters) steigt die Wahrscheinlichkeit ein Abitur erreicht zu haben, um 1,4 Prozentpunkte – Wahrscheinlichkeiten sind hier recht einfach auszurechnen, wenn ich entstprechend kodiere
==> Prozentpunkte ist nicht gleich Prozent!
==> 1. Problem: nicht immer funktionell (Schätzungen ggf. also größer als 100% oder kleiner als 0%)
o 2.Problem: Ist es nicht wahrscheinlicher, dass der Effekt von Bildung auf die Wahlabsicht nicht linear abläuift? Zwischen keinem Abschluss und Hauptschulabschluss besteht vermutlich ein stärkerer Unterschied als zwischen der allgemeinen Hochschulreife und der Fachhochschulreife
3.Problem
==> Lösung: Logistisches Regressionsmodell
-Aufgrund der Probleme des LPM verwendet man zur Modellierung von Wahrscheinlichkeiten oft (Verteilungs-)Funktionen, deren Wertebereich [0,1] ist, z.B.
-Logit: Standard-Logistische-Verteilung P(Y=1) = 𝛬(𝛽'X) mit
==> Der Zusammenhang ist hier nun nicht mehr klassisch linear, sondern s-förmig – Wahrscheinlichkeiten sind zwischen Null und Eins begrenzt
=> Logit-Modell zeigt uns logarithmierte Odds an
-Stata-Beispiel: P(Y=1)
==> Odds: Event passiert vs. Event passiert nicht
==> Wahrscheinlichkeit: Event passiert vs. Event passiert und Event passiert nicht
-Odds haben einen Wertebereich von [0 bis +∞]
– Logits = logarithmierte Odds
o Vorteile: keine Untergrenze mehr, Logits bei Odds zwischen 0 und 1 werden negativ, Logits bei Odds > 1 werden positiv, und wir sind 𝑒(....) los ...
o Nachteil: Interpretation von Logits inhaltlich wenig sinnvoll, aber Vorzeichen für Richtung des Zusammenhangs interpretierbar
-Was uns interessiert: Wahrscheinlichkeit, dass ein Event passiert: P(Y=1)
P(X=1) für feste X-Werte ("margins")
Vorhergesagte Wahrscheinlichkeiten (margins), für feste X-Werte
-Vorhersage der Whd. für Abitur (P(Abitur=1)) für Frauen im Alter 30 und 60, abhängig von der sozialen Herkunft
Multiple logistische Regression: Abitur = f(Beruf des Vaters, Bildung der Eltern, Alter, Geschlecht)
- Marginaleffekte sind nicht eindeutig: Je nachdem an welcher Stelle von X man sie berechnet, fallen sie anders aus Das Problem (oder Vorteil, je nachdem wie man es sieht) ist, dass die Effekte von einer Steigerung von X jeweils unterschiedliche Auswirkungen auf Y haben
-Wir hätten aber gern EINE Zahl, die diese verschiedenen MEs zusammenbringt... - Bei linearer Regression war das nicht der Fall. Ob X von 0 auf 1 oder von 100.000 auf 100.001 stieg bedeutete immer dieselbe Steigung
-Lösung: Average Marginal Effects: Bilde den Durchschnitt der ME der vorliegenden beobachteten Daten
-Interpretation: P(Y=1) erhöht sich – im Mittel aller Beobachtungen der vorliegenden Stichprobe – um AME-Prozentpunkte, wenn sich X um eine Einheit (bzw. marginal) erhöhat
==> Keine eindeutige Antwort
o Vorhersagen und Koeffizienten des LPM und logistischer Regression sind im Bereich 0.20 und 0.80 ähnlich
o Interaktionen in Logit-Modell als nicht-linearer Term in einem nicht-linearen Modell schwierig interpretierbar
o Außerdem kann man Interaktionen und Polynomregression in Logit nicht gut durchführen
o Genestete Modelle (Modelle, die aufeinander aufbauen) lassen sich in Logit nicht miteinander vergleichen, mit LPM aber schon
o Vergleich genesteter Modell geht im Logit nicht ohne weiteres
o Aber: Nachteile von LPMs: siehe oben ...
o Praktische Lösung: beide Modelle schätzen
Last changed18 days ago