Vl 1: Selbstselektion
Beobachteter Zusammenhang als Folge von “Selbstselektion”
umgekehrte Kausalität
Lösung: angemessene Datenerhebung, Längsschnitterhebung, Experimentalstudien
Vl 1: Regressionsmodell
theoretisches Modell: X-> Y
Vl 1: Spezifikationen von Y= f(x)
Vl 2: Lineare Modellspezifikation
schätzung der Parameter: die Koeffizienten (Parameter) sind unbekannt und sollen mit Hilfe der Schätzung ermittelt werden.
Sie werden geschätzt da: eine Stichprobe aus der Population vorliegt; weitere Einflüsse nicht berücksichtigt werden, diese werden im Fehlerterm abgebildet (weitere Faktoren können später ebi multiplen Regressionen einbezogen werden
Vl 2: Ermittlung von Parametern (OLS)
Parameter sind Populationsschätzer: Parameter in der Statistik sind Werte, die Merkmale einer gesamten Population beschreiben, wie der Durchschnitt (Mittelwert), die Varianz oder der Anteil. Da die gesamte Population oft nicht beobachtet werden kann, werden diese Parameter aus Stichprobendaten geschätzt. Diese Schätzungen nennt man Populationsschätzer. Sie dienen dazu, Aussagen über die Population zu treffen, basierend auf den beobachteten Daten. Zum Beispiel ist der Stichprobenmittelwert ein Schätzer für den Populationsmittelwert.
die kleinste Quadrate-Schätzung (Ordinary Least Squares): Prinzipiell lassen sich beliebig viele Geraden durch die Punkte legen, die beste Gerade ist die, bei der die Summe der quadrierten Abweichungen von den Punkten des Streudiagramms am geringsten ist= OLS
Interpretation der Parameter:
-ß0 (Beta 0 mit Dach) ist der geschätzte mittlere Wert von y (bedingter Erwartungswert) wenn x die Ausprägung 0 besitzt.
-ß1 ist die geschätzte Veränderung des mittleren Wert von Y wenn sich X um eine Einheit verändert.
Vl 2: Interpretation Regressionskoeffizient
bsp: für 18 Bildungsjahre wird ein Berufsprestige von 54.26 Punkten erwartet (19.7+ 18x1.92)
Linearitätsannahme: dh dass der Effekt immer gleich ist, also in diesem Fall immer pro Jahr 1.92 Punkte mehr!
Vl 2: Bedingter Erwartungswert
grundlegende Modellannahme: die bedingte Erwartungswerte liegen auf einer Gerade (Linearitätsannahme)
Die lineare Regression ermöglicht die Beschreibung der bedingten Verteilung metrischer Variablen mit nur zwei Zahlen:
dem Achsenabschnitt 𝛽-% und der Regressionssteigung 𝛽-&.
• Durch die Annahme, dass bedingte Mittelwerte auf einer geraden Linie liegen (Linearitätsannahme), können auch bedingte Mittelwerte für Werte/Gruppen vorhergesagt werden, die nicht in den Daten repräsentiert sind.
• Beispiel: Wie hoch wäre der Berufsprestigewert für 16,35 Bildungsjahre? Antwort: 51,1 (= 19.7 + 16,35 *1.92)
• Wenn die Linearität allerdings nicht zutrifft, können diese Vorhersagen sehr weit von den "wahren" bedingten Mittelwerten entfernt sein.
Vl 2: Bestimmtheitsmaß R2
=Aussage über eklärte Varianz, wichtig im Bereich lineare Regression
r2 liegt zwischen 0 und 1
0= bedeutet dass das Modell keine Erklärungskraft hat (die regressionslinie erklärt die Streuung der Daten überhaupt nicht)
Bzw ein niedriger R2 Wert heißt dass das Modell die Variation der abhängigen Variablen nur schlecht erklärt
1= die daten beschreibt das Modell perfekt
Bzw ein Wert nahe 1 bedeutet dass ein großer Anteil der Variation der abhängigen Variable durch die unabhängige Variable erklärt wird.
je mehr unabhängige Variablen desto höher ist R2
Vl 2: Varianz bzw Streuungszerlegung??
Vl 2: OLS- Output Stata
Vl 1:Ganz allgemein: deskriptive Statistik
beschreibung sozialer Sachverhalte:
-gibt es einen Zusammenhang von Armutsrisiko und Erwerbstätigkeit? = bivariate / einfache lineare Regression (Zusammenhang zwischen zwei variablen)
Fragt oftmals nach weiteren Zusammenhängen…
-Veränderung des Haushalts, Bildungsniveau…? = multiple Regression (Zusammenhang zwischen einer abhängigen Variablen und zwei oder mehr unabhängigen Variablen); zur Untersuchung komplexerer Beziehungen.
Vl 1: Linearer Zusammenhang von x und y
wie beeinflusst x (unabhängige Variable), y( abhängige Variable, outcome)
Vl1: Modell dilemma
ergebnisse abhängig von gewähltem Modell zb: funktionale Form; linearer Zusammenhang; quadratischer Zusammenhang; auswahl von unabhängigen Variablen
Vl 2:Modellspezifikation und Modellschätzung
= funktionale Beziehung von X unbd Y:
welche Form hat ein Zusammenhang?
-> linear; quadratisch; polynom; exponentiell?
Vl 2: Beispiel Regressionsgleichung aufstellen
Vl 2: Regression und Linearitätsannahme
die lineare Regression ermöglicht die Beschreibung der bedingten Verteilung metrischer Variablen anhand der Werte einer (kategorialischen oder metrischen) Variablen mit nur zwei Zahlen: dem Achsenabschnitt beta dach 0 und beta dach 1.
Durch die Annahme dass bedingte Mittelwerte auf einer geraden Linie liegen (Linearitätsannahme) können auch bedingte Mittelwerte für Werte/Gruppen vorhergesagt werden, die nicht in den Daten repräsentiert sind.
Wenn die Linearität allerdings nicht zutrifft können diese Vorhersagen sehr weit von den Wahren bedingten Mittelwerten entfernt sein.
Vl 2: Koeffizienten und Konstante
Abkürzung: coef. Im Stata Output obere Zeile = laut Modell steigt mit jedem zusätzlichem Lebensjahr das Einkommen um durchschnittlich 15.81€.
_cons: (Konstante) die Person hat ohne Alter (alter= 0) ein durchsachnittliches Einkommen von 1311.50€.
Vl 3: zwei bivariate Regressionen
Wie stark ist der Einfluss von sozialer Herkunft auf den Beruf, unabhängig von Bildung? -> wir halten Bildung konstant und betrachten den Beruf abhängig von der sozialen Herfunft der befragten Person.
Bivariate Regression: es gibt eine unabhängige Variable und eine abhängige (y). Ziel ist, den linearen Zusammenhang zwischen diesen beiden Variablen zu untersuchen.
Mediator ist keine bivariate Regression (da drei Variabeln)
Regression Stata Output
Vl 3: multiple Regression
= es gibt mehrer unabhängige (x1; x2; …) Variablen aber immer nur eine abhängige Variable (y). Ziel ist die Wirkung mehrerer Prädikatoren auf die unabhängige Variable gleichzeitig zu analysieren und auch Wechselwirkungen oder Kontrollvariablen zu
(Kontrollvariablen: analysiert den Einfluss von Drittvariablen und die Bezi zwischen unabhängiger und abhängiger Variable- könnten diese verzerren.)
Stata Output:
Vl 3: Regression mit standardisierten Variablen
Wie kann man die Effekstärke der verschiedenen Koeffizienten vergleichen? Lösung: Standardisierung-> Vergleich von Effekstärken!
standardisierung erfolgt durch: mittelwert geteilt durch die Standardabweichung.
Vl 3: statistische Inferenz fpr Regressionsmodelle und Koeffizienten
= dient dazu aus den geschätzten Koeffizeienten Rückschlüsse auf die zugrunde liegende Population zu ziehen. Sie beantwortet die Frage: ist der Zusammenhang zwischen unabhängiger und abhängiger Variable signifikant?
Wichtige Elemente der Inferenz:
standardfehler: gibt die Unsicherheit der Schätzung eines Regressionskoeffizeienten an. Ein kleiner Standardfehler deutet auf eine präzisere Schätzung hin.
Konfidenzintervalle: ein 95% Konfidenzintervall zeigt den Bereich in dem der wahre Wert des Koeffizzienten mit 95% Wahrscheinlichkeit liegt.
Hypothesentest:
-Nullhypothese: p-Wert -> wenn dieser kleiner 0.05 ist heißt das dass der Koeffizeint signiofikant ist.
Güte des Modells:
Bestimmtheitsmaß R2: gibt an wie viel Varianz der unabhängigen Variable durch die unabhängige Variable erklärt wird. Werte nahe 1 deuten auf ein gutes Modell hin.
F-Test: testet die Gesamtsignifikanz des Modells
-> insgesamt prüft die Inferenz die Bedeutung der geschätzten Koeffizienten und bewertet die Modellgüte.
F-Test
= ist das TRegressionsmodell singnifikant? Hat die unabhängige Variable gemeinsam einen signifikanten Einfluss auf die abhängige Variable? Ob das Modell besser ist als ein Modell ohne unabhängige Variable ist? (Bringt es Vergesserung gegenüber der einfachen Schätzung
Null- und Alternativhypothese formulieren:
-HO: das Modell verfügt über keinen Erklärungegehalt
-H1: das Modell verfügt über einen Erklärungsgehalt
Wir testen den Fall
Testverteilung Irrtumswahrscheinlichkeit oder p-Wert
-> H0: wird verworfen wenn p-Wert kleiner als Signifikanzniveau ist (bso p< a; a=0.05) dh der Koeffizient sit signifikant.
-> H0 wird nicht verworfen der p Wert größer oder gleich dem Signifikanzniveau ist. Dh die Nullhypothese wird nicht verworfen der Koeffiziemnt ist nicht signifikant.
Vl 3: t-Test
= testet einzelne Hypothesen und nicht mehrere Variablen wie der f-Test (Kann Aussagen über die Gesamtsignifikanz eines Modells liefern)
testest den Einfluss einer unabhängigen Variablen (zb einen Regressionskoeffizeinten) oder den Mittelwertunterschied zwischen zwei Gruppen.
Faustregel: Interpretation der Ergebnisse einer (multiplen) Regression
wie ist der Einfluss der unab. Variablen beschaffen: positiv oder negativ, um wie viele Einheiten ändert sich die abhängige Variable bei Änderung der unabhängigen Variable um eine Einheit?
-> Interpretation der Koeffizienten
Welche unab. Variable haben eine signifikanten Einfluss auf die abhängige Variable? -> T-Test der Koeffizienten
Ist der f-Test signifikant? -> Auskunft darüber ob unabhängige Variablen zur Erklärung der abhängigen Variablen beitragen
Wie groß ist R2? -> Anteil der Varianz der abhängigen Variablen, der durch die unabhängigen Variablen erklärt wird
Vl 3: Graphische Darstellungen
effekt- oder Koeffizeintenplot: welche Größenordnung hat der Zusammenhang von X und Y? Darstellung der Marginal bzw Discret Change Effekte von X
Predictivemargins oder Profite-Plot: welcher Wert ergibt sich für Y bei verschiedenen Ausprägungen von X? Darstellung der vorhergesagten Werte von Y
Konditionaler Effektplot: Darstellung der Effekt von X gegeben Z, ua hilfreich für Interaktionen (später in der Vorlesung)
Stata-Befehl: “coefplot, drop(_cons)
Vl 3: graphische Darstellung “predictive Margins”
plotte die vorhergesagten Werte der Outcome Variable für verschiedene Ausprägungen bzw Gruppen liefert
Für jede Beobachtung wird mit ihren Kovariatenwerten eine Vorhersagewert berechnet; nur die “marginvars” werden auf die fixierten Werte gesetzt
Anschließend wird über alle Vorhersagewerte gemittelt
Vl 4: Dummy Variablen
= sind Variablen, die verwendet werden um kategoriale Daten in numerische Form zu überführen diese nehmen ausschließlich die Werte 0 und 1 (1 wenn eine bestimmte Eigenschaft vorliegen; 0 wenn nicht)an. (Dichotomisierung)
Vl 4: Interprettation Regressionskoeffizienten (Dummy Variablen)
Vl 4: multiple Regressionen Interpretation
-> wenn man Bildung konstant hölt, deträgt der Unterschied im erwarteten Einkommen zwischen Ost- und Westdeutschland -340€. Jedes Bildungsjahr erhöht das erwartete Einkommen um 106€, unter Konstanthaltung der Wohnregion.
Vl 4: Dummy Variablen mit mehreren Ausprägungen
-> Referenzkategorie: ohne Abschluss
bedingter erwartungswert des einkommens für personen ohne abschluss, dh dieser den geschätzten durchschnitt des einkommens für personen mit dem dummy-wert 0 darstellt. Ist wiederum die Konstante “_cons”.
Koeffizienten entsprechen der differenz der jeweiligen abschlüsse relativ zur referenzkategorie
-> bsp: bedingter erwartungswert des einkommens für personen mit mittlerer reife: 1050 + 665= 1715
Vl 4: nicht lineare Modellspezifikation
Vl 4: Modellschätzung Polynomregression
= ist eine erweiterung der linearen Regression, bei der zusätzlich Potenzen der unabhängigen Variablen x in das Modell aufgenommen werden.
Interpretation: hierbe spielen der grad des Polynoms und die vorzeichen der koeffizienten eine zentrale rolle.
-> Quadratische Effekte (ß2) beschreiben die Krümmung des zusammenhangs
-wenn positive vorzeichen/ ß2 > 0: ist der Zusammanhang U-förmig
-wenn negative vorzeichen/ß2 <0: ist der Zusammenhang umgekehrt U-förmig
-beta 3 (ß3)= kubischer Effekt-> beschreibt komplexere Muster, wie eine Wellenform
Vl 4: Marginaleffekte
= beschreiben die Veränderung der abhängigen Variablen bei einer marginalen (sehr kleinen) Änderung der unabhängigen Variablen, während alle anderen Variablen konstant gehalten werden.
Interpretationen:
in der linearen Regression: Marginaleffekt entspricht direkt dem Koeffizienten ß1-> eine Erhöhung von x um eine einheit führt zu einer änderung von y um ß1 einheiten.
Nicht-linear/ polynom: der einfluss von x auf y ändert sich je nach dem aktuelllen wert von x.
Vl 4: semi- logarithmisches / log lineares Modell ??
semi-logarithmisches Modell:
Vl 5: additivität
additivität: der effekt einer unabhängigen Variablen x hängt nicht davon ab, welche werte andere unabhängige variablen x haben.
Nicht- additivität: der effekt von x hängt von den werten einer anderen vartiablen ab.
Vl 5: regressionen mit Interaktionen
= der effekt von x1 hängt von werten von x2 ab, Berücksichtigung einer interaktion in einer gemeinsamen Modellspezifikation
Beispiel: Interaktion Geschlecht und Bildungsjahre
modell ohne Interaktionen: “mehr bildung führt zu höherem einkommen”
Modell mit interaktion: “für frauen rentiert sich bildung für das einkommen weniger als für männer” (laut output)
Vl 5: Zentrieren
-> ist relevant wenn Interpretationsprobleme oder numerische Schwierigkeiten auftreten. Besonders relevant in Modellen mit:
-Interaktionseffekten; Poynomregressionen; großen oder unterschiedlich skalierten Variablen.
= erfolgt durch: Variable - ihren mittelwert sodass die nneue Variable einen Mittelwert von 0 hat.
Vl 5: Interpretation mit zwei kategorialen unabhängigen Variablen
=man untersucht, ob der Effekt der einen kategorialen Variablen auf die abhängige Variable davon abhängt, in welcher Kategorie die zweite kategoriale Variable liegt.
allgemeines Modell:
-x1 und x2 die zwei kategorialen unabhängigen Variablen
-x1 mal x2 der Interaktionseffekt zwischen den beiden variablen
-ß3 der Interaktionsterm, gibt an falls die beide kategorien einen zusätzlichen einfluss auf y haben.
Kodierung der kategorialen Variablen
-x1 hat zwei kategorien (männlich= 0; weiblich=1)
-x2 hat zwei kategorien (stadt=0; land=1)
Interpretation der Koeffizienten
-ß0: Erwartungswert von Y, wenn x1=0 und x2=0 -> REFERENZGRUPPE (männlich; stadt)
-ß1: unterschied im Mittelwert von Y zwischen Kategorien von x1 wenn x2=0 ist (zb Unterschied zwischen männlich weiblich)
-ß2: unterschied im mittelwert von y zwischen den Kategorien von x2 (zb Unterschied zwischen stadt und land) wenn x1=0.
-ß3: zusätzlicher effekt der kombination aus x1=1 und x2=1 (Unterschied wenn weibliche person auf dem land lebt)
Beispiel:
Fragestellung: wie beeinflussen geschlecht (x1)und wohnort (x2) das einkommen (y)?
-x1: (geschlecht) männlich=0; weiblich=1
-x2: (wohnort) stadt=0; land=1
-> einkommen= 2000+ 500x1 -300x2-400 (x1x2)
Interpretation:
ß0= 2000 dh das durchschnittliche einkommen von männer in der stadt (referenzgruppe)
ß1= 500 dh frauen verdienen 500€ mehr als männer wenn sie in der stadt leben (x2=0)
ß2= -300 dh männer die auf dem land wohnen verdienen 300€ weniger als männer in der stadt X1=0
ß3= -400 dh frauen die auf dem land leben verdienen 400€ weniger als der haupteffekt
Vl 5: bedingte erwartungswerte und interaktionen zwischen zwei kategorialen variablen
= beschreibt wie sich die Werte einer abhängigen Variablen in verschiedene Kombinationen der kategorien der unabhängigen variablen unterscheidet.
zusammenfassung des effekts:
haupteffekt von x1 (ß1): unterschied zwischen den kategorien von x1 wenn x2=0
Haupteffekt von x2 (ß2): unterschied zwischen den kategorien von x2 wenn x1=0
Interaktionseffekt (ß3): unterschied der über die additiven ahupteffekte hianusgeht wenn beide variablen 1 sind.
Vl 5: multiple regression
Vl 5: confounder
= gemeinsame Ursache
gibt es einen (kausalen) zusammenhang von x und y? Oder geht der zusammenhang auf eine gemeinsame ursache zurück?
Gibt es einen effekt von x auf y unabhängig von z? = effekt von x auf y bei konstant gehaltenem z
Vorgehen: berechnung einer multiplen regression mit x und z und prüfen ob 1 ungleich 0 ist
Bsp: bildung und einkommen
Vl 5: mediation
= mechanismus
wenn man einen effekt gefunden hat kann man im nächsten schritt fragen: was ist der mechanismus?
Vorgehen: man schätzt zunächst eine regression ohne mediator: ß dach 1. danach wird der mediator hinzugefügt und eine regression mit mediatorvariable geschätzt um zu prüfen ob der effekt von ßdach1 signifikant kleiner geworden ist.
Vl 5: Variablenauswahl
bivariate grafische darstellung des zusammenhangs
In der regel zuerst bivariate regression für den haupteffekt
Confounder/Kontrollvariablen hinzufügen: bleibt der effekt bestehen?
Mediator: wie verändert sich der koeffizient?
Vl 5: Moderator/ Interaktion
unterscheidet sich der effekt von x je nach ausprägung von z?
Vorgehen in der regressionsanalyse: schätze ein regressionsmodell mit x,z und der interaktion zwischen x und z
Falls z eine kategoriale variable : schätze seperate regressionen für die gruppen
Vergleich danach die koeffizienten den verschiedenen modelle aber: berücksichtigung von fallzahlen, streuung etc -> seperate signifikanztests
Vl 6: Vorraussetzungen ??
Vl 6: Homoskedastizität
= beschreibt dass die Varianz der Fehler oder Rediduen in einem Modell konstant ist, unabhängig von den Werten der unabhängigen Variablen. Es ist eine zentrale Annahme in der linearen Regressionsanalyse.
Eigenschaften:
konstante Varianz/ Streuung; keine Muster (keine trichterförmige oder ähnliche Struktur)
Bedeutung:
Homosk. ist wichtig da viele Tests oder Schätzverfahren damit einhergehen. Wenn keine homosk. vorliegt kommt es oftmals zu verzerrungen. -> Heteroskedastizität
Konsequenz: verzerrung; verschätzung; falsche interpretation des hypothesentest (t- oder f-test)
Test:
durch mustererkennung; graphische darstellung; rediduenplots
Vl 6: Heteroskedastizität
=Varianz der Fehlerterme in einem regressionsmodell ist hier nicht mehr konstant. Die streuung der fehler ist abhängig von den werten der unabhängigen variablen.
erkennbare muster; keine konstante Streuung;
Ursachen: Variablen mit stark unterschiedlichen skalen; ausreißer oder nicht lineare beziehungen
=die Interpretierbarkeit und Vorhersagegenauigkeit des Modells wird beeinträchtigt.
Mögliche Lösungen im Umgang mit Heteroskedastizität:
wenn heterosk. vorliegt führt die OLS- methode nicht zu effizienten Schätzwerten -> standardfehler der schätzwerte nicht korrekt; t-werte sind keine zuverlässigen schätzer
Mögliche lösung: verwendung von “robusten” standardfehlern
Huber-white-sandwich-estimator (in stata: option vce(robust))
Vl 6: normalverteilung von residuen?
test durch: shapiro-wilk-test
-> schätzt ob die vorliegende Verteilung einer Variablen von einer Normalverteilung abweicht. Falls ja sind die risiduen nicht normalverteilt = schlecht
Output Stata: shapiro-wilk test
w-wert: 0.83726 zeigt wie stark die daten von der normalverteilung abweichen. Ein wert nahe 1 deutet auf eine normalverteilung hin, während ein niedriger werrt auf eine stärkere Abweichung hinweist
P-wert: 0.0000 (kleiner als 0.001) dh kleiner als das signifikanzniveau = nullhypothese wird verworfen (-> h0: die residuen sind normalverteilt)
=test zeigt Residuen sind nicht normalverteilt (H1)
Vl 6: problem nicht- normalverteilter residuen
Vl 6: (multi-) Kollinearität
= diese liegt vor wenn zwei oder mehrere unabhängige Variablen sehr hoch miteienander korrelieren.
Vl 6: Kollinearität???
Probleme bei starker Kollinearität:
standardfehler werden nicht korrekt geschätzt
F-test signifikant, trotzdem keiner der einzelnen regressionskoeffizienten signifikant (“es gibt keinen zusammenhang zwischen y und den x`s)
Einfluss einer einzelnen unabhängigen variablen lässt sichnicht isolieren
Modellschätzung instegsamt sehr instabil
Prüfung Kollinearität:
Korrelationskoeffizienten nache 1 deuten auf starke multikollinearität hin
Faustregel: werte über 0.8 können problematiusch sein
Lösungen:
zentrieren
Einzelne x-variable entfernen
Vl 6: partielle Streudiagramme
= zeigen den Zusammenhang zwischen einer unabhängigen variablen x und einer abhängigen variablen y, nachdem der einfluss aller anderen unabhängigen variablen kontrolliert wurde.
helfen dabi eine bezi zwischen einer spezifischen unabhängigen variablen mit einer abhängigen variablen zu visualisieren.
Unterstützt bei identifikation von ausreißern oder nicht linearen beziehungen, die durch andere variablen im modell verschleiert werden können.
Vl 6: Cook´s D
= für einfluss einzelner beobachtungen auf das gesamte modell.
große werte: starken einfluss auf die schätzung der regressionskoeffizienten hat
-D> 1= beobachtungen sollten überpüft werden.
Vl 6: DFBETAS
= misst den einfluss einzelner beobachtungen auf die schätzung eines bestimmten regsressionskoeffizienten um diesen zu bewerten. Es zeigt wie stark sich ein regressionskoeffizient ändern würde wenn eine bestimmte beobachtung aus dem modell entfernt wird. (Misst standardisierung)
faustregel: DEFBAS> 1 bedeutet einen starken einfluss
Warum ist dfbas wichtig?
ergebnisse eines modells können verzerrt sein
Dadurch die vorhersagekraft verringern
Fehlinterpretation der koeffizienten bewirken
Vl 6: ablauf einer regressionsanalyse
theoretische überlegungen
Bivariate überprüfung der erwarteten zusammenhänge
Schätzen der regreiion
Überprüfung der voraussetzungen, gegebenfalls zurück zu 1.
Inhaltliche interpretation
Vl 7: Modellspezifikation/ Modellbildung
Theorie> Hypothese> Modell> Datenanalyse = modellierung bzw datenanalyse dienen der prüfung von hypothesen
Vl 7: welche modellspezifikation sind möglicherweise problematisch für regressionsanalyse?
gelb: wenn w eine unbeobachtet variable ist die sowohl z als auch y beeinflusst, führt dies zu einem verzerrten zusammenhang zwischen x,z, und y. (Lösung: kontrollvariable einfügen)
Hellblau: hinzunahme von z2, dies kann zu einer starken multikollinearität führen. Folge wäre eine schwierige interpretaion des modells. (Lösung: prüfen auf multikollinearität)
Orange: z wirkt hier als mediator zwischen x und y. Der direkte effekt von x auf y könnte überschätzt werden (z ist confounder)
Grün: wenn z nicht korrekt spezifiziert wird (z ist nur eine korrelation, kein kausaler zusammenhang) könnte dies die analyse von x auf y verzerren.
“Endogene” unabhängige variablen: wechselseitige abhängigkeit (x ist mit dem fehlerterm korreliert)
Blau: wenn z und w interaktionseffekte haben, dies aber im modell fehlen wird der effekt von z oder w auf y ungenau geschätzt.
Vl 7: Prüfen der Funktionsterme
graphisch: streudiagramm
Test für nicht-linearitäten
Wenn h0 verworfen wir = go für nicht-lineare spezifikation
Vl 7: Auswahl von relevanten variablen/ probleme
Problematische spezifikationen:
unbeobachtete variablen führen zu verzerrungen
Multikollinearität macht koeffizienten ungenau
Nichtberücksichtigung von mediationseffekten (verzerrte interpretation kausaler zusammenhänge)
Endogenität führt zu falschen kausalen schlüssen
Fehlende interaktionsterme verfehlt wechselwirkungen zwischen variablen
Auswahl relevanter variablen:
Theorie= sollte auf fundierte theorien oder hypothesen basieren & kausale relevanz besitzen
Signifikanz der varianblen= variablen die keine signifikanz habenkönnen entfernt werden
Multikollinearität= variablen die stark miteinander korrelieren können die stabilität des modells beinflussen.
Zu viele x-variablen
Vl 7: bsp: bildung und lohn
Vl 7: modellanpassung wdh R2
r2= durch das modell erklärte streuung und liegt zwischen 0% und 100%
-0-> das modell (x-variable) erklärt keine streuung von y um den y strich = niedrige r2 werte verringern die aussagekraft von vorhersagen
-100-> gesamte streuung vony um den y strich kann auf x zurückgeführt werden
R2 erlaubt keine aussage über angemessene modellspezifikation/ über verzerrte koeffizientenschätzung
Vl 7: adj R2
jede zusätzliche x-Variable erhöht R2: je mehr Variablen desto höher die Erklärungskraft; Verbesserung aber möglicheriweise zufällig
Berücksichtigt die Anzahl der Variablen und der Beobachtungen
Interpretation adj R2 nicht “%erklärte Streuung”, sondern nur tendenziell: je höher das adj. R2 desto besser die Modellgüte
Vl 7: sequenzielle regressionsanalyse
= erweiterung der linearen regression bei der die unabhängigen variablen in einer vorgegebenen reihnfolge in das modell eingführt werden, um ihre zusätzlichen beiträge zu erklärung der varianz der abhängigen variable zu untersuchen. Modell iwrd verwendet um die relative bedeutung einzelner prädikatoren zu bewerten.
untersuchung des zuwachs von R2
Signifikanztests zeigen, ob eine neue variable einen signifikanten beitrag leisten
Vl 7: f-test für genestete modelle??
schritt: vergleiche die modellspezifikation
-> prüfe ob die hinzugefügten modellparamter die erklärungskraft signifikant verbessern
Vl 8: lineares wahrscheinlichkeitsmodell (LPM)
Regression mit kategorialen abhängigen Variablen (y)
bsp für dichotome/binäre variablen: abi ja/nein
Zwei ansätze:
lineares wahrscheinlichkeitsmodell (LPM)
Nicht-lineares modell zb logistische regression (logit)
Lineares Wahrscheinlichkeitsmodell (LPM):
kann eine binäre y variable linear modellieren
Die regression beschreibt als die bedingte wahrscheinlichkeit dass y=1 ist
Vl 8: output LPM
Vl 8: probleme LPM
Vl 8: average Marginal effect (AME)
Marginaleffekte sind nicht eindeutig: je nachdem an welcher Stelle von X man sie berechnet, fallen sie anders aus
Lösung: Average Marginal Effects: Bilde den Durchschnitt der ME der vorliegenden beobachteten Daten
Interpretation: P(Y=1) erhöht sich- im Mittel aller Beobachtungen der vorliegenden SP- um AME Prozentpunkte, wenn sich X um eine Einheit erhöht
Vl 8: wann LPM oder Logit?
Wenn möglich und sinnvoll: LPM
• Vorhersagen und Koeffizienten des LPM und log. Regression sind im Bereich 0.20 und 0.80 ähnlich à LPM einfacher
• Interaktionen in Logit-Modell als nicht-linearer Term in einem nicht-linearen Modell schwierig interpretierbar à LPM einfacher
• Vergleich genesteter Modelle geht im Logit nicht ohne weiteres à LPM einfacher
• Nachteil: LPMs kann bei nicht-normalverteilten X zu verzertten Ergebnissen führen
Zuletzt geändertvor 17 Tagen