-Regressionsanalyse mit mehreren X-Variablen (Qualifikation, Geschlecht, Jahr) ==> multiple Regressionsanalyse
-Beispiel: Welchen Einfluss haben die Qualifikation und das Geschlecht auf die Arbeitszeit?
-Gehen Geschlechterunterschiede in der Arbeitszeit (teilweise) auf unterschiedliche Qualifikationen zurück?
o Linearität (linearer Zusammenhang von X und Y also keine Kurven)
o Keine (zu extremen) Ausreißer
o Residuen müssen normalverteilt und nicht variieren (Abweichung von Regressionsgrade sollte im Mittel immer gleich sein)
o Multikollinearität (Prädiktoren (X) dürfen nicht extrem miteinander korrelieren)
-Multiple OLS Regression: Eine OLS Regression mit mehreren Prädiktoren (unabh. Variablen), die die Summe der quadrierten Residuen minimiert.
-Multiple Regression = (lineare) Regression mit zwei oder mehr Prädiktoren (X-Variablen) ==> erlaubt realistischere Modelle für komplexe soziale Phänomene und Zusammenhänge
-OK, berechne also
-Stopp: Geschlecht ist eine nominalskalierte Variable?! • Je Geschlecht, desto ... ? Unsinn Schauen uns das genauer an...
==> Konstant halten ist die Lösung = beim Koeffizient eduyrs werden nur Männer mit Männern oder Frauen mit Frauen verglichen / beim Koeffzienten female werden Männer mit 10 Bildungsjahren mit Frauen mit 10 Bildungsjahren verglichen
==> Vergleich der Koeffizienten der gleichen Variablen in einer einfachen (bivariaten) und einer multiplen Regression:
o Effektgrößen können zu- oder abnehmen
o Vorzeichen können sich ändern
o Interpretation kann sich vollständig verändern
==> als Dummy-Variablen
Dummy-Variablen: Eine kategoriale Prädiktorvariable (unabh. Variable) mit zwei (oder mehr) Ausprägungen wird in ein (oder mehrere) Dummy-Variablen umkodiert. Jede einzelne Dummy-Variable hat stets die Ausprägung 0 (Eigenschaft trifft nicht zu) und 1 (Eigenschaft trifft zu). Mittels Dummy- Variablen lassen sich in Regressionsanalysen Durchschnittsunterschiede schätzen, stets im Vergleich zur Referenzgruppe.
==>
==> Regression als bedingte Erwartung
o Der gruppenspezifische Mittelwert entspricht E(Y|X), dem bedingten Erwartungswert von Y, gegeben X
§ E(Y|X= männlich) = 43,1
§ E(Y|X= weiblich) = 34,7
==> Kategoriale Variablen mit mehr als zwei Ausprägungen können auch als Dummy-Variable in eine Regression aufgenommen werden
§ Die Variable mit k Ausprägungen wird in k Dummy-Variablen aufgeteilt.
§ Die Dummy-Variablen haben die Ausprägungen 0 und 1
§ In die Regression werden k-1 Dummy-Variablen aufgenommen und die Koeffizienten im Vergleich zur Referenzkategorie interpretiert
-Adjusted R-squared
o R2 wird immer größer werden je mehr Variablen wir in unser Modell einrechnen
o Das ist auch der Fall, wenn unsere Variablen nichts mit der abhängigen Variable zu tun haben
o Adjusted R2 rechnet das ein
o Dadurch ist es in der Regel kleiner als R2
==> Mögliche Interpretationen:
o Wie ändert sich der bedingte Mittelwert von Y, wenn Xk um eine Einheit zunimmt, wenn alle anderen Variablen im Modell aber gleich bleiben ? (= "ceteris paribus")
o Welchen Effekt hat Xk auf Y, unabhängig von den anderen Variablen?
-Interpretation der Konstante _cons
Die Referenzgruppe (d.h. Männer, da female=0) mit 0 Bildungsjahren arbeiten im Mittel 39,6556 Stunden
-Interpretation des Koeffizienten eduyrs
Wenn man das Geschlecht konstant hält, steigt – im Mittel - mit jedem Bildungsjahr die Arbeitszeit um 0,2281 Stunden
-Interpretation des Koeffizienten female:
Wenn man Bildungsjahre konstant hält/ bei gleicher Bildung arbeiten Frauen 8,4558 Stunden weniger als Männer (Referenzgruppe) / beträgt der Unterschiede zwischen Frauen und Männern -8,4558 Stunden
==> interpretiere Koeffizienten einer Variable unter Konstanthaltung einer anderen
Nein - wir beobachten
o einen negativen Regr.koeffizient für die Dichte der Kopf- behaarung bei Männern und ihrem Einkommen
§ Sollten Männer häufiger zum Frisör gehen?
o einen positiven Regr.koeffizient der Körpergröße von Kindern und deren Wortschatz
§ Sollten wir kleine Erstklässler in eine Sprachförderung schicken?
-einen positiven Regr.koeffizient des Lesens rechtsextremer Onlineforen und rechtsextremen politischen Einstellungen
o Wenn alle Onlineforen abgeschaltet würden, gäbe es keinen Rechtsextremismus mehr?
==> Sind dies kausale Zusammenhänge?
-Scheinkorrelation/Konfundierung:
o Der Zusammenhang von X und Y ist nicht kausal, beide hängen (kausal) von einer dritten Variable (Z) ab.
o Achtung: Die Korrelation ist ”echt“, aber nicht kausal!
o Lösung: Multiple Regression mit statistischer Kontrolle der Drittvariablen
-Der Zusammenhang zwischen . . .
o der Kopfbehaarung und dem Einkommen von Männern erklärt sich durch das Alter der Männer
==>Mediation: Ein Merkmal X wirkt sowohl direkt als auch indirekt über Z auf Y
-Problem von mediierenden Variablen: Werden sie als Drittvariablen konstant gehalten, wird der Zusammenhang unterschätzt
-Wird die Bildung des Sohnes konstant gehalten, ist der Effekt des Berufs des Vaters auf den Beruf des Sohnes geringer
M3 kann man eigentlich rauslassen, da die beiden Variablen den Zusammenhang verkleinern
==> Begründete (theoretisch abgeleitete) Auswahl der Prädiktoren
o Die Auswahl von Variablen MUSS begründet sein
o Auf keinen Fall "alles reinschmeißen" – verwässert die Aussage
Zuletzt geändertvor 5 Monaten