Was ist eine abhängige Variable?
Abhängige Variable (aV): Y
Y ist "abhängig" von X
Zum Beispiel: Die Höhe der Miete hängt von den m2 der Wohnung ab
Outcome, aka Response variable
= meistens y Variable
Unabhängige Variable (uV): X
X „beeinflusst“ Y
Zum Beispiel: Die Anzahl der m2 beeinflusst die höhe der Miete einer Wohnung
Regressor aka erklärende Variable, aka Prädiktor, (Kontrollvariable, Treatment variablem ...)
Abbildung:
Was ist eine Regressionsgerade und wie findet man sie?
• Prinzipiell lassen sich beliebig viele Geraden durch die Punkte legen
• Die (mathematisch) „beste“ Gerade ist die, bei der die Summe der quadrierten. Abweichungen von den Punkten des Streudiagramms am geringsten ist
• Das Verfahren, das diese „beste“ Gerade liefert, nennt sich Kleinste (Abweichungs-) Quadrate-Schätzung (auch: OLS = ordinary least squares)
Streudiagramm mit Regressionsgerade, Residuen und Abweichungsquadraten:
Methode der kleinsten Quadrate (ordinary least squares, OLS)
Jede dieser Geraden ist gekennzeichnet durch y = β0 + β1𝑥 also durch die beiden Parameter β0 aka α aka Achsenabstand und β1 aka β aka Steigung
Wir suchen nun die Werte 𝛽- and 𝛽- , die die kleinste Quadratsumme hervorbringen von alle möglichen 𝛽. and 𝛽/ (des Universums...)
Abbildung Formel:
Beachte: Diese beiden konkreten Werte 𝛽- (aka Konstante) and 𝛽- (aka Regressionskoeffizient) sind Schätzer für die 0/
Parameter 𝛽. and 𝛽/ , die wir mit Hilfe von gegebenen Daten (einer Stichprobe) berechnen (dazu später mehr ...)
𝛽- and 𝛽- 'mitderHand'berechnen
Durch Einsetzen der Kovarianz und Varianz in die Formel lässt sich der Regressions- koeffizient bestimmen. Dieser wird dann zur Berechnung der Regressionskonstante verwendet.
Wie interpretieren wir die Regressionskonstante un den Regressionskoeffizienten?
𝑦==𝛽- +𝛽- 𝑥= 41.66+0.029𝑥
Interpretation :
• Bei einem Haushaltseinkommen von 0 € kann man 41.66 qm Wohnfläche erwarten (ABER: Einkommen von 0 € wurde nicht beobachtet! "Extrapolation")
• Wenn das Haushaltseinkommen um 1 € steigt, erhöht sich die Wohnfläche um 0,029 qm Wenn das Haushaltseinkommen um 100 € steigt, erhöht sich die Wohnfläche um 2,9 qm Wenn das Haushaltseinkommen um 500 € steigt, erhöht sich die Wohnfläche um 14,5 qm ("+ 1 Zimmer" )
Wenn das Haushaltseinkommen um 1000 € steigt, erhöht sich die Wohnfläche um 29 qm
Wie interpretieren wir dei Regressionskonstante und den Koeffizienten
Modell & Vorhersagen
• Mit Hilfe der Regressionsgerade lassen sich Werte für yi für jede beliebige Ausprägung von X vorhersagen
• Beispiel: Welche Wohnfläche lässt sich bei einem Haushaltseinkommen von xi = 1565 erwarten?
𝑦= = 41.66 + 0.029𝑥
𝑦=; = 41.66 + 0.029 ` 1565 = 87,05
—> Bei einem Haushaltseinkommen von 1565€ wird eine Wohnfläche von 87qm erwartet
Wie interpretieren wir die Regressionskonstante und den Regressionskoeffizienten?|
Regression als bedingte Erwartung E(Y|X)
• Die tatsächlichen Beobachtungen werden verwendet, um ein Modell zu schätzen
• Mit Hilfe des Modells lassen sich Vorhersagen für Y treffen,
und zwar für jeden beliebigen Wert von X
• Das Modell schätzt "bedingten Erwartungswert":: 𝐸(𝑌|𝑋) = 𝛽- + 𝛽- 𝑥, also das erwartete Outcome 𝑦=; für X=xi
https://www.youtube.com/watch?v=btsd-7AGDjc https://www.youtube.com/watch?v=Ekbw28n6IX0
Warum verwenden wir einfache Regressionsmodelle, um komplexe Phänomene der realen Welt zu beschreiben? |
Statistisches Modell vs. Realität
• Statistische Modelle dienen zur Verein- fachung der komplexen Realität, um grundlegende Muster und Zusammen- hänge zu erkennen
Abbildung
• Komplexe Realität = Streudiagramm, mit idiosynkratischen Abweichungen
• Regressionsmodell vereinfacht (modelliert) diese komplexe Realität und erlaubt es, den grundlegenden Zusammenhang zu erkennen
Warum verwenden wir einfache Regressionsmodelle, um komplexe Phänomene der realen Welt zu beschreiben? | Statistisches Modell vs. Realitä
Wie können wir unser Modell mit R2 bewerten? | Bestimmtheitsmaß R2. Ausgangspunkt: "Y hängt nicht von X ab"
Drei Schritte für R2
1. Betrachte das allereinfachste Modell 𝐸(𝑌) = 𝑦 (strich) , also "Y hängt nicht von X ab" und berechne die Quadratsumme aka "total sum of squares"
Wie können wir unser Modell mit R2 bewerten? | Bestimmtheitsmaß R2. Betrachte OLS-Gerade: "Y hängt so-und-so von X ab"
2. Betrachten nun das Regressionsmodell 𝐸 𝑌 𝑋 = 𝑦= = 𝛽 + 𝛽 𝑥, berücksichtigen also, ./
dass Y von X abhängt ("mit X variiert") und berechnen die "model sum of squares" MSS = ∑(𝑦=; − 𝑦N)?
Wie können wir unser Modell mit R2 bewerten? | 𝑅2= MSS Bruch TSS
3. R2 ist definiert als Anteil der model sum of squares an der total sum of squares
Video-Tipp R2
https://www.youtube.com/watch?v=KkfjPZ6KEAg https://www.youtube.com/watch?v=2AQKmw14mHM https://www.youtube.com/watch?v=Q8Nw49RlzWQ
Wie können wir unser Modell mit R2 bewerten? | R2 graphische Darstellung
Wie können wir unser Modell mit R2 bewerten? | Interpretation von R2
R2 beschreibt die Streuung der Datenpunkte um die geschätzte Regressionsgerade
Bemerkung 1:
Achtung: Bedeutung von R2 ist abhängig von der Zielsetzung
Ziel: Erklärung von (sozialen) Prozessen
—> Mit einer theoretisch begründeten Auswahl von Regressorvariablen wird ein (einfaches) Modell erstellt und untersucht, ob die Zusammenhänge im Einklang mit der Theorie auftreten. Dann ist R2 eher zweitrangig.
Ziel: Vorhersagen und möglichst gute Prognosen
—> Man sucht möglichst viele Regressorvariablen, die die komplexe Realität widerspiegeln und somit die Prognose verbessern. Dies spiegelt sich in einem hohen R2 wieder.
= Vorhersagen
Bemerkung 2:
• In den Sozialwissenschaften ist R2 häufig niedrig (i.d.R. < 20%) , da soziale Prozesse, Eigenschaften von Institutionen, Organisationen, Ländern oder individuelles Verhalten oder eben nicht deterministisch von bestimmten Variablen abhängig sind
Bemerkung 3:
• R2 erlaubt keine Aussagen, ob das Modell ein angemessenes Modell ist. Ein nicht- sinnvolles Modell (siehe oben) besitzt möglicherweise einen hohen R2-Wert
Wie können wir unser Modell mit R2 bewerten? | Stata-Beispiel: Wie hängen Bildung und Arbeitszeit zusammen?
• _cons: 𝛽- : Für 0 Bildungsjahre erwarten wir 36,13 Arbeitsstunden (gibt es nicht in der Realität!) .
• eduyrs𝛽- :Ein Jahr mehr Bildung führt zu 0.2015 mehr erwarteten Arbeitsstunden(=12min)
• Die Regressionsgleichung lautet 𝑦= = 𝛽 + 𝛽 𝑥= 36,12 + 0.2015 * Bildungsjahre
—> Für Personen mit 18 Bildungsjahren erwarten wir 36,13 + 18*0.2015 = 39,76 Arbeitsstunden
• R-squared: Das Modell erklärt 0.25 % der Gesamtvarianz der Arbeitsstunden (= fast nix) 37
Wann kann eine OLS-Regressionsgerade sinnvoll verwendet werden? | ... wenn es gute theoretische Gründe für die Modellbildung gibt
Theorie beachten! Software rechnet nur aus (auch Unsinn!)
Abbildungen Tabellen) n
Regression NICHT sinnvoll,wenn
Grundlegende Voraussetzungen für sinnvolle Anwendung eines Regressionsmodells
• Zusammenhang ist linear
• Keine Ausreißer
• Residuen variieren nicht mit X
Ist die Korrelation (nur) ein Spezialfall eines Regressionskoeffizienten? | Korrelation und Regressionskoeffizient
• Rein mathematisch ist die Korrelation eine Spezialform der OLS Regression
• ABER: es gibt einen technischen und konzeptionellen Unterschied:
• Korrelation drückt (nur) die Stärke eines Zusammenhangs aus
• Regression impliziert: Y wird durch X vorhergesagt— nicht andersherum, zum Beispiel:
Bildungsjahre = 14.72 + 0.012*Arbeitsstunden
Wichtige Begriffe
•OLS(OrdinaryLeastSquares):Summe der quadrierten Abweichungen
•OLS Regressionsgerade: Die Gerade mit den Parametern, bei der die Summe der quadrierten Abweichungen minimal wird
•Steigungskoeffizient:Beschreibt um wieviel sich die abhängige Variable ändert, wenn sich die unabhängige Variable um eine Einheit verändert.
• R2:Anteil der erklärten Varianz an der Gesamtvarianz
TUTORIUM
STANDARDABWEICHUNG
= Quadratwurzel der Varianz, damit die Skala wieder der ursprünglichen
Variablen entspricht
Dementsprechend auch nur für metrische Variablen geeignet
Links (technisch gesehen korrekt) Rechts (was wir in Zukunft verwenden werden)
Abbildung.
= "beste" Gerade für das Streudiagramm
• Summe der quadrierten Abweichungen von den Punkten ist minimal
• "ordinary least squares" = OLS
Abbildungen
How does regression estimation work?
3 Bilder:
Ordinary least squares estimation
OLS-Regressionsgerade: