Welches Skalenniveau muss die abhängige Variable einer OLS-Regression mindestens haben?
Intervallskala
Warum wird die Summe der quadrierten Abweichungen verwendet?
Weil sich die einfachen positiven und negativen Abweichungen gegenseitig aufheben würden
Was versteht man unter “Regressionskoeffizienten”?
Unter „Regressionskoeffizienten“ wird verstanden:
a: Der Schnittpunkt mit der y-Achse
b: Die Steigung der Geraden
y ist die jeweilige Schätzung des y-Wertes (der abhängigen Variable) -> Dies bedeutet, dass für jeden x-Wert der zugehörige y-Wert geschätzt wird
Welche Regressionsgerade ist am geeignetsten ?
die beste Gerade ist die, bei der die Summe der quadrierten Abweichungen von den Punkten des Streudiagramms am geringsten ist
Das Verfahren, das die beste Gerade liefert, nennt sich “Kleinste Quadrate Schätzung” (ordinary least squares)
Regressionsgerade ist die bestmögliche Gerade, die man im Streudiagram durch alle Daten legen kann, sodass alle Datenpunkte von der Geraden in Summe den kleinsten Abstand haben
Auf welcher Achse wird die unabhängige Variable dargestellt?
auf der x-Achse
Wie wird die unabhängige Variable noch bezeichnet?
als Outcome oder Response Variable
Was lässt sich mithilfe der Regressionsgeraden vorhersagen?
Mithilfe der Regressionsgeraden lassen sich Werte für y jeder beliebiger Ausprägung von X vorhersagen
Beispiel: Welche Wohnfläche lässt sich bei dem Haushaltseinkommen von x = 1565 erwarten?
ß1 = 0.029 -> Steigung, Regressionskoeffizient
ß0 = 41.66 -> Achsenabschnitt, in STATA: coef
Ergebnis: Bei einem Haushaltseinkommen von 1565 Euro wird eine Wohnfläche von 87 Quadratmeter erwartet
Beispiel zur Berechnung der Regressionskonstante
Was ist die allgemeine Regressionsgleichung?
Wie berechnet man den Regressionskoeffizienten? ß1
ß1 = Regressionskoeffizient
ß0 = Regressionskonstante
Durch Einsetzen der Kovarianz und Varianz in die Formel lässt sich der Regressionskoeffizient bestimmen -> dieser wird dann zur Berechnung der Regressionskonstante verwendet
Wie interpretieren wir die Regressionskonstante und den Regressionskoeffizienten?
durch das Modell lassen sich Vorhersagen für Y treffen, für jeden beliebigen Wert von X
das Modell schätzt den bedingten Erwartungswert -> das erwartete Outcome y
Wie hängt der Korrelationskoeffizient (r) mit dem Regressionskoeffizienten (𝛽) zusammen?
Der Regressionskoeffizient 𝛽1 entspricht dem Produkt aus dem Korrelationskoeffizienten 𝑟𝑥𝑦 und dem Verhältnis der
Standardabweichungen von y und x
Interpretation von Pearsons Korrelationskoeffizient
r = 0: keine lineare Beziehung
r = 1: maximale / perfekte positive lineare Beziehung
r = -1: maximale / perfekte lineare Beziehung
-> Achtung: der Korrelationskoeffizient ist nicht robust gegenüber Ausreißern, extreme Werte können den Koeffizienten stark beeinflussen
Wie berechnet man Pearsons Korrelationskoeffizient? (Formel)
r = Pearsons Korrelationskoeffizient
Beispiel:
-> negativer, mittelstarker Zusammenhang
Wie können wir das Modell mit R² bewerten?
Bestimmen von R²:
Betrachte das allereinfachste Modell 𝐸(𝑌) = 𝑦N , also
“Y hängt nicht von X ab” und berechne die Quadratsumme = total sum of squares (TSS)
Betrachte nun die Regressionsgleichung und berücksichtige, dass Y von X abhängt -> berechne die model sum of squares (MSS)
R² ist definiert als Anteil der model sum of squares an der total sum of squares
Warum verwenden wir einfache Regressionsmodelle, um komplexe Phänomene der realen Welt zu beschreiben?
statistisce Modelle dienen zur Vereinfachung der komplexen Realität, um grundlegende Muster und Zusammenhänge zu erkennen
Was beschreibt R²?
R² beschreibt die Streuung der Datenpunkte um die geschätzte Regressionsgerade
Bsp.: R² = 0.25 -> große Streuung um die Geraden
R² = 0.85 -> kleine Streuung
Anteil der erklärten Varianz an der Gesamtvarianz
R² kann Werte zwischen 0 und 1 annehmen -> das Modell wäre umso besser, je näher der Wert an 1 ist
Wert 1 würde bedeuten, dass die abhängige Variable zu 100% durch die Regression erklärt werden kann
Wann kann eine OLS-Regressionsgerade sinnvoll verwendet werden?
Wenn grundlegende Voraussetzungen erfüllt sind:
keine Ausreißer
Residuen variieren nicht mit X
der Zusammenhang ist linear
Steigungskoeffizient
beschreibt, um wie viel sich die abhängige Variable ändert, wenn sich die unabhängige Vaiable um eine Einheit verändert
Was ist R²?
Der Anteil der erklärten Varianz an der Gesamtvarianz
Wie berechnet man das Residuum?
Residuum = die individuelle Abweichung des beobachteten Wertes vom vorhergesagten Wert
Regression in STATA
Was beschreibt der Regressionskoeffizient?
der Regressionskoeffizient beschreibt den Faktor, um den sich Y (Outcome) verändert, wenn sich die zugehörige Variable X (Prädiktor) um eine Einheit verändert
Was bedeutet ein P Wert der gleich 0 ist?
Der p-Wert beträgt hier also Null
Wenn der p-Wert kleiner ist als 0.05, dann hat das Modell eine signifikante Erklärungsgüte, d.h. die Regression ist ok
Da der p-Wert kleiner ist als 0.05, wissen wir dass die Variable safewater einen signifikanten Einfluss auf die abhängige Variable hat
Was bedeutet ein R² von 0,6792 ?
Der Wert Adj R-squared=0.6792 besagt, dass mit der Regression 67.92% der Streuung der abhängigen Variable erklärt werden kann
Der Wert 1 würde bedeuten, dass die abhängige Variable zu 100% durch die Regression erklärt werden kann
Regressionskoeffizient
Der Koeffizient der Variable safewater beträgt 0.1887.
-> Wert besagt, dass bei einem Anstieg der Variable safewater um eine Einheit die abhängige Variable um durchschnittlich 0.1887 ansteigt
Inhaltlich bedeutet dies: Wenn der Anteil der Bevölkerung mit Zugang zu sauberem Trinkwasser um einen Prozentpunkt ansteigt, dann erhöht sich die Lebenserwartung um 0.1887 Jahre.
Last changed6 days ago