-Prinzipiell lassen sich beliebig viele Geraden durch die Punkte legen
-Die (mathematisch) „beste“ Gerade ist die, bei der die Summe der quadrierten Abweichungen von den Punkten des Streudiagramms am geringsten ist und damit den Trend am besten abbildet
-Das Verfahren, das diese „beste“ Gerade liefert, nennt sich Kleinste (Abweichungs-) Quadrate-Schätzung (auch: OLS = ordinary least squares)
==> Abweichungen von der Geraden quadrieren
-Ziel ist es einen Graphen zu erhalten, bei dem die quadrierten Residen möglichst klein sind
-Abweichung bleibt dann das, was nicht behoben werden kann
==>Warum wird die Summe der quadrierten Abweichungen verwendet?
o Weil sich die einfachen positiven und negativen Abweichungen gegenseitig aufheben würden.
o Summe ist meist eher klein
==> Modell will den Zusammenhang bestmöglich erklären
==> nun nehmen wir die Variable education dazu
==> der blaue Part soll minimiert, der grüne Part soll maximiert werden
==> das kleinste Quadrat steht für die passendste Gerade
-Löst man die Minimierungsbedingung, erhält man die folgenden Parameter der Regressionsgleichung – die man mit den für y und x gegebenen Werten ausrechnen kann
-Durch Einsetzen der Kovarianz und Varianz in die Formel lässt sich der Regressionskoeffizient bestimmen. Dieser wird dann zur Berechnung der Regressionskonstante verwendet.
-Interpretation
o Bei einem Haushaltseinkommen von 0 € kann man 41.66 qm Wohnfläche erwarten (ABER: Einkommen von 0 € wurde nicht beobachtet! "Extrapolation")
o Wenn das Haushaltseinkommen um 1 € steigt, erhöht sich die Wohnfläche um 0,029 qm
o Wenn das Haushaltseinkommen um 100 € steigt, erhöht sich die Wohnfläche um 2,9 qm
o Wenn das Haushaltseinkommen um 500 € steigt, erhöht sich die Wohnfläche um 14,5 qm ("+ 1 Zimmer" )
o Wenn das Haushaltseinkommen um1000 € steigt, erhöht sich die Wohnfläche um 29 qm etc.
==> alle die gezeigten Modelle sind Durchschnitte, Models of Mean und damit durchschnittliche Schätzungen und somit extrem anfällig für Mittelwerte
-Mit Hilfe der Regressionsgerade lassen sich Werte für yi für jede beliebige Ausprägung von X vorhersagen
-Beispiel: Welche Wohnfläche lässt sich bei einem Haushaltseinkommen von xi = 1565 erwarten?
==> Bei einem Haushaltseinkommen von 1565 € wird eine Wohnfläche von 87 qm erwartet.
==> Diese Schätzgerade liefert uns Schätzwerte über unsere bisher gemachten Beobachtungen hinaus
-Die tatsächlichen Beobachtungen werden verwendet, um ein Modell zu schätzen / Vorhersagen zu treffen
-Mit Hilfe des Modells lassen sich Vorhersagen für Y treffen, und zwar für jeden beliebigen Wert von X
==> d.h. Y-Wert gegeben in Abhängigkeit von X
Bestimmtheitsmaß R2 – Ausgangspunkt „Y hängt nicht von X ab“
==> Betrachte OLS-Gerade: "Y hängt so-und-so von X ab"
==> Wie können wir unser Modell mit R2 bewerten?
==> Wie groß der Anteil der Streuung ist, der durch die Modelle erklärt wird
-Bemerkung 1: Achtung: Bedeutung von R2 ist abhängig von der Zielsetzung
o Ziel: Erklärung von (sozialen) Prozessen
§ Mit einer theoretisch begründeten Auswahl von Regressorvariablen wird ein (einfaches) Modell erstellt und untersucht, ob die Zusammenhänge im Einklang mit der Theorie auftreten. Dann ist R2 eher zweitrangig.
o Ziel: Vorhersagen und möglichst gute Prognosen
§ Man sucht möglichst viele Regressorvariablen, die die komplexe Realität widerspiegeln und somit die Prognose verbessern. Dies spiegelt sich in einem hohen R2 wieder.
-Bemerkung 2:
o In den Sozialwissenschaften ist R2 häufig niedrig (i.d.R. < 20%), da soziale Prozesse, Eigenschaften von Institutionen, Organisationen, Ländern oder individuelles Verhalten oder eben nicht deterministisch von bestimmten Variablen abhängig sind
-Bemerkung 3:
o R2 erlaubt keine Aussagen, ob das Modell ein angemessenes Modell ist. Ein nicht-sinnvolles Modell (siehe oben) besitzt möglicherweise einen hohen R2-Wert
-MSS = wie weit ist die Gerade vom Mittelwert entfernt?
-TSS = wie weit sind Punkte von der Geraden entfernt? ==> Quadriert und aufsummiert
-TSS = MSS+RSS
==> I.e. R2 beschreibt den Anteil der Varianz einer abhängigen Variablen, der durch die Berücksichtigung einer unabhängigen Variablen X statistisch "erklärt" wird. Achtung: mathematisch-statistisch Erklärung, nicht: ursächlich für Sachervhalte
==> R2 beschreibt wie viel Varianz der abhängigen Variablen von dem Modell erklärt wird
==> hängt also mit anderen Dingen zusammen
==> …wenn bestimmte Voraussetzungen erfüllt sind
-Grundlegende Voraussetzungen für sinnvolle Anwendung eines Regressionsmodells
o Zusammenhang ist linear
o Keine Ausreißer (darauf achten, was sich beim Ausreißen verwendet)
o Residuen variieren nicht mit X (Muster)
Zuletzt geändertvor 5 Monaten