BIVARIATE Datenanalyse
Bivariate Datenanalyse untersucht den Zusammenhang zwischen genau zwei Variablen. Sie ermöglichen es, Zusammenhangshypothesen zwischen 2 Variablen zu testen.
Grundprinzip:
Eine Variable ist unabhängig (z. B. Bildung)
die andere abhängig (z. B. Wahlbeteiligung) sein.
Schritt 1
Kreuztabellen (Contingency Tables)
zeigt die Häufigkeiten des gemeinsamen Auftretens von zwei Variablen.
Spalte: unabhängige Variable
Zeile: abhängige Variable
Zellen: Kombinationen der Ausprägungen der beiden Variablen
Nominal: Kategorie ohne Rangordnung (z. B. Geschlecht)
Ordinal: Kategorie mit Rangfolge (z. B. politisches Interesse)
Metrisch: viele Ausprägungen (z. B. Einkommen) → gruppieren nötig, um Kreuztabellen zu erstellen
Randhäufigkeiten: Summen der Zeilen und Spalten (deskriptiv)
Relative Häufigkeiten: Prozente ermöglichen bessere Vergleichbarkeit
Prozentangaben: auf Spaltenbasis → „wenn-dann“-Interpretation
# Basis R: Kreuztabelle erstellen
table(Variable1, Variable2)
# Relative Häufigkeiten
prop.table(table(Variable1, Variable2), margin=2)
# mit Paket: sjmisc
flat_table(ess9de_m1, wahl, bildung,
margin = c("col")) # = Spaltenprozente
# Zeilenprozente (row)
# Gesamtprozente (cell)
# Mit Paket: descr
CrossTable(ess9de_m1$wahl, ess9de_m1$bildung) #Ausgabe in Console
CrossTable(ess9de_m1$wahl, ess9de_m1$bildung,
prop.c = TRUE, # Spaltenprozente
prop.t = FALSE, # Gesamtprozente
prop.r = FALSE, # Zeilenprozente
prop.chisq = FALSE) # einzelne ChiQuadrat-Anteile
Bei Nominalen: Schritt 2:
Indifferenztabelle (erwartete Häufigkeit)
da kein Zusammenhang zwischen Variablen nachgewiesen wurde bisher, muss das erstmal gezeigt werden:
Vergleich: beobachtete Häufigkeiten fb(ij) vs. erwartete fe(ij)
Große Abweichung → höhere Wahrscheinlichkeit für statistische Abhängigkeit
Formel: fe(ij) = Zeilensumme(i) * Spaltensumme (j) / n
Beispiel:
Beobachtet: 311 Männer „sehr stark politisch interessiert“
Erwartet: 216,56 Männer
Differenz = 94,44 → Abweichung deutet auf Zusammenhang
Schritt 3
Chi² - Test (χ²)
Misst, wie stark die beobachteten Häufigkeiten von den erwarteten abweichen.
Problem: χ² ist stichprobenabhängig, daher schwer vergleichbar zwischen Studien
Interpretation:
χ² ≈ 0 → kein Zusammenhang
χ² groß → starker Zusammenhang
Berechnung mit Tabelle
Spalte: Beobachtete Häufigkeiten (fb + Spalte der Originaltabelle angeben, zB. fbi)
Spalte: erwartete Häufigkeiten (fe + Spalte…)
Spalte Residuen pro Zeile berechnen:
Differenz zwischen den beobachteten und den erwarteten Häufigkeiten
Heißt: wie stark die Realität (beobachtet) von der Nullhypothese (erwartet, wenn kein Zusammenhang besteht) abweicht.
fb - fe
Spalte: Residuen pro Zeile quadrieren
Spalte: quadrierte Residuen durch erwartete Häufigkeiten pro Zeile teilen:
Residuen (fb - fe)² / (erwartete Häufigk.) fe
Spalte: Summe der Werte aus Spalte 5
= Chi²
Funktion in R
chisq.test(Variable1, Variable2)
#Darstellung beobachteter Häufigkeiten und erwarteter Häufigkeiten + Chi, Cramer + phi
tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)
Schritt 4
Effektstärke messen durch Phi & Cramer’s V
Phi (Φ)
Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen - 2x2 Tabellen (dichotome Variablen, auch genannt: 4 Feldertafel)
Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)
Werte: 0 (kein Zusammenhang) bis 1 (vollständige Abhängigkeit)
Interpreation wie bei Cramers V
Formel: Φ = Wurzel aus χ²/n
Cramer’s V
Maß für die Stärke des Zusammenhangs zwischen zwei nominal- oder ordinalskalierten Variablen.
Zwei nominalskalierte Variablen (z. B. Geschlecht × Wahlbeteiligung)
Eine nominale Variable und eine ordinale Variable (z. B. Geschlecht × Bildungsgrad)
Wichtig: Wenn die Variablen unterschiedliche Skalenniveaus haben, wählt man für Cramér’s V das niedrigere Messniveau.
Nominal < Ordinal < Intervall/Metrisch
Beispiel 1: Geschlecht (nominal) × Bildungsgrad (ordinal)
Nominal = niedrigeres Skalenniveau → Cramér’s V berechnen auf Basis von nominal.
Beispiel 2: Familienstand (nominal) × Einkommen (metrisch)
Nominal < Metrisch → Cramér’s V für nominales Merkmal → zeigt, wie stark Einkommen durch Gruppenunterschiede erklärt wird.
Es zeigt nur die Stärke, nicht die Richtung eines Zusammenhangs.
Wertebereich: 0 bis 1
0 → kein Zusammenhang
1 → perfekte Abhängigkeit (die Merkmale „gehen Hand in Hand“)
Auch für größere Tabellen (nicht nur 2x2)
Formel: V = Wurzel aus Chi² / n * (M - 1)
M = kleinere Dimension der Kreuztabelle (entweder Zeilen oder Spalten)
Der Wert sagt wie stark die beiden Merkmale zusammenhängen (nur „stärker“ oder „schwächer“)
Beipspiel:
Chi-Quadrat χ2=190,46
Stichprobengröße n=3490
Tabelle 5 Zeilen × 2 Spalten → M=2M
V = Wurzel aus 190,46 / 3490 * (2 - 1)
= Wurzel aus 190,46 / 3490 ≈ 0,23
Interpretation
V-Wert
Stärke des Zusammenhangs
≤ 0,05
kein Zusammenhang
0,05–0,10
sehr schwach
0,10–0,20
schwach
0,20–0,40
mittelstark
0,40–0,60
stark
> 0,60
sehr stark
0,23 = mittelstarker Zusammenhang zwischen den Merkmalen
Funktionen in R
CrossTable(var1, var2, expected=TRUE, prop.chisq=TRUE, chisq=TRUE)
#Paket DescTools:
CramerV(var1, var2)
Zusammengefasst (nominal):
Indifferenztabelle → Chi² → Phi/Cramér’s V
Indifferenz zeigt „erwartet ohne Zusammenhang“
Chi² misst Abweichung von Erwartung
Phi/Cramér’s V standardisiert das Ergebnis für Vergleichbarkeit
bei ordinalen:
Die Werte haben eine Rangfolge, aber Abstände sind nicht zwingend gleich.
Beispiele: Bildungsabschluss (niedrig → mittel → hoch), politisches Interesse (sehr niedrig → sehr hoch), soziale Schicht (Unterschicht → Oberschicht)
Ziel: Bestimmung von Richtung und Stärke des Zusammenhangs zwischen zwei ordinalen Variablen.
Schritt 2:
Rangzuweisung
Ränge: Position eines Wertes in der geordneten Stichprobe (klein → groß)
Bindungen (Ties): Mehrere gleiche Werte → Rangmittelwert wird vergeben
Beispiel: Zwei Personen mit „Abitur“ → Ränge 4 & 5 → Mittelwert 4,5
Person
Bildung
Rang
A
Hauptschule
1
B
Realschule
2,5
E
C
Abitur
4,5
D
Hinweis: Rangkorrelationen ermöglichen Aussagen über Stärke und Richtung, nicht über Kausalität.
Spearmans Rho (ρ) oder (rsp)
= Rangkorrelationskoeffizient für zwei ordinalskalierte Variablen
Wertebereich: −1 bis +1
Positiv → beide Variablen steigen zusammen
negativ → gegenläufig, 0 → kein Zusammenhang
Faustregel:
≤ 0,05 kein Zusammenhang
0,05–0,20 schwach
0,20–0,50 mittel
0,50–0,70 stark
>0,70 sehr stark
Berechnung mit Tabelle:
Tabelle zu beiden Merkmalen ausgeben lassen, z.B. Soziale Schicht und Gesundheitszustand
Person 1 Mittelschicht(3) GZ schlecht (2)
Person 2 Arbeiterschicht(2) GZ sehr schl. (1)
Person 3 Oberschicht(5) GZ sehr gut (5)
…
Rangpositionen überführen: d = X - Y
Person 1 (3) (2) (1)
Person 2 (2) (1) (1)
Person 3 (5) (5) (0)
Ränge quadriert summieren: 1² + 1² + 0² = 2
Formel ausfüllen: 6 * 2 / 3 (n) * (3² -1) = 12 / 24 = 0,5
Interpreation: positiver mittelstarker Zusammenhang zwischen Sozialer Schicht und Gesundheitszustand, sodass, sollte eins von beiden ansteigen, die andere Variable mit ansteigt.
cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),
use="complete.obs", method="spearman")
Paket: DecTools
SpearmanRho(ess9de_m1$polint, ess9de_m1$bildung, use="complete.obs")
Kendalls Tau
Alternative zu Spearman für ordinalskalierte Variablen
= Zusammenhangsmaß für mindestens ordinalskalierte Variablen. Es misst die Rangübereinstimmung zwischen zwei Variablen und kann Werte zwischen −1 und +1 annehmen:
+1: perfekter positiver Zusammenhang (alle Paare steigen zusammen)
0: kein Zusammenhang
−1: perfekter negativer Zusammenhang (eine steigt, die andere sinkt)
Grundidee
Man betrachtet alle möglichen Paare von Beobachtungen und überprüft, ob die Rangfolgen der beiden Variablen gleichgerichtet oder gegenläufig sind.
Konkordante Paare: Positiver Beitrag <- Rangplätze beider Variablen steigen oder fallen gemeinsam.
Diskonkordante Paare: Negativer Beitrag <- Wenn Rangplätze gegensätzlich verlaufen (eine steigt, die andere sinkt).
Verbunden / Bindung (tie): Mindestens eine Variable hat für ein Paar gleiche Werte → spezieller Umgang, wird angepasst
Vorteil: robuster bei Bindungen und großen Stichprob
X (Schicht)
Y (Gesundheit)
3
2
5
Paar 1: Person 1, Person 2…
Die Paare bilden wir immer aus zwei unterschiedlichen Personen:
(1,2), (1,3), (2,3)
Formel: n*(n-1) / 2 = 3*(3-1) / 2 = 3 Paare
A & B → X steigt (1→3), Y steigt (2→4) → konkordant ✅
A & C → X steigt (1→2), Y steigt (2→5) → konkordant ✅
B & C → X fällt (3→2), Y steigt (4→5) → diskonkordant ❌
Überwiegen konkordante Paare, dann ist es positiv!
Hinweis
Bei ordinalen Variablen empfiehlt sich ggf. auch eine Kreuztabelle für die deskriptive Darstellung.
Spearman ist robuster gegen Ausreißer; Kendall besonders bei vielen Bindungen.
use="complete.obs", method="kendall")
bei metrischen:
Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei
Scatterplots (Streudiagramme)
Kovarianz und
Pearson’s r (Korrelationskoeffizient)
Grafische Analyse: Streudiagramm (Scatterplot)
= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.
Zweck: Erste Einschätzung des Zusammenhangs.
Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.
Arten von Zusammenhängen:
Keine Korrelation: Punkte zufällig verteilt.
Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.
Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.
Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.
Schritt 3:
Kovarianz: unstandardisiertes Zusammenhangsmaß
= Zwischenschritt zur Berechnung von Pearsond R
Maß für den linearen Zusammehhang zweier Variablenin Form der gemeinsamen Streuung von X und Y an
Berechnung:
wie weit der jeweilige x- oder y-Wert vom arithmetischen mittel entfernt ist
Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n
Interpretation des Ergebnis:
positiv → steigen gemeinsam
negativ → einer steigt, der andere fällt
≈ 0 → kein linearer Zusammenhang
Problem: einheitenabhängig → schwer vergleichbar
Beispiel aus dem Text:
Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben
Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.
Schritt 4:
Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)
= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.
heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.
Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).
Pseudometrische Variablen in den SW: Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.
Beispiele:
Likert-Skalen 0–10 (z. B. Lebenszufriedenheit)
Gesundheitszustand (kritisch, wenn ungleiche Abstände)
Achtung: Die metrische Behandlung ist modellabhängig! Bei begründeten Zweifeln → Spearman’s Rho verwenden
Wertebereich -1 bis 1
Berechnung über Tabelle:
Erstelle eine Tabelle mit diesen 5 Spalten:
xi → Werte von Merkmal X (z. B. Einkommen)
yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)
xi · yi → Produkt aus X und Y
(xi)² → X-Werte quadriert
(yi)² → Y-Werte quadriert
Am Ende addierst du jede Spalte als Randwert
Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)
Formel auffüllen (Zähler):
Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi
Formel auffüllen (Nenner):
Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN
ID
Xi
Yi
X·Y
X²
Y²
8
16
4
64
6
24
36
Σ
12
18
56
116
MW
21,33
18,67
38,67
= 0,22
Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy
Aber:
Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.
Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.
Mögliche 3. Variablen können nicht ausgeschlossen werden
= keine kausale Interpretation möglich nur Schein Korrelationen
auch keine Richtung der Kausalität möglich
nur je höher, desto wahrscheinlicher… Aussagen möglich
Interpreation des Ergebnis:
r > 0 → positiver linearer Zusammenhang
r < 0 → negativer linearer Zusammenhang
r = 0 → kein linearer Zusammenhang
>0,05 – 0,20 schwach
>0,20 – 0,50 mittelstark
>0,50 – 0,70 stark
Beispiel 1 (IQ & Test):
r = 0,89 → sehr starker positiver Zusammenhang
Beispiel 2 (Einkommen & Lebenszufriedenheit):
r = 0,64 → starker positiver Zusammenhang
Wichtig:
Pearson’s r misst nur lineare Zusammenhänge.
r zeigt keine Kausalität → keine Aussage zu x → y oder y → x
Scheinkorrelationen möglich (dritte Variable).
Zusammenhang bedeutet nicht Ursache-Wirkung.
Streudiagramm immer sinnvoll zur visuelle Prüfung (z. B. Nichtlinearität).
Zusammengefasst:
Streudiagramm → zeigt die Form des Zusammenhangs (visuell)
Kovarianz → zeigt Richtung (positiv/negativ) des Zusammenhangs , aber keine Stärke
Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)
Funktion in R:
cor(ess9de_m1$stflife, ess9de_m1$health,
use = "complete.obs")
cor.test(ess9de_m1$stflife, ess9de_m1$gesund.num,
Gibt r und p-Wert aus
p < 0,05 → Korrelationskoeffizient statistisch signifikant
Signifikanz betrifft nur die Übertragbarkeit, nicht Stärke/Bedeutsamkeit
Spearman = robuster bei ordinalen bzw. nicht normalverteilten Daten
cor(ess9de_m1$stflife, ess9de_m1$gesund.num,
use = "complete.obs",
method = "spearman")
Kodierung prüfen! Hohe Werte sollten ein hohes Ausmaß des Merkmals bedeuten → erleichtert Interpretation
Pearson’s r misst nur lineare Zusammenhänge
Keine Kausalaussagen möglich
Bei ordinalen Variablen oder Zweifeln → Spearman’s Rho als Robustheitsprüfung
Immer zuerst deskriptiv prüfen (Skalen, Verteilung, Kodierung, Ausreißer)
Eta-Quadrat (η²): wenn unabhängige Variable nominal und eine abhängige Variable metrisch
wird genutzt, wenn:
unabhängige Variable (uV) = nominal (z. B. Geschlecht, Familienstand, Migrationshintergrund)
abhängige Variable (aV) = metrisch (z. B. Einkommen, Testpunkte, Zufriedenheit)
Warum kein Pearson’s r?
Pearson r erfordert beide Variablen metrisch → Kategorien wie „ledig“, „verheiratet“ haben keine Zahlenabstände
Eta² ist das passende Maß für die Kombination nominal – metrisch
Eta² zeigt, wie viel Prozent der Varianz der abhängigen Variable durch die Gruppen erklärt wird.
1 → perfekter Zusammenhang
Beispiel: η² = 0,53 → „53 % der Varianz werden durch die Gruppen erklärt“
= Eta-Quadrat als PRE-Maß (Proportional Reduction of Error)
Grundidee: „Wie sehr verbessert Gruppenwissen meine Vorhersage?“
Man vergleicht zwei Vorhersagen:
Ohne Gruppenwissen
Schätzer: Gesamtmittelwert
Fehler = E1
Mit Gruppenwissen
Schätzer: Gruppenmittelwerte
Fehler = E2
Dann gilt:
PRE = E1−E2 / E1
→ Diese PRE-Logik = Grundlage von Eta²
SChritt 3:
Quadratsummen (QS) verwenden
QS Gesamt
Abweichungen aller Werte vom Gesamtmittelwert
entspricht E1 (Fehler ohne Gruppenwissen)
QS innerhalb
Abweichungen innerhalb jeder Gruppe
entspricht E2 (Fehler mit Gruppenwissen)
QS zwischen
Unterschiede der Gruppenmittelwerte
QSgesamt – QSinnerhalb
Formel für Eta-Quadrat:
η2= QS gesamt − QS innerhalb / QS gesamt
oder
η2 = QS gesamt / QS zwischen
Interpretation nach Cohen
Eta²
Effektstärke
< 0,01
kein Effekt
0,01 – < 0,06
kleiner Effekt
0,06 – < 0,14
mittlerer Effekt
≥ 0,14
großer Effekt
Beispiel (vereinfacht)
Fragestellung: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“
Gruppe A (ohne MH): MW = 12,8 Gruppe B (mit MH): MW = 6,2 → starker Unterschied
Gegeben:
QS gesamt = 204,5
QS innerhalb = 95,6
η2 = 204,5 - 95,6 / 204,5 = 0,53
η² = 0,53 → sehr starker Effekt
53 % der Varianz im politischen Wissen werden durch den Migrationshintergrund erklärt
Platz von Eta-Quadrat im Vergleich zu anderen Zusammenhangsmaßen
Nominal – nominal / ordinal – nominal → Cramer’s V
Ordinal – ordinal / bei Rangdaten → Spearman’s Rho
Metrisch – metrisch → Pearson’s r
uV nominal – aV metrisch → Eta-Quadrat
Regel: → „Wähle immer das Assoziationsmaß, das zum niedrigsten Skalenniveau passt“ → Ausnahme: Eta² ist speziell für nominal–metrisch vorgesehen
Was können bivariate Analysen nicht leisten?
Sie zeigen nur Zusammenhang / Effektstärke – keine Kausalität
Drittvariablen können Zusammenhänge erklären → Scheinkorrelation
Statistische Maße allein liefern keine Ursachenanalyse
Multivariate Datenanalysen
lineare Regression (bivariat + multipel)
untersuchen, den Einfluss mehrerer unabhängige Variablen (auch: erklärende Faktoren) auf ein abhängiges Phänomen (auch: erklärungsbedürftiges Phänomen).
Das wichtigste Verfahren ist die Regressionsanalyse (lat. regredere: zurückführen auf), die zwei Ziele erfüllen kann:
Erklären, welchen Einfluss uVs auf die aV haben.
Vorhersagen, welchen Wert die aV basierend auf uVs annehmen wird.
Wahlbeteiligung zurückführen auf: Bildung, Einkommen, politisches Interesse etc. einer Person
Prognose über eine Schätzung (!) darüber, dass, wenn wir den sozialen Status und das politische Interesse einer Person kennen, wie wahrscheinlich es ist, dass die Person wählen geht.
Dabei werden verschiedene Begriffe synonym verwendet:
Abhängige Variable (y)
Unabhängige Variable (x)
Erklärte Variable
Erklärende Variable
Kriteriumsvariable
Prädikator(variable)
Endogene Variable
Exogene Variable
Regressand
Regressor
Unterschied zur bivariaten Datenanalyse
Kausalbeziehungen werden untersucht:
Richtung, Ursprung und Stärke eines Einflusses
Achtung: keine statistische Perspektive auf Kausalität, sondern Korrelation wird berechnet
Regressionsanalyse = strukturprüfendes Verfahren, mittels derer sich theoretisch entwickelte Hypothesen über die Beziehungsstruktur zwischen Variablen prüfen lassen
Deshalb: Theorien- u. Hypothesenbildung vor Regressionsanalyse zwingend notwendig
Fragen der Regressionsanalyse
Welchen Eingluss üben einzelne unabhängige Variablen auf eine abhängige aus?
Stärke + Richtung des Einflusses
Wie gut erklären bestimmte unabhängige Variablen eine abhängige insgesamt?
= Gesamtgüte des Regressionsmodells*
Stichprobendaten (z.B. ALLBUS): Berechnung der statistischen Signifikanz sowohl der Einflussfaktoren, als auhc des Gesamtmodells
Typen von Regressionsanalysen
Welches Regressionsmodell gewählt wird, hängt vom Skalenniveau der abhängigen Variable ab:
Lineare Regression: metrische aV
Logistische Regression: dichotome aV
Multinominale Log. Regression: nominale aV
Ordinale Regression: ordinale aV
1. Lineare Regression (am häufigsten genutzt)
= Untersuchung eines linearen Zusammenhangs zwischen mindestens einer unabhängigen und einer abhängigen Variable.
= metrische & psuedometrische mit mind. 5 Ausprägungen und gleich große Wertzuweisungen der Abstände zwischen den Ausprägungen einer Variable
Beispiel: Lebenszufriedenheit:
Determinanten der Lebenszufriedenheit = Erklärung der Streuung beobachteter Daten durch das Einkommen (und weiterer Merkmale) entlang der Regressionsgeraden.
= Regressionsmodell:
heißt: wie groß der Eingluss einzelner Faktoren jeweils ist, wie genau Einflussvariablen zusammen die abhängige Variable Lebenszufriedenheit erklären.
= Wie gut können diese EInflussfaktoren einzeln und gemeinsam die Höhe der Lebenszufriedenheit bestimmen und damit auch vorhersagen?
Voraussetzungen der linearen Regression
Es müssen bestimmte Bedingungen erfüllt sein (hier nur die wichtigste erwähnt):
Linearität: Zwischen uVs und aV muss ein linearer Zusammenhang bestehen (erkennbar z.B. im Streudiagramm).
Zufallsstichprobe
Damit die Regressionsparameter auf die Grundgesamtheit übertragbar sind, sollte die Stichprobe zufällig gezogen sein.
Keine starke Multikollinearität
uVs sollten nicht sehr hoch korrelieren (Faustregel: r > 0,9 problematisch).
Sonst werden die Schätzungen der Koeffizienten unzuverlässig.
Unkorrelierte Residuen
Residuen sollen zufällig um 0 schwanken.
Sie dürfen nicht miteinander und nicht mit Y korrelieren → sonst sind die Parameter verzerrt.
Homoskedastizität
Die Residuen sollen eine konstante Varianz über alle X-Werte hinweg haben.
Bei Heteroskedastizität werden Standardfehler falsch → Signifikanztests (t, F, p) werden unzuverlässig.
Korrekte Modellspezifikation
Alle theoretisch relevanten Variablen müssen im Modell enthalten sein.
Wichtige Variablen nicht zu berücksichtigen → verzerrte Schätzer.
Bivariate (lineare) Regression
eine abhängige Variable + eine unabhängige Variable mit mind. intervallskalierten Variablen z.B. Einkommen in EUR
Zu prüfende Hypothese: Je höher das Einkommen ist, desto größer ist die Lebenszufriedenheit.
Regressionstabelle
Lebenszufriedenheit
Wert auf Skala 0 - 10
Nettoeinkommen im Monat in EUR
7
2000
10
4550
1003
9
3200
2900
2850
1900
3700
Schritt 1: Erstellung eines Streudiagramms mit Regressionsgeraden
= lineare Beziehung zwischen 2 Variablen werden mathematisch durch eine Gerade dargestellt
Beispiel: Lebenszufriedenheit = f(Einkommen)
Funktion: y = f(x)
Beispiel: Lebenszufriedenheit = Schnittpunkt der Geraden mit der y-Achse + Steigung der Geraden + Einkommen
Funktion der Regressionsgeraden: y = a + ß * x
aber: es gibt verschiedene Störgrößen
systematische Fehler: bestimmte Variablen sind noch nicht im Regressionsmodell berücksichtigt
Beobachtungs- und Messfehler, während der Datenerhebung
unbekannte Störgrößen
daher, schätzen wir die Regressionsgerade mathematisch, statt sie exakt zu berechnen:
Beispiel: geschätzte Lebenszufriedenheit = Schnitt mit y-Achse (x = 0, Konstante) + Regressionskoeffizient ß (Steigung der Geraden zur Vorhersage von y) * Einkommen
Funktion der geschätzten Regressionsgeraden: ^y = a + ß * x
Hier sieht man das Verhältnis von tatsächlich beobachteten Werten (Punkte) und geschätzten Werten (Gerade). Der Raum zwischen beiden nennt sich “Residuumm”
Beispiel: Residuum der Lebenszufriedenheit = a + ß * Einkommen + Error = beobachtete Lebenszufriedenheit - geschätzte Lebenszufriedenheit
Regressionsfunktion mit Berücksichtigung der Residuen:
y = a + ß * x + e | e = y - ^y
Um nun die Schätzung bestmöglich zu machen, wird die Gerade gesucht, mit dem min. Abstand zu den beobachteten Messungspunkten. Hierzu wird folgendes Verfahren verwendet:
Ordinary Least Square Verfahren (OLS)
= Kleinste-Quadrat-Schätzung (KQ-Schätzung), um den Abstand mathematisch durch Messung des vertikalen Abstands (Residuen oder e) zwischen beobachteten und geschätzten y-Werten zu ermitteln.
Die Berechnung übernimmt ein Statistikprogramm. Im Beispiel ergibt sich eine Regressionsgerade mit folgender Gleichung:
Beispiel: geschätzte Lebenszufriedenheit = 1,11 gesch. Lebenszufriedenheit + 0,002 Einkommen
OLS Regressionsfunktionsergebnis: ^y = 1,11 + 0,002x
= Regressionskonstante (a) + Steigung (Regressionskoef. ß)
Vorzeichen des Regr.Koef. ß bestimmt ob positiver oder negativer Zusammenhang besteht
Steigung = unstandartisierter Regressionskoeffizient ß!
Vorteil: leicht interpretierbar
Konstante = Schnittpunkt der Geraden mit y-Achse, wenn x = 0
Beispiel: Jemand ohne Einkommen (x = 0) hat eine geschätzte Lebenszufriedenheit von 1,11 Punkten und jeder Euro Einkommenszuwachs pro Person einen Zuwachs von 0,002 Punkten der Lebenszufriedneheit erbringt.
= Ermittlung des kleinsten Abstands zu den qudrierten Fehlern, sowie des Regressionskoeffizienten ß
Anhand der Konstante kann nun mit dem Bestimmtheitsmaß geprüft werden, wie gut die Regressionsgerade die beobachteten Datenpunkte unsgesamt erklärt.
Schritt 5)
Determinationskoeffizient R² = Bestimmtheitsmaß
Erklärung, wie viel Varianz durch das aufgestellte Regressionsmodell erklärt werden kann = die *Güte des Gesamtmodells
gehört zu sog. PRE-Maßen (Proportiol Reduction of Error), die Auskunft über die prozentuale Verringerung der Fehler durch ein Vorhersagemodell von y geben kann. (ETA² gehört auch dazu)
Berechnung R² am Beispiel:
Anova³ Tabelle
Quelle
SS (Quadratsumme)
df
MS (Mittel der Quadrate)
F
Regression (SSR)
31,6233
13,3134
Residual (SSE)
14,2517
2,37529
Total (SST)
45,8750
Beispiel: R² = Regression 31,62 / Gesamt 45,88 = 0,6892
Funktion: R² = SSR / SST
Interpretation R²:
Gütemaß der Regression:
0 bis 1 stellvertretend für 0% bis 100%
Wert von 1 = uV trägt 100% zur Erklärung Varianz der aV bei.
Wert von 0 = uV trägt nichts zur Erklärung der Varianz aV bei, was auf eine fehlende Integration wichtiger anderer erklärender Merkmale deutet
Beispiel: ≈ 0,689: Einkommen erklärt ~68,9 % der Varianz der Lebenszufriedenheit in dieser Stichprobe — ein hoher Erklärungsanteil.
Bei Stichprobendaten, kann mithilfe der multiplen Regression durch das korrigierte R² auch auf statistische Signifikanz getestet werden
Unterscheidung:
Wenn beide fast gleich sind:
Das Modell ist gut spezifiziert → Keine unnötigen Variablen
Wenn korrig. R² deutlich kleiner ist als R²:
Das Modell enthält unnötige Variablen → Es wurde „überfittet“ (zu viel Ballast)
Beispiel Modell für Lebenszufriedenheit:
Modell
Variablen
R²
Adjusted R²
Modell A
Bildung, Alter
0,40
0,39
Modell B
Bildung, Alter, Lieblingsfarbe
0,41
0,35
➡️ R² steigt leicht, weil eine neue Variable dazu kam.
➡️ Aber das korrigierte R² fällt stark → Lieblingsfarbe ist nutzlos.
2.Multiple Regression
Bei mehreren unabhängigen Variablen lautet das Modell:
➡️ y = α + β₁x₁ + β₂x₂ + … + βₖxₖ + e
Beispiel: Y = Einkommen X₁ = Bildung X₂ = Berufserfahrung X₃ = Geschlecht X₄ = Alter…
Ziele:
Die Faktoren finden, die den größten Beitrag zur Erklärung der aV leisten
Stärke und Richtung jedes Einflussfaktors bestimmen
Prüfen, ob Ergebnisse auf die Grundgesamtheit übertragbar sind (Signifikanz)
Nettoeffekte
= der „bereinigte“ Effekt einer Variable, wenn alle anderen X-Variablen konstant gehalten werden.
Mit multipler Regression erhält man Nettoeffekte, weil alle anderen Variablen konstant gehalten werden.
Beispiel: In der bivariaten Regression scheint Ausbildung stark auf Einkommen zu wirken.
Aber: Wenn man Berufserfahrung mit ins Modell nimmt, ändert sich der Effekt – weil Ausbildung und Erfahrung zusammenhängen.
Dummies für nominale Variablen
Nominalskalierte Variablen werden in 0/1-codierte Dummy-Variablen umgewandelt. Eine Kategorie wird zur Referenz, auf die sich die anderen beziehen.
Beipsiel:
Geschlecht (0 = weiblich, 1 = männlich)
Wohnort (0 = Land, 1 = Stadt)
Standardisierte Koeffizienten (Beta)
= alles wird auf Standardabweichungen umgerechnet
Da unstandardisierte β je nach Maßeinheiten schwer vergleichbar sind, nutzt man standardisierte Koeffizienten:
unstandardisiert bedeutet: Wenn X um 1 Einheit steigt, verändert sich Y um b Einheiten.
Bei der Umrechung auf Standardabweichungen lassen sich Variablen direkt vergleichen, welche den stärksten Effekt hat:
Werte zwischen −1 und +1
= direkter Vergleich der Einflussstärken innerhalb eines Modells
Aber nicht zwischen verschiedenen Stichproben interpretierbar
Rechenweg:
b = unstandardisierter Regressionskoeffizient MAL
sₓ = Standardabweichung der unabhängigen Variable DURCH
sᵧ = Standardabweichung der abhängigen Variable
Unstandardisiertes b = 0,5
SD der unabhängigen Variable (x) = 10
SD der abhängigen Variable (y) = 20
= 0,5 10/20 = 0,5 * 0,5 = 0,25
Wenn x um 1 Standardabweichung steigt, steigt y um 0,25 Standardabweichungen.
Das ist unabhängig von Einheiten und deshalb vergleichbar.
Standardabweichung (SD)
Wie stark streuen die Werte im Durchschnitt um den Mittelwert herum?
Kleine SD → alle Werte liegen eng beieinander
Große SD → Werte sind stark verstreut
Schritte zur Berechnung:
Mittelwert berechnen (alle Werte addieren und durch Summe teilen)
Abweichung des echten Wertes von Mittelwert berechnen in Form einer Tabelle
Wert
Abweichung
–2,67
–0,67
+1,33
+3,33
Abweichungen pro Zeile quaddrieren um negative Zaheln zu vermeiden (Beispielergebnis: 21,32)
Varianz errechnen: Summe der quaddrierten Zahlen und durch Gesamtanzahl teilen (Beispielergebnis: 21,32 / 5 = 4,264
Standardabweichung = Wurzel aus Varianz (Beispielergebnis: 2,06
Heißt: Die Standardabweichung misst, wie weit die Werte im Durchschnitt vom Mittelwert entfernt sind – zuerst quadriert (damit es positiv wird), dann wieder zurück „entquadriert“ durch die Wurzel.
Statistische Signifikanz: F-Test und t-Test
Zwei Prüfungsebenen:
1) F-Test
Testet, ob das gesamte Regressionsmodell signifikant ist
Prüft: Erklären die uVs gemeinsam die aV?
2) t-Test
Prüft, ob ein einzelner Regressionskoeffizient (β) ungleich Null ist.
= ob die Variable einen echten Einfluss hat)
Grundlage: t = (unstandardisierter Koeffizient) / (Standardfehler)
empirische t-Wert (auch: Teststatistik beim t-Test):
t = (beobachteter Wert − erwarteter Wert) / Standardfehler
Wie genau du rechnest, hängt davon ab, welchen t-Test du machst. Hier sind die wichtigsten Fälle:
p-Werte (Konventionen)
Wie wahrscheinlich ist es, dass der beobachtete Effekt rein zufällig entstanden ist? Dabei gilt: kleiner p-Wert → Ergebnis ist nicht Zufall → bedeutsam, großer p-Wert → kein belastbarer Effekt
p < 0,05 → * signifikant
p < 0,01 → ** sehr signifikant
p < 0,001 → *** hoch signifikant
Signifikanz bedeutet: Der gefundene Einfluss ist wahrscheinlich nicht zufällig und kann (mit Irrtumswahrscheinlichkeit) auf die Grundgesamtheit übertragen werden.
Logistische Regression
wird verwendet, wenn die abhängige Variable binär ist (z. B. Wahlbeteiligung: ja/nein). Ziel ist es, die Wahrscheinlichkeit vorherzusagen, mit der ein Ereignis eintritt. Diese Wahrscheinlichkeit liegt immer zwischen 0 und 1.
Da eine lineare Regression bei binären Variablen unpassende Werte (<0, >1) liefern würde, nutzt die logistische Regression eine S-förmige (logistische) Kurve, die sich asymptotisch 0 und 1 nähert – aber nie überschreitet.
Formen der Regressionsfunktion
Die logistische Funktion ist:
S-förmig, liegt immer zwischen 0 und 1
Steigung ist nicht überall gleich stark
stärkster Effekt im mittleren Bereich der unabhängigen Variable
flache Bereiche bei Extremen (z. B. sehr jung oder sehr alt)
Damit ist die Beziehung zwischen X und P(Y = 1) nicht linear, sondern „abflachend“.
Schätzverfahren: Maximum Likelihood
Anders als in der linearen Regression (OLS) werden die Parameter hier durch (ML) geschätzt:
ML sucht jene Kombination von Koeffizienten, die die beobachteten Daten am wahrscheinlichsten macht
erfolgt iterativ (Schritt-für-Schritt-Anpassung der Parameter)
Software berechnet das automatisch
Logit-Koeffizienten (β)
geben an, wie sich die logarithmierte Chance (log-odds) verändert, wenn X um eine Einheit steigt
β > 0 → Chance steigt
β < 0 → Chance sinkt
Betrag zeigt Stärke des Effekts (aber weniger intuitiv)
ABER
Odds und Odds Ratios (Exp(B))
Wichtige alternative Interpretation:
Exp(B) = Odds Ratio
> 1 → Chance steigt
< 1 → Chance sinkt
= 1 → keine Veränderung
Beispiel: Exp(B) = 2,1 → Chance (nicht: Wahrscheinlichkeit!) für Y = 1 ist 2,1-mal höher.
Die Ergebnisse bleiben gleich – nur die Darstellungsweise ändert sich.
Warum Odds Ratios?
Logits sind schwer verständlich. Odds Ratios sind intuitiver, aber betreffen Chancen, nicht direkte Prozentwahrscheinlichkeiten.
diese werden mit dem Logit berechnet:
Zuletzt geändertvor 3 Stunden