BIVARIATE Datenanalyse
Bivariate Datenanalyse untersucht den Zusammenhang zwischen genau zwei Variablen. Ziel: Aufdecken von Abhängigkeiten, Unterschieden oder Assoziationen zwischen zwei Merkmalen und empirische Überprüfung von Hypothesen.
Beispiel:
Bildung ↔ Einkommen,
Geschlecht ↔ politisches Interesse,
Nutzung von Bibliotheksangeboten ↔ Studienfach.
Grundprinzip:
Eine Variable ist unabhängig (z. B. Bildung)
die andere abhängig (z. B. Wahlbeteiligung) sein.
Schritt 1
Kreuztabellen (Contingency Tables)
zeigt die Häufigkeiten des gemeinsamen Auftretens von zwei Variablen.
Spalte: unabhängige Variable
Zeile: abhängige Variable
Zellen: Kombinationen der Ausprägungen der beiden Variablen
Nominal: Kategorie ohne Rangordnung (z. B. Geschlecht)
Ordinal: Kategorie mit Rangfolge (z. B. politisches Interesse)
Metrisch: viele Ausprägungen (z. B. Einkommen) → gruppieren nötig, um Kreuztabellen zu erstellen
Randhäufigkeiten: Summen der Zeilen und Spalten (deskriptiv)
Relative Häufigkeiten: Prozente ermöglichen bessere Vergleichbarkeit
Prozentangaben: auf Spaltenbasis → „wenn-dann“-Interpretation
# Basis R: Kreuztabelle erstellen
table(Variable1, Variable2)
# Relative Häufigkeiten
prop.table(table(Variable1, Variable2), margin=2)
# mit Paket: sjmisc
flat_table(ess9de_m1, wahl, bildung,
margin = c("col")) # = Spaltenprozente
# Zeilenprozente (row)
# Gesamtprozente (cell)
# Mit Paket: descr
CrossTable(ess9de_m1$wahl, ess9de_m1$bildung) #Ausgabe in Console
CrossTable(ess9de_m1$wahl, ess9de_m1$bildung,
prop.c = TRUE, # Spaltenprozente
prop.t = FALSE, # Gesamtprozente
prop.r = FALSE, # Zeilenprozente
prop.chisq = FALSE) # einzelne ChiQuadrat-Anteile
Bei Nominalen: Schritt 2:
Indifferenztabelle (erwartete Häufigkeit)
da kein Zusammenhang zwischen Variablen nachgewiesen wurde bisher, muss das erstmal gezeigt werden:
Vergleich: beobachtete Häufigkeiten fb(ij) vs. erwartete fe(ij)
Große Abweichung → höhere Wahrscheinlichkeit für statistische Abhängigkeit
Formel: fe(ij) = Zeilensumme(i) * Spaltensumme (j) / n
Beobachtet: 311 Männer „sehr stark politisch interessiert“
Erwartet: 216,56 Männer
Differenz = 94,44 → Abweichung deutet auf Zusammenhang
Schritt 3
Chi² - Test (χ²)
Misst, wie stark die beobachteten Häufigkeiten von den erwarteten abweichen.
Problem: χ² ist stichprobenabhängig, daher schwer vergleichbar zwischen Studien
Interpretation:
χ² ≈ 0 → kein Zusammenhang
χ² groß → starker Zusammenhang
Berechnung mit Tabelle
Spalte: Beobachtete Häufigkeiten (fb + Spalte der Originaltabelle angeben, zB. fbi)
Spalte: erwartete Häufigkeiten (fe + Spalte…)
Spalte Residuen pro Zeile berechnen:
Differenz zwischen den beobachteten und den erwarteten Häufigkeiten
Heißt: wie stark die Realität (beobachtet) von der Nullhypothese (erwartet, wenn kein Zusammenhang besteht) abweicht.
fb - fe
Spalte: Residuen pro Zeile quadrieren
Spalte: quadrierte Residuen durch erwartete Häufigkeiten pro Zeile teilen:
Residuen (fb - fe)² / (erwartete Häufigk.) fe
Spalte: Summe der Werte aus Spalte 5
= Chi²
Funktion in R
chisq.test(Variable1, Variable2)
#Darstellung beobachteter Häufigkeiten und erwarteter Häufigkeiten + Chi, Cramer + phi
tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)
Schritt 4
Effektstärke messen durch Phi & Cramer’s V
Phi (Φ)
Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen - 2x2 Tabellen (dichotome Variablen, auch genannt: 4 Feldertafel)
Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)
Werte: 0 (kein Zusammenhang) bis 1 (vollständige Abhängigkeit)
Interpreation wie bei Cramers V
Formel: Φ = Wurzel aus χ²/n
Cramer’s V
Maß für die Stärke des Zusammenhangs zwischen zwei nominal- oder ordinalskalierten Variablen.
Zwei nominalskalierte Variablen (z. B. Geschlecht × Wahlbeteiligung)
Eine nominale Variable und eine ordinale Variable (z. B. Geschlecht × Bildungsgrad)
Wichtig: Wenn die Variablen unterschiedliche Skalenniveaus haben, wählt man für Cramér’s V das niedrigere Messniveau.
Nominal < Ordinal < Intervall/Metrisch
Beispiel 1: Geschlecht (nominal) × Bildungsgrad (ordinal)
Nominal = niedrigeres Skalenniveau → Cramér’s V berechnen auf Basis von nominal.
Beispiel 2: Familienstand (nominal) × Einkommen (metrisch)
Nominal < Metrisch → Cramér’s V für nominales Merkmal → zeigt, wie stark Einkommen durch Gruppenunterschiede erklärt wird.
Es zeigt nur die Stärke, nicht die Richtung eines Zusammenhangs.
Wertebereich: 0 bis 1
0 → kein Zusammenhang
1 → perfekte Abhängigkeit (die Merkmale „gehen Hand in Hand“)
Auch für größere Tabellen (nicht nur 2x2)
Formel: V = Wurzel aus Chi² / n * (M - 1)
M = kleinere Dimension der Kreuztabelle (entweder Zeilen oder Spalten)
Der Wert sagt wie stark die beiden Merkmale zusammenhängen (nur „stärker“ oder „schwächer“)
Beipspiel:
Chi-Quadrat χ2=190,46
Stichprobengröße n=3490
Tabelle 5 Zeilen × 2 Spalten → M=2M
V = Wurzel aus 190,46 / 3490 * (2 - 1)
= Wurzel aus 190,46 / 3490 ≈ 0,23
Interpretation
V-Wert
Stärke des Zusammenhangs
≤ 0,05
kein Zusammenhang
0,05–0,10
sehr schwach
0,10–0,20
schwach
0,20–0,40
mittelstark
0,40–0,60
stark
> 0,60
sehr stark
0,23 = mittelstarker Zusammenhang zwischen den Merkmalen
Funktionen in R
CrossTable(var1, var2, expected=TRUE, prop.chisq=TRUE, chisq=TRUE)
#Paket DescTools:
CramerV(var1, var2)
Zusammengefasst (nominal):
Indifferenztabelle → Chi² → Phi/Cramér’s V
Indifferenz zeigt „erwartet ohne Zusammenhang“
Chi² misst Abweichung von Erwartung
Phi/Cramér’s V standardisiert das Ergebnis für Vergleichbarkeit
bei ordinalen:
Die Werte haben eine Rangfolge, aber Abstände sind nicht zwingend gleich.
Beispiele: Bildungsabschluss (niedrig → mittel → hoch), politisches Interesse (sehr niedrig → sehr hoch), soziale Schicht (Unterschicht → Oberschicht)
Ziel: Bestimmung von Richtung und Stärke des Zusammenhangs zwischen zwei ordinalen Variablen.
Schritt 2:
Rangzuweisung
Ränge: Position eines Wertes in der geordneten Stichprobe (klein → groß)
Bindungen (Ties): Mehrere gleiche Werte → Rangmittelwert wird vergeben
Beispiel: Zwei Personen mit „Abitur“ → Ränge 4 & 5 → Mittelwert 4,5
Person
Bildung
Rang
A
Hauptschule
1
B
Realschule
2,5
E
C
Abitur
4,5
D
Hinweis: Rangkorrelationen ermöglichen Aussagen über Stärke und Richtung, nicht über Kausalität.
Spearmans Rho (ρ) oder (rsp)
= Rangkorrelationskoeffizient für zwei ordinalskalierte Variablen
Wertebereich: −1 bis +1
Positiv → beide Variablen steigen zusammen
negativ → gegenläufig, 0 → kein Zusammenhang
Faustregel:
≤ 0,05 kein Zusammenhang
0,05–0,20 schwach
0,20–0,50 mittel
0,50–0,70 stark
>0,70 sehr stark
Berechnung mit Tabelle:
Tabelle zu beiden Merkmalen ausgeben lassen, z.B. Soziale Schicht und Gesundheitszustand
Person 1 Mittelschicht(3) GZ schlecht (2)
Person 2 Arbeiterschicht(2) GZ sehr schl. (1)
Person 3 Oberschicht(5) GZ sehr gut (5)
…
Rangpositionen überführen: d = X - Y
Person 1 (3) (2) (1)
Person 2 (2) (1) (1)
Person 3 (5) (5) (0)
Ränge quadriert summieren: 1² + 1² + 0² = 2
Formel ausfüllen: 6 * 2 / 3 (n) * (3² -1) = 12 / 24 = 0,5
Interpreation: positiver mittelstarker Zusammenhang zwischen Sozialer Schicht und Gesundheitszustand, sodass, sollte eins von beiden ansteigen, die andere Variable mit ansteigt.
cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),
use="complete.obs", method="spearman")
Paket: DecTools
SpearmanRho(ess9de_m1$polint, ess9de_m1$bildung, use="complete.obs")
Kendalls Tau
Alternative zu Spearman für ordinalskalierte Variablen
= Zusammenhangsmaß für mindestens ordinalskalierte Variablen. Es misst die Rangübereinstimmung zwischen zwei Variablen und kann Werte zwischen −1 und +1 annehmen:
+1: perfekter positiver Zusammenhang (alle Paare steigen zusammen)
0: kein Zusammenhang
−1: perfekter negativer Zusammenhang (eine steigt, die andere sinkt)
Grundidee
Man betrachtet alle möglichen Paare von Beobachtungen und überprüft, ob die Rangfolgen der beiden Variablen gleichgerichtet oder gegenläufig sind.
Konkordante Paare: Positiver Beitrag <- Rangplätze beider Variablen steigen oder fallen gemeinsam.
Diskonkordante Paare: Negativer Beitrag <- Wenn Rangplätze gegensätzlich verlaufen (eine steigt, die andere sinkt).
Verbunden / Bindung (tie): Mindestens eine Variable hat für ein Paar gleiche Werte → spezieller Umgang, wird angepasst
Vorteil: robuster bei Bindungen und großen Stichprob
X (Schicht)
Y (Gesundheit)
3
2
5
Paar 1: Person 1, Person 2…
Die Paare bilden wir immer aus zwei unterschiedlichen Personen:
(1,2), (1,3), (2,3)
Formel: n*(n-1) / 2 = 3*(3-1) / 2 = 3 Paare
A & B → X steigt (1→3), Y steigt (2→4) → konkordant ✅
A & C → X steigt (1→2), Y steigt (2→5) → konkordant ✅
B & C → X fällt (3→2), Y steigt (4→5) → diskonkordant ❌
Überwiegen konkordante Paare, dann ist es positiv!
Hinweis
Bei ordinalen Variablen empfiehlt sich ggf. auch eine Kreuztabelle für die deskriptive Darstellung.
Spearman ist robuster gegen Ausreißer; Kendall besonders bei vielen Bindungen.
use="complete.obs", method="kendall")
bei metrischen:
Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei
Scatterplots (Streudiagramme)
Kovarianz und
Pearson’s r (Korrelationskoeffizient)
Grafische Analyse: Streudiagramm (Scatterplot)
= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.
Zweck: Erste Einschätzung des Zusammenhangs.
Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.
Arten von Zusammenhängen:
Keine Korrelation: Punkte zufällig verteilt.
Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.
Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.
Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.
Schritt 3:
Kovarianz: unstandardisiertes Zusammenhangsmaß
= Zwischenschritt zur Berechnung von Pearsond R
Maß für den linearen Zusammehhang zweier Variablenin Form der gemeinsamen Streuung von X und Y an
Berechnung:
wie weit der jeweilige x- oder y-Wert vom arithmetischen mittel entfernt ist
Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n
Interpretation des Ergebnis:
positiv → steigen gemeinsam
negativ → einer steigt, der andere fällt
≈ 0 → kein linearer Zusammenhang
Problem: einheitenabhängig → schwer vergleichbar
Beispiel aus dem Text:
Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben
Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.
Schritt 4:
Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)
= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.
heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.
Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).
Pseudometrische Variablen in den SW: Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.
Beispiele:
Likert-Skalen 0–10 (z. B. Lebenszufriedenheit)
Gesundheitszustand (kritisch, wenn ungleiche Abstände)
Achtung: Die metrische Behandlung ist modellabhängig! Bei begründeten Zweifeln → Spearman’s Rho verwenden
Wertebereich -1 bis 1
Berechnung über Tabelle:
Erstelle eine Tabelle mit diesen 5 Spalten:
xi → Werte von Merkmal X (z. B. Einkommen)
yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)
xi · yi → Produkt aus X und Y
(xi)² → X-Werte quadriert
(yi)² → Y-Werte quadriert
Am Ende addierst du jede Spalte als Randwert
Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)
Formel auffüllen (Zähler):
Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi
Formel auffüllen (Nenner):
Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN
ID
Xi
Yi
X·Y
X²
Y²
8
16
4
64
6
24
36
Σ
12
18
56
116
MW
21,33
18,67
38,67
= 0,22
Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy
Aber:
Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.
Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.
Mögliche 3. Variablen können nicht ausgeschlossen werden
= keine kausale Interpretation möglich nur Schein Korrelationen
auch keine Richtung der Kausalität möglich
nur je höher, desto wahrscheinlicher… Aussagen möglich
Interpreation des Ergebnis:
r > 0 → positiver linearer Zusammenhang
r < 0 → negativer linearer Zusammenhang
r = 0 → kein linearer Zusammenhang
>0,05 – 0,20 schwach
>0,20 – 0,50 mittelstark
>0,50 – 0,70 stark
Beispiel 1 (IQ & Test):
r = 0,89 → sehr starker positiver Zusammenhang
Beispiel 2 (Einkommen & Lebenszufriedenheit):
r = 0,64 → starker positiver Zusammenhang
Wichtig:
Pearson’s r misst nur lineare Zusammenhänge.
r zeigt keine Kausalität → keine Aussage zu x → y oder y → x
Scheinkorrelationen möglich (dritte Variable).
Zusammenhang bedeutet nicht Ursache-Wirkung.
Streudiagramm immer sinnvoll zur visuelle Prüfung (z. B. Nichtlinearität).
Zusammengefasst:
Streudiagramm → zeigt die Form des Zusammenhangs (visuell)
Kovarianz → zeigt Richtung (positiv/negativ) des Zusammenhangs , aber keine Stärke
Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)
Funktion in R:
cor(ess9de_m1$stflife, ess9de_m1$health,
use = "complete.obs")
cor.test(ess9de_m1$stflife, ess9de_m1$gesund.num,
Gibt r und p-Wert aus
p < 0,05 → Korrelationskoeffizient statistisch signifikant
Signifikanz betrifft nur die Übertragbarkeit, nicht Stärke/Bedeutsamkeit
Spearman = robuster bei ordinalen bzw. nicht normalverteilten Daten
cor(ess9de_m1$stflife, ess9de_m1$gesund.num,
use = "complete.obs",
method = "spearman")
Kodierung prüfen! Hohe Werte sollten ein hohes Ausmaß des Merkmals bedeuten → erleichtert Interpretation
Pearson’s r misst nur lineare Zusammenhänge
Keine Kausalaussagen möglich
Bei ordinalen Variablen oder Zweifeln → Spearman’s Rho als Robustheitsprüfung
Immer zuerst deskriptiv prüfen (Skalen, Verteilung, Kodierung, Ausreißer)
Eta-Quadrat (η²): wenn unabhängige Variable nominal und eine abhängige Variable metrisch
wird genutzt, wenn:
unabhängige Variable (uV) = nominal (z. B. Geschlecht, Familienstand, Migrationshintergrund)
abhängige Variable (aV) = metrisch (z. B. Einkommen, Testpunkte, Zufriedenheit)
Warum kein Pearson’s r?
Pearson r erfordert beide Variablen metrisch → Kategorien wie „ledig“, „verheiratet“ haben keine Zahlenabstände
Eta² ist das passende Maß für die Kombination nominal – metrisch
Eta² zeigt, wie viel Prozent der Varianz der abhängigen Variable durch die Gruppen erklärt wird.
1 → perfekter Zusammenhang
Beispiel: η² = 0,53 → „53 % der Varianz werden durch die Gruppen erklärt“
= Eta-Quadrat als PRE-Maß (Proportional Reduction of Error)
Grundidee: „Wie sehr verbessert Gruppenwissen meine Vorhersage?“
Man vergleicht zwei Vorhersagen:
Ohne Gruppenwissen
Schätzer: Gesamtmittelwert
Fehler = E1
Mit Gruppenwissen
Schätzer: Gruppenmittelwerte
Fehler = E2
Dann gilt:
PRE = E1−E2 / E1
→ Diese PRE-Logik = Grundlage von Eta²
SChritt 3:
Quadratsummen (QS) verwenden
QS Gesamt
Abweichungen aller Werte vom Gesamtmittelwert
entspricht E1 (Fehler ohne Gruppenwissen)
QS innerhalb
Abweichungen innerhalb jeder Gruppe
entspricht E2 (Fehler mit Gruppenwissen)
QS zwischen
Unterschiede der Gruppenmittelwerte
QSgesamt – QSinnerhalb
Formel für Eta-Quadrat:
η2= QS gesamt − QS innerhalb / QS gesamt
oder
η2 = QS gesamt / QS zwischen
Interpretation nach Cohen
Eta²
Effektstärke
< 0,01
kein Effekt
0,01 – < 0,06
kleiner Effekt
0,06 – < 0,14
mittlerer Effekt
≥ 0,14
großer Effekt
Beispiel (vereinfacht)
Fragestellung: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“
Gruppe A (ohne MH): MW = 12,8 Gruppe B (mit MH): MW = 6,2 → starker Unterschied
Gegeben:
QS gesamt = 204,5
QS innerhalb = 95,6
η2 = 204,5 - 95,6 / 204,5 = 0,53
η² = 0,53 → sehr starker Effekt
53 % der Varianz im politischen Wissen werden durch den Migrationshintergrund erklärt
Platz von Eta-Quadrat im Vergleich zu anderen Zusammenhangsmaßen
Nominal – nominal / ordinal – nominal → Cramer’s V
Ordinal – ordinal / bei Rangdaten → Spearman’s Rho
Metrisch – metrisch → Pearson’s r
uV nominal – aV metrisch → Eta-Quadrat
Regel: → „Wähle immer das Assoziationsmaß, das zum niedrigsten Skalenniveau passt“ → Ausnahme: Eta² ist speziell für nominal–metrisch vorgesehen
Was können bivariate Analysen nicht leisten?
Sie zeigen nur Zusammenhang / Effektstärke – keine Kausalität
Drittvariablen können Zusammenhänge erklären → Scheinkorrelation
Statistische Maße allein liefern keine Ursachenanalyse
Last changed6 days ago