Buffl

NEU - Datenanalyse inkl. R

CC
by Cathérine C.

BIVARIATE Datenanalyse

Bivariate Datenanalyse untersucht den Zusammenhang zwischen genau zwei Variablen. Ziel: Aufdecken von Abhängigkeiten, Unterschieden oder Assoziationen zwischen zwei Merkmalen und empirische Überprüfung von Hypothesen.

Beispiel:

  • Bildung ↔ Einkommen,

  • Geschlecht ↔ politisches Interesse,

  • Nutzung von Bibliotheksangeboten ↔ Studienfach.


Grundprinzip:

  • Eine Variable ist unabhängig (z. B. Bildung)

  • die andere abhängig (z. B. Wahlbeteiligung) sein.


Schritt 1


Kreuztabellen (Contingency Tables)

zeigt die Häufigkeiten des gemeinsamen Auftretens von zwei Variablen.

  • Spalte: unabhängige Variable

  • Zeile: abhängige Variable

  • Zellen: Kombinationen der Ausprägungen der beiden Variablen

    • Nominal: Kategorie ohne Rangordnung (z. B. Geschlecht)

    • Ordinal: Kategorie mit Rangfolge (z. B. politisches Interesse)

    • Metrisch: viele Ausprägungen (z. B. Einkommen) → gruppieren nötig, um Kreuztabellen zu erstellen

  • Randhäufigkeiten: Summen der Zeilen und Spalten (deskriptiv)

  • Relative Häufigkeiten: Prozente ermöglichen bessere Vergleichbarkeit

  • Prozentangaben: auf Spaltenbasis → „wenn-dann“-Interpretation

R-Funktion

# Basis R: Kreuztabelle erstellen

table(Variable1, Variable2)

# Relative Häufigkeiten

prop.table(table(Variable1, Variable2), margin=2)


# mit Paket: sjmisc

flat_table(ess9de_m1, wahl, bildung,

margin = c("col")) # = Spaltenprozente

# Zeilenprozente (row)

# Gesamtprozente (cell)

# Mit Paket: descr

CrossTable(ess9de_m1$wahl, ess9de_m1$bildung) #Ausgabe in Console

CrossTable(ess9de_m1$wahl, ess9de_m1$bildung,

prop.c = TRUE, # Spaltenprozente

prop.t = FALSE, # Gesamtprozente

prop.r = FALSE, # Zeilenprozente

prop.chisq = FALSE) # einzelne ChiQuadrat-Anteile


Bei Nominalen: Schritt 2:


Indifferenztabelle (erwartete Häufigkeit)

da kein Zusammenhang zwischen Variablen nachgewiesen wurde bisher, muss das erstmal gezeigt werden:

  • Vergleich: beobachtete Häufigkeiten fb(ij) vs. erwartete fe(ij)

  • Große Abweichung → höhere Wahrscheinlichkeit für statistische Abhängigkeit

Formel: fe(ij) = Zeilensumme(i) * Spaltensumme (j) / n

Beispiel:

  • Beobachtet: 311 Männer „sehr stark politisch interessiert“

  • Erwartet: 216,56 Männer

  • Differenz = 94,44 → Abweichung deutet auf Zusammenhang


Schritt 3


Chi² - Test (χ²)

Misst, wie stark die beobachteten Häufigkeiten von den erwarteten abweichen.

  • Problem: χ² ist stichprobenabhängig, daher schwer vergleichbar zwischen Studien

  • Interpretation:

    • χ² ≈ 0 → kein Zusammenhang

    • χ² groß → starker Zusammenhang

  • Berechnung mit Tabelle

    1. Spalte: Beobachtete Häufigkeiten (fb + Spalte der Originaltabelle angeben, zB. fbi)

    2. Spalte: erwartete Häufigkeiten (fe + Spalte…)

    3. Spalte Residuen pro Zeile berechnen:

      • Differenz zwischen den beobachteten und den erwarteten Häufigkeiten

      • Heißt: wie stark die Realität (beobachtet) von der Nullhypothese (erwartet, wenn kein Zusammenhang besteht) abweicht.

      • fb - fe

    4. Spalte: Residuen pro Zeile quadrieren

    5. Spalte: quadrierte Residuen durch erwartete Häufigkeiten pro Zeile teilen:

      • Residuen (fb - fe)² / (erwartete Häufigk.) fe

    6. Spalte: Summe der Werte aus Spalte 5

      = Chi²


Funktion in R

  • chisq.test(Variable1, Variable2)

#Darstellung beobachteter Häufigkeiten und erwarteter Häufigkeiten + Chi, Cramer + phi

  • tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)


Schritt 4


Effektstärke messen durch Phi & Cramer’s V


Phi (Φ)

Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen - 2x2 Tabellen (dichotome Variablen, auch genannt: 4 Feldertafel)

  • Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)

  • Werte: 0 (kein Zusammenhang) bis 1 (vollständige Abhängigkeit)

    • Interpreation wie bei Cramers V

  • Formel: Φ = Wurzel aus χ²/n

Funktion in R

  • tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)


Cramer’s V

Maß für die Stärke des Zusammenhangs zwischen zwei nominal- oder ordinalskalierten Variablen.

  • Beispiel:

    • Zwei nominalskalierte Variablen (z. B. Geschlecht × Wahlbeteiligung)

    • Eine nominale Variable und eine ordinale Variable (z. B. Geschlecht × Bildungsgrad)

    • Wichtig: Wenn die Variablen unterschiedliche Skalenniveaus haben, wählt man für Cramér’s V das niedrigere Messniveau.

      • Nominal < Ordinal < Intervall/Metrisch

      • Beispiel 1: Geschlecht (nominal) × Bildungsgrad (ordinal)

        • Nominal = niedrigeres Skalenniveau → Cramér’s V berechnen auf Basis von nominal.

      • Beispiel 2: Familienstand (nominal) × Einkommen (metrisch)

        • Nominal < Metrisch → Cramér’s V für nominales Merkmal → zeigt, wie stark Einkommen durch Gruppenunterschiede erklärt wird.

  • Es zeigt nur die Stärke, nicht die Richtung eines Zusammenhangs.

  • Wertebereich: 0 bis 1

    • 0 → kein Zusammenhang

    • 1 → perfekte Abhängigkeit (die Merkmale „gehen Hand in Hand“)

  • Auch für größere Tabellen (nicht nur 2x2)


Formel: V = Wurzel aus Chi² / n * (M - 1)

  • M = kleinere Dimension der Kreuztabelle (entweder Zeilen oder Spalten)

  • Der Wert sagt wie stark die beiden Merkmale zusammenhängen (nur „stärker“ oder „schwächer“)

  • Beipspiel:

    • Chi-Quadrat χ2=190,46

    • Stichprobengröße n=3490

    • Tabelle 5 Zeilen × 2 Spalten → M=2M

    • V = Wurzel aus 190,46 / 3490 * (2 - 1)

      • = Wurzel aus 190,46 / 3490 ≈ 0,23

Interpretation

V-Wert

Stärke des Zusammenhangs

≤ 0,05

kein Zusammenhang

0,05–0,10

sehr schwach

0,10–0,20

schwach

0,20–0,40

mittelstark

0,40–0,60

stark

> 0,60

sehr stark

0,23 = mittelstarker Zusammenhang zwischen den Merkmalen


Funktionen in R

  • CrossTable(var1, var2, expected=TRUE, prop.chisq=TRUE, chisq=TRUE)

#Paket DescTools:

  • CramerV(var1, var2)


Zusammengefasst (nominal):

  • Indifferenztabelle → Chi² → Phi/Cramér’s V

  • Indifferenz zeigt „erwartet ohne Zusammenhang“

  • Chi² misst Abweichung von Erwartung

  • Phi/Cramér’s V standardisiert das Ergebnis für Vergleichbarkeit


bei ordinalen:

Die Werte haben eine Rangfolge, aber Abstände sind nicht zwingend gleich.

  • Beispiele: Bildungsabschluss (niedrig → mittel → hoch), politisches Interesse (sehr niedrig → sehr hoch), soziale Schicht (Unterschicht → Oberschicht)

Ziel: Bestimmung von Richtung und Stärke des Zusammenhangs zwischen zwei ordinalen Variablen.


Schritt 2:


Rangzuweisung

  • Ränge: Position eines Wertes in der geordneten Stichprobe (klein → groß)

  • Bindungen (Ties): Mehrere gleiche Werte → Rangmittelwert wird vergeben

    • Beispiel: Zwei Personen mit „Abitur“ → Ränge 4 & 5 → Mittelwert 4,5

Person

Bildung

Rang

A

Hauptschule

1

B

Realschule

2,5

E

Realschule

2,5

C

Abitur

4,5

D

Abitur

4,5

Hinweis: Rangkorrelationen ermöglichen Aussagen über Stärke und Richtung, nicht über Kausalität.


Schritt 3


Spearmans Rho (ρ) oder (rsp)

= Rangkorrelationskoeffizient für zwei ordinalskalierte Variablen

  • Wertebereich: −1 bis +1

  • Interpretation:

    • Positiv → beide Variablen steigen zusammen

    • negativ → gegenläufig, 0 → kein Zusammenhang

  • Faustregel:

    • ≤ 0,05 kein Zusammenhang

    • 0,05–0,20 schwach

    • 0,20–0,50 mittel

    • 0,50–0,70 stark

    • >0,70 sehr stark

  • Berechnung mit Tabelle:

    • Tabelle zu beiden Merkmalen ausgeben lassen, z.B. Soziale Schicht und Gesundheitszustand

      • Person 1 Mittelschicht(3) GZ schlecht (2)

      • Person 2 Arbeiterschicht(2) GZ sehr schl. (1)

      • Person 3 Oberschicht(5) GZ sehr gut (5)

    • Rangpositionen überführen: d = X - Y

      • Person 1 (3) (2) (1)

      • Person 2 (2) (1) (1)

      • Person 3 (5) (5) (0)

    • Ränge quadriert summieren: 1² + 1² + 0² = 2

    • Formel ausfüllen: 6 * 2 / 3 (n) * (3² -1) = 12 / 24 = 0,5

    • Interpreation: positiver mittelstarker Zusammenhang zwischen Sozialer Schicht und Gesundheitszustand, sodass, sollte eins von beiden ansteigen, die andere Variable mit ansteigt.

Funktion in R

  • cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),

    use="complete.obs", method="spearman")

Paket: DecTools

  • SpearmanRho(ess9de_m1$polint, ess9de_m1$bildung, use="complete.obs")


Schritt 4


Kendalls Tau

Alternative zu Spearman für ordinalskalierte Variablen

= Zusammenhangsmaß für mindestens ordinalskalierte Variablen. Es misst die Rangübereinstimmung zwischen zwei Variablen und kann Werte zwischen −1 und +1 annehmen:

  • +1: perfekter positiver Zusammenhang (alle Paare steigen zusammen)

  • 0: kein Zusammenhang

  • −1: perfekter negativer Zusammenhang (eine steigt, die andere sinkt)

Grundidee

Man betrachtet alle möglichen Paare von Beobachtungen und überprüft, ob die Rangfolgen der beiden Variablen gleichgerichtet oder gegenläufig sind.

  • Konkordante Paare: Positiver Beitrag <- Rangplätze beider Variablen steigen oder fallen gemeinsam.

  • Diskonkordante Paare: Negativer Beitrag <- Wenn Rangplätze gegensätzlich verlaufen (eine steigt, die andere sinkt).

  • Verbunden / Bindung (tie): Mindestens eine Variable hat für ein Paar gleiche Werte → spezieller Umgang, wird angepasst

Vorteil: robuster bei Bindungen und großen Stichprob


Beispiel:

Person

X (Schicht)

Y (Gesundheit)

1

3

2

2

2

1

3

5

5

Paar 1: Person 1, Person 2…

Die Paare bilden wir immer aus zwei unterschiedlichen Personen:

  • (1,2), (1,3), (2,3)


Formel: n*(n-1) / 2 = 3*(3-1) / 2 = 3 Paare

  • A & B → X steigt (1→3), Y steigt (2→4) → konkordant ✅

  • A & C → X steigt (1→2), Y steigt (2→5) → konkordant ✅

  • B & C → X fällt (3→2), Y steigt (4→5) → diskonkordant ❌


Überwiegen konkordante Paare, dann ist es positiv!


Hinweis

  • Bei ordinalen Variablen empfiehlt sich ggf. auch eine Kreuztabelle für die deskriptive Darstellung.

  • Spearman ist robuster gegen Ausreißer; Kendall besonders bei vielen Bindungen.


Funktion in R

  • cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),

    use="complete.obs", method="kendall")


bei metrischen:

Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei

  • Scatterplots (Streudiagramme)

  • Kovarianz und

  • Pearson’s r (Korrelationskoeffizient)


Schritt 2:

Grafische Analyse: Streudiagramm (Scatterplot)

= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.

  • Zweck: Erste Einschätzung des Zusammenhangs.

  • Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.

  • Arten von Zusammenhängen:

    • Keine Korrelation: Punkte zufällig verteilt.

    • Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.

    • Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.

    • Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.


Schritt 3:


Kovarianz: unstandardisiertes Zusammenhangsmaß

= Zwischenschritt zur Berechnung von Pearsond R

  • Maß für den linearen Zusammehhang zweier Variablenin Form der gemeinsamen Streuung von X und Y an

Berechnung:

  • wie weit der jeweilige x- oder y-Wert vom arithmetischen mittel entfernt ist

  • Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n

Interpretation des Ergebnis:

  • positiv → steigen gemeinsam

  • negativ → einer steigt, der andere fällt

  • ≈ 0 → kein linearer Zusammenhang

  • Problem: einheitenabhängig → schwer vergleichbar

Beispiel aus dem Text:

Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben


Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.


Schritt 4:


Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)

= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.

heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.

  • Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).

  • Pseudometrische Variablen in den SW: Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.

    • Beispiele:

      • Likert-Skalen 0–10 (z. B. Lebenszufriedenheit)

      • Gesundheitszustand (kritisch, wenn ungleiche Abstände)

      Achtung: Die metrische Behandlung ist modellabhängig! Bei begründeten Zweifeln → Spearman’s Rho verwenden

  • Wertebereich -1 bis 1


Berechnung über Tabelle:

  1. Erstelle eine Tabelle mit diesen 5 Spalten:

    • xi → Werte von Merkmal X (z. B. Einkommen)

    • yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)

    • xi · yi → Produkt aus X und Y

    • (xi)² → X-Werte quadriert

    • (yi)² → Y-Werte quadriert

  2. Am Ende addierst du jede Spalte als Randwert

  3. Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)

  4. Formel auffüllen (Zähler):

    Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi

  5. Formel auffüllen (Nenner):

    Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN

Beispiel aus dem Text:

ID

Xi

Yi

X·Y

1

2

8

16

4

64

2

4

6

24

16

36

3

6

4

24

36

16

Σ

12

18

64

56

116

MW

4

6

21,33

18,67

38,67

  • = 0,22


Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy


Aber:

  • Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.

  • Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.

  • Mögliche 3. Variablen können nicht ausgeschlossen werden

  • = keine kausale Interpretation möglich nur Schein Korrelationen

    auch keine Richtung der Kausalität möglich

  • nur je höher, desto wahrscheinlicher… Aussagen möglich

Interpreation des Ergebnis:

  • r > 0 → positiver linearer Zusammenhang

  • r < 0 → negativer linearer Zusammenhang

  • r = 0 → kein linearer Zusammenhang


Faustregel:

  • ≤ 0,05 kein Zusammenhang

  • >0,05 – 0,20 schwach

  • >0,20 – 0,50 mittelstark

  • >0,50 – 0,70 stark

  • >0,70 sehr stark

Beispiel 1 (IQ & Test):

r = 0,89 → sehr starker positiver Zusammenhang

Beispiel 2 (Einkommen & Lebenszufriedenheit):

r = 0,64 → starker positiver Zusammenhang


Wichtig:

  • Pearson’s r misst nur lineare Zusammenhänge.

  • r zeigt keine Kausalität → keine Aussage zu x → y oder y → x

  • Scheinkorrelationen möglich (dritte Variable).

  • Zusammenhang bedeutet nicht Ursache-Wirkung.

  • Streudiagramm immer sinnvoll zur visuelle Prüfung (z. B. Nichtlinearität).


Zusammengefasst:

  • Streudiagramm → zeigt die Form des Zusammenhangs (visuell)

  • Kovarianz → zeigt Richtung (positiv/negativ) des Zusammenhangs , aber keine Stärke

  • Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)


Funktion in R:

  • cor(ess9de_m1$stflife, ess9de_m1$health,

    use = "complete.obs")

  • cor.test(ess9de_m1$stflife, ess9de_m1$gesund.num,

    use = "complete.obs")

    • Gibt r und p-Wert aus

    • p < 0,05 → Korrelationskoeffizient statistisch signifikant

    • Signifikanz betrifft nur die Übertragbarkeit, nicht Stärke/Bedeutsamkeit

  • Spearman = robuster bei ordinalen bzw. nicht normalverteilten Daten

    • cor(ess9de_m1$stflife, ess9de_m1$gesund.num,

      use = "complete.obs",

      method = "spearman")

Wichtige Hinweise für die Praxis

  • Kodierung prüfen! Hohe Werte sollten ein hohes Ausmaß des Merkmals bedeuten → erleichtert Interpretation

  • Pearson’s r misst nur lineare Zusammenhänge

  • Keine Kausalaussagen möglich

  • Bei ordinalen Variablen oder Zweifeln → Spearman’s Rho als Robustheitsprüfung

  • Immer zuerst deskriptiv prüfen (Skalen, Verteilung, Kodierung, Ausreißer)


Eta-Quadrat (η²): wenn unabhängige Variable nominal und eine abhängige Variable metrisch

  • wird genutzt, wenn:

    • unabhängige Variable (uV) = nominal (z. B. Geschlecht, Familienstand, Migrationshintergrund)

    • abhängige Variable (aV) = metrisch (z. B. Einkommen, Testpunkte, Zufriedenheit)

    Warum kein Pearson’s r?

    • Pearson r erfordert beide Variablen metrisch → Kategorien wie „ledig“, „verheiratet“ haben keine Zahlenabstände

    • Eta² ist das passende Maß für die Kombination nominal – metrisch

  • Eta² zeigt, wie viel Prozent der Varianz der abhängigen Variable durch die Gruppen erklärt wird.

  • Wertebereich: 0 bis 1

    • 0 → kein Zusammenhang

    • 1 → perfekter Zusammenhang

  • Beispiel: η² = 0,53 → „53 % der Varianz werden durch die Gruppen erklärt“


= Eta-Quadrat als PRE-Maß (Proportional Reduction of Error)

  • Grundidee: „Wie sehr verbessert Gruppenwissen meine Vorhersage?“


Schritt 2:

  • Man vergleicht zwei Vorhersagen:

    1. Ohne Gruppenwissen

      • Schätzer: Gesamtmittelwert

      • Fehler = E1

    2. Mit Gruppenwissen

      • Schätzer: Gruppenmittelwerte

      • Fehler = E2

    Dann gilt:

    PRE = E1−E2 / E1

    → Diese PRE-Logik = Grundlage von Eta²

SChritt 3:

  • Quadratsummen (QS) verwenden

  • QS Gesamt

    • Abweichungen aller Werte vom Gesamtmittelwert

    • entspricht E1 (Fehler ohne Gruppenwissen)

    QS innerhalb

    • Abweichungen innerhalb jeder Gruppe

    • entspricht E2 (Fehler mit Gruppenwissen)

    QS zwischen

    • Unterschiede der Gruppenmittelwerte

    • QSgesamt – QSinnerhalb


  • Formel für Eta-Quadrat:

    η2= QS gesamt − QS innerhalb​ / QS gesamt

oder

  • η2 = QS gesamt / QS zwischen​


Schritt 4:


Interpretation nach Cohen

Eta²

Effektstärke

< 0,01

kein Effekt

0,01 – < 0,06

kleiner Effekt

0,06 – < 0,14

mittlerer Effekt

≥ 0,14

großer Effekt


Beispiel (vereinfacht)

Fragestellung: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“

Gruppe A (ohne MH): MW = 12,8 Gruppe B (mit MH): MW = 6,2 → starker Unterschied

Gegeben:

  • QS gesamt = 204,5

  • QS innerhalb = 95,6

Berechnung:

η2 = 204,5 - 95,6 / 204,5 = 0,53

Interpretation:

  • η² = 0,53 → sehr starker Effekt

  • 53 % der Varianz im politischen Wissen werden durch den Migrationshintergrund erklärt


Platz von Eta-Quadrat im Vergleich zu anderen Zusammenhangsmaßen

  • Nominal – nominal / ordinal – nominal → Cramer’s V

  • Ordinal – ordinal / bei Rangdaten → Spearman’s Rho

  • Metrisch – metrisch → Pearson’s r

  • uV nominal – aV metrischEta-Quadrat

Regel: → „Wähle immer das Assoziationsmaß, das zum niedrigsten Skalenniveau passt“ → Ausnahme: Eta² ist speziell für nominal–metrisch vorgesehen


Was können bivariate Analysen nicht leisten?

  • Sie zeigen nur Zusammenhang / Effektstärke – keine Kausalität

  • Drittvariablen können Zusammenhänge erklären → Scheinkorrelation

  • Statistische Maße allein liefern keine Ursachenanalyse


Author

Cathérine C.

Information

Last changed