Buffl

NEU - Datenanalyse inkl. R

CC
von Cathérine C.

BIVARIATE Datenanalyse

Bivariate Datenanalyse untersucht den Zusammenhang zwischen genau zwei Variablen. Sie ermöglichen es, Zusammenhangshypothesen zwischen 2 Variablen zu testen.


Grundprinzip:

  • Eine Variable ist unabhängig (z. B. Bildung)

  • die andere abhängig (z. B. Wahlbeteiligung) sein.


Schritt 1


Kreuztabellen (Contingency Tables)

zeigt die Häufigkeiten des gemeinsamen Auftretens von zwei Variablen.

  • Spalte: unabhängige Variable

  • Zeile: abhängige Variable

  • Zellen: Kombinationen der Ausprägungen der beiden Variablen

    • Nominal: Kategorie ohne Rangordnung (z. B. Geschlecht)

    • Ordinal: Kategorie mit Rangfolge (z. B. politisches Interesse)

    • Metrisch: viele Ausprägungen (z. B. Einkommen) → gruppieren nötig, um Kreuztabellen zu erstellen

  • Randhäufigkeiten: Summen der Zeilen und Spalten (deskriptiv)

  • Relative Häufigkeiten: Prozente ermöglichen bessere Vergleichbarkeit

  • Prozentangaben: auf Spaltenbasis → „wenn-dann“-Interpretation

R-Funktion

# Basis R: Kreuztabelle erstellen

table(Variable1, Variable2)

# Relative Häufigkeiten

prop.table(table(Variable1, Variable2), margin=2)


# mit Paket: sjmisc

flat_table(ess9de_m1, wahl, bildung,

margin = c("col")) # = Spaltenprozente

# Zeilenprozente (row)

# Gesamtprozente (cell)

# Mit Paket: descr

CrossTable(ess9de_m1$wahl, ess9de_m1$bildung) #Ausgabe in Console

CrossTable(ess9de_m1$wahl, ess9de_m1$bildung,

prop.c = TRUE, # Spaltenprozente

prop.t = FALSE, # Gesamtprozente

prop.r = FALSE, # Zeilenprozente

prop.chisq = FALSE) # einzelne ChiQuadrat-Anteile


Bei Nominalen: Schritt 2:


Indifferenztabelle (erwartete Häufigkeit)

da kein Zusammenhang zwischen Variablen nachgewiesen wurde bisher, muss das erstmal gezeigt werden:

  • Vergleich: beobachtete Häufigkeiten fb(ij) vs. erwartete fe(ij)

  • Große Abweichung → höhere Wahrscheinlichkeit für statistische Abhängigkeit

Formel: fe(ij) = Zeilensumme(i) * Spaltensumme (j) / n

Beispiel:

  • Beobachtet: 311 Männer „sehr stark politisch interessiert“

  • Erwartet: 216,56 Männer

  • Differenz = 94,44 → Abweichung deutet auf Zusammenhang


Schritt 3


Chi² - Test (χ²)

Misst, wie stark die beobachteten Häufigkeiten von den erwarteten abweichen.

  • Problem: χ² ist stichprobenabhängig, daher schwer vergleichbar zwischen Studien

  • Interpretation:

    • χ² ≈ 0 → kein Zusammenhang

    • χ² groß → starker Zusammenhang

  • Berechnung mit Tabelle

    1. Spalte: Beobachtete Häufigkeiten (fb + Spalte der Originaltabelle angeben, zB. fbi)

    2. Spalte: erwartete Häufigkeiten (fe + Spalte…)

    3. Spalte Residuen pro Zeile berechnen:

      • Differenz zwischen den beobachteten und den erwarteten Häufigkeiten

      • Heißt: wie stark die Realität (beobachtet) von der Nullhypothese (erwartet, wenn kein Zusammenhang besteht) abweicht.

      • fb - fe

    4. Spalte: Residuen pro Zeile quadrieren

    5. Spalte: quadrierte Residuen durch erwartete Häufigkeiten pro Zeile teilen:

      • Residuen (fb - fe)² / (erwartete Häufigk.) fe

    6. Spalte: Summe der Werte aus Spalte 5

      = Chi²


Funktion in R

  • chisq.test(Variable1, Variable2)

#Darstellung beobachteter Häufigkeiten und erwarteter Häufigkeiten + Chi, Cramer + phi

  • tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)


Schritt 4


Effektstärke messen durch Phi & Cramer’s V


Phi (Φ)

Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen - 2x2 Tabellen (dichotome Variablen, auch genannt: 4 Feldertafel)

  • Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)

  • Werte: 0 (kein Zusammenhang) bis 1 (vollständige Abhängigkeit)

    • Interpreation wie bei Cramers V

  • Formel: Φ = Wurzel aus χ²/n

Funktion in R

  • tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)


Cramer’s V

Maß für die Stärke des Zusammenhangs zwischen zwei nominal- oder ordinalskalierten Variablen.

  • Beispiel:

    • Zwei nominalskalierte Variablen (z. B. Geschlecht × Wahlbeteiligung)

    • Eine nominale Variable und eine ordinale Variable (z. B. Geschlecht × Bildungsgrad)

    • Wichtig: Wenn die Variablen unterschiedliche Skalenniveaus haben, wählt man für Cramér’s V das niedrigere Messniveau.

      • Nominal < Ordinal < Intervall/Metrisch

      • Beispiel 1: Geschlecht (nominal) × Bildungsgrad (ordinal)

        • Nominal = niedrigeres Skalenniveau → Cramér’s V berechnen auf Basis von nominal.

      • Beispiel 2: Familienstand (nominal) × Einkommen (metrisch)

        • Nominal < Metrisch → Cramér’s V für nominales Merkmal → zeigt, wie stark Einkommen durch Gruppenunterschiede erklärt wird.

  • Es zeigt nur die Stärke, nicht die Richtung eines Zusammenhangs.

  • Wertebereich: 0 bis 1

    • 0 → kein Zusammenhang

    • 1 → perfekte Abhängigkeit (die Merkmale „gehen Hand in Hand“)

  • Auch für größere Tabellen (nicht nur 2x2)


Formel: V = Wurzel aus Chi² / n * (M - 1)

  • M = kleinere Dimension der Kreuztabelle (entweder Zeilen oder Spalten)

  • Der Wert sagt wie stark die beiden Merkmale zusammenhängen (nur „stärker“ oder „schwächer“)

  • Beipspiel:

    • Chi-Quadrat χ2=190,46

    • Stichprobengröße n=3490

    • Tabelle 5 Zeilen × 2 Spalten → M=2M

    • V = Wurzel aus 190,46 / 3490 * (2 - 1)

      • = Wurzel aus 190,46 / 3490 ≈ 0,23

Interpretation

V-Wert

Stärke des Zusammenhangs

≤ 0,05

kein Zusammenhang

0,05–0,10

sehr schwach

0,10–0,20

schwach

0,20–0,40

mittelstark

0,40–0,60

stark

> 0,60

sehr stark

0,23 = mittelstarker Zusammenhang zwischen den Merkmalen


Funktionen in R

  • CrossTable(var1, var2, expected=TRUE, prop.chisq=TRUE, chisq=TRUE)

#Paket DescTools:

  • CramerV(var1, var2)


Zusammengefasst (nominal):

  • Indifferenztabelle → Chi² → Phi/Cramér’s V

  • Indifferenz zeigt „erwartet ohne Zusammenhang“

  • Chi² misst Abweichung von Erwartung

  • Phi/Cramér’s V standardisiert das Ergebnis für Vergleichbarkeit


bei ordinalen:

Die Werte haben eine Rangfolge, aber Abstände sind nicht zwingend gleich.

  • Beispiele: Bildungsabschluss (niedrig → mittel → hoch), politisches Interesse (sehr niedrig → sehr hoch), soziale Schicht (Unterschicht → Oberschicht)

Ziel: Bestimmung von Richtung und Stärke des Zusammenhangs zwischen zwei ordinalen Variablen.


Schritt 2:


Rangzuweisung

  • Ränge: Position eines Wertes in der geordneten Stichprobe (klein → groß)

  • Bindungen (Ties): Mehrere gleiche Werte → Rangmittelwert wird vergeben

    • Beispiel: Zwei Personen mit „Abitur“ → Ränge 4 & 5 → Mittelwert 4,5

Person

Bildung

Rang

A

Hauptschule

1

B

Realschule

2,5

E

Realschule

2,5

C

Abitur

4,5

D

Abitur

4,5

Hinweis: Rangkorrelationen ermöglichen Aussagen über Stärke und Richtung, nicht über Kausalität.


Schritt 3


Spearmans Rho (ρ) oder (rsp)

= Rangkorrelationskoeffizient für zwei ordinalskalierte Variablen

  • Wertebereich: −1 bis +1

  • Interpretation:

    • Positiv → beide Variablen steigen zusammen

    • negativ → gegenläufig, 0 → kein Zusammenhang

  • Faustregel:

    • ≤ 0,05 kein Zusammenhang

    • 0,05–0,20 schwach

    • 0,20–0,50 mittel

    • 0,50–0,70 stark

    • >0,70 sehr stark

  • Berechnung mit Tabelle:

    • Tabelle zu beiden Merkmalen ausgeben lassen, z.B. Soziale Schicht und Gesundheitszustand

      • Person 1 Mittelschicht(3) GZ schlecht (2)

      • Person 2 Arbeiterschicht(2) GZ sehr schl. (1)

      • Person 3 Oberschicht(5) GZ sehr gut (5)

    • Rangpositionen überführen: d = X - Y

      • Person 1 (3) (2) (1)

      • Person 2 (2) (1) (1)

      • Person 3 (5) (5) (0)

    • Ränge quadriert summieren: 1² + 1² + 0² = 2

    • Formel ausfüllen: 6 * 2 / 3 (n) * (3² -1) = 12 / 24 = 0,5

    • Interpreation: positiver mittelstarker Zusammenhang zwischen Sozialer Schicht und Gesundheitszustand, sodass, sollte eins von beiden ansteigen, die andere Variable mit ansteigt.

Funktion in R

  • cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),

    use="complete.obs", method="spearman")

Paket: DecTools

  • SpearmanRho(ess9de_m1$polint, ess9de_m1$bildung, use="complete.obs")


Schritt 4


Kendalls Tau

Alternative zu Spearman für ordinalskalierte Variablen

= Zusammenhangsmaß für mindestens ordinalskalierte Variablen. Es misst die Rangübereinstimmung zwischen zwei Variablen und kann Werte zwischen −1 und +1 annehmen:

  • +1: perfekter positiver Zusammenhang (alle Paare steigen zusammen)

  • 0: kein Zusammenhang

  • −1: perfekter negativer Zusammenhang (eine steigt, die andere sinkt)

Grundidee

Man betrachtet alle möglichen Paare von Beobachtungen und überprüft, ob die Rangfolgen der beiden Variablen gleichgerichtet oder gegenläufig sind.

  • Konkordante Paare: Positiver Beitrag <- Rangplätze beider Variablen steigen oder fallen gemeinsam.

  • Diskonkordante Paare: Negativer Beitrag <- Wenn Rangplätze gegensätzlich verlaufen (eine steigt, die andere sinkt).

  • Verbunden / Bindung (tie): Mindestens eine Variable hat für ein Paar gleiche Werte → spezieller Umgang, wird angepasst

Vorteil: robuster bei Bindungen und großen Stichprob


Beispiel:

Person

X (Schicht)

Y (Gesundheit)

1

3

2

2

2

1

3

5

5

Paar 1: Person 1, Person 2…

Die Paare bilden wir immer aus zwei unterschiedlichen Personen:

  • (1,2), (1,3), (2,3)


Formel: n*(n-1) / 2 = 3*(3-1) / 2 = 3 Paare

  • A & B → X steigt (1→3), Y steigt (2→4) → konkordant ✅

  • A & C → X steigt (1→2), Y steigt (2→5) → konkordant ✅

  • B & C → X fällt (3→2), Y steigt (4→5) → diskonkordant ❌


Überwiegen konkordante Paare, dann ist es positiv!


Hinweis

  • Bei ordinalen Variablen empfiehlt sich ggf. auch eine Kreuztabelle für die deskriptive Darstellung.

  • Spearman ist robuster gegen Ausreißer; Kendall besonders bei vielen Bindungen.


Funktion in R

  • cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),

    use="complete.obs", method="kendall")


bei metrischen:

Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei

  • Scatterplots (Streudiagramme)

  • Kovarianz und

  • Pearson’s r (Korrelationskoeffizient)


Schritt 2:

Grafische Analyse: Streudiagramm (Scatterplot)

= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.

  • Zweck: Erste Einschätzung des Zusammenhangs.

  • Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.

  • Arten von Zusammenhängen:

    • Keine Korrelation: Punkte zufällig verteilt.

    • Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.

    • Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.

    • Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.


Schritt 3:


Kovarianz: unstandardisiertes Zusammenhangsmaß

= Zwischenschritt zur Berechnung von Pearsond R

  • Maß für den linearen Zusammehhang zweier Variablenin Form der gemeinsamen Streuung von X und Y an

Berechnung:

  • wie weit der jeweilige x- oder y-Wert vom arithmetischen mittel entfernt ist

  • Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n

Interpretation des Ergebnis:

  • positiv → steigen gemeinsam

  • negativ → einer steigt, der andere fällt

  • ≈ 0 → kein linearer Zusammenhang

  • Problem: einheitenabhängig → schwer vergleichbar

Beispiel aus dem Text:

Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben


Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.


Schritt 4:


Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)

= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.

heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.

  • Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).

  • Pseudometrische Variablen in den SW: Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.

    • Beispiele:

      • Likert-Skalen 0–10 (z. B. Lebenszufriedenheit)

      • Gesundheitszustand (kritisch, wenn ungleiche Abstände)

      Achtung: Die metrische Behandlung ist modellabhängig! Bei begründeten Zweifeln → Spearman’s Rho verwenden

  • Wertebereich -1 bis 1


Berechnung über Tabelle:

  1. Erstelle eine Tabelle mit diesen 5 Spalten:

    • xi → Werte von Merkmal X (z. B. Einkommen)

    • yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)

    • xi · yi → Produkt aus X und Y

    • (xi)² → X-Werte quadriert

    • (yi)² → Y-Werte quadriert

  2. Am Ende addierst du jede Spalte als Randwert

  3. Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)

  4. Formel auffüllen (Zähler):

    Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi

  5. Formel auffüllen (Nenner):

    Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN

Beispiel aus dem Text:

ID

Xi

Yi

X·Y

1

2

8

16

4

64

2

4

6

24

16

36

3

6

4

24

36

16

Σ

12

18

64

56

116

MW

4

6

21,33

18,67

38,67

  • = 0,22


Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy


Aber:

  • Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.

  • Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.

  • Mögliche 3. Variablen können nicht ausgeschlossen werden

  • = keine kausale Interpretation möglich nur Schein Korrelationen

    auch keine Richtung der Kausalität möglich

  • nur je höher, desto wahrscheinlicher… Aussagen möglich

Interpreation des Ergebnis:

  • r > 0 → positiver linearer Zusammenhang

  • r < 0 → negativer linearer Zusammenhang

  • r = 0 → kein linearer Zusammenhang


Faustregel:

  • ≤ 0,05 kein Zusammenhang

  • >0,05 – 0,20 schwach

  • >0,20 – 0,50 mittelstark

  • >0,50 – 0,70 stark

  • >0,70 sehr stark

Beispiel 1 (IQ & Test):

r = 0,89 → sehr starker positiver Zusammenhang

Beispiel 2 (Einkommen & Lebenszufriedenheit):

r = 0,64 → starker positiver Zusammenhang


Wichtig:

  • Pearson’s r misst nur lineare Zusammenhänge.

  • r zeigt keine Kausalität → keine Aussage zu x → y oder y → x

  • Scheinkorrelationen möglich (dritte Variable).

  • Zusammenhang bedeutet nicht Ursache-Wirkung.

  • Streudiagramm immer sinnvoll zur visuelle Prüfung (z. B. Nichtlinearität).


Zusammengefasst:

  • Streudiagramm → zeigt die Form des Zusammenhangs (visuell)

  • Kovarianz → zeigt Richtung (positiv/negativ) des Zusammenhangs , aber keine Stärke

  • Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)


Funktion in R:

  • cor(ess9de_m1$stflife, ess9de_m1$health,

    use = "complete.obs")

  • cor.test(ess9de_m1$stflife, ess9de_m1$gesund.num,

    use = "complete.obs")

    • Gibt r und p-Wert aus

    • p < 0,05 → Korrelationskoeffizient statistisch signifikant

    • Signifikanz betrifft nur die Übertragbarkeit, nicht Stärke/Bedeutsamkeit

  • Spearman = robuster bei ordinalen bzw. nicht normalverteilten Daten

    • cor(ess9de_m1$stflife, ess9de_m1$gesund.num,

      use = "complete.obs",

      method = "spearman")

Wichtige Hinweise für die Praxis

  • Kodierung prüfen! Hohe Werte sollten ein hohes Ausmaß des Merkmals bedeuten → erleichtert Interpretation

  • Pearson’s r misst nur lineare Zusammenhänge

  • Keine Kausalaussagen möglich

  • Bei ordinalen Variablen oder Zweifeln → Spearman’s Rho als Robustheitsprüfung

  • Immer zuerst deskriptiv prüfen (Skalen, Verteilung, Kodierung, Ausreißer)


Eta-Quadrat (η²): wenn unabhängige Variable nominal und eine abhängige Variable metrisch

  • wird genutzt, wenn:

    • unabhängige Variable (uV) = nominal (z. B. Geschlecht, Familienstand, Migrationshintergrund)

    • abhängige Variable (aV) = metrisch (z. B. Einkommen, Testpunkte, Zufriedenheit)

    Warum kein Pearson’s r?

    • Pearson r erfordert beide Variablen metrisch → Kategorien wie „ledig“, „verheiratet“ haben keine Zahlenabstände

    • Eta² ist das passende Maß für die Kombination nominal – metrisch

  • Eta² zeigt, wie viel Prozent der Varianz der abhängigen Variable durch die Gruppen erklärt wird.

  • Wertebereich: 0 bis 1

    • 0 → kein Zusammenhang

    • 1 → perfekter Zusammenhang

  • Beispiel: η² = 0,53 → „53 % der Varianz werden durch die Gruppen erklärt“


= Eta-Quadrat als PRE-Maß (Proportional Reduction of Error)

  • Grundidee: „Wie sehr verbessert Gruppenwissen meine Vorhersage?“


Schritt 2:

  • Man vergleicht zwei Vorhersagen:

    1. Ohne Gruppenwissen

      • Schätzer: Gesamtmittelwert

      • Fehler = E1

    2. Mit Gruppenwissen

      • Schätzer: Gruppenmittelwerte

      • Fehler = E2

    Dann gilt:

    PRE = E1−E2 / E1

    → Diese PRE-Logik = Grundlage von Eta²

SChritt 3:

  • Quadratsummen (QS) verwenden

  • QS Gesamt

    • Abweichungen aller Werte vom Gesamtmittelwert

    • entspricht E1 (Fehler ohne Gruppenwissen)

    QS innerhalb

    • Abweichungen innerhalb jeder Gruppe

    • entspricht E2 (Fehler mit Gruppenwissen)

    QS zwischen

    • Unterschiede der Gruppenmittelwerte

    • QSgesamt – QSinnerhalb


  • Formel für Eta-Quadrat:

    η2= QS gesamt − QS innerhalb​ / QS gesamt

oder

  • η2 = QS gesamt / QS zwischen​


Schritt 4:


Interpretation nach Cohen

Eta²

Effektstärke

< 0,01

kein Effekt

0,01 – < 0,06

kleiner Effekt

0,06 – < 0,14

mittlerer Effekt

≥ 0,14

großer Effekt


Beispiel (vereinfacht)

Fragestellung: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“

Gruppe A (ohne MH): MW = 12,8 Gruppe B (mit MH): MW = 6,2 → starker Unterschied

Gegeben:

  • QS gesamt = 204,5

  • QS innerhalb = 95,6

Berechnung:

η2 = 204,5 - 95,6 / 204,5 = 0,53

Interpretation:

  • η² = 0,53 → sehr starker Effekt

  • 53 % der Varianz im politischen Wissen werden durch den Migrationshintergrund erklärt


Platz von Eta-Quadrat im Vergleich zu anderen Zusammenhangsmaßen

  • Nominal – nominal / ordinal – nominal → Cramer’s V

  • Ordinal – ordinal / bei Rangdaten → Spearman’s Rho

  • Metrisch – metrisch → Pearson’s r

  • uV nominal – aV metrischEta-Quadrat

Regel: → „Wähle immer das Assoziationsmaß, das zum niedrigsten Skalenniveau passt“ → Ausnahme: Eta² ist speziell für nominal–metrisch vorgesehen


Was können bivariate Analysen nicht leisten?

  • Sie zeigen nur Zusammenhang / Effektstärke – keine Kausalität

  • Drittvariablen können Zusammenhänge erklären → Scheinkorrelation

  • Statistische Maße allein liefern keine Ursachenanalyse


Multivariate Datenanalysen

lineare Regression (bivariat + multipel)

untersuchen, den Einfluss mehrerer unabhängige Variablen (auch: erklärende Faktoren) auf ein abhängiges Phänomen (auch: erklärungsbedürftiges Phänomen).


Das wichtigste Verfahren ist die Regressionsanalyse (lat. regredere: zurückführen auf), die zwei Ziele erfüllen kann:

  • Erklären, welchen Einfluss uVs auf die aV haben.

  • Vorhersagen, welchen Wert die aV basierend auf uVs annehmen wird.

Beispiel:

  • Wahlbeteiligung zurückführen auf: Bildung, Einkommen, politisches Interesse etc. einer Person

  • Prognose über eine Schätzung (!) darüber, dass, wenn wir den sozialen Status und das politische Interesse einer Person kennen, wie wahrscheinlich es ist, dass die Person wählen geht.


Dabei werden verschiedene Begriffe synonym verwendet:

Abhängige Variable (y)

Unabhängige Variable (x)

Erklärte Variable

Erklärende Variable

Kriteriumsvariable

Prädikator(variable)

Endogene Variable

Exogene Variable

Regressand

Regressor


Unterschied zur bivariaten Datenanalyse

  • Kausalbeziehungen werden untersucht:

    • Richtung, Ursprung und Stärke eines Einflusses

    • Achtung: keine statistische Perspektive auf Kausalität, sondern Korrelation wird berechnet

  • Regressionsanalyse = strukturprüfendes Verfahren, mittels derer sich theoretisch entwickelte Hypothesen über die Beziehungsstruktur zwischen Variablen prüfen lassen

    • Deshalb: Theorien- u. Hypothesenbildung vor Regressionsanalyse zwingend notwendig


Fragen der Regressionsanalyse

  • Welchen Eingluss üben einzelne unabhängige Variablen auf eine abhängige aus?

    • Stärke + Richtung des Einflusses

  • Wie gut erklären bestimmte unabhängige Variablen eine abhängige insgesamt?

    • = Gesamtgüte des Regressionsmodells*

    • Stichprobendaten (z.B. ALLBUS): Berechnung der statistischen Signifikanz sowohl der Einflussfaktoren, als auhc des Gesamtmodells


Typen von Regressionsanalysen

Welches Regressionsmodell gewählt wird, hängt vom Skalenniveau der abhängigen Variable ab:

  • Lineare Regression: metrische aV

  • Logistische Regression: dichotome aV

  • Multinominale Log. Regression: nominale aV

  • Ordinale Regression: ordinale aV


1. Lineare Regression (am häufigsten genutzt)

= Untersuchung eines linearen Zusammenhangs zwischen mindestens einer unabhängigen und einer abhängigen Variable.

  • = metrische & psuedometrische mit mind. 5 Ausprägungen und gleich große Wertzuweisungen der Abstände zwischen den Ausprägungen einer Variable


Beispiel: Lebenszufriedenheit:

  • Determinanten der Lebenszufriedenheit = Erklärung der Streuung beobachteter Daten durch das Einkommen (und weiterer Merkmale) entlang der Regressionsgeraden.

  • = Regressionsmodell:

    • heißt: wie groß der Eingluss einzelner Faktoren jeweils ist, wie genau Einflussvariablen zusammen die abhängige Variable Lebenszufriedenheit erklären.

      • = Wie gut können diese EInflussfaktoren einzeln und gemeinsam die Höhe der Lebenszufriedenheit bestimmen und damit auch vorhersagen?


Voraussetzungen der linearen Regression

Es müssen bestimmte Bedingungen erfüllt sein (hier nur die wichtigste erwähnt):

  1. Linearität: Zwischen uVs und aV muss ein linearer Zusammenhang bestehen (erkennbar z.B. im Streudiagramm).

  2. Zufallsstichprobe

    • Damit die Regressionsparameter auf die Grundgesamtheit übertragbar sind, sollte die Stichprobe zufällig gezogen sein.

  3. Keine starke Multikollinearität

    • uVs sollten nicht sehr hoch korrelieren (Faustregel: r > 0,9 problematisch).

    • Sonst werden die Schätzungen der Koeffizienten unzuverlässig.

  4. Unkorrelierte Residuen

    • Residuen sollen zufällig um 0 schwanken.

    • Sie dürfen nicht miteinander und nicht mit Y korrelieren → sonst sind die Parameter verzerrt.

  5. Homoskedastizität

    • Die Residuen sollen eine konstante Varianz über alle X-Werte hinweg haben.

    • Bei Heteroskedastizität werden Standardfehler falsch → Signifikanztests (t, F, p) werden unzuverlässig.

  6. Korrekte Modellspezifikation

    • Alle theoretisch relevanten Variablen müssen im Modell enthalten sein.

    • Wichtige Variablen nicht zu berücksichtigen → verzerrte Schätzer.


Bivariate (lineare) Regression

eine abhängige Variable + eine unabhängige Variable mit mind. intervallskalierten Variablen z.B. Einkommen in EUR


Zu prüfende Hypothese: Je höher das Einkommen ist, desto größer ist die Lebenszufriedenheit.


Regressionstabelle

ID

Lebenszufriedenheit

Wert auf Skala 0 - 10

Nettoeinkommen im Monat in EUR

1

7

2000

2

10

4550

3

2

1003

4

9

3200

5

7

2900

6

6

2850

7

4

1900

8

6

3700


Schritt 1: Erstellung eines Streudiagramms mit Regressionsgeraden

= lineare Beziehung zwischen 2 Variablen werden mathematisch durch eine Gerade dargestellt


Beispiel: Lebenszufriedenheit = f(Einkommen)

Funktion: y = f(x)


Beispiel: Lebenszufriedenheit = Schnittpunkt der Geraden mit der y-Achse + Steigung der Geraden + Einkommen

Funktion der Regressionsgeraden: y = a + ß * x


aber: es gibt verschiedene Störgrößen

  • systematische Fehler: bestimmte Variablen sind noch nicht im Regressionsmodell berücksichtigt

  • Beobachtungs- und Messfehler, während der Datenerhebung

  • unbekannte Störgrößen

daher, schätzen wir die Regressionsgerade mathematisch, statt sie exakt zu berechnen:


Schritt 2:

Beispiel: geschätzte Lebenszufriedenheit = Schnitt mit y-Achse (x = 0, Konstante) + Regressionskoeffizient ß (Steigung der Geraden zur Vorhersage von y) * Einkommen

Funktion der geschätzten Regressionsgeraden: ^y = a + ß * x


Hier sieht man das Verhältnis von tatsächlich beobachteten Werten (Punkte) und geschätzten Werten (Gerade). Der Raum zwischen beiden nennt sich “Residuumm”


Schritt 3:

Beispiel: Residuum der Lebenszufriedenheit = a + ß * Einkommen + Error = beobachtete Lebenszufriedenheit - geschätzte Lebenszufriedenheit

Regressionsfunktion mit Berücksichtigung der Residuen:

y = a + ß * x + e | e = y - ^y


Um nun die Schätzung bestmöglich zu machen, wird die Gerade gesucht, mit dem min. Abstand zu den beobachteten Messungspunkten. Hierzu wird folgendes Verfahren verwendet:

Schritt 4:

Ordinary Least Square Verfahren (OLS)

= Kleinste-Quadrat-Schätzung (KQ-Schätzung), um den Abstand mathematisch durch Messung des vertikalen Abstands (Residuen oder e) zwischen beobachteten und geschätzten y-Werten zu ermitteln.


Die Berechnung übernimmt ein Statistikprogramm. Im Beispiel ergibt sich eine Regressionsgerade mit folgender Gleichung:

  • Beispiel: geschätzte Lebenszufriedenheit = 1,11 gesch. Lebenszufriedenheit + 0,002 Einkommen

  • OLS Regressionsfunktionsergebnis: ^y = 1,11 + 0,002x

= Regressionskonstante (a) + Steigung (Regressionskoef. ß)

  • Vorzeichen des Regr.Koef. ß bestimmt ob positiver oder negativer Zusammenhang besteht

  • Steigung = unstandartisierter Regressionskoeffizient ß!

    • Vorteil: leicht interpretierbar

  • Konstante = Schnittpunkt der Geraden mit y-Achse, wenn x = 0

Interpretation

  • Beispiel: Jemand ohne Einkommen (x = 0) hat eine geschätzte Lebenszufriedenheit von 1,11 Punkten und jeder Euro Einkommenszuwachs pro Person einen Zuwachs von 0,002 Punkten der Lebenszufriedneheit erbringt.

  • = Ermittlung des kleinsten Abstands zu den qudrierten Fehlern, sowie des Regressionskoeffizienten ß


Anhand der Konstante kann nun mit dem Bestimmtheitsmaß geprüft werden, wie gut die Regressionsgerade die beobachteten Datenpunkte unsgesamt erklärt.

Schritt 5)

Determinationskoeffizient R² = Bestimmtheitsmaß

Erklärung, wie viel Varianz durch das aufgestellte Regressionsmodell erklärt werden kann = die *Güte des Gesamtmodells

  • gehört zu sog. PRE-Maßen (Proportiol Reduction of Error), die Auskunft über die prozentuale Verringerung der Fehler durch ein Vorhersagemodell von y geben kann. (ETA² gehört auch dazu)

Berechnung R² am Beispiel:

Anova³ Tabelle

Quelle

SS (Quadratsumme)

df

MS (Mittel der Quadrate)

F

Regression (SSR)

31,6233

1

31,6233

13,3134

Residual (SSE)

14,2517

6

2,37529


Total (SST)

45,8750

7



Beispiel: R² = Regression 31,62 / Gesamt 45,88 = 0,6892

Funktion: R² = SSR / SST


Interpretation R²:

  • Gütemaß der Regression:

    • 0 bis 1 stellvertretend für 0% bis 100%

      • Wert von 1 = uV trägt 100% zur Erklärung Varianz der aV bei.

      • Wert von 0 = uV trägt nichts zur Erklärung der Varianz aV bei, was auf eine fehlende Integration wichtiger anderer erklärender Merkmale deutet

  • Beispiel: ≈ 0,689: Einkommen erklärt ~68,9 % der Varianz der Lebenszufriedenheit in dieser Stichprobe — ein hoher Erklärungsanteil.

  • Bei Stichprobendaten, kann mithilfe der multiplen Regression durch das korrigierte R² auch auf statistische Signifikanz getestet werden

Unterscheidung:

  • Wenn beide fast gleich sind:

    • Das Modell ist gut spezifiziert → Keine unnötigen Variablen

  • Wenn korrig. R² deutlich kleiner ist als R²:

    • Das Modell enthält unnötige Variablen → Es wurde „überfittet“ (zu viel Ballast)

Beispiel Modell für Lebenszufriedenheit:

Modell

Variablen

Adjusted R²

Modell A

Bildung, Alter

0,40

0,39

Modell B

Bildung, Alter, Lieblingsfarbe

0,41

0,35

➡️ R² steigt leicht, weil eine neue Variable dazu kam.

➡️ Aber das korrigierte R² fällt stark → Lieblingsfarbe ist nutzlos.








2.Multiple Regression

Bei mehreren unabhängigen Variablen lautet das Modell:

➡️ y = α + β₁x₁ + β₂x₂ + … + βₖxₖ + e


Beispiel: Y = Einkommen X₁ = Bildung X₂ = Berufserfahrung X₃ = Geschlecht X₄ = Alter…


Ziele:

  1. Die Faktoren finden, die den größten Beitrag zur Erklärung der aV leisten

  2. Stärke und Richtung jedes Einflussfaktors bestimmen

  3. Prüfen, ob Ergebnisse auf die Grundgesamtheit übertragbar sind (Signifikanz)


Nettoeffekte

= der „bereinigte“ Effekt einer Variable, wenn alle anderen X-Variablen konstant gehalten werden.

  • Mit multipler Regression erhält man Nettoeffekte, weil alle anderen Variablen konstant gehalten werden.

  • Beispiel: In der bivariaten Regression scheint Ausbildung stark auf Einkommen zu wirken.

    • Aber: Wenn man Berufserfahrung mit ins Modell nimmt, ändert sich der Effekt – weil Ausbildung und Erfahrung zusammenhängen.


Dummies für nominale Variablen

  • Nominalskalierte Variablen werden in 0/1-codierte Dummy-Variablen umgewandelt. Eine Kategorie wird zur Referenz, auf die sich die anderen beziehen.

    • Beipsiel:

      • Geschlecht (0 = weiblich, 1 = männlich)

      • Wohnort (0 = Land, 1 = Stadt)


Standardisierte Koeffizienten (Beta)

= alles wird auf Standardabweichungen umgerechnet


Da unstandardisierte β je nach Maßeinheiten schwer vergleichbar sind, nutzt man standardisierte Koeffizienten:

  • unstandardisiert bedeutet: Wenn X um 1 Einheit steigt, verändert sich Y um b Einheiten.

  • Bei der Umrechung auf Standardabweichungen lassen sich Variablen direkt vergleichen, welche den stärksten Effekt hat:

    • Werte zwischen −1 und +1

  • = direkter Vergleich der Einflussstärken innerhalb eines Modells

    • Aber nicht zwischen verschiedenen Stichproben interpretierbar

Rechenweg:

  • b = unstandardisierter Regressionskoeffizient MAL

  • sₓ = Standardabweichung der unabhängigen Variable DURCH

  • sᵧ = Standardabweichung der abhängigen Variable

Beispiel:

  • Unstandardisiertes b = 0,5

  • SD der unabhängigen Variable (x) = 10

  • SD der abhängigen Variable (y) = 20

  • = 0,5 10/20 = 0,5 * 0,5 = 0,25

Interpretation:

  • Wenn x um 1 Standardabweichung steigt, steigt y um 0,25 Standardabweichungen.

  • Das ist unabhängig von Einheiten und deshalb vergleichbar.

Standardabweichung (SD)

Wie stark streuen die Werte im Durchschnitt um den Mittelwert herum?

  • Kleine SD → alle Werte liegen eng beieinander

  • Große SD → Werte sind stark verstreut

Schritte zur Berechnung:

  1. Mittelwert berechnen (alle Werte addieren und durch Summe teilen)

  2. Abweichung des echten Wertes von Mittelwert berechnen in Form einer Tabelle

    Wert

    Abweichung

    2

    –2,67

    4

    –0,67

    4

    –0,67

    4

    –0,67

    6

    +1,33

    8

    +3,33

  3. Abweichungen pro Zeile quaddrieren um negative Zaheln zu vermeiden (Beispielergebnis: 21,32)

  4. Varianz errechnen: Summe der quaddrierten Zahlen und durch Gesamtanzahl teilen (Beispielergebnis: 21,32 / 5 = 4,264

  5. Standardabweichung = Wurzel aus Varianz (Beispielergebnis: 2,06

Heißt: Die Standardabweichung misst, wie weit die Werte im Durchschnitt vom Mittelwert entfernt sind – zuerst quadriert (damit es positiv wird), dann wieder zurück „entquadriert“ durch die Wurzel.


Statistische Signifikanz: F-Test und t-Test

Zwei Prüfungsebenen:

1) F-Test

  • Testet, ob das gesamte Regressionsmodell signifikant ist

  • Prüft: Erklären die uVs gemeinsam die aV?

2) t-Test

  • Prüft, ob ein einzelner Regressionskoeffizient (β) ungleich Null ist.

    • = ob die Variable einen echten Einfluss hat)

  • Grundlage: t = (unstandardisierter Koeffizient) / (Standardfehler)

  • empirische t-Wert (auch: Teststatistik beim t-Test):

    t = (beobachteter Wert − erwarteter Wert) / Standardfehler

    Wie genau du rechnest, hängt davon ab, welchen t-Test du machst. Hier sind die wichtigsten Fälle:


p-Werte (Konventionen)

Wie wahrscheinlich ist es, dass der beobachtete Effekt rein zufällig entstanden ist? Dabei gilt: kleiner p-Wert → Ergebnis ist nicht Zufall → bedeutsam, großer p-Wert → kein belastbarer Effekt

  • p < 0,05 → * signifikant

  • p < 0,01 → ** sehr signifikant

  • p < 0,001 → *** hoch signifikant

Signifikanz bedeutet: Der gefundene Einfluss ist wahrscheinlich nicht zufällig und kann (mit Irrtumswahrscheinlichkeit) auf die Grundgesamtheit übertragen werden.


3



Multivariate Datenanalysen

Logistische Regression


wird verwendet, wenn die abhängige Variable binär ist (z. B. Wahlbeteiligung: ja/nein). Ziel ist es, die Wahrscheinlichkeit vorherzusagen, mit der ein Ereignis eintritt. Diese Wahrscheinlichkeit liegt immer zwischen 0 und 1.

  • Da eine lineare Regression bei binären Variablen unpassende Werte (<0, >1) liefern würde, nutzt die logistische Regression eine S-förmige (logistische) Kurve, die sich asymptotisch 0 und 1 nähert – aber nie überschreitet.

Formen der Regressionsfunktion

Die logistische Funktion ist:

  • S-förmig, liegt immer zwischen 0 und 1

  • Steigung ist nicht überall gleich stark

  • stärkster Effekt im mittleren Bereich der unabhängigen Variable

  • flache Bereiche bei Extremen (z. B. sehr jung oder sehr alt)

Damit ist die Beziehung zwischen X und P(Y = 1) nicht linear, sondern „abflachend“.


Schätzverfahren: Maximum Likelihood

Anders als in der linearen Regression (OLS) werden die Parameter hier durch (ML) geschätzt:

  • ML sucht jene Kombination von Koeffizienten, die die beobachteten Daten am wahrscheinlichsten macht

  • erfolgt iterativ (Schritt-für-Schritt-Anpassung der Parameter)

  • Software berechnet das automatisch


Logit-Koeffizienten (β)

  • geben an, wie sich die logarithmierte Chance (log-odds) verändert, wenn X um eine Einheit steigt

  • Interpretation:

    • β > 0 → Chance steigt

    • β < 0 → Chance sinkt

  • Betrag zeigt Stärke des Effekts (aber weniger intuitiv)

ABER

Odds und Odds Ratios (Exp(B))

Wichtige alternative Interpretation:

Exp(B) = Odds Ratio

  • > 1 → Chance steigt

  • < 1 → Chance sinkt

  • = 1 → keine Veränderung

Beispiel: Exp(B) = 2,1 → Chance (nicht: Wahrscheinlichkeit!) für Y = 1 ist 2,1-mal höher.

Die Ergebnisse bleiben gleich – nur die Darstellungsweise ändert sich.

Warum Odds Ratios?

Logits sind schwer verständlich. Odds Ratios sind intuitiver, aber betreffen Chancen, nicht direkte Prozentwahrscheinlichkeiten.

  • diese werden mit dem Logit berechnet:


Author

Cathérine C.

Informationen

Zuletzt geändert