Einleitung Datenanalyse & Hypothesentestung
Ziele der Datenanalyse
Explorativ: Muster, Trends, erste Zusammenhänge entdecken → deskriptive Statistik, Tabellen, Grafiken
Inferenzstatistisch: Rückschluss von Stichprobe auf Grundgesamtheit → Signifikanztests, Regressionen
Univariate Datenanalyse (1 Variable)
= Beschreibung und Verdichtung großer Datenmengen ohne Hypothesenprüfung. Misst
Häufigkeiten: absolute/ relative
Lagemaße (Zentrum einer Verteilung)
Modus (nominal)
Median (ordinal)
Mittelwert (metrisch)
Streuungsmaße
Varianz
Standardabweichung
Formmaße
Schiefe
Wölbung (Kurtosis)
Konzentrationsmaße
Lorenzkurve
Gini-Koeffizient
Bivariate Analyse (2 Variablen)
= Untersuchung von Zusammenhängen oder Unterschieden beider Variabeln durch
Kreuztabellen (Crosstabls)
Zusammenhangsmaße (je nach Skalenniveau)
Skalenniveau
Maß
Nominal × Nominal
Cramér’s V (0–1)
Ordinal × Ordinal
Spearman’s rho (−1 bis +1)
Metrisch × Metrisch
Pearson’s r (−1 bis +1)
Beispiele:
Geschlecht (nominal) × Wahlentscheidung → Cramér’s V
Politikinteresse (ordinal) × Wahlbeteiligung → Spearman
Bildung (pseudometrisch) × Einkommen → Pearson
Was bivariate Analysen NICHT können:
keine Kausalität
keine Kontrolle für Drittvariablen
keine Mechanismen erklären
keine Richtung bei nominalen uV
keine Aussagen über individuelle Fälle
Sie zeigen nur:
ob es Unterschiede gibt
wie groß diese Unterschiede sind
Multivariate Analyse (> 3 Variablen)
= Misst Einfluss mehrerer unabhängiger Variablen auf eine abhängige Variable, durch
Lineare Regression → metrische AV
Logistische Regression → dichotome AV
Multinomiale logistische Regression → nominale AV (>2 Ausprägungen)
Ordinale Logitmodelle → ordinale AV
Inferenzstatistik & Hypothesentestung
Grundidee: Sozialwissenschaften arbeiten meist mit Zufallsstichproben. Inferenzstatistik prüft, ob Ergebnisse zufällig oder verallgemeinerbar auf die Grundgesamtheit sind.
Ablauf
Nullhypothese (H₀): kein Zusammenhang
Alternativhypothese (H₁): Zusammenhang
Auswahl eines statistischen Maßes (z. B. r, V, rho)
Signifikanztest anhand des p-Wert anwenden
p < 0,05 → statistisch signifikant
Interpretation
Wichtig: Signifikanz ≠ Effektstärke ≠ inhaltliche Wichtigkeit
Große Stichproben → kleine Effekte können signifikant sein
Univariate Datenanalyse
Bei der univariaten Datenanalyse werden die Häufigkeitsverteilungen und zentrale Kenngrößen (d.h. Lage, Streuung und Form) einzelner Merkmale (d.h. Variablen) untersucht
→ Keine Hypothesenprüfung, sondern Deskription.
Häufigkeitstabelle
Zeigt, wie oft einzelne Merkmalsausprägungen auftreten.
Absolute Häufigkeit: fj = Anzahl der Fälle je Kategorie
Relative Häufigkeit: pj = fj / n
Relative Häufigkeit in % = pj * 100
Kumulierte rel. Häufigkeit = Aufsummierte Prozentwerte bis 100% (einer Kategorie)
Wichtig: Fehlende Werte (NA) werden nicht mitgezählt
Lagemaße
= Zentrum einer Verteilung. erste Berechnung aufgrund der Häufigkeitstabelle, basierend auf dem Skalenniveau der zu prüfenden Variable
Modus
Median
Mittelwert
Nominal
✅
❌
Ordinal
Metrisch
Modus:
in Verteilung am häufigsten vorkommende Wert
Für alle Skalenniveaus
Geringer Informationsgehalt
mittlere Wert einer (geordneten) Verteilung
50% Marke einer Tabelle
Robuster ggü Ausreißern als Mittelwert
Mindestens ordinal
= kann bei ordinal- und metrischskalierten Variablen berechnet werden.
Arithmetisches Mittel (Mittelwert)
Durchschnittswert einer Verteilung
Ausreißeranfällig
Mindestens intervallskaliert
= beschreiben die Variation einer Verteilung, bzw wie stark gemessene Werte einer Variable um ihren Mittelwert oder ein anderes Zentrum streuen. Typische Maße sind
Spannweite (Differenz zwischen Maximum und Minimum)
Varianz: Durchschnittliche quadrierte Abweichung vom Mittelwert
Standardabweichung: Wurzel der Varianz
Quartilsabstand (Abstand zwischen dem 25%- und 75%-Perzentil)
= wie stark die Werte einer Verteilung um ihr arithmetisches Mittel streuen
Empirische Varianz (Vollerhebung):
s2 = ∑ (xi − xˉ)² / n
Korrigierte Varianz (Stichprobe):
s*²= ∑ (xi − xˉ)² / n-1
Berechnung:
Arithmetisches Mittel eines Datensatzes berechnen. (xˉ)
Abweichungen der Werte vom Mittelwert bilden, durch Subtraktion: jeden einzelnen Wert MINUS Mittelwert: (xi − xˉ)
Abweichungen quadrieren: (xi−xˉ)², damit sich positive und negative Abweichungen nicht gegenseitig aufheben.
Addiere alle quadrierten Abweichungen.
Durch die Anzahl der Werte (n) (= empirisch) oder (n−1) (= korrigiert) teilen.
Beispiel:
n = 11
Gesamtzahl der Lebenszufriedenheit: 77
Schritt 1: Arithmetisches Mittel = 77 / 11
Schritt 2: einzelne Antworten - 7
Schritt 2: Ergebnisse ²
Schritt 3: Adduktion dieser Ergebnisse = 90
dh. Summe der quadrierten Abweichungen
Empirische Varianz: s² = 90/ 11 ≈ 8,18
Korrigierte Varianz: s*² = 90/ (11-1) = 9
Interpretation:
Hohe Varianz = große Unterschiede zwischen den einzelnen Antworten
Geringe Varianz: Antworten sind relativ homogen
Varianz = 0 → alle Werte sind gleich (keine Streuung).
maximale theoretische Varianz hängt von der Spannweite ab.
Skala von 0 bis 11 beträgt die Spannweite 11
Die größte mögliche Varianz tritt auf, wenn die Werte extrem verteilt sind (z. B. Hälfte bei 0, Hälfte bei 11).
(0 - 0,5)² + (11 - 0,5)² / 2 = 30,25
30,25 als theoretisches Maximum.
Varianz von 9 = 30% = relativ hohe Varianz
= Wurzel der Varianz. Dadurch hat sie die gleiche Einheit wie die ursprünglichen Werte. Da die quaddrierten Werte nicht direkt Vergleichbar mit den originalwerten (Lebenszufriedenheit 0 - 11) sind
Empirische Standardabweichung: Wurzel aus s²
Korrigierte Standardabweichung: Wurzel aus s*²
Am Beispiel der Lebenszufriedenheit:
Empirische Standardabw.: s = Wurzel aus 8,18 ≈ 2,86
Korrigierte Standardabw.: s* = Wurzel aus3,22 ≈ 1,79
Interpretation: identisch wie Varianz
Kleine Werte → geringe Streuung
Große Werte → hohe Streuung
s(*) = 0 Standardabweichung =0 → keine Streuung
Standardabweichung kann niemals größer sein als etwa die halbe Spannweite.
Emp. St.: 2,86 gerundet 3
korri. St.: 1,79 gerundet 2
= 2 oder 3 / 11 Standardabweichung
= relativ bis hohe Standardabweichung
Z-Transformation: Standardisierung von Variablen bei Univariaten Datenanalysen
In der Forschung liegen Variablen oft in unterschiedlichen Skalierungen oder Verteilungen vor (z. B. 0–10 vs. 1–7 Skala). Dadurch lassen sich Messwerte nicht direkt vergleichen.Die Lösung: z-Transformation (Standardisierung).
Beispiel: Lisa (45 Pkte) und Bart (60 Pkte) schrieben unterschiedliche Tests → andere Mittelwerte, andere Standardabweichungen → direkte Vergleichbarkeit nicht möglich.
Standardisierung bringt Werte auf eine gemeinsame Skala:
Schritt 1: Zentrierung (Mittelwerte auf 0 bringen) = Angegebener Wert jeder Person minus arithmetische Mittel
Beispiel Lisa: 45-25
Beispiel Bart: 60-50
Schritt 2: Normierung (Skaliert so um, dass die neue Standardabweichung 1 beträgt = Streckung/Stauchung der Verteilung.) = Ergebnis durch Division durch die Standardabweichung:
Beispiel Lisa: 45 - 25 / 10 = 2
Beispiel Bart: 60 - 50 / 25 = 0,4
Schritt 3: Interpretation
Positiver z-Wert: Leistung über dem Durchschnitt
Negativer z-Wert: Leistung unter dem Durchschnitt
Betrag des z-Werts:
Klein → nahe am Mittelwert (typisch)
Groß → ungewöhnlich (potenzieller Ausreißer)
Beispiel
Lisas Leistung: 2 Standardabweichungen über dem Durchschnitt → außergewöhnlich hoch.
Barts Leistung: 0,4 Standardabweichungen über dem Durchschnitt → leicht überdurchschnittlich.
Quartilsabstand (Interquartilsabstand IQR)
= zeigt, wie breit die „mittleren 50 %“ deiner Daten verteilt sind
robust gegenüber Ausreißern ist (extrem hohe oder niedrige Werte beeinflussen ihn kaum)
zeigt typische Streuung, nicht die extreme
gut geeignet für ordinale Skalen
Vorbereitung
Boxplot erstellen und Quartile ablesen
Q1 (25%-Quartil) → linke Kante der Box
Median (50%-Quartil) → Linie in der Box
Q3 (75%-Quartil) → rechte Kante der Box
Quartile durch Sortieren berechnen
Schritt 1: Alle Daten nach Größe Sortieren
Schritt 2: Position der Quartile bestimmen
Q1 = 0,25 * (n +1)
Q2 = 0,5 * (n +1)
Q3 = 0,75 * (n +1)
Formel: IQR = Q3 - Q1
Q_1 = 1. Quartil = Wert, unter dem 25 % der Daten liegen
Q_3 = 3. Quartil = Wert, unter dem 75 % der Daten liegen
Beispiel Lebenszufriedenheit 0 - 11
Q_1=4
Q_3=8
IQR = 8 - 4 = 4
Die mittleren 50 % der Befragten liegen innerhalb eines Bereichs von 4 Punkten.
bei einer 0–11‑Skala = moderate Streuung.
= Messung der Ungleichverteilung eines metrischen, nicht-negativen Merkmals (und auch NUR für diese) - z.B.:
Einkommen
Vermögen
Marktanteile
Unternehmensgröße
= graphische Darstellung der relativen Konzentration. Je mehr die Kurve „durchhängt“, desto ungleicher:
Erfasste Daten:
Schritt 1: Arbeitstabelle anlegen mit aufsteigenden Daten
Schritt 2: Tabelle auf anlegen
Spalte 0: Anzahl der Personen
Spalte 1: Relative kumulierte Häufigkeit der Personen: uj = j / n
Spalte 2: Antworten der Personen: xi
Spalte 3: Kumulierte Häufigkeiten der Antworten: ∑xi = xi aufsummieren
Spalte 3: Relat. Kum. Häufigkeiten der Antworten: qj = ∑xi / größte kum. Häufigkeit
muss mit 1 Enden
Beispiel: Arbeitstabelle für Loranzkurve
Schritt 3: Kurve anlegen:
Uj = x-Kurve
qj = y-Kurve
Punkte verbinden mit 0→ Lorenzkurve.
Vergleichsdiagonale (45°-Linie) zeigt Gleichverteilung.
Schritt 4: Interpretation
Je stärker unterhalb der Diagonalen → ungleicher
= Maß für die Stärke relativer Ungleichheit, basiert auf Lorenzkurve, weil
Gibt den Anteil der Fläche zwischen Lorenzkurve und Diagonale an der Fläche unter der Diagonale an.
0 = perfekte Gleichheit
1 = maximale Ungleichheit
Schritt 1: Werte aufsteigend sortieren (wie bei Lorenz)
Schritt 2: Grundgrößen bestimmen
n = (z.B 3 Personen)
Summe der Antworten = (z.B Gesamteinkommen)
Schritt 3: Gewichtungsfaktor berechnen 2*i - n - 1
i
Rechnung
Ergebnis
1
2*1 − 3 − 1
−2
2
2*2 − 3 − 1
0
3
2*3 − 3 − 1
Gewichte erfassen, wie weit eine Person vom „Gleichverteilungspunkt“ entfernt ist.
Schritt 4: Produkt errechnen = Ergebnis Gewicht * ursprüngliche Antwort (xi)
z.B Gewicht * Einkommen
(x_i) (Einkommen)
Gewicht
Produkt
10
−20
20
30
60
Summe
-
Schritt 5: Produkte aufsummieren (z.B. -20+0+60 = 40)
Schritt 6: n * Summe xi (z.B. 3 * 60 = 180)
Schritt 7: Gini berechnen G = Produktsumme / Schritt 6
z.B: 40 / 180 = 0,22
Schritt 8: Interpretation (Werte zwischen 0 bis 1
heißt: 0,22 → relativ geringe Ungleichheit
Herfindahl-index
Maß absoluter Konzentration
Nicht klausurrelevant
Formmaße (Verteilungsform)
= zeigt wie die Verteilung aussieht, um zu verstehen, ob die Daten symmetrisch, schief, flach oder spitz verteilt sind.
Schiefe (Skewness)
= Maß für die horizontale Abweichung einer Verteilung von der Normalverteilung. Sie misst, ob die Verteilung symmetrisch ist oder ob sie eine Schieflage hat. (= horizontale Asymmetrie)
negative Schiefe: die meisten Werte rechts
Linkschiefe
Medien liegt rechts vom Mittelwert
Fechnersche Lageregel
Mittelwert < Median < Modus.
Skew < 0
Symmetrie: zentrierte Werte (z.B Normalverteilung)
Modus = Median = Mittelwert
Skew = 0
positive Schiefe: die meisten Werte links
Rechtsschiefe
Median liegt links vom Mittelwert
Modus < Median < Mittelwert
Wölbung / Kurtosis
= Maß der vertikalen Abweichung von der Normalverteilung. Misst, ob die Verteilung spitz oder flach ist = Konzentration der Werte um das Zentrum
Positive Kurtosis > 0 → leptokurtisch (hochgipflig)
sehr spitz, viele Werte nahe am Mittelwert
grün
Kurtosis = 0 → Normalverteilung
symmetrische, glockenförmige Verteilung, die in der Statistik als Referenzverteilung dient.
Faustregel:
ca. 68 % der Werte liegen innerhalb von ±1 Standardabweichung
ca. 95 % innerhalb von ±2 Standardabweichungen
ca. 99,7 % innerhalb von ±3 Standardabweichungen
Interpretation: Viele Merkmale sind annähernd normalverteilt (z. B. Körpergröße, Messfehler)
rot
Negative Kurtosis < 0 → platykurtisch (flachgipflig)
flach, Werte breiter verteilt
blau
Wichtig für Verfahren mit Normalverteilungsannahme (z. B. t-Test)
Graphische Darstellung
Zur Visualisierung der Häufigkeitsstruktur und Verteilungsform univariater Daten werden verschiedene Diagrammtypen verwendet.
Säulen- und Balkendiagramm (Standarddarstellung in Sozialwissenschaften)
Voraussetzungen
Nominale oder ordinale Variablen
Wenige Kategorien
Darstellung:
Säulen: vertikal
Balken: horizontal
Höhe/Länge = Häufigkeiten der Ausprägungen einer Variable.
Kategorien gleich breit
Einsatz: Vergleiche zwischen Kategorien
Histogramm
Voraussetzungen:
Metrische Variablen
Viele Ausprägungen / gruppierte Daten
Klassen (Intervalle), Balken ohne Abstand
≤ 100 Fälle → ca. 10 Klassen
~1.000 Fälle → ca. 13 Klassen
~10.000 Fälle → ca. 16 Klassen 📌 Möglichst gleich breite Klassen
Fläche ∝ Häufigkeit
= Bei einem Histogramm geben die Flächen der Rechtecke Auskunft über die Häufigkeiten der Ausprägungen einer Variable.
Einsatz:
Symmetrie
Verteilungsform
Boxplot (Box and Whisyker Plot)
Voraussetzung: metrische Variablen
Bestandteile:
Box: mittlere 50 % (Q1–Q3)
Median (Q2): Lage
IQR: Q3 − Q1 (Streuung)
Whiskers: bis max. 1,5 × IQR
Ausreißer: außerhalb der Whiskers
Einsatz (-> Interpretation):
Lage → Median
Streuung → Boxlänge
Symmetrie → Medianlage in der Box
Ausreißer → Punkte
Vorteile:
Sehr kompakte Verteilungsdarstellung
Ideal für Gruppenvergleiche
Ausreißer sofort sichtbar
Kreisdiagramm: nicht geeignet
Nominalskalierte Variablen
Wenige Ausprägungen
Darstellung
Kreissegmente proportional zu relativen Häufigkeiten
= Auskunft über die Häufigkeiten der Ausprägungen einer Variable.
Kritik
Schlechte Vergleichbarkeit (Flächen/Winkel)
Täuschungsgefahr, besonders bei 3D
In Fachzeitschriften nicht empfohlen 📌 „In keinem vernünftigen Journal …“ (Plümper)
Bivariate Datenanalyse
untersucht den Zusammenhang oder Unterschied zwischen genau zwei Variablen. Mit den Zielen:
Zusammenhangsmaße (auch Assoziationsmaß, Korrelationsmaß) beschreibt wie stark und in welcher Richtung zwei Variablen miteinander zusammenhängen.
Leitfrage: „Verändern sich zwei Variablen gemeinsam – und wenn ja, wie?“
Prüfung von Zusammenhangshypothesen
Keine Kausalitätsaussagen!
Auswahl des Zusammenhangsmaßes nach Skalenniveau
👉 Immer das Maß wählen, das zum niedrigeren Skalenniveau passt
Skalenniveau X × Y
nominal × nominal
Cramér’s V / Phi / (Chi²-Test)
ordinal × ordinal
Spearman’s ρ / Kendall’s τ
metrisch × metrisch
Pearson’s r / Kovarianz
nominal × metrisch
Eta-Quadrat (η²)
Kreuztabellen (Kontingenztafel)
= Matrix, die 2 Variablen gleichzeitig darstellt, indem sie ihre Ausprägung kreuzt. 👉 Sie zeigt also wie viele Personen in jeder Kombination der beiden Variablen vorkommen, indem in ihren Zellen die beobachteten Häufigkeiten der kombinierten Ausprägungen von zwei Variablen abgetragen werden.
In der empirischen Sozialforschung gilt
uV in den Spalten
aV und Spaltenprozentein den Zeilen .
Spalte uV: Geschlecht (m/w/divers)
Zeile aV: Wahlbeteiligung (ja/nein)
Kreuztabelle = wie viele Frauen gewählt haben, wie viele Männer nicht gewählt haben usw.
Ziele:
Zusammenhänge sichtbar machen
Gruppen vergleichen
Grundlage für Zusammehangsmaße
Muster und Ungleichheiten erkennen
Wer ist häufiger arbeitslos?
Welche Altersgruppen sind politisch aktiver?
Welche Bildungsgruppen haben welche Einstellungen?
Aufbau:
Zeilen: abhängige Variable
Spalten: unabhängige Variable
Zellen: beobachtete Häufigkeiten (fb)
Randhäufigkeiten: Zeilen- & Spaltensummen
Befehl in R/STUDIO: prop.table(table(X, Y), margin = 2)
prop.table(table(X, Y), margin = 2)
Arten:
Absolute Häufigkeiten
Zeigen die reinen Zahlen in jeder Zelle
Gut für Überblick
Nicht gut für Vergleiche, wenn Gruppen unterschiedlich groß sind, Vergleiche werden verzerrt
genau verkehrt aV uV
gewählt
nicht gewählt
Gesamt
Männer
40
100
Frauen
70
110
90
200
Relative Häufigkeiten
Zeilenprozente (Row percentages)
Jede Zeile summiert sich zu 100 %
= jede Zelle / Zeilensumme
Gut, wenn du innerhalb einer Gruppe vergleichen willst (z. B. „Wie viele Männer haben gewählt?“)
40 %
60 %
100 %
70 %
30 %
👉 Interpretation: Frauen wählen deutlich häufiger als Männer
Spaltenprozente
Jede Spalte summiert sich zu 100 %
Jede Zelle / Spaltensumme
Gut, wenn du zwischen Gruppen vergleichen willst (z. B. „Wie verteilt sich die Wahlbeteiligung auf Männer und Frauen?“)
36,4 %
66,7 %
63,6 %
33,3 %
👉 Interpretation: Unter den Wählern sind fast zwei Drittel Frauen.
Gesamtprozente
Alle Zellen beziehen sich auf die Gesamtstichprobe
Jede Zelle / Gesamtstichprobe
Gut für Überblick, aber weniger für Vergleiche
20%
30%
50%
35%
15 %
50 %
55 %
45 %
👉 Interpretation:
20 % der Gesamtstichprobe sind Männer, die gewählt haben.
35 % sind Frauen, die gewählt haben.
Insgesamt haben 55 % gewählt.
Erwartungstabelle: Erwartete Häufigkeiten
Zeigen, wie die Tabelle aussehen würde, wenn kein Zusammenhang bestünde (H0)
Vergleich von beobachteten vs. erwarteten Werten zeigt Stärke des Zusammenhangs
Werden für den Chi²-Test benötigt
Formel: E = Zeilensumme * Spaltensumme / n
Beispiel: Männer × gewählt (E = 100 * 110 / 200)
= 55
55
45
Wenn es keinen Zusammenhang gäbe, müssten Männer und Frauen gleich häufig wählen.
Tatsächlich weichen die beobachteten Werte stark davon ab → Hinweis auf Zusammenhang.
Prozentsatzdifferenz (Faustregel)
Nur sinnvoll bei mind. 15 Fällen pro Zelle
= zeilenweise Differenz zwischen zwei Spaltenprozenten im Rahmen einer konventionellen (bivariaten) Kreuztabelle
Differenz
Bedeutung
< 5 pp
kein Zusammenhang
5–<10 pp
schwach
10–<25 pp
mittel
≥ 25 pp
stark
Reminder: Prozente vs. Prozentpunkte (prüfungsrelevant!)
Prozent (%) = relatives Verhältnis
Prozentpunkte (pp) = absoluter Unterschied zwischen zwei Prozentwerten
Innerhalb der Gruppe der Frauen ist der Anteil der Wählenden höher als innerhalb der Gruppe der Männer.
➡️ Differenz = 11 Prozentpunkte, ❌ nicht „11 % mehr“
Nominal und Nominale Variable:
Chi² Test (Variablen: nominal x nominal)
= Prüfung, ob zwischen zwei kategorialen Variablen ein statistisch signifikanter Zusammenhang besteht
Er baut auf Kreuztabellen auf und vergleicht beobachtete mit erwarteten Häufigkeiten.
Entscheidung, ob ein beobachteter Zusammenhang zufällig oder auf die Grundgesamtheit übertragbar ist
Test der Nullhypothese (H₀)
⚠️ Keine Kausalitätsaussagen!
Grundidee: Vergleich zwischen
Beobachtete Häufigkeiten (O) → tatsächliche Zellwerte der Kreuztabelle
Erwartete Häufigkeiten (E) → Häufigkeiten, die zu erwarten wären, wenn H₀ gilt
Je stärker O und E voneinander abweichen, desto größer der Chi²-Wert.
Grundformel: Chi² = Summe aus (0 - E)² / E
Schritt 1: Hypothesen Formulieren
Beispiel H0: Geschlecht und Wahlbeteiligung sind unabhängig (kein Zusammenhang)
Beispiel H1: Geschlecht und Wahlbeteiligung sind abhängig (es gibt einen Zusammenhang).
Schritt 2: Erwartete Häufigkeiten berechnen für jede Zelle (Erwartungstabelle)
Schritt 3: Chi² für jede Zelle berechnen
Beispiel Zelle Männer, gewählt: (40 - 55)² / 55
= gerundet 4,09
Schritt 4: alle Chi² Werte aufsummieren:
Schritt 5: Interpretation
Chi² = 0: Beobachtete Häufigkeiten = erwartete Häufigkeite
→ perfekte Unabhängigkeit in der Stichprobe.
Je größer Chi ², desto stärker weichen die beobachteten von den erwarteten Häufigkeiten ab.
Chi + Freiheitsgerade = p-Wert (<0,05 signifikant)
Problem: Chi² hängt direkt von der Stichprobengröße ab
Deshalb: Chi² ist gut, um Signifikanz zu prüfen, aber schlecht, um Stärke von Zusammenhängen zu vergleichen (z.B. verschiedene Tabellen, verschiedene Studien).
Phi-Koeffizient (φ)
= Bestimmung der Stärke eines Zusammenhangs zwischen zwei dichotomen nominalen Variablen.
👉 Er baut direkt auf dem Chi²-Test auf und wird nur bei 2×2-Kreuztabellen verwendet.
Formel: Wurzel aus Chi² / n
Beispiel: Wurzel aus 18,18 / 200
= 0,3 Phi-Koeffizient
Interpretation: Wertebereich 0 bis 1
φ-Wert
< 0,1
sehr schwach
0,1–<0,3
0,3–<0,5
≥ 0,5
👉 schwacher bis mittelstarker Zusammenhang
R/ STUDIO:
chisq.test(table(X, Y))$statistic
phi <- sqrt(chisq / n)
Alternativ: Paket psych:
library(psych)
phi(table(X, Y))
Cramers V
Zusammenhangsmaß für nominalskalierte Variablen, das die Stärke des Zusammenhangs zwischen zwei Variablen in einer Kreuztabelle angibt auf Basis des Chi²-Tests.
Quantifiziert die Stärke eines Zusammenhangs
Ergänzt den Chi²-Test, der nur sagt ob ein Zusammenhang besteht
Ermöglicht den Vergleich von Zusammenhängen zwischen verschiedenen Tabellen
❗ Keine Aussage über Richtung oder Kausalität
Formel: V = Wurzel aus Chi² / n * (k = kleinere Anzahl von Zeilen oder Spalten - 1)
Beispiel: Wurzel aus 18,18 / 200 * (2-1)
Interpretation: Werte 0 bis 1 (perfekter Zusammenhang)
Cramér’s V
< 0,10
kein / sehr schwacher Zusammenhang
0,10 – < 0,30
schwacher Zusammenhang
0,30 – < 0,50
mittlerer Zusammenhang
≥ 0,50
starker Zusammenhang
👉 mittlerer Zusammenhang zwischen Geschlecht und Wahlbeteiligung (❗ Keine Aussage über Kausalität!)
Ordinale x Ordinale Variablen
Spearmans Rho
= Rang*korrelationskoeffizient für mindestens ordinalskalierte Variablen. Er misst die Richtung und Stärke eines monotonen Zusammenhangs zwischen zwei Variablen.
Monoton = beide Variablen steigen gemeinsam oder eine steigt, während die andere fällt.
Rang* = es arbeitet nicht mit Originalwerten, sondern mit deren Rangplätzen, heißt:
Der kleinste Wert bekommt Rang 1
Der zweitkleinste Rang 2
usw.
Das machst du für beide Variablen getrennt.
Voraussetzung:
Zwei ordinale Variablen
z. B. Internetnutzung h/Tag× Bücher lesen h/Tag
Person
Internetnutzung
Bücher lesen
A
4
B
5
C
D
E
Zwei metrische Variablen, die nicht normalverteilt sind oder Ausreißer haben
Robust gegenüber Bindungen (Ties)
Rechenweg
Schritt 1: Rangzuweisung Variable x (Kleinster x-Wert Rang 1)
A: 4 = 4. Rang
B: 1 = 1. Rang
C: 3 = 3. Rang
D: 5 = 5. Rang
E: 2 = 2. Rang
heißt: 2 h Internet pro Tag = 2. Rang
Schritt 2: Rangzuweisung y Variable
A: 2 = 2. Rang
B: 5 = 5. Rang
D: 1 = 1. Rang
E: 4 = 4. Rang
heißt: 2h Bücher lesen / Tag = 2. Rang
Schritt 3: In Ursprungstabelle zusammenfassen und Rangdifferenzen berechnen
d² = (Rang x - Rang y)²
y-Rang
d²
16
Quadrate aufsummieren
Schritt 4: Spearmans Rho Formel anwenden:
p = 1 - ((6 * Summ d²) / n (n² -1))
Beispiel: 1 - (6 *40) / 5 mal (5² - 1)
=1 - (240 / 5 * 24) = 1- (240 / 120)
= 1 - 2
= - 1 Spearman Rho
Schritt 5: Interpretation:
- 1 = perfekter negativer Zusammenhang
0 = kein Zusammenhang
+ 1 = perfekter positiver Zusammenhang
ρ
≤ 0,05
0,05–0,20
0,20–0,50
0,50–0,70
>0,70
sehr stark
Kendalls Tau
Während Spearmans Rho mit Rängen arbeitet, arbeitet Kendalls Tau mit Paarvergleichen.
Kendall schaut sich jede mögliche Kombination von zwei Personen an und prüft:
Haben beide Personen in beiden Variablen dieselbe Rangordnung? → konkordant
Beispiel: Person A (höher ) als B
A: Internet 5, Bücher 4
B: Internet 3, Bücher 2
Haben sie entgegengesetzte Rangordnungen? → diskonkordant
Beispiel: Person A und B
A: Internet 5, Bücher 1
B: Internet 3, Bücher 4
Haben sie bei einer Variablen denselben Wert, aber bei der anderen nicht? → verbunden (tie)
A: Internet 4, Bücher 2
B: Internet 4, Bücher 5
Anzahl konkordanter Paare = C
Anzahl diskonkordanter Paare = D
Anzahl verbundener Paare = T (je nach Variante Tau‑a, Tau‑b, Tau‑c)
T = c - D / Anzahl aller Paare
Beispiel: 2 - 8 / 10 = - 0,6
+1 → alle Paare konkordant (perfekt positiver Zusammenhang)
0 → gleich viele konkordante und diskonkordante Paare (kein Zusammenhang)
−1 → alle Paare diskonkordant (perfekt negativer Zusammenhang)
Metrische x Metrische Variablen
Kovarianz
= misst die gemeinsame Streuung von zwei metrischen Variablen. Achtung: sie gibt nur die Richtung, aber nicht standardisiert die Stärke des Zusammenhangs an.
Verwendung:
Erste Orientierung, bevor man den Korrelationskoeffizienten (Pearson r) berechnet
Basis für Regressionsanalyse
Arbeitstabelle der Kovarianz erschaffen
Mittelwerte jeder Zelle berechnen
Abweichung der Zelle zum Mittelwert eintragen
x abweichung - y abweichung und summieren
Beispiel: IQ Testung Basis-Tabelle
Beispiel: Arbeitstabelle mit Abweichung zum Mittelwert X~
Formel: COV xy = Summe aus Abweichung x zum Mittelwert x * Abweichung y zum Mittelwert y / n
= 64,23 Kovarianz
Interpretation: nur Vorzeichen relevant!
Positiv → beide Variablen steigen gemeinsam
Negativ → eine steigt, die andere fällt
Null → keine lineare Beziehung erkennbar
Wichtig: Wert selbst ist nicht standardisiert, daher schwer zu vergleichen zwischen Variablen mit unterschiedlichen Einheiten. Für vergleichbare Stärke → Pearson’s r berechnen (standardisierte Kovarianz)
Pearson R (Korrelationskoeffizient nach Bravais-Pearson)
misst, wie stark zwei metrische Variablen gemeinsam variieren. Zur Berechnung gibt es 2 Wege:
über die Kovarianz:
Formel: r = Kovarianz / Standardabweichung X * Standardabweichung y
Standabw.: Reminder
Summe aller quadrierten Abweichungen.
Wurzel des Ergebnis ziehen
Über die allgemeine Formel, die die Kovarianzformel mit der Berechnung der Standardformeln zusammen ist
r = Mittelwert aus xy - (Mittelwert x * Mittelwerty) /
Wurzel aus (Mittelwert x² * Mittelwert x)² MAL Wurzel aus (Mittelwert y² MAL Mittelwert y)²
was wird gemessen:
Richtung eines Zusammenhangs
Positiv = beide steigen gemeinsam an
negativ = einer steigt, der andere fällt
Stärke des Zusammenhangs
r = 1 -> perfekte Linie
r = 0 → kein linearer Zusammenhang
< 0,05 = kein Zusammenhang
bis 0,2 = schwacher Zusammenhang
bis 0,5 = mittelstarker Zusammenhang
bis 0,7 = starker Zusammenhang
bis 1 = sehr starker Zusammenhang
Linearität
Beispielaufgabe:
In der Tabelle finden Sie für 10 fiktive Personen Angaben zum Interesse an Politik und zum Vertrauen in den Bundestag. Beide Variablen sind auf einer pseudometrischen Skala von 0 bis 10 erhoben (höhere Werte deuten auf ein größeres Interesse bzw größeres Vertrauen hin). Berechnen Sie den Korrelationskoeffizienten nach Pearson mit 2 Nachkommastellen. Was bedeutet das Ergebnis?
Schritt 1: Arbeitstabelle anfertigen mit folgenden Zusätzen:
Spalte: x * y
Spalte: x²
Spalte y²
Zeile: Summe
Zeile: Mittelwert
r = 28,7 - (4,6 * 6,2) / Wurzel aus 24 - 4,6² MAL Wurzel aus 41,4 - 6,2²
= 0,18 / Wurzel aus 2,84 MAL Wurzel aus 2,96
= 0,18 / 2,90
= + 0,06 Pearsons R
Interpretation: Je stärker das politische Interesse, desto größer das Vertrauen in den Bundestag mit einem schwach positiven Zusammenhang.
Metrische und nominale Variable
Effektstärkemaß, das zeigt, wie viel Prozent der Varianz der abhängigen Variable durch die Gruppenzugehörigkeit erklärt wird.
Grundidee: PRE = Proportional Reduction of Error
Es geht um zwei Vorhersagen:
Ohne Gruppenwissen: Gruppenzugehörigkeit ist unbekannt
Gesamtmittelwert → Fehler = E1 (= Quadratsumme Gesamt)
Mit Gruppenwissen: Gruppenzugeh. ist bekannt
Beste Vorhersage: Gruppenmittelwerte → Fehler = E2 (= Quadratsumme innerhalb)
PRE = E1 - E2 / E1
nominalskalierte uV
mind. intervallskalierte aV
Formel Eta² = Quadratumme Gessamt - QS innerhalb / QS gesamt
Berechnung mit Beispiel:
uV = Migrationshintergrund (nominal: ja/nein)
aV = politisches Wissen (metrisch):
Ergebnisse Politiktest mit bis zu 16 Punkten
Schritt 1: Arbeitstabelle anlegen
Summe & Mittelwert y berechnen
y - Mittelwert y in jeder Zeile berechnen
Ergebnisse quadrieren und summieren
Schritt 2: Gruppentabellen ziehen und jeweilige
Summen & Mittelwerte y berechnen
Gruppe 1 (E2)
Gruppe 2 (E2.1)
Schritt 3: PRE Formel anwenden:
η² = E1 (Gesamtsumme) - E2 (Gruppensummen) / E1
η² = 204,5 - (50,8 + 44,8) / 204,5
= 108,9 / 204,5
η² = 0,53
Interpretation: Wertebereich: 0 bis 1 stellv. für 100%
0 → kein Zusammenhang
1 → perfekter Zusammenhang
heißt: 0,53 η² - > „53 % der Varianz werden durch die Gruppenzugehörigkeit erklärt“
die restlichen 47 % kommen von individuellen Unterschieden, Zufall, Messfehlern usw.
Faustregel zur Interpretation
< 0,01 = kein Effekt
bis 0,06 = kleiner Effekt
bis 0,14 = mittlerer Effekt
bis 1 = großer Effekt
heißt: es gibt einen sehr großen Effekt der Gruppenzugehörigkeit
Multivariate Datenanalyse
untersucht den gleichzeitigen Einfluss mehrerer unabhängiger Variablen auf eine abhängige Variable.
Zentrales Analyseverfahren dabei ist die:
Regressionsanalyse
mit der theoretisch begründete Zusammenhangs- und Erklärungshypothesen geprüft werden.
Erklärung: Welchen Einfluss haben mehrere uVs auf die aV?
Prognose: Welchen Wert nimmt die aV bei gegebenen uV an?
Synonyme Begriffe:
aV: y, Regressand, endogen, erklärte Variable, Konstante
uV: x, Regressor, exogen, Prädiktor, erklärende Variable
Regressionsmodelle (nach Skalenniveau der aV)
aV metrisch → lineare Regression
aV dichotom → logistische Regression
aV nominal (>2) → multinominale logistische Regression
aV ordinal → ordinale Regressio
Lineare Regression
= regressionsanalytisches Verfahren, das Stärke und Richtung eines linearen Zusammenhangs zwischen mindestens einer uV und einer (pseudo-)metrischen aV misst.
Bivariate Lineare Regession: 1 uV
Multiple Lineare Regession: > 2 uVs
Bivariate Lineare Regression:
Voraussetzungen (Blue Annahme, Gauss-Markov)
Zufallsstichprobe, damit Regressionsparameter auf eine Grundgesamtheit übertragbar sind
Linearität zwischen uVs und aV (z.B Streudiagramm)
keine Multikollinearität (r > 0,9)
Welche Variable erklärt Y wirklich?
Oder erklären beide dasselbe?
Unkorrelierte Residuen (zufällig um 0 schwanken)
dürfen nicht miteinander und nicht mit Y korrelieren → sonst sind die Parameter verzerrt.
Homoskedastizität
Residuen sollen eine konstante Varianz über alle X-Werte hinweg haben.
Korrekte Modellspezifikation
Alle theoretisch relevanten Variablen müssen im Modell enthalten sein.
Ausgangspunkt:
eine abhängige Variable (y) → Lebenszufriedenheit (Skala 0–10)
eine unabhängige Variable (x) → Nettoeinkommen in Euro
Ziel:
Untersuchen, ob (Streudiagramm, OLS Verfahren)
und wie stark (R²)
Einkommen die Lebenszufriedenheit beeinflusst.
Schritt 1: Formulierung einer Hypothese
H1: Je höher das Einkommen, desto höher die Lebenszufriedenheit.
H0: Das Einkommen beeinflusst die Lebenszufriedenheit nicht
Schritt 2: Grafische Prüfung des linearen Zusammenhangs
Streudiagramm
x-Achse: Einkommen (uV)
y-Achse: Lebenszufriedenheit (aV)
jede Person = ein Punkt (reale Messung)
Schritt 3: Modellannahme (Regressionsgleichung)
Es wird angenommen, dass sich der Zusammenhang durch eine Gerade beschreiben lässt: y = a + ß * x
a (Konstante): theoretischer y-Wert bei x = 0
β (Steigung): Änderung von y bei +1 Einheit x
⚠️ Diese Funktion ist noch nicht bekannt, sondern nur die Form des Modells.
In der Realität liegen die Punkte nicht exakt auf einer Geraden, da:
relevante Variablen fehlen
Mess- und Zufallsfehler existieren
Deshalb wird nicht y berechnet, sondern y geschätzt:
Regressionsformel: ŷ = a + ß * x
ŷ: vom Modell vorhergesagter (geschätzter) Wert
y: beobachteter Wert aus den Daten
x = uV
Das angenommene Modell erklärt y demnach nicht vollständig, sondern nur teilweise, aufgrund der:
Residuen (E) = vertikaler Abstand zwischen beobachtetem Punkt und Regressionsgerade
E = y - ŷ
Regressionsmodell mit Fehlerterm: y = a + ß * x + e
Schritt 4: Ordinary Least Squares (OLS)
auch: Kleinste Qudrat Schätzung (KQ-Schätzung)
= Verfahren zur Bestimmung der Regressionsgeraden bei der linearen Regression, bei dem eine potentielle Regressionsgerade so in die Daten gelegt wird, dass die jeweiligen quadrierten Abweichungen der empirischen Werte von den geschätzten Werten möglichst gering ist
Warum quadrieren?
verhindert Aufhebung positiver und negativer Fehler
große Abweichungen werden stärker gewichtet
👉 OLS erzeugt die Regressionsgerade, indem es a und β schätzt.
Berechnung erfolgt über ein Statstikprogramm
lm() #Schätzt die Regressionsgerade
lm()
summary() oder anova()
Ergebnis im Beispiel: ŷ = a + ß * x ->
ŷ = 1,11 + 0,002 * x
a = 1,11: geschätzte Lebenszufriedenheit bei Einkommen = 0
β = 0,002: +1 € Einkommen → +0,002 Punkte Lebenszufriedenheit → positives Vorzeichen = positiver Zusammenhang
⚠️ Es handelt sich immer um eine geschätzte Regression, nicht um eine „echte“.
Interpretation: Jemand ohne Einkommen (x = 0) hat eine geschätzte Lebenszufriedenheit von 1,11 Punkten und jeder Euro Einkommenszuwachs pro Person einen Zuwachs von 0,002 Punkten der Lebenszufriedneheit erbringt.
+1 € Einkommen → +0,002 Punkte Lebenszufriedenheit
positives Vorzeichen = positiver Zusammenhang
Schritt 5: Modellgüte prüfen durch R²
= wie viel Prozent der Streuung der abhängigen Variable durch die berücksichtigte/n unabhängige/n Variable/n erklärt werden können.
= PRE-Maß (Proportiol Reduction of Error), die Auskunft über die prozentuale Verringerung der Fehler durch ein Vorhersagemodell von y geben kann.
Bestimmtheißtsmaß R² = SSR / SST
heißt: Anteil der erklärten Varianz der aV
Berechnung R² am Beispiel:
Anova³ Tabelle
Quelle
SS (Quadratsumme)
df
MS (Mittel der Quadrate)
F
Regression (SSR)
31,6233
13,3134
Residual (SSE)
14,2517
6
2,37529
Total (SST)
45,8750
7
Beispiel: R² = Regression 31,62 / Total 45,88 = 0,6892
R² ≈ 0,689
R² = 0 → keine Erklärung
R² = 1 → vollständige Erklärung
Beispiel: Einkommen erklärt ca. 68,9 % der Varianz der Lebenszufriedenheit (in dieser Stichprobe).
-> Stärke und Richtung der Variable konnte gemessen werden, es gibt einen positiven Zusammenhang zwischen dem Einkommen und der Lebenszufriedenheit, der durch 68,9 % der Varianz erklärt werden kann
Problem der bivariaten Regression
Einfluss weiterer relevanter Variablen bleibt unberücksichtigt
Lösung:
Multiple lineare Regression
untersucht den gleichzeitigen Einfluss mehrerer unabhängiger Variablen (uV) auf eine metrische abhängige Variable (aV).
jeder Koeffizient zeigt einen bereinigten Nettoeffekt .
Ausgangslage:
Abhängige Variable (aV): y
Einkommen in Euro (metrisch)
Unabhängige Variablen (uV): x
Alter (metrisch)
Erhebungsgebiet (Dummy: ost)
Geschlecht (Dummy: frau)
Bildung (Dummy: mittel, hoch; Referenz: gering)
Dummy-Variable
Da die lineare Regression formal metrische Variablen erwartet: müssen in Dummy-Variablen transformiert werden.
Nominalskalierte Variablen werden in 0/1-codierte Dummy-Variablen umgewandelt. Eine Kategorie wird zur Referenz, auf die sich die anderen beziehen.
Beipsiel:
Geschlecht (0 = weiblich, 1 = männlich)
Wohnort (0 = Land, 1 = Stadt)
Schritt 1: Regressionsmodell
y = a + ß * x + ß2 MAL x2….. + e
Beispiel: Lebenszufriedenheit = Konstante + ß * Alter + ß * Bildung + …. + e (Error = nicht erklärte Einflüsse)
Schritt 2: Standardisierte Koefffizienten ß
zeigen (in der Regel) vergleichbare Effektstärken der unabhängigen Variable/n auf die abhängige Variable an.
= alles wird auf Standardabweichungen umgerechnet
Unstandardisierte K. = zeigen (in der Regel) die Veränderung des Werts der abhängigen Variable an, wenn sich die entsprechende unabhängige Variable um eine Einheit (d.h. Ausprägung) ändert.
Bei der Umrechung auf Standardabweichungen lassen sich Variablen direkt vergleichen, welche den stärksten Effekt hat:
Werte zwischen −1 und +1
ermöglicht direkten Vergleich der Einflussstärken innerhalb eines Modells
Aber nicht zwischen verschiedenen Stichproben interpretierbar
Formel: ß = unstandartisierter Reg.Koeff. * Standardabweichung der uV / Standardabweichung der aV
Schritt 3: Adjusted R² (korrigiertes R²)
= Maß für die Modellgüte einer linearen Regression, welches die Anzahl der unabhängigen Variablen berücksichtigt und gibt an, wie viel Prozent der Streuung der abhängigen Variable durch die berücksichtigte/n unabhängige/n Variable/n erklärt werden
= testen auf statistische Signifikanz
Unterscheidung:
R² = Anteil der erklärten Varianz der aV. Steigt automatisch, wenn man mehr Variablen hinzufügt (selbst wenn unnütz).
Adjustes R² = Berücksichtigt die Anzahl uV.
Wichtigste Größe zur Beurteilung der Modellgüte bei multiplen Modellen
Wenn beide fast gleich sind:
Das Modell ist gut spezifiziert → Keine unnötigen Variablen
Wenn korrig. R² deutlich kleiner ist als R²:
Das Modell enthält unnötige Variablen → Es wurde „überfittet“ (zu viel Ballast)
Beispiel Modell für Lebenszufriedenheit:
Modell
Variablen
R²
Adjusted R²
Modell A
Bildung, Alter
0,40
0,39
Modell B
Bildung, Alter, Lieblingsfarbe
0,41
0,35
➡️ R² steigt leicht, weil eine neue Variable dazu kam.
➡️ Aber das korrigierte R² fällt stark → Lieblingsfarbe ist nutzlos.
In der Prüfung gegeben:
Wie stark verändert sich das Einkommen pro Lebensjahr?
12,22 EUR
Wie unterscheidet sich das geschätzte Einkommen zwischen Männern und Frauen?
Frauen verdienen durchschn. 812,63 EUR weniger
Wie hoch ist das geschätzte Einkommen eines 20j. Mannes mit geringer Bildung in den alten Bundesländern
y = a + ß * x + ß * x …
Einkommen = 1001,675 + 12,22 * 20 + 0 + 0
= 1246,08 EUR
Hat das Alter oder das Erhebungsgebiet einen stärkeren Effekt auf das Einkommen? Begründe
sowohl der standardisierte Koeffizient ß, als auch der T-Wert sind höer beim Alter, daher ist der Effekt des Alters stärker als der des Erhebungsgebietes.
Alle Koeffizienten im Regressionsmodell sind signifikant. Was bedeuetet das?
mit R²
In der Tabelle sind die Ergebnisse einer ANOVA dokumentiert. Berechnen Sie auf Grundlage der ANOVA-Tabelle R². Interpretieren Sie das Ergebnis.
o Antwort: 607,339 / 10555,992 = 0,058
o Antwort: Das R² der Regression liegt bei 0,058. Das bedeutet, dass das Regressionsmodell etwa 5,8 Prozent der Gesamtvarianz erklärt
Mit korrigiertem R²
In der Tabelle sind die Ergebnisse einer linearen Regression dokumentiert, bei der die Determinanten der Lebenszufriedenheit in Deutschland untersucht wurden. Die Lebenszufriedenheit wurde dabei auf einer pseudometrischen Skala erfasst, bei der 0 „äußerst unzufrieden“ und 10 „äußerst zufrieden“ bedeutet.
Wie kann die Regressionskonstante inhaltlich beschrieben werden?
Regressionskonstante = 6,99. Sie repräsentiert die geschätzte durchschnittliche Lebenszufriedenheit einer weiblichen Person mit geringer Bildung und keinem sozialen Vertrauen im Alter von 0 Jahren auf einer Skala von 0 „äußerst unzufrieden“ bis 10 „äußerst zufrieden“.
Was ist die durchschnittliche Lebenszufriedenheit einer 40-jährigen Frau mit keinem Vertrauen und hoher Bildung? Skizzieren Sie knapp den Rechenweg.
Rechenweg: y = a + ß * x + ß * x…
y = 6,99 + Alter 40 * 0,01 + Vertrauen 0 + Bildung 0,56
= 7,59 Punkte
Antwort: Die geschätzte durchschnittliche Lebenszufriedenheit einer 40 jährigen Frau mit keinem Vertrauen und hoher Bildung beträgt 7,95 Punkten auf einer Skala von 0 „äußerst unzufrieden“ bis 10 „äußerst zufrieden“.
Haben Männer oder Frauen eine höhere Lebenszufriedenheit?
da der Regressionskoeffizient des Merkmals Geschlecht in der Ausprägung "1=Mann" gegenüber der Referenz "0=Frau" einen p-Wert von 0,067 aufweist und somit größer als 0,05 ist, ist das Geschlecht statistisch nicht signifikant.
Wie kann die Modellgüte interpretiert werden?
Erläutern Sie den Unterschied zwischen R² und korrigiertes R².
Ein Problem von R² ist, dass es mit der Anzahl der uVs steigt. Je mehr Variablen in einem Regressionsmodell berücksichtigt werden, desto größer ist R², auch wenn diese keinen Einfluss haben. Das korrigierte R² berücksichtigt die Zahl der uVs. Deshalb ist das korrigierte R² stets etwas kleiner als das R². Bei hoher Fallzahl sind die Unterschiede aber meist vernachlässigbar.
Ist das R² oder das korrigierte R² in der Regel größer?
Je mehr Variablen in einem Regressionsmodell berücksichtigt werden, desto größer ist R², auch wenn diese keinen Einfluss haben. Das korrigierte R² berücksichtigt die Zahl der uVs. Deshalb ist das korrigierte R² stets etwas kleiner als das R². Bei hoher Fallzahl sind die Unterschiede aber meist vernachlässigbar.
Logistische Regression
= Untersuchung des Einflusses einer oder mehrerer unabhängiger Variablen (uV) auf eine binäre abhängige Variable (aV)
Im Unterschied zur linearen Regression wird kein Mittelwert, sondern die Wahrscheinlichkeit geschätzt, dass ein bestimmtes Ereignis eintritt.
Probleme lineare Regression mit dichotomer aV
Wahrscheinlichkeiten größer 1 / kleiner 0
Residuen sind per Definition heteroskedastisch: die Fehler werden größer, je näher sie sich 0,5 annähert
Lineare Modellierung ist nicht angemessen: Extrembereiche werden nicht gut interpretierbar abgebildet
Unterschiede:
Regressionskurve nach -gerade mit typischem s-Verlauf, welche sich zwar den Grenzen 0 und 1 nähert aber sie eben nicht überschreitet
Statt berechnung der minimalisten Abstände werden Wahrscheinlichkeiten iretativ geschätzt
binäre (dichotome) aV
Wahlteilnahme (0 = nein, 1 = ja)
Rauchen (0 = nein, 1 = ja)
Zustimmung zu einer Partei (0 = nein, 1 = ja)
uVs metrisch oder Dummy-Variablen
ausreichende Fallzahl >30
keine perfekte Multikollinearität
konvergierendes ML-Verfahren
Ziel: Schätzung der Eintrittswahrscheinlichkeit eines Ereignisses (y = 1)
Formel: Logit (P) = a + ß *x….
heißt: Die logistische Regression modelliert Chancen, aus denen Wahrscheinlichkeiten abgeleitet werden.
Schritt 1: Schätzverfahren: Maximum-Likelihood (ML)
OLS minimiert quadrierte Abstände – sinnvoll nur bei metrischer aV.
ML zeigt die Parameter, bei denen die beobachteten Daten am wahrscheinlichsten sind.
iteratives Verfahren (Schritt-für-Schritt)
vollständig computergestützt
Konvergenz zeigt ein stabiles Modell an
Konvergenz = kaum noch Verbesserung, stabile Parameterschätzung
Iterationsprotokoll
< 10 Iterationen → Modell stabil
viele Iterationen → Modellproblem
Schritt 2: Modellgüte berechnen
Devianz (-2 Log Liklihood)
misst die Abweichung des Modells von einem perfekten Modell
basiert auf der Maximum-Likelihood-Schätzung
Arten
Null deviance: Modell ohne uVs
Residual deviance: Modell mit uVs
👉 Je kleiner die Devianz, desto besser die Modellanpassung
Pseudo R²
Maß für die Modellgüte einer logistischen Regression.
Gängige Maße
Cox & Snell
Nagelkerke (SPSS-Standard)
McFadden
Werte zwischen 0 und 1
< 0,1 → gering
was darauf hindeutet, dass wichtige Einflussfaktoren nicht im Modell enthalten sind.
0,2–0,4 → gut
0,4 → selten
❗ Pseudo-R² misst keine erklärte Varianz, sondern Modellverbesserung.
Schritt 3: Interpretation der Regressionskoeffizienten
Logit-Koeffizient ß
geben die Änderung der logarithmierten Chance an, wenn uV um eine Einheit der Ausprägung ansteigt
nur Vorzeichen Interpretierbar
β > 0 → Wahrscheinlichkeit steigt
β < 0 → Wahrscheinlichkeit sinkt
Odds Ratio (OR)
vorhergesagte Chancenverhältnis der abhängigen Variable an, wenn die entsprechende unabhängige Variable um eine Einheit (d.h. Ausprägung) ansteigt.
nicht als Effektstärke interpretieren!
< 1 = Chance sinkt, dass Ereignis eintrifft
= 1 = kein Effekt
> 1 = Chance steigt
Schritt 4: Logit zu Wahrscheinlichkeit berechnen
P = eL / 1 + eL
e = eulerische Zahl
≈ 2,718281828459045
Ergebnis: Geschätzte Wahrscheinlichkeit, dass Y = 1 eintritt
Mithilfe der Regressionstabelle:
Berechnen Sie die Wahrscheinlichkeit des Rauchens für eine 30jährige Frau in Westdeutschland mit mittlerer Bildung (Hinweis: Den Rechenweg brauchen Sie nicht anzugeben.)
Kodierung: Alter = 30 ansonsten alles 0
= Logit(p) = a + ß * x
= 1,38 + (−0,04⋅30 Jahre)+(0,45⋅0)+(0,22⋅0)
= 0,18
P = e hoch 0,18 / 1 + e hoch 0,18
= 0,55
heißt: Die geschätzte Wahrscheinlichkeit, dass eine 30-jährige Frau aus Westdeutschland mit mittlerer Bildung raucht, beträgt etwa 55 %.
Darstellung einer Regression i.F. eines Boxplots
Vertikale Linie bei 0 = kein Effekt
95 %-Konfidenzintervall schneidet 0 nicht → Effekt signifikant (5 %-Niveau)
Kreise = Basismodell
Rechts von 0 → positiver Effekt
Links von 0 → negativer Effekt
Quadrate = Modell mit Kontrollvariablen → Entscheidend ist i. d. R. das Modell mit Kontrollvariablen
Prüfungsaufgabe
Beispiel 1: Regressionstabelle interpretieren
In der Tabelle sind die Ergebnisse einer logistischen Regression dokumentiert (Datenbasis: Zufallsstichprobe), bei der die Determinanten der Wahlbeteiligung in Deutschland untersucht wurden (Nein=0; Ja=1).
Warum wird keine lineare Regression geschätzt?
Weil die aV dichotom ist und daher vorhergesagte Werte < 0 oder > 1 sein können und die Regression eine Kurve darstellt und keine Gerade
Wie beurteilen Sie die folgende Hypothese? „Personen in Ostdeutschland beteiligen sich eher an Wahlen als Personen in Westdeutschland.“
Ost = 1 bedeutet, dass Referenzkategorie Westdeutschland = 0 ist.
Der Logit Koeffizient ist positiv, was bedeutet, dass die Wahrscheinlichkeit der Wahlteilnahme steigt
OR = 1,25 heißt, die Wahlchance ist in Ostdeutschland um ca. 25 % höher als in Westdeutschland
p-Wert liegt bei 0,083 was schwach signifikant ist
Heißt: Es zeigt sich ein positiver, aber nur schwach signifikanter Zusammenhang.
Wie kann die Modellgüte interpretiert werden
Das Modell weist mit einem Nagelkerke R² von 0,080 eine geringe Modellgüte auf.Die erklärenden Variablen tragen nur in begrenztem Maße zur Erklärung der Wahlbeteiligung bei, was darauf hindeutet, dass wichtige Einflussfaktoren nicht im Modell enthalten sind.
Beispielaufgabe 2: Boxplot Regression
Die Abbildung zeigt Ergebnisse von logistischen Mehrebenenanalysen (aV = Wahlbeteiligung) in Form eines Regressionskoeffizienten Plots mit eingezeichneten 95%-Konfidenzintervallen von Braun und Tausendpfund 2019. Effekte sind auf dem 5%-Prozent-Niveau signifikant, wenn sie die Referenzlinie (Wert = 0= nicht schneiden.
Kann folgende Hypothese bestätigt werden? Je größer das politische Wissen, desto wahrscheinlicher die Wahlbeteiligung.
Wird bestätigt, effekt ist positiv und signifikant
Kann folgende Hypothese bestätigt werden: Personen mit geringer Bildung beteiligen sich eher an Europawahlen als Personen mit mittlerer Bildung
Nicht bestätigt. Der Effekt ist negativ und signifikant. Personen mit geringer Bildung beteiligen sich seltener an Wahlen als…
Kann folgende Hypothese bestätigt werden? Personen, die mit der nationalen Politik nicht zufrieden sind, beteiligen sich seltener an Europawahlen.
Nicht bestätigt. Effekt nicht signifikant (Referenzlinie wird geschnitten)
Handelt es sich bei der Wahlpflicht um ein Individual oder Makromerkmal
Makro, da es ein Merkmal des Wahlsystems ist
Inferenzstatistik
= Übertragung der Stichprobe auf zugehörige Grundgesamtheit. Ziel ist es dabei, von bekannten Kennwerten einer Zufallsstichprobe (z.B. Mittelwert) auf die unbekannten Parameter einer Grundgesamtheit zu schließen, indem sie
Schätzt: Sie liefert Methoden, um unbekannte Populationsparameter (z. B. Mittelwert, Anteilswert) von Grundgesamtheiten anhand von Stichprobendaten zu schätzen.
Hypothesentests: Sie prüft, ob bestimmte Annahmen über die Population (Hypothesen) auf Basis der Stichprobendaten wahrscheinlich sind oder verworfen werden müssen, z.B.:
t-Test: Mittelwertvergleiche
Chi²-Test: Abweichung beobachteter von erwarteten Häufigkeiten (Zusammenhänge nominaler Variablen)
F-Test: Prüfung Gesamtgüte eines Regressionsmodells
Unsicherheitsquantifizierung: gibt an, wie sicher oder unsicher Schätzungen oder Prüfungen sind, z. B. durch
Konfidenzintervalle: Wahrscheinlichkeit, dass der wahre Wert im Konfidenzintervall liegt
Signifikanzniveaus: Wahrscheinlichkeit, mit der man fälschlicherweise eine wahre Nullhypothese ablehnt
Zentrale Probleme der Übertragung einer Zufallsstichprobe:
Tatsächlicher Wert der Grundgesamtheit ist unbekannt
Convenience Samples (Willkürliche Stichprobe) Grundgesamtheit bleibt unbekannt, daher keine Inferenzstatitik möglich
Kein Wissen darüber, ob gezogene Stichprobe gut oder schlecht ist
Resultat:
Stichprobenfehler = Differenz zwischen Stichprobenkennwert und wahrem Wert der Grundgesamtheit
Ursachen:
Nonresponse
Unit-Nonresponse: komplette Ausfälle = keien Informationen zu einer Person
Item-Nonresponse: Teilweise fehlende Antworten, Person nimmt an Befragung teilt, beantwortet aber einzelne Fragen nicht
Abdeckungsfehler (Coverage Error):
Overcoverage = Menge an Untersuchungsobjekten, die in die Stichprobe gelangt sind, aber eig. Gar nicht zur Grundgesamtheit gehören
z.B. Personen jünger als 18 Jahre
Undercoverage: Untersuchungsobjekte, die eig. Eine Chance haben sollten in der Stichprobe zu sein, aber faktisch nicht ausgewählt werden können
z.B. Online-Erhebung fehlender Internetzugang
Komplexe Stichproben
Folgen:
größere Standardfehler
verzerrte Schätzungen
breitere Konfidenzintervalle
Lösungen: multiple Imputation
= Verfahren, das fehlende Werte plausibel schätzt, mehrere imputierte Datensätze erzeugt und die Unsicherheit der Schätzungen über alle Imputationsrunden hinweg in der finalen Analyse berücksichtigt, um Verzerrungen zu vermeiden und statistische Power zu erhalten.
Sampling Distribution (Stichprobenverteilung)
Stell dir vor, du würdest:
unendlich viele Stichproben ziehen aus derselben Grundgesamtheit
jeweils den Mittelwert berechnen
Dann bekommst du unendlich viele Stichprobenmittelwerte.
Diese Mittelwerte:
sind nicht alle gleich
schwanken
bilden eine Verteilung
➡️ diese nennt man Stichprobenverteilung (engl. sampling distribution)
Wichtig:
In der Praxis ist Stichprobenverteilung nur ein theoretisches Konstrukt. Theorie geht von perfekter Zufallsstichprobe aus.
Zentraler Grenzwertsatz (ZGS)
Besagt, wenn die Stichprobe groß genug ist (n ≥ 30), dann sind die Stichprobenmittelwerte annähernd normalverteilt:
Glockenkurve
symmetrisch
Mitte = wahrer Mittelwert der Grundgesamtheit
Bestandteile
Erwartungswert: Mittelwert aller Stichprobenmittelwerte
= wahrer Populationsmittelwert μ
Standardabweichung (SD): beschreibt, wie stark Werte streuen
Normalverteilung: symmetrische graphische Häufigkeitsverteilung, bei der sich die meisten Daten um den Mittelwert (μ) gruppieren, während seltene Werte an den Rändern abnehmen, was in einem Diagramm eine Glockenform ergibt;
wird durch den Mittelwert (μ, der Schwerpunkt) und die Standardabweichung (σ) (die Streubreite)
Regel der Standardabweichung imneiner Normalverteilung: Etwa 68 % der Daten liegen innerhalb ±1 σ vom Mittelwert, ca. 95 % innerhalb ±2 σ und fast alle (99,7 %) innerhalb ±3 σ.
Mittleres Alter = 50 Jahre
Standardabweichung = 20 Jahre
68 % der Personen sind zwischen: 30 und 70 Jahren (± 1 SD)
95,5 % der Personen sind zwischen: 10 und 90 Jahren (± 2 SD)
Standardfehler SE
= durchschnittliche Streuung von Stichprobenkennwerten um den wahren Wert
= wie stark ein Stichprobenergebnis (Mittelwert, Anteil) variieren würde, wenn man wiederholt neue Stichproben aus derselben Population ziehen würde.
Je größer die Stichprobe (\(n\)), desto kleiner der Standardfehler, da die Schätzung dadurch zuverlässiger wird.
Standardfehler des Mittelwerts (SEM) = Schätzung, wie stark der Mittelwert einer Stichprobe (z.B. Durchschnittsgröße in einer Stichprobe) vom tatsächlichen Mittelwert der gesamten Population abweicht.
Formel: SEM = Standardabweichung/ Wurzel aus n
Standardfehler eines Anteils (SEA) = Maß für die Streuung von geschätzten Anteilen (Prozentwerten, (z. B. Anteil von Partei-Wählenden, Raucher:innen, Studierenden etc. einer Stichprobe) bezogen auf den wahren Anteil in der Grundgesamtheit.
Formel: SEA = Wurzel aus Bruch: p * (1 - p) / n
p = Anteil in der Stichprobe
→ z. B. 0,40 = 40 % für Tigerpartei
Berechnung der benötigten Fallzahl, wenn n unbekannt
Formel bei großer Grundgesamtheit: N = (Konfidenzniveau * Wurzel aus p *(1-p) / Stichprobenfehler) ²
Konfidenzniveau: z.B. 1,96 (95 %) oder 2,58 (99 %)
P = vermuteter Anteilswert des Merkmals (0–1)
Stichprobenfehler: z.B. ±3 % oder ±5 %
Beispiel: 95 %-Konfidenz, ±3 % Stichprobenfehler, p=0,5, Grundgesamtheit = wahlberechtigte Bevölkerung
N = (1,96 * Wurzel aus (0,5 * 0,5) / + 0,03) ²
= 1067 Befragte werden für eine +- Genauigkeit benötigt
Interpretation: je größer SE desto ungenauer die Schätzung
Voraussetzungen für die Berechnung des Standardfehlers
Berücksichtigung von Fehlerquellen: Total Survey Error
Einfache Zufallsstichprobe: Jede Person hat gleiche Chance in Stichprobe aufgenommen zu werden → Standardfehler korrekt.
Komplexe Stichproben (z.B. mehrstufig, Random-Route): Standardfehler größer, KIs breiter.
Reminder: Standardfehler vs Stabdardabweichung
Das wird oft verwechselt, daher sehr wichtig:
Standardfehler: Wie unsicher ist unsere Schätzung?
Streuung der Stichprobenkennwerte z. B. Mittelwerte aus verschiedenen Stichproben
beschreibt Unsicherheit der Schätzung
Standardabweichung: Wie unterschiedlich sind die Menschen
Streuung der Einzelwerte z. B. Alter der Personen
beschreibt Heterogenität in der Stichprobe
Schätzungsarten
Punktschätzung: liefert einen einzelnen Zahlenwert, der einen unbekannten Populationsparameter schätzt. Z.B schätzt den
Populationsmittelwert
Populationsanteil
Problem: Punktschätzungen sagen nicht, wie sicher sie sind. Standardfehler beschreibt, wie stark ein Punktschätzer von Stichprobe zu Stichprobe schwankt.
Intervallschätzung: gibt einen Bereich an, in dem der wahre Populationsparameter mit einer bestimmten Wahrscheinlichkeit liegt.
z.B. Konfidenzintervalle
Schätzer gilt als gut, wenn er folgende Eigenschaften erfüllt:
Erwartungstreue (Unverzerrtheit): Schätzer trifft im Mittel den wahren Wert der Grundgesamtheit
Effizienz: Maß für die Präzision einer Schätzung = Je kleiner der Standardfehler, desto effizienter der Schätzer
Konsistenz: Mit wachsender Stichprobengröße nähert sich der Schätzer dem wahren Wert an = Bei unendlich vielen Stichproben entspricht der Mittelwert der Schätzungen dem wahren Parameter
Suffizienz: Schätzer nutzt alle relevanten Informationen der Stichprobe
Konfidenzintervalle
= Bereich von Werten, innerhalb dessen mit einer bestimmten Wahrscheinlichkeit (dem Konfidenzniveau KN) der wahre Wert einer unbekannten Populationseigenschaft (z. B. Mittelwert, Anteil) liegt. Es ist also eine Art „Pufferzone“ um eine Schätzung, die ausdrückt, wie genau diese Schätzung ist.
Grundformel: KI = Schätzwert ± Sicherheitsfaktor × Standardfehler
Sicherheitsfaktor = kritische z-Werte (Normalverteilung) bei großer Stichprobe (ungefähr n ≥ 30)
90 % KN = 1,645
95 % KN = 1,96
99 % KN = 2,58
99,9 % KN = 3,29
Stichprobenmittelwert: 7 Stunden
Standardfehler: 0,15 mit 95% KN
KI = Stunden + / - KN * E
= 7 + 1,96 * 0,15
= 6,71
7,29
KI = 6,71 bis 7,29 Stunden
Interpretation: zu 95% liegt der wahre Mittelwert zwischen 6.71 und 7.29 Stunden
Signifikanztestung
Prüfen, ob ein Unterschied oder Zusammenhang zwischen zwei Merkmalen mit einer gewissen Wahrscheinlichkeit
zufällig ist oder
auch in der Grundgesamtheit existiert
Signifikanz → Übertragbarkeit auf die Grundgesamtheit (mit Irrtumswahrscheinlichkeit)
Wichtige Unterscheidung
Signifikanz allgemein: Bedeutsamkeit / Wichtigkeit eines Merkmals
Statistische Signifikanz: → Wie wahrscheinlich ist es, dass ein Ergebnis zufällig entstanden ist?
❗ Wichtig: Statistische Signifikanz ≠ Stärke, Relevanz oder inhaltliche Bedeutung eines Effekts.
➡️ Ein Ergebnis ist signifikant, wenn die Wahrscheinlichkeit gering ist, dass es nur zufallsbedingt zustande kam.
Vorgehen
= Prüfung einer Forschungs-/ Alternativhypothese über die Grundgesamtheit durch Verwerfen der Nullhypothese (H₀)
Fehlerarten bei Hypothesentests
Hypothesentests treffen auf Basis einer Stichprobe eine Entscheidung über Aussagen zur Grundgesamtheit. Da Stichproben zufällige Stichprobenfehler enthalten, sind Fehlentscheidungen möglich.
Realität
Entscheidung
H₀ gilt
H₀ beibehalten
H₀ verwerfen
❌ α-Fehler
H₁ gilt
H₁ annehmen
❌ β-Fehler
Alpha-Fehler (Fehler 1. Art)
Falsch positiv
Wahrscheinlichkeit = α (z. B. 5 %)
Beta-Fehler (Fehler 2. Art)
Falsch negativ
Abhängig von:
Effektgröße
Stichprobengröße
❗ Trade-off: Alpha und Beta stehen in einem gegenläufigen Verhältnis
Strengere Tests ↓ α-Fehler, ↑ β-Fehler
Forschungspraxis: Effektstärken oft nicht präzise spezifiziert -> Fokus liegt meist auf dem α-Fehler
Signifikanzniveau (α)
= vorab festgelegte maximale Irrtumswahrscheinlichkeit, mit der die Nullhypothese (H₀) fälschlicherweise verworfen werden darf, also eine Entscheidungsschwelle:
α = 0,10 (10 %)
α = 0,05 (Standard in den Sozialwissenschaften)
α = 0,01 (1 %)
-> entspricht dem Fehler 1. Art
p-Wert
= Wahrscheinlichkeit, den beobachteten (oder einen extremeren) Effekt zu erhalten, unter der Annahme, dass H₀ wahr ist
heißt: Wie wahrscheinlich ist das beobachtete Ergebnis, wenn es in Wirklichkeit keinen Effekt gibt?
wird vom Statistikprogramm (z. B. SPSS, R) berechnet
Interpretation: je kleiner p-Wert desto unwahrscheinlicher ist das Ergebnis unter H₀
= Ergebnis ist signifikant und demnach wahrscheinlich nicht zufällig und kann (mit Irrtumswahrscheinlichkeit) auf die Grundgesamtheit übertragen werden
Niveau
p < 0,05 = 5%
* signifikant
p < 0,01 = 1%
** hoch signifikant
p < 0,001 = 0,1%
*** höchst signifikant
Entscheidungsregel
p kleiner α → H₀ verwerfen, H₁ vorläufig akzeptieren
p größer/ gleich α → H₀ beibehalten, H₁ verwerfen
Vier Schritte eines allgemeinen Signifikanztests
Hypothesen formulieren
Forschungshypothese (H₁): z. B.: Lebenszufriedenheit unterscheidet sich zwischen Männern und Frauen
= ungerichtet (zweiseitig): keine Richtung
= gerichtet (einseitig): Richtung explizit festgelegt
Nullhypothese (H₀): kein Unterschied / kein Zusammenhang z.B. Kein Unterschied in der Lebenszufriedenheit zwischen Männern und Frauen
Richtung der Testung kann:
Zweiseitig (ungerichtet): → Es wird nur geprüft, ob ein Unterschied besteht
Einseitig (gerichtet): → Richtung ist festgelegt (z. B. Frauen zufriedener als Männer)
Geeignete Testart wählen
metrisch:
Chi²
Ordinal:
spearmann-Rangkorrelation
Intervall/ Ratio
t-Test
ANOVA
Pearson R
F-Test
Art der Stichprobe
Abhängige Stichproben:
gleiche Personen mehrfach befragt (z. B. Panel)
logisch verbundene Paare (z. B. Ehepartner, Eltern–Kind)
Unabhängige Stichproben:
keine Beziehung zwischen den Personen
typische Umfragen (ALLBUS, ESS)
Datenstruktur der Varianzen prüfen
Varianzhomogenität: Streuung ist in beiden zu vergleichenden Gruppen (ungefähr) gleich
Varianzen unterscheiden sich nicht signifikant
H₀ des Varianztests: Varianzen sind gleich
nur bei unabhängigen Stichproben möglich
Annahme vieler klassischer t-Tests
Varianzheterogenität: Varianzen der zu vergleichenden Gruppen unterscheiden sich deutlich
Eine Gruppe streut viel stärker als die andere
t-Test ungleicher Varianzen verwenden
Frauen: Varianz = 0,8
Männer: Varianz = 4,5 → sehr unterschiedlich → heterogen
Prüfung durch R
Barlett-Test oder Lavene-Test (= Abweichungen vom arithmetischen Mittel)
R/STUDIO: car-Paket: leveneTest(abhängige Variable ~ Gruppierungsvariable,
leveneTest(abhängige Variable ~ Gruppierungsvariable,
Datensatz,
+ center = mean)
Beipiel:
leveneTest(stflife ~ mann, ess9de_m1, center = mean)
leveneTest(stfdem ~ polint.ja, ess9de_m1, center = mean)
p ≥ 0,05 → Varianzhomogenität annehmen
p < 0,05 → Varianzheterogenität
Signifikanzniveau festlegen
üblich: α = 0,05
konservativer: α = 0,01
Entscheidungsregel Hypothesen:
p < α → H₀ verwerfen, H₁ vorläufig akzeptieren
p ≥ α → H₀ beibehalten
📌 α wird meist in der Aufgabe genannt oder implizit vorausgesetzt (0,05)
Teststatistik berechnen
T-Tests
= statistisches Verfahren, um zu prüfen, ob ein (gefundener) Unterschied in einer Stichprobe auf die entsprechende Grundgesamtheit übertragen werden darf (d.h. signifikant) oder nicht (d.h. nicht signifikant).
Grundlogik:
Prüft, ob sich Mittelwerte der Kontroll/ ExperimentalGruppe zufällig unterscheiden
Keine Aussage über inhaltliche Bedeutsamkeit
einfache Zufallsstichproben
(Pseudo-)metrische Variablen
Merkmale in der Grundgesamtheit normal verteilt
z.B. durch Lilifors-Test
Fallzahl ca. ≥ 30
Bei unabhängigen Stichproben: Varianzhomogenität
t-Verteilung (William Sealy Gosset („Student“, 1908)
= theoretische Verteilung der Prüfgröße t - Sog. Freiheitsgrade (df) sind ein Parameter der t-Verteilung und bestimmen Form und Streuung der Verteilung
👉 Für jede Anzahl von Freiheitsgraden gibt es eine eigene t-Verteilung.
Freiheitsgrade (degrees of freedom df)
= Anzahl der Werte, die frei variieren können, ohne ein statistisches Ergebnis zu verändern
Beispiel Mittelwert: bei 3 Werten sind 2 frei
Bestimmen Form der t-Verteilung
Wenige Freiheitsgrade:
t-Verteilung ist flacher
hat breitere Enden
höhere kritische t-Werte
Viele Freiheitsgrade:
t-Verteilung nähert sich der Standardnormalverteilung
ab ca. df ≥ 30 kaum noch Unterschied sichtbar
bei df → ∞ identisch mit der Normalverteilung
Klassischer t-Test
t-Test bei unabhängiger Stichprobe mit homogener Varianz
Beispieldatensatz: Lebenszufriedenheit 1 - 10
Stichprobenumfang:
Westdeutschland: n1 = 20
Ostdeutschland n2 = 10
West x1 = 7,9
Ost x2 = 7,4
Korrigierte Standardabweichung
West S*² = 2,5
West S*² = 3,5
Schritt 1: Komplementäre Hypothesen formulieren
H0 = kein signifikanter Unterschied zwischen den Mittelwerten der Lebenszufriedenheiten zwischen Ost- und Westdeutschland
H1 = signifikanter Unterschied zwischen den Mittelwerten der Lebenszufriedenheiten zwischen Ost- und Westdeutschland
Schritt 2: Berechnung der Prüfgröße T
Formel: Mittelwert 1 - Mittelwert 2 / Wurzel aus:
((n1 - 1) * korr. Varianz.1 ) + ((n2 - 1) * korr. Varianz) / (n1 + n2 - 2) *(1/n1 + 1/n2)
7,9 - 7,4 ( (Mittelwert 1 - Mittelwert 2)
= 0,5 (Ergebnis oberer Nenner)
Wurzel aus: ((20 - 1) * 2,5) + ((10 - 1) * 3,5)
79
79 / 20 + 10 - 2
2,82
2,82 * (1 / 20 + 1 / 10)
0,423
Wurzel aus 0,423
0,650 (Ergebnis unterer Nenner)
0,5 / 0,650
= Prüfgröße T: 0,769
ODER: erst SE (Standardfehler) berechnen und dann:
SE = Wurzel aus: s² / N + S² / N
T = Mittelwert 1 - Mittelwert 2 / SE
Schritt 3: Bestimmung des kritischen t-Werts
hinreichend große Stichproben entspricht dieser kritische Wert ungefähr 1,96 (bei einem zweiseitigen Test, 0,05 Sign.)
Bei kleineren Stichproben:
Freiheitsgrade berechnen:
df = n1 + n2 - 2
= 28 Freiheitsgrade
Signifikanzniveau, wenn nicht anders bestimmt dann 5% = 0,05 (üblicher Wert)
Tabelle in Formelsammelung öffnen
einseitig: 1,701
zweiseitig: 2,048
= kritischer t-Wert
Prüfgröße T < T krit
= H0 wird angenommen, H1 verworfen
Prüfgröße T > T krit
= H0 wird verworfen, H1 angenommen
Prüfgröße T = 0,769
Tkrit = 2,048
= kein signifikanter Unterschied zwischen den Mittelwerten der Lebenszufriedenheiten zwischen Ost- und Westdeutschland
Beispieldatensatz: Zufriedenheit mider Demokratie 0 - 10
Stichprobengröße:
Frauen n1 = 30
Männer n2 = 20
Arith. Mittel:
Frauen x1 = 7,0
Männer x2 = 6,8
Korrigierte Varianz:
Frauen s1 = 2,0
Männer s2 = 1,0
2- Seitiger Hypothesentest mit Signifikanzn. 0,05
H0: Die Zufriedenheit mit der Demokratie unterscheidet sich nicht zwischen den Geschlechtern
H1: Die Zufriedenheit mit der Demokratie unterscheidet sich zwischen den Geschlechtern
Formel: Mittelwert1 - Mittelwert 2 / Wurzel aus: (S*² / n1) + (S*² / n2)
Wichtig: = Welch-Formel, ist immer zulässig – auch wenn die Varianzen gleich sind.
T = 7,0 - 6,8 / Wurzel aus: (2,0 / 30) + (1,0 / 20)
= 0,2 / Wurzel aus 0,067 + 0,05
= 0,2 / Wurzel aus 0,117
0,2 / 0,34
Prüfgröße T = 0,59
Signifikanzniveau = 5% = 0,05
Zähler: beide Varianzen durch Stichprobengrößen (= Varianzanteile) addieren und zum Quadrat
(2,0 / 30 + 1,0 / 20)²
= (0,0666 + 0,05)²
= 0,0135955
Nenner: Summen der Varianzanteile quadriert durch die gewichteten Freiheitsgrade der jeweiligen Gruppe und dann addieren
0,0666² / 30 - 1
0,004 / 29
0,00015
0,05² / 20 - 1
0,0025 / 19
0,0001315
= 0,000153 + 0,0001316
= 0,0002846
= 0,01361 / 0,0002846
47,8
👉 Immer auf die nächstkleinere ganze Zahl abrunden → das ist konservativ, d. h. du machst den Test etwas strenger.
df = 40
kritischer t-Wert = 2,021
Tkrit = 2,021
Die Zufriedenheit mit der Demokratie unterscheidet sich nicht zwischen den Geschlechtern
Zuletzt geändertvor 5 Minuten