Prozente vs. Prozentpunkte
Prozente (%):
Drücken immer ein relatives Verhältnis aus.
Die Zahl vor dem Prozentzeichen ist der Prozentsatz, der das Verhältnis angibt.
Beispiel: 20 % der Befragten sind Männer.
Prozentpunkte (pp):
Beschreiben den absoluten Unterschied zwischen zwei Prozentsätzen.
Beispiel: Anteil Männer bei stark Interessierten = 30 %, Anteil Frauen = 20 % → Unterschied = 10 Prozentpunkte, nicht 10 %.
Prozentsatzdifferenz:
Berechnung: Zeilenweise Differenz zweier Spaltenprozenten.
Wertebereich: −100 bis +100 Prozentpunkte.
Interpretation:
< 5 pp → kaum interpretierbar, kein Zusammenhang
5–<10 pp → schwacher Zusammenhang
10–<25 pp → mittelstarker Zusammenhang
≥25 pp → starker Zusammenhang
Heißt: Prozent / relative Differenz fragt: wie viel mehr im Verhältnis zum Ausgangswert.
Bezogen auf Frauen: (30−20) / 20 = 0.5 = 50%
50% der Frauen = 20*0,5 = 10 Frauen weniger
Das heißt: die 30 Männer sind 50 % mehr als die 20 Frauen
Doppel so viele wären 200%
4 Schritte der Datenanalyse
Univariate Datenanalyse
Fokus auf eine Variable
Zur Beschreibung der Verteilung eines Merkmals innerhalb dieser Variable
Methoden:
Häufigkeiten
Kennzahlen zur Verdichtung vieler Beobachtungen:
Lagemaß: Zentrum der Verteilung
z.B. Mittelwert, Median
Streuungsmaß: Variation der Werte
z.B. Varianzen, Standardabweichung
Formmaß: Charakterisierung der Verteilungsform
z.B. Schiefe, Wölbung
Konzentrationsmaße: wie ungleich sind die Werte verteilt?
z.B. Lorenzkurve, Gini-Koeffizient
Bivariate Datenanalyse
Fokus auf 2 Variablen
Zur Untersuchung von Zusammenhängen oder Unterschieden zwischen 2 Merkmalen (z.B. Bildung und Einkommen)
Kreuztabellen (Crosstabs): Zeigt gemeinsame Verteilung zweier Variablen
Zusammenhangsmaße (Koeffizienten):
Cramérs V: Stärke von Zusammenhängen bei nominalen Variablen
Spearmans rho: Rangkorrelationen bei ordinalen Variablen
Pearsons r: lineare Korrelationen metrischer Variablen
Multivariate Datenanalyse
Fokus auf Drei oder mehr Variablen
Zur Untersuchung mehrerer gleichzeitig einwirkender Einflussfaktoren auf eine abhängige Variable
Lineare Regression: Schätzt Einfluss der unabhängigen Variablen auf eine metrische abhängige Variable
Logistische Regression: Schätzt Einfluss mehrerer Variablen auf eine dichotome (z. B. Ja/Nein) abhängige Variable
Inferenzstatistik
Grundidee: Sozialwissenschaftliche Analysen beruhen meist auf Zufallsstichproben, nicht auf vollständigen Erhebungen.
Fokus auf Übertragung von Stichprobenergebnissen auf die Grundgesamtheit, i.F. einer Prüfung, ob Ergebnisse zufällig oder repräsentativ sind
Zur Beurteilung, ob beobachtete Zusammenhänge statistisch signifikant und verallgemeinbar sind
Die univariate Datenanalyse beschreibt eine einzelne Variable, meist durch Häufigkeiten, Lage- und Streuungsmaße, um ihre Verteilung und Struktur verständlich zu machen.
Häufigkeitstabellen zeigen, wie oft jede Merkmalsausprägung vorkommt und enthält 4 zentrale Angaben:
Absolute Häufigkeiten
geben an wie oft die einzelnen Ausprägungen auftreten
absolute Häufigkeit = fj
Relative Häufigkeiten
Relation der einzelnen absoluten Häufigkeiten zur Gesamtzahl an Fällen
Relative Häufigkeit = pj = fj/Gesamtzahl (n)
Relative Häufigkeiten in Prozent
Darstellung der relativen Häufigkeiten in Prozent im Verhältnis zur Gesamtzahl der Fälle.
= pj% = pj*100%
Kumulierte relative Häufigkeit
zeigt, wie viel Prozent aller gültigen Fälle bis zu einem bestimmten Merkmalswert liegen.
👉 „Kumuliert“ = „aufsummiert“.
Sie hilft, Verteilungen zu beschreiben, nicht Inhalte zu bewerten
Berechnung durch schrittweise Aufsummierung der einzelnen relativen Häufigkeiten in Prozent
=pj(kum)% = einzelnen pj% addieren
Wichtig:
Fehlende Werte (NAs) werden nicht mitgezählt.
Bei der höchsten Kategorie steht immer 100 %, weil dort alle gültigen Fälle enthalten sind
Beispiel: Zustimmungsskala
> „Ich finde Online-Unterricht effektiv.“
Antwortoption Personen Rel. Häufigkeit Kumuliert (%)
1 – stimme gar nicht zu 5 6,25 % 6,25 %
2 – stimme weniger zu 15 18,75 % 25 %
3 – teils/teils 20 25 % 50 %
4 – stimme eher zu 25 31,25 % 81,25 %
5 – stimme voll zu 15 18,75 % 100 %
Fehlend (NA) 20 – –
Anwendung
Verteilung erkennen: Zeigt, wie sich Fälle entlang einer Skala „aufschichten“.
Median & Quartile bestimmen: 50 %-Punkt der kumulierten Häufigkeit = Median.
Vergleiche zwischen Gruppen Beispiel: Bei Frauen liegen 60 % „höchstens teils/teils“, bei Männern 80 %.
Diagramme: Grundlage für Summenkurve (Ogive), um Verteilungen visuell darzustellen.
Heißt:
Relative Häufigkeit: Anteil einer einzelnen Kategorie (z. B. 25 % stimmen eher zu).
Kumulierte Häufigkeit: Aufsummierter Anteil bis zu einer bestimmten Kategorie (z. B. 81 % stimmen höchstens eher zu).
Z-Transformation: Standardisierung von Variablen bei Univariaten Datenanalysen
In der Forschung liegen Variablen oft in unterschiedlichen Skalierungen oder Verteilungen vor (z. B. 0–10 vs. 1–7 Skala). Dadurch lassen sich Messwerte nicht direkt vergleichen.Die Lösung: z-Transformation (Standardisierung).
Situation: Messwerte können unterschiedliche Messeinheiten, Skalen oder Streuung haben.
Beispiel: Lisa (45 Pkte) und Bart (60 Pkte) schrieben unterschiedliche Tests → andere Mittelwerte, andere Standardabweichungen → direkte Vergleichbarkeit nicht möglich.
Lösung: Werte aus verschiedenen Verteilungen vergleichbar machen. Standardisierung bringt Werte auf eine gemeinsame Skala:
Mittelwert = 0
Standardabweichung = 1
Beispiel:
Person
(x_i)
(\bar{x})
(s_x)
Lisa
45
25
10
Bart
60
50
Schritte der Berechnung
Der z-Wert gibt an, wie viele Standardabweichungen ein Wert über oder unter dem Mittelwert liegt.
Zentrierung
(xi−xˉ) | Angegebene Wert jeder Person minus arithmetische Mittel
Beispiel Lisa: 45-25
Beispiel Bart: 60-50
Heißt: Verschiebt die Verteilung so, dass der Mittelwert 0 wird.
Werte unterhalb des Mittels → negativ, Werte oberhalb → positiv.
Normierung
Ergebnis durch Division durch die Standardabweichung: xi−xˉ / Sx (Standardabw.)
Beispiel Lisa: 45 - 25 / 10 = 2
Beispiel Bart: 60 - 50 / 25 = 0,4
Skaliert so um, dass die neue Standardabweichung 1 beträgt = Streckung/Stauchung der Verteilung.
Interpretation
Positiver z-Wert: Leistung über dem Durchschnitt
Negativer z-Wert: Leistung unter dem Durchschnitt
Betrag des z-Werts:
Klein → nahe am Mittelwert (typisch)
Groß → ungewöhnlich (potenzieller Ausreißer)
Lisas Leistung: 2 Standardabweichungen über dem Durchschnitt → außergewöhnlich hoch.
Barts Leistung: 0,4 Standardabweichungen über dem Durchschnitt → leicht überdurchschnittlich.
→ Relativ ist Lisa deutlich besser, obwohl Bart absolut mehr Punkte hat.
Lagemaße
beschreiben das Zentrum bzw. den typischen Wert einer Verteilung.→ Sie fassen große Datenmengen auf wenige Kennzahlen zusammen (univariate Datenanalyse)
Zuverlässigkeit der Lagemaße je nach Skalenniveau
Skalenniveau
Modus
Median
Arithmetisches Mittel
Nominal
✅
❌
Ordinal
Intervall / Ratio
Beispiele:
Geschlecht → nominal (nur Modus)
Schulnote → ordinal (Modus & Median)
Alter → Intervall/metrisch (alle drei Lagemaße)
ist der am häufigsten vorkommende (gültige) Wert in einer Verteilung. Abkürzungen: h (Diaz-Bone) oder ẋ (Völkl & Korb)
Eigenschaften:
Kann bei allen Skalenniveaus berechnet werden
Einfach abzulesen aus Häufigkeitstabellen oder Diagrammen
Bei zwei gleich häufigen Werten → bimodale Verteilung
Interpretation: ➡️ Informationsgehalt gering, da nur ein Wert berücksichtigt wird.
Besonderheit: Säulendiagramm -> höchster Balken
Beispiel
Variable
Werte
Geschlecht (1=Frau, 2=Mann)
1,1,1,2,2,2,2,1,1
1
Alter
20,25,25,25,30,30,40,45,45
Familienstand (1=verheiratet, 3=ledig)
1,1,2,2,1,3,3,3,4
1 und 3 (bimodal)
Der Median (x̃) teilt eine geordnete Verteilung in zwei Hälften:50 % der Werte liegen unterhalb und 50 % oberhalb.
Voraussetzung:
Werte müssen sortiert sein
Mindestens ordinalskaliert
Berechnung:
Unsortiert: 1, 5, 3, 2, 3, 1, 5, 3, 3, 4, 2
→ Sortiert: 1, 1, 2, 2, 3, 3, 3, 3, 4, 5, 5
→ Median: 3 (6. Wert)
Praxis:
Häufigkeitstabelle mit kumulierten Prozentwerten: Median bei ≈50 %
ist die Summe aller Werte geteilt durch deren Anzahl.
Voraussetzungen
Mindestens intervallskaliert
Abstände zwischen Werten müssen gleich groß sein
Wird oft fälschlich auch bei ordinalen Daten (z. B. Schulnoten) verwendet
Achtung: Einfluss von Ausreißern
Extremwerte können den Durchschnitt stark verzerren.
Beispiel: Gruppe 1 (max 35 J.) → x̄ = 26,7 / Gruppe 2 (max 70 J.) → x̄ = 30,6
Ausreißerprüfung → Median und Modus bleiben stabil (25)
Streuungsmaße
messen die Variation oder Dispersion der Werte um das Zentrum, da Lagemaße keine Informationen über die Streuung der Werte geben
Wichtig: Streuungsmaße sind erst ab Intervallskala sinnvoll berechenbar.
Definition: Durchschnittliche quadrierte Abweichung der Werte vom arithmetischen Mittel.
= Je größer die Varianz, desto stärker streuen die Werte um das Mittel.
Formeln zur Messung der Varianz
Varianz = Maß dafür, wie stark die Werte einer Verteilung um ihr arithmetisches Mittel streuen.Sie sagt dir also: „Sind die Werte ziemlich ähnlich oder stark unterschiedlich?“
Empirische Varianz (Vollerhebung):
s2 = ∑ (xi − xˉ)² / n
Korrigierte Varianz (Stichprobe):
s*²= ∑ (xi − xˉ)² / n-1
Berechnungsschritte
Arithmetisches Mittel eines Datensatzes berechnen. (xˉ)
Abweichungen der Werte vom Mittelwert bilden, durch Subtraktion vom Mittelwert jeden einzelnen Wert: (xi−xˉ)
Abweichungen quadrieren: (xi−xˉ)², damit sich positive und negative Abweichungen nicht gegenseitig aufheben.
Addiere alle quadrierten Abweichungen.
Durch die Anzahl der Werte (n) = empirisch oder (n−1) = korrigiert teilen.
Beispiel (Land-Gruppe Lebenszufriedenheit 0 - 11):
n = 11
Gesamtzahl der Lebenszufriedenheit: 77
Schritt 1: Arithmetisches Mittel = 77 / 11
Schritt 2: einzelne Antworten - 7
Schritt 2: Ergebnisse ²
Schritt 3: Adduktion dieser Ergebnisse = 90
dh. Summe der quadrierten Abweichungen
Empirische Varianz: s² = 90/ 11 ≈ 8,18
Korrigierte Varianz: s*² = 90/ (11-1) = 9
Hohe Varianz = große Unterschiede zwischen den einzelnen Antworten
Geringe Varianz: Antworten sind relativ homogen
Varianz = 0 → alle Werte sind gleich (keine Streuung).
Problem: Die Einheit der Varianz ist quadriert, also nicht mehr direkt vergleichbar mit den Originalwerten (z. B. Lebenszufriedenheit auf einer 0–10 Skala → Varianz in „Punkten²“).
Standardabweichung
Die Standardabweichung ist die Wurzel der Varianz. Dadurch hat sie die gleiche Einheit wie die ursprünglichen Werte.
Sie ist damit viel anschaulicher und leichter interpretierbar.
Formeln:
Empirisch (Vollerhebung): s = ∑s²
Korrigiert (Teilerhebung): s* = ∑s*²
Beispielhafte Interpretation:
Wenn Lebenszufriedenheit auf einer Skala von 0–10 gemessen wird und die Standardabweichung 2 beträgt, dann liegen die meisten Werte ungefähr 2 Punkte über oder unter dem Mittelwert.
Kleine Werte → geringe Streuung
Große Werte → hohe Streuung
s=0s = 0s=0 → keine Streuung
Am Beispiel der Lebenszufriedenheit:
Empirische Standardabw.: s = ∑8,18 ≈ 2,86
Korrigierte Varianz: s* = ∑3,22 ≈ 1,79
Merksatz:
Varianz: zeigt die Streuung, aber in „Quadrat-Einheiten“.
Standardabweichung: zeigt die Streuung in derselben Einheit wie die Daten → leichter interpretierbar.
Formmaße
Formmaße beschreiben die Form einer Verteilung, also wie die Werte einer Variable angeordnet sind, jenseits von Mittelwert und Streuung. Sie liefern Informationen über die Struktur der Verteilung.
Die beiden wichtigsten Formmaße sind:
1.Schiefe (Skewness)
misst die horizontale Asymmetrie: Sie zeigt, ob die Werte mehr auf der linken oder rechten Seite konzentriert sind.
Formel wird heute nicht mehr händisch berechnet. Zur angemessenen Beschreibung einer Verteilungsform muss nur der Schiefe-Koeffizient korrekt interpretiert werden. Drei Fälle werden unterschieden
Rechtsschief → Schiefe > 0 (lange rechte Spitze)
die meisten Werte links, wenige rechts. Mittelwert > Median > Modus.
Symmetrisch → Schiefe ≈ 0
Verteilung ist gleichmäßig um das Mittel verteilt (z. B. Normalverteilung). Modus = Median = Mittelwert.
Linksschief → Schiefe < 0 (lange linke Spitze)
die meisten Werte rechts, wenige links. Modus > Median > Mittelwert.
Fechner’sche Lageregel
= Daumenregel (die nicht immer stimmt), aber eine einfache Möglichkeit darstellt, die Schiefe einer Verteilung ohne Berechnung des entsprechenden Formmaßes und ohne grafische Darstellung zu bestimmen
Bei symmetrischen Verteilungen weisen die drei Lagemaße Modus, Median und arithmetisches Mittel denselben Wert auf
Eine Verteilung ist rechtsschief (linksgipflig), wenn der Modus kleiner als der Median und der Median kleiner als das arithmetische Mittel ist (Modus < Median < Arithmetisches Mittel).
Eine Verteilung ist linksschief (rechtsgipflig), wenn der Modus größer als der Median und der Median größer als das arithmetische Mittel ist (Modus > Median > Arithmetisches Mittel)
2.Wölbung (Kurtosis)
Misst die vertikale Form einer Verteilung, also wie „spitz“ oder „flach“ sie im Vergleich zur Normalverteilung ist
Man will damit herausfinden, wie stark die Werte in der Mitte konzentriert sind und wie viele Werte in den Rändern (Extremen) liegen
Viele Werte nah am Mittelwert → hochgipflig (spitzer Berg)
Viele Werte weit vom Mittelwert entfernt → flachgipflig (breiter Hügel)
Mit einer Formel misst ein Programm, wie weit jeder Wert vom Mittelwert entfernt ist, und potenziert diese Abweichung mit 4, weil so große Abweichungen (also Ausreißer) viel stärker gewichtet werden
Außerdem: Da man potenziert, verschwinden die Minuszeichen (wie bei der Varianz)
= Maß dafür, wie stark die Verteilung „spitzt“ oder „flacht“.
Aber:
Wenn man die oben genannte Formel ohne Korrektur bei einer perfekten Normalverteilung anwendet, kommt immer ungefähr 3 heraus — das ist sozusagen der natürliche Wert, der sich aus der Form dieser Kurve ergibt
Weil man möchte, dass die Normalverteilung = 0 bedeutet, subtrahiert man 3 und nennt dies den:
Korrekturfaktor: Anpassung, die dafür sorgt, dass die Normalverteilung als Referenzwert 0 hat.
Typen der Wölbung:
Typ
Beschreibung
Kurtosis = 0
Normalverteilung
Standardgipfelform
Kurtosis > 0
Hochgipflig
Steile Verteilung, viele Werte in der Mitte, wenige an den Rändern
Kurtosis < 0
Flachgipflig
Breite Verteilung, weniger Werte in der Mitte, mehr an den Rändern
Fazit: In der Praxis treten kleine Abweichungen häufig auf – eine exakt „perfekte“ Normalverteilung ist selten. Kurtosis hilft aber zu erkennen, ob eine Variable stark konzentriert oder breit gestreut ist.
Lagemaße und Streuungsmaße sagen nur Zentrum und Streuung.
Formmaße zeigen Asymmetrien und Konzentrationen der Daten, z. B. viele extreme Werte oder eine verzerrte Verteilung.
Relevant für Statistikverfahren, die Normalverteilung voraussetzen, z. B. t-Tests oder Regressionsanalyse.
Konzentrationsmaße
beschreiben die Ungleichverteilung eines metrischen und nicht-negativen Merkmals – klassisch: Einkommen.
Ziel: Wie verteilt sich die Merkmalssumme (z. B. Gesamteinkommen) auf die Merkmalsträger (z. B. Personen)?
Wichtig: Konzentrationsmaße werden nur für metrische und nicht-negative Daten verwendet, z. B.:
Einkommen
Vermögen
Marktanteile
Unternehmensgröße
Grundidee
Keine Konzentration: alle Merkmalsträger besitzen denselben Wert.
Maximale Konzentration: ein Merkmalsträger vereint die gesamte Merkmalssumme auf sich.
Wichtig: Konzentration = Ungleichheit der Verteilung.
Die drei wichtigsten Konzentrationsmaße
Lorenzkurve
Grafisches Instrument zur Darstellung der relativen Konzentration.
je mehr die Kurve „durchhängt“, desto ungleicher
Vorgehen:
Merkmalsträger nach der Merkmalsausprägung sortieren (aufsteigend).
Für jede Position j:
Relative kumulierte Häufigkeit: uj=j/n
Kumulierte Merkmalswerte: ∑xi
Relativer Anteil an der Merkmalsgesamtsumme: qj=∑xi/xi
Uj = x-Kurve und qj = y-Kurve, Punkte verbinden → Lorenzkurve.
Vergleichsdiagonale (45°-Linie) zeigt Gleichverteilung.
Je stärker die Kurve unter der Diagonale liegt (= „durchhängt“), desto ungleichmäßiger die Verteilung.
Monoton wachsend, da kumulierte Werte.
Konvex (nach unten gewölbt).
Gini-Koeffizient (normiert 0-1)
Maß für die Stärke der relativen Konzentration; basiert auf Lorenzkurve
Interpretation: Gibt den Anteil der Fläche zwischen Lorenzkurve und Diagonale an der Fläche unter der Diagonale an.
0 = perfekte Gleichheit
1 = maximale Ungleichheit
Formel: Summe aus ∑xi/ Summe aus xi
Lorenz-Münzner-Maß (normierter Gini)
Wird eingesetzt, weil der nicht-normierte Gini vom Umfang n der Merkmalsträger beeinflusst wird.
Formel: n + 1 - 2*c (Gini normal) / n - 1
Beispiel: 5 Personen + 1 - 2*2,464 / 5-1
= 0,268 (Normierter Gini
Siehe s. 38
Kritik
Datenbasis verzerrt: basiert oft auf freiwilligen Haushaltsbefragungen → reiche Haushalte unterrepräsentiert → Ungleichheit wird unterschätzt.
Unabhängig von n: Gini beachtet nicht die Anzahl der Beobachtungen.
Nur relative Ungleichheit:
Gibt an, wie die Merkmalssumme verteilt ist,
aber nicht wie viele Personen zu welchem Anteil beitragen (absolute Konzentration).
Herfindahl-Index
Maß für die absolute Konzentration.
Wertebereich:
1 = ein Merkmalsträger vereinigt alles auf sich
1/n = minimale Konzentration (Gleichverteilung)
Anwendungsgebiete:
Kartellbehörden: Messung der Marktkonzentration.
Politikwissenschaft: Messung der Parteienzersplitterung (niedriger Wert = stark fragmentiert).
Heißt: Konzentrationsmaße sind ein eigener Bestandteil der univariaten Datenanalyse und messen, wie ungleich die Werte einer metrischen, nicht-negativen Variable verteilt sind (z. B. Einkommen), typischerweise mittels Lorenzkurve, Gini-Koeffizient oder Herfindahl-Index
Grafische Darstellung univariater Daten
Säulen/ Balkendiagramm
Voraussetzungen:
Nominale und ordinale Variablen
Merkmale mit wenigen Ausprägungen
Darstellung:
Säulendiagramm: vertikale Rechtecke
Balkendiagramm: horizontale Rechtecke
Höhe/Länge entspricht absoluten oder relativen Häufigkeiten
Kategorien haben gleiche Breite
Einsatz:
Gute Vergleichbarkeit zwischen Kategorien
Beispiel: ALLBUS 2016 – Interesse an Politik
Kreisdiagramm
Nominalssskalierte Variablen
Illustration von (relativen) Häufigkeiten durch Kreissegmente, Größe entsprechen den jeweiligen Ausprägungen
Kritik in der Fachliteratur:
Schwere Interpretierbarkeit, da Flächen/Winkel beurteilt werden müssen
Gefahr der Täuschung über tatsächliche Häufigkeiten
3D verschlechtert Lesbarkeit zusätzlich
Sozialwissenschaftliche Empfehlung: Vermeiden
„In keinem vernünftigen Journal werden Tortendiagramme abgedruckt.“ (Plümper 2012)
Alternative:
Säulen- oder Balkendiagramm fast immer vorzuziehen
Histogramm
Metrische Variablen mit vielen Ausprägungen
Besonders bei gruppierten Daten (z.B. Altersklassen, Einkommen)
Säulen liegen direkt nebeneinander (keine Abstände)
Flächentreue: Fläche (Höhe × Breite) ∝ Häufigkeit
Gute Erkennbarkeit von
Schiefe
Symmetrie
Steilheit der Verteilung
Klassenbildung:
Empfehlungen für Mindestanzahl von Klassen (Degen 2010):
bis 100 Fälle → mind. 10 Klassen
~ 1.000 Fälle → mind. 13 Klassen
~ 10.000 Fälle → mind. 16 Klassen
Empfohlen: gleich breite (äquidistante) Klassen
Unterschiedliche Klassenbreiten möglich, aber schwerer interpretierbar (Flächenvergleich)
Boxplot (Box and Whisker Plot)
Metrische Variablen
Gute Darstellung von Streuung, Lage und Ausreißern
Bestandteile:
Box (Rechteck): enthält die mittleren 50 % der Beobachtungswerte
Unteres Quartil (Q1): 25 % der Werte liegen darunter
Median (Q2): 50 % der Werte liegen darunter bzw. darüber
Oberes Quartil (Q3): 75 % der Werte liegen darunter
Interquartilsabstand (IQR): Q3 – Q1 → Maß für die Streuung der mittleren 50 %
Whiskers (Antennen/Barthaare): Linien, die die Werte außerhalb der Box darstellen
Länge max. 1,5 × IQR über Q3 bzw. unter Q1
Endpunkte = maximale/minimale Werte innerhalb dieser Grenze
Ausreißer: Werte außerhalb der Whiskers
SPSS: Kreis = Ausreißer, Stern = Extremwert (> 3 × IQR außerhalb der Box)
Stata/R: keine Unterscheidung
Darstellung und Interpretation
Lage: Median zeigt zentrale Tendenz
Streuung: Länge der Box → mittlere 50 % der Daten
Symmetrie: Median in der Box → links/rechts gleich verteilt → symmetrisch
Ausreißer: erkennbare Punkte außerhalb der Whiskers
Vergleich mehrerer Gruppen möglich durch nebeneinanderliegende Boxplots
Vorteile:
Zeigt Verteilungslage kompakt
Einfacher Vergleich mehrerer Gruppen
Identifiziert Ausreißer klar
Beispiel aus ALLBUS 2016 (Interviewdauer):
Median: 55 Minuten
Unteres Quartil (Q1): 47 Minuten
Oberes Quartil (Q3): 66 Minuten
IQR: 66 – 47 = 19 Minuten
Ausreißer: z. B. längstes Interview 175 Minuten
→ 50 % der Interviews dauerten zwischen 47 und 66 Minuten
Bivariate Datenanalyse untersucht den Zusammenhang zwischen genau zwei Variablen. Sie ermöglichen es, Zusammenhangshypothesen zwischen 2 Variablen zu testen.
Grundprinzip:
Eine Variable ist unabhängig (z. B. Bildung)
die andere abhängig (z. B. Wahlbeteiligung) sein.
Bestandteile
1️⃣ Ziele der bivariaten Analyse
Untersuchung des gemeinsamen Auftretens von zwei Merkmalen.
Aufdeckung von Zusammenhängen, Abhängigkeiten oder Unterschieden zwischen Variablen.
Zusammenhang zwischen Bildung der Eltern & schulischem Erfolg der Kinder
Zusammenhang zwischen Wahlbeteiligung & Einkommen
Zusammenhang zwischen Migrationshintergrund & politischem Wissen
2️⃣ Bestandteile der Analyse
a) Kreuztabelle / Kontingenztafel
Kombination von zwei Variablen in einer Tabelle
Ermöglicht eine erste deskriptive Übersicht über Zusammenhänge
Dient als Basis für die Formulierung von Hypothesen
Besonders geeignet für nominal- und ordinalskalierte Variablen
b) Zusammenhangs- / Assoziationsmaße
Quantitative Kennzahlen, die Stärke und Richtung eines Zusammenhangs beschreiben
Auch genannt: Kontingenz-, Assoziations- oder Korrelationskoeffizienten
Gebräuchliche Maße:
Phi, Cramer’s V, Lambda, C → nominal
Spearman’s Rho, Kendalls Tau, Gamma → ordinal
Pearson’s r, Eta-Koeffizient → metrisch oder metrisch × nominal
Wichtiger Hinweis:
Das Skalenniveau der Variablen bestimmt, welches Maß sinnvoll ist.
Wenn Variablen unterschiedliche Skalenniveaus haben, wird meist das Maß für das niedrigere Skalenniveau gewählt.
3️⃣ Detaillierte Auswahl nach Skalenniveau
Merkmal 1
Merkmal 2
Geeignetes Maß
nominal
Cramer’s V, Phi, Lambda, C
ordinal
Cramer’s V, Lambda, C
metrisch
Eta-Koeffizient
Spearman’s Rho, Kendalls Tau, Gamma
Pearson’s r, Spearman’s Rho, Kendalls Tau, Gamma, Eta
4️⃣ Interpretation der Maße
Pearson’s r / Spearman’s Rho:
Vorzeichen → Richtung des Zusammenhangs
Positiv: hohe Werte von X ↔ hohe Werte von Y
Negativ: hohe Werte von X ↔ niedrige Werte von Y
Eta-Quadrat (η²):
Anteil der Varianz der metrischen abhängigen Variable, der durch die unabhängige nominale Variable erklärt wird
Wertebereich: 0–1 → interpretiert als Effektstärke
Faustregeln nach Cohen:
<0,01 → kein Effekt
0,01–0,06 → kleiner Effekt
0,06–0,14 → mittlerer Effekt
≥0,14 → großer Effekt
5️⃣ Darstellungsmöglichkeiten
Streudiagramme / Scatterplots:
Visualisierung von Zusammenhängen zwischen metrischen Variablen
Erste Einschätzung: linear, negativ, nicht-linear, kein Zusammenhang
6️⃣ Begrenzungen bivariater Analysen
Keine Kausalitätsaussage:
Zusammenhang ≠ Ursache → mögliche Drittvariablen können Scheinkorrelationen erzeugen
Beispiel: Anzahl Störche ↔ Geburtenrate → Ursache: Bebauungsart des Wohngebiets
Kausalrichtung statistisch nicht bestimmbar:
Theoriearbeit und Hypothesenbildung vor Analyse notwendig
Erkenntnis:
Bivariate Analysen zeigen Zusammenhänge
Sie erklären nicht die Ursache des Zusammenhangs
7️⃣ Praxis-Tipps
Auswahl des richtigen Assoziationsmaßes immer vom Skalenniveau abhängig machen
Grafische Darstellung (z. B. Kreuztabellen, Streudiagramme) hilft bei der ersten Einschätzung
Interpretation der Kennzahlen immer im Kontext der Forschungshypothese
Schritt 1
Kreuztabellen (Contingency Tables)
zeigt die Häufigkeiten des gemeinsamen Auftretens von zwei Variablen.
Spalte: unabhängige Variable
Zeile: abhängige Variable
Zellen: Kombinationen der Ausprägungen der beiden Variablen
Nominal: Kategorie ohne Rangordnung (z. B. Geschlecht)
Ordinal: Kategorie mit Rangfolge (z. B. politisches Interesse)
Metrisch: viele Ausprägungen (z. B. Einkommen) → gruppieren nötig, um Kreuztabellen zu erstellen
Randhäufigkeiten: Summen der Zeilen und Spalten (deskriptiv)
Relative Häufigkeiten: Prozente ermöglichen bessere Vergleichbarkeit
Prozentangaben: auf Spaltenbasis → „wenn-dann“-Interpretation
# Basis R: Kreuztabelle erstellen
table(Variable1, Variable2)
# Relative Häufigkeiten
prop.table(table(Variable1, Variable2), margin=2)
# mit Paket: sjmisc
flat_table(ess9de_m1, wahl, bildung,
margin = c("col")) # = Spaltenprozente
# Zeilenprozente (row)
# Gesamtprozente (cell)
# Mit Paket: descr
CrossTable(ess9de_m1$wahl, ess9de_m1$bildung) #Ausgabe in Console
CrossTable(ess9de_m1$wahl, ess9de_m1$bildung,
prop.c = TRUE, # Spaltenprozente
prop.t = FALSE, # Gesamtprozente
prop.r = FALSE, # Zeilenprozente
prop.chisq = FALSE) # einzelne ChiQuadrat-Anteile
Bei Nominalen: Schritt 2:
Indifferenztabelle (erwartete Häufigkeit)
da kein Zusammenhang zwischen Variablen nachgewiesen wurde bisher, muss das erstmal gezeigt werden:
Vergleich: beobachtete Häufigkeiten fb(ij) vs. erwartete fe(ij)
Große Abweichung → höhere Wahrscheinlichkeit für statistische Abhängigkeit
Formel: fe(ij) = Zeilensumme(i) * Spaltensumme (j) / n
Beobachtet: 311 Männer „sehr stark politisch interessiert“
Erwartet: 216,56 Männer
Differenz = 94,44 → Abweichung deutet auf Zusammenhang
Schritt 3
Chi² - Test (χ²)
Misst, wie stark die beobachteten Häufigkeiten von den erwarteten abweichen.
Problem: χ² ist stichprobenabhängig, daher schwer vergleichbar zwischen Studien
χ² ≈ 0 → kein Zusammenhang
χ² groß → starker Zusammenhang
Berechnung mit Tabelle
Spalte: Beobachtete Häufigkeiten (fb + Spalte der Originaltabelle angeben, zB. fbi)
Spalte: erwartete Häufigkeiten (fe + Spalte…)
Spalte Residuen pro Zeile berechnen:
Differenz zwischen den beobachteten und den erwarteten Häufigkeiten
Heißt: wie stark die Realität (beobachtet) von der Nullhypothese (erwartet, wenn kein Zusammenhang besteht) abweicht.
fb - fe
Spalte: Residuen pro Zeile quadrieren
Spalte: quadrierte Residuen durch erwartete Häufigkeiten pro Zeile teilen:
Residuen (fb - fe)² / (erwartete Häufigk.) fe
Spalte: Summe der Werte aus Spalte 5
= Chi²
Funktion in R
chisq.test(Variable1, Variable2)
#Darstellung beobachteter Häufigkeiten und erwarteter Häufigkeiten + Chi, Cramer + phi
tab_xtab(ess9de_m1$wahl, ess9de_m1$bildung, show.exp = TRUE, show.legend = TRUE)
Schritt 4
Effektstärke messen durch Phi & Cramer’s V
Phi (Φ)
Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen - 2x2 Tabellen (dichotome Variablen, auch genannt: 4 Feldertafel)
Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)
Werte: 0 (kein Zusammenhang) bis 1 (vollständige Abhängigkeit)
Interpreation wie bei Cramers V
Formel: Φ = Wurzel aus χ²/n
Cramer’s V
Maß für die Stärke des Zusammenhangs zwischen zwei nominal- oder ordinalskalierten Variablen.
Zwei nominalskalierte Variablen (z. B. Geschlecht × Wahlbeteiligung)
Eine nominale Variable und eine ordinale Variable (z. B. Geschlecht × Bildungsgrad)
Wichtig: Wenn die Variablen unterschiedliche Skalenniveaus haben, wählt man für Cramér’s V das niedrigere Messniveau.
Nominal < Ordinal < Intervall/Metrisch
Beispiel 1: Geschlecht (nominal) × Bildungsgrad (ordinal)
Nominal = niedrigeres Skalenniveau → Cramér’s V berechnen auf Basis von nominal.
Beispiel 2: Familienstand (nominal) × Einkommen (metrisch)
Nominal < Metrisch → Cramér’s V für nominales Merkmal → zeigt, wie stark Einkommen durch Gruppenunterschiede erklärt wird.
Es zeigt nur die Stärke, nicht die Richtung eines Zusammenhangs.
Wertebereich: 0 bis 1
0 → kein Zusammenhang
1 → perfekte Abhängigkeit (die Merkmale „gehen Hand in Hand“)
Auch für größere Tabellen (nicht nur 2x2)
Formel: V = Wurzel aus Chi² / n * (M - 1)
M = kleinere Dimension der Kreuztabelle (entweder Zeilen oder Spalten)
Der Wert sagt wie stark die beiden Merkmale zusammenhängen (nur „stärker“ oder „schwächer“)
Beipspiel:
Chi-Quadrat χ2=190,46
Stichprobengröße n=3490
Tabelle 5 Zeilen × 2 Spalten → M=2M
V = Wurzel aus 190,46 / 3490 * (2 - 1)
= Wurzel aus 190,46 / 3490 ≈ 0,23
V-Wert
Stärke des Zusammenhangs
≤ 0,05
kein Zusammenhang
0,05–0,10
sehr schwach
0,10–0,20
schwach
0,20–0,40
mittelstark
0,40–0,60
stark
> 0,60
sehr stark
0,23 = mittelstarker Zusammenhang zwischen den Merkmalen
Funktionen in R
CrossTable(var1, var2, expected=TRUE, prop.chisq=TRUE, chisq=TRUE)
#Paket DescTools:
CramerV(var1, var2)
Zusammengefasst (nominal):
Indifferenztabelle → Chi² → Phi/Cramér’s V
Indifferenz zeigt „erwartet ohne Zusammenhang“
Chi² misst Abweichung von Erwartung
Phi/Cramér’s V standardisiert das Ergebnis für Vergleichbarkeit
bei ordinalen:
Die Werte haben eine Rangfolge, aber Abstände sind nicht zwingend gleich.
Beispiele: Bildungsabschluss (niedrig → mittel → hoch), politisches Interesse (sehr niedrig → sehr hoch), soziale Schicht (Unterschicht → Oberschicht)
Ziel: Bestimmung von Richtung und Stärke des Zusammenhangs zwischen zwei ordinalen Variablen.
Schritt 2:
Rangzuweisung
Ränge: Position eines Wertes in der geordneten Stichprobe (klein → groß)
Bindungen (Ties): Mehrere gleiche Werte → Rangmittelwert wird vergeben
Beispiel: Zwei Personen mit „Abitur“ → Ränge 4 & 5 → Mittelwert 4,5
Bildung
Rang
A
Hauptschule
B
Realschule
2,5
E
C
Abitur
4,5
D
Hinweis: Rangkorrelationen ermöglichen Aussagen über Stärke und Richtung, nicht über Kausalität.
Spearmans Rho (ρ) oder (rsp)
= Rangkorrelationskoeffizient für zwei ordinalskalierte Variablen
Wertebereich: −1 bis +1
Positiv → beide Variablen steigen zusammen
negativ → gegenläufig, 0 → kein Zusammenhang
Faustregel:
≤ 0,05 kein Zusammenhang
0,05–0,20 schwach
0,20–0,50 mittel
0,50–0,70 stark
>0,70 sehr stark
Berechnung mit Tabelle:
Tabelle zu beiden Merkmalen ausgeben lassen, z.B. Soziale Schicht und Gesundheitszustand
Person 1 Mittelschicht(3) GZ schlecht (2)
Person 2 Arbeiterschicht(2) GZ sehr schl. (1)
Person 3 Oberschicht(5) GZ sehr gut (5)
…
Rangpositionen überführen: d = X - Y
Person 1 (3) (2) (1)
Person 2 (2) (1) (1)
Person 3 (5) (5) (0)
Ränge quadriert summieren: 1² + 1² + 0² = 2
Formel ausfüllen: 6 * 2 / 3 (n) * (3² -1) = 12 / 24 = 0,5
Interpreation: positiver mittelstarker Zusammenhang zwischen Sozialer Schicht und Gesundheitszustand, sodass, sollte eins von beiden ansteigen, die andere Variable mit ansteigt.
cor(as.numeric(ess9de_m1$polint), as.numeric(ess9de_m1$bildung),
use="complete.obs", method="spearman")
Paket: DecTools
SpearmanRho(ess9de_m1$polint, ess9de_m1$bildung, use="complete.obs")
Kendalls Tau
Alternative zu Spearman für ordinalskalierte Variablen
= Zusammenhangsmaß für mindestens ordinalskalierte Variablen. Es misst die Rangübereinstimmung zwischen zwei Variablen und kann Werte zwischen −1 und +1 annehmen:
+1: perfekter positiver Zusammenhang (alle Paare steigen zusammen)
0: kein Zusammenhang
−1: perfekter negativer Zusammenhang (eine steigt, die andere sinkt)
Man betrachtet alle möglichen Paare von Beobachtungen und überprüft, ob die Rangfolgen der beiden Variablen gleichgerichtet oder gegenläufig sind.
Konkordante Paare: Positiver Beitrag <- Rangplätze beider Variablen steigen oder fallen gemeinsam.
Diskonkordante Paare: Negativer Beitrag <- Wenn Rangplätze gegensätzlich verlaufen (eine steigt, die andere sinkt).
Verbunden / Bindung (tie): Mindestens eine Variable hat für ein Paar gleiche Werte → spezieller Umgang, wird angepasst
Vorteil: robuster bei Bindungen und großen Stichprob
X (Schicht)
Y (Gesundheit)
3
2
5
Paar 1: Person 1, Person 2…
Die Paare bilden wir immer aus zwei unterschiedlichen Personen:
(1,2), (1,3), (2,3)
Formel: n*(n-1) / 2 = 3*(3-1) / 2 = 3 Paare
A & B → X steigt (1→3), Y steigt (2→4) → konkordant ✅
A & C → X steigt (1→2), Y steigt (2→5) → konkordant ✅
B & C → X fällt (3→2), Y steigt (4→5) → diskonkordant ❌
Überwiegen konkordante Paare, dann ist es positiv!
Hinweis
Bei ordinalen Variablen empfiehlt sich ggf. auch eine Kreuztabelle für die deskriptive Darstellung.
Spearman ist robuster gegen Ausreißer; Kendall besonders bei vielen Bindungen.
use="complete.obs", method="kendall")
bei metrischen:
Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei
Scatterplots (Streudiagramme)
Kovarianz und
Pearson’s r (Korrelationskoeffizient)
Grafische Analyse: Streudiagramm (Scatterplot)
= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.
Zweck: Erste Einschätzung des Zusammenhangs.
Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.
Arten von Zusammenhängen:
Keine Korrelation: Punkte zufällig verteilt.
Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.
Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.
Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.
Schritt 3:
Kovarianz: unstandardisiertes Zusammenhangsmaß
= Zwischenschritt zur Berechnung von Pearsond R
Maß für den linearen Zusammehhang zweier Variablenin Form der gemeinsamen Streuung von X und Y an
wie weit der jeweilige x- oder y-Wert vom arithmetischen mittel entfernt ist
Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n
Interpretation des Ergebnis:
positiv → steigen gemeinsam
negativ → einer steigt, der andere fällt
≈ 0 → kein linearer Zusammenhang
Problem: einheitenabhängig → schwer vergleichbar
Beispiel aus dem Text:
Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben
Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.
Schritt 4:
Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)
= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.
heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.
Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).
Pseudometrische Variablen in den SW: Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.
Likert-Skalen 0–10 (z. B. Lebenszufriedenheit)
Gesundheitszustand (kritisch, wenn ungleiche Abstände)
Achtung: Die metrische Behandlung ist modellabhängig! Bei begründeten Zweifeln → Spearman’s Rho verwenden
Wertebereich -1 bis 1
Berechnung über Tabelle:
Erstelle eine Tabelle mit diesen 5 Spalten:
xi → Werte von Merkmal X (z. B. Einkommen)
yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)
xi · yi → Produkt aus X und Y
(xi)² → X-Werte quadriert
(yi)² → Y-Werte quadriert
Am Ende addierst du jede Spalte als Randwert
Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)
Formel auffüllen (Zähler):
Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi
Formel auffüllen (Nenner):
Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN
ID
Xi
Yi
X·Y
X²
Y²
8
16
4
64
6
24
36
Σ
12
18
56
116
MW
21,33
18,67
38,67
= 0,22
Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy
Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.
Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.
Mögliche 3. Variablen können nicht ausgeschlossen werden
= keine kausale Interpretation möglich nur Schein Korrelationen
auch keine Richtung der Kausalität möglich
nur je höher, desto wahrscheinlicher… Aussagen möglich
Interpreation des Ergebnis:
r > 0 → positiver linearer Zusammenhang
r < 0 → negativer linearer Zusammenhang
r = 0 → kein linearer Zusammenhang
>0,05 – 0,20 schwach
>0,20 – 0,50 mittelstark
>0,50 – 0,70 stark
Beispiel 1 (IQ & Test):
r = 0,89 → sehr starker positiver Zusammenhang
Beispiel 2 (Einkommen & Lebenszufriedenheit):
r = 0,64 → starker positiver Zusammenhang
Pearson’s r misst nur lineare Zusammenhänge.
r zeigt keine Kausalität → keine Aussage zu x → y oder y → x
Scheinkorrelationen möglich (dritte Variable).
Zusammenhang bedeutet nicht Ursache-Wirkung.
Streudiagramm immer sinnvoll zur visuelle Prüfung (z. B. Nichtlinearität).
Zusammengefasst:
Streudiagramm → zeigt die Form des Zusammenhangs (visuell)
Kovarianz → zeigt Richtung (positiv/negativ) des Zusammenhangs , aber keine Stärke
Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)
Funktion in R:
cor(ess9de_m1$stflife, ess9de_m1$health,
use = "complete.obs")
cor.test(ess9de_m1$stflife, ess9de_m1$gesund.num,
Gibt r und p-Wert aus
p < 0,05 → Korrelationskoeffizient statistisch signifikant
Signifikanz betrifft nur die Übertragbarkeit, nicht Stärke/Bedeutsamkeit
Spearman = robuster bei ordinalen bzw. nicht normalverteilten Daten
cor(ess9de_m1$stflife, ess9de_m1$gesund.num,
use = "complete.obs",
method = "spearman")
Kodierung prüfen! Hohe Werte sollten ein hohes Ausmaß des Merkmals bedeuten → erleichtert Interpretation
Pearson’s r misst nur lineare Zusammenhänge
Keine Kausalaussagen möglich
Bei ordinalen Variablen oder Zweifeln → Spearman’s Rho als Robustheitsprüfung
Immer zuerst deskriptiv prüfen (Skalen, Verteilung, Kodierung, Ausreißer)
Eta-Quadrat (η²): wenn unabhängige Variable nominal und eine abhängige Variable metrisch
wird genutzt, wenn:
unabhängige Variable (uV) = nominal (z. B. Geschlecht, Familienstand, Migrationshintergrund)
abhängige Variable (aV) = metrisch (z. B. Einkommen, Testpunkte, Zufriedenheit)
Warum kein Pearson’s r?
Pearson r erfordert beide Variablen metrisch → Kategorien wie „ledig“, „verheiratet“ haben keine Zahlenabstände
Eta² ist das passende Maß für die Kombination nominal – metrisch
Eta² zeigt, wie viel Prozent der Varianz der abhängigen Variable durch die Gruppen erklärt wird.
1 → perfekter Zusammenhang
Beispiel: η² = 0,53 → „53 % der Varianz werden durch die Gruppen erklärt“
= Eta-Quadrat als PRE-Maß (Proportional Reduction of Error)
Grundidee: „Wie sehr verbessert Gruppenwissen meine Vorhersage?“
Man vergleicht zwei Vorhersagen:
Ohne Gruppenwissen
Schätzer: Gesamtmittelwert
Fehler = E1
Mit Gruppenwissen
Schätzer: Gruppenmittelwerte
Fehler = E2
Dann gilt:
PRE = E1−E2 / E1
→ Diese PRE-Logik = Grundlage von Eta²
SChritt 3:
Quadratsummen (QS) verwenden
QS Gesamt
Abweichungen aller Werte vom Gesamtmittelwert
entspricht E1 (Fehler ohne Gruppenwissen)
QS innerhalb
Abweichungen innerhalb jeder Gruppe
entspricht E2 (Fehler mit Gruppenwissen)
QS zwischen
Unterschiede der Gruppenmittelwerte
QSgesamt – QSinnerhalb
Formel für Eta-Quadrat:
η2= QS gesamt − QS innerhalb / QS gesamt
oder
η2 = QS gesamt / QS zwischen
Interpretation nach Cohen
Eta²
Effektstärke
< 0,01
kein Effekt
0,01 – < 0,06
kleiner Effekt
0,06 – < 0,14
mittlerer Effekt
≥ 0,14
großer Effekt
Beispiel (vereinfacht)
Fragestellung: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“
Gruppe A (ohne MH): MW = 12,8 Gruppe B (mit MH): MW = 6,2 → starker Unterschied
Gegeben:
QS gesamt = 204,5
QS innerhalb = 95,6
η2 = 204,5 - 95,6 / 204,5 = 0,53
η² = 0,53 → sehr starker Effekt
53 % der Varianz im politischen Wissen werden durch den Migrationshintergrund erklärt
Platz von Eta-Quadrat im Vergleich zu anderen Zusammenhangsmaßen
Nominal – nominal / ordinal – nominal → Cramer’s V
Ordinal – ordinal / bei Rangdaten → Spearman’s Rho
Metrisch – metrisch → Pearson’s r
uV nominal – aV metrisch → Eta-Quadrat
Regel: → „Wähle immer das Assoziationsmaß, das zum niedrigsten Skalenniveau passt“ → Ausnahme: Eta² ist speziell für nominal–metrisch vorgesehen
Was können bivariate Analysen nicht leisten?
Sie zeigen nur Zusammenhang / Effektstärke – keine Kausalität
Drittvariablen können Zusammenhänge erklären → Scheinkorrelation
Statistische Maße allein liefern keine Ursachenanalyse
Regressionsanalyse
= das zentrale Analyseverfahren in den Sozialwissenschaften
Regressionsanalyse als Oberbegriff für zahlreiche regressionsanalytische Verfahren, z.B.:
einmalige Datenerhebung: Querschnittsregression
mehrmalige Datenerhebung: Panelregression
hierarchische Daten: Mehrebenenanalyse
Die Wahl des Verfahren ist stets von der Datengrundlage abhängig
Bei der Querschnittsregression entscheidet das Skalenniveau der abhängigen Variable, welches Verfahren angewendet wird:
aV =
metrisch: lineare Regression
dichotom: logistische Regression
ordinal: ordinale Regression
nominal: multinominale logistische Regression
Lineare Regression (bivariat + multiple)
= Grundmodell der Querschnittsregression
untersuchen, den Einfluss mehrerer unabhängige Variablen (auch: erklärende Faktoren) auf ein abhängiges Phänomen (auch: erklärungsbedürftiges Phänomen).
Das wichtigste Verfahren ist die Regressionsanalyse (lat. regredere: zurückführen auf), die zwei Ziele erfüllen kann:
Erklären, welchen Einfluss uVs auf die aV haben.
Vorhersagen, welchen Wert die aV basierend auf uVs annehmen wird.
Wahlbeteiligung zurückführen auf: Bildung, Einkommen, politisches Interesse etc. einer Person
Prognose über eine Schätzung (!) darüber, dass, wenn wir den sozialen Status und das politische Interesse einer Person kennen, wie wahrscheinlich es ist, dass die Person wählen geht.
Dabei werden verschiedene Begriffe synonym verwendet:
Abhängige Variable (y)
Unabhängige Variable (x)
Erklärte Variable
Erklärende Variable
Kriteriumsvariable
Prädikator(variable)
Endogene Variable
Exogene Variable
Regressand
Regressor
Unterschied zur bivariaten Datenanalyse
Kausalbeziehungen werden untersucht:
Richtung, Ursprung und Stärke eines Einflusses
Achtung: keine statistische Perspektive auf Kausalität, sondern Korrelation wird berechnet
Regressionsanalyse = strukturprüfendes Verfahren, mittels derer sich theoretisch entwickelte Hypothesen über die Beziehungsstruktur zwischen Variablen prüfen lassen
Deshalb: Theorien- u. Hypothesenbildung vor Regressionsanalyse zwingend notwendig
Fragen der Regressionsanalyse
Welchen Eingluss üben einzelne unabhängige Variablen auf eine abhängige aus?
Stärke + Richtung des Einflusses
Wie gut erklären bestimmte unabhängige Variablen eine abhängige insgesamt?
= Gesamtgüte des Regressionsmodells*
Stichprobendaten (z.B. ALLBUS): Berechnung der statistischen Signifikanz sowohl der Einflussfaktoren, als auhc des Gesamtmodells
Typen von Regressionsanalysen
Welches Regressionsmodell gewählt wird, hängt vom Skalenniveau der abhängigen Variable ab:
Lineare Regression: metrische aV
Logistische Regression: dichotome aV
Multinominale Log. Regression: nominale aV
Ordinale Regression: ordinale aV
1. Lineare Regression (am häufigsten genutzt)
= Untersuchung eines linearen Zusammenhangs zwischen mindestens einer unabhängigen und einer abhängigen Variable.
= metrische & psuedometrische mit mind. 5 Ausprägungen und gleich große Wertzuweisungen der Abstände zwischen den Ausprägungen einer Variable
Beispiel: Lebenszufriedenheit:
Determinanten der Lebenszufriedenheit = Erklärung der Streuung beobachteter Daten durch das Einkommen (und weiterer Merkmale) entlang der Regressionsgeraden.
= Regressionsmodell:
heißt: wie groß der Eingluss einzelner Faktoren jeweils ist, wie genau Einflussvariablen zusammen die abhängige Variable Lebenszufriedenheit erklären.
= Wie gut können diese EInflussfaktoren einzeln und gemeinsam die Höhe der Lebenszufriedenheit bestimmen und damit auch vorhersagen?
Voraussetzungen der linearen Regression
Es müssen bestimmte Bedingungen erfüllt sein (hier nur die wichtigste erwähnt):
Linearität: Zwischen uVs und aV muss ein linearer Zusammenhang bestehen (erkennbar z.B. im Streudiagramm).
Zufallsstichprobe
Damit die Regressionsparameter auf die Grundgesamtheit übertragbar sind, sollte die Stichprobe zufällig gezogen sein.
Keine starke Multikollinearität
uVs sollten nicht sehr hoch korrelieren (Faustregel: r > 0,9 problematisch).
Sonst werden die Schätzungen der Koeffizienten unzuverlässig.
Unkorrelierte Residuen
Residuen sollen zufällig um 0 schwanken.
Sie dürfen nicht miteinander und nicht mit Y korrelieren → sonst sind die Parameter verzerrt.
Homoskedastizität
Die Residuen sollen eine konstante Varianz über alle X-Werte hinweg haben.
Bei Heteroskedastizität werden Standardfehler falsch → Signifikanztests (t, F, p) werden unzuverlässig.
Korrekte Modellspezifikation
Alle theoretisch relevanten Variablen müssen im Modell enthalten sein.
Wichtige Variablen nicht zu berücksichtigen → verzerrte Schätzer.
Bivariate (lineare) Regression
eine abhängige Variable + eine unabhängige Variable mit mind. intervallskalierten Variablen z.B. Einkommen in EUR
Zu prüfende Hypothese: Je höher das Einkommen ist, desto größer ist die Lebenszufriedenheit.
Regressionstabelle
Lebenszufriedenheit
Wert auf Skala 0 - 10
Nettoeinkommen im Monat in EUR
7
2000
4550
1003
9
3200
2900
2850
1900
3700
Schritt 1: Erstellung eines Streudiagramms mit Regressionsgeraden
= lineare Beziehung zwischen 2 Variablen werden mathematisch durch eine Gerade dargestellt
Beispiel: Lebenszufriedenheit = f(Einkommen)
Funktion: y = f(x)
Beispiel: Lebenszufriedenheit = Schnittpunkt der Geraden mit der y-Achse + Steigung der Geraden + Einkommen
Funktion der Regressionsgeraden: y = a + ß * x
aber: es gibt verschiedene Störgrößen
systematische Fehler: bestimmte Variablen sind noch nicht im Regressionsmodell berücksichtigt
Beobachtungs- und Messfehler, während der Datenerhebung
unbekannte Störgrößen
daher, schätzen wir die Regressionsgerade mathematisch, statt sie exakt zu berechnen:
Beispiel: geschätzte Lebenszufriedenheit = Schnitt mit y-Achse (x = 0, Konstante) + Regressionskoeffizient ß (Steigung der Geraden zur Vorhersage von y) * Einkommen
Funktion der geschätzten Regressionsgeraden: ^y = a + ß * x
Hier sieht man das Verhältnis von tatsächlich beobachteten Werten (Punkte) und geschätzten Werten (Gerade). Der Raum zwischen beiden nennt sich “Residuumm”
Beispiel: Residuum der Lebenszufriedenheit = a + ß * Einkommen + Error = beobachtete Lebenszufriedenheit - geschätzte Lebenszufriedenheit
Regressionsfunktion mit Berücksichtigung der Residuen:
y = a + ß * x + e | e = y - ^y
Um nun die Schätzung bestmöglich zu machen, wird die Gerade gesucht, mit dem min. Abstand zu den beobachteten Messungspunkten. Hierzu wird folgendes Verfahren verwendet:
Ordinary Least Square Verfahren (OLS)
= Kleinste-Quadrat-Schätzung (KQ-Schätzung), um den Abstand mathematisch durch Messung des vertikalen Abstands (Residuen oder e) zwischen beobachteten und geschätzten y-Werten zu ermitteln.
Die Berechnung übernimmt ein Statistikprogramm. Im Beispiel ergibt sich eine Regressionsgerade mit folgender Gleichung:
Beispiel: geschätzte Lebenszufriedenheit = 1,11 gesch. Lebenszufriedenheit + 0,002 Einkommen
OLS Regressionsfunktionsergebnis: ^y = 1,11 + 0,002x
= Regressionskonstante (a) + Steigung (Regressionskoef. ß)
Vorzeichen des Regr.Koef. ß bestimmt ob positiver oder negativer Zusammenhang besteht
Steigung = unstandartisierter Regressionskoeffizient ß!
Vorteil: leicht interpretierbar
Konstante = Schnittpunkt der Geraden mit y-Achse, wenn x = 0
Beispiel: Jemand ohne Einkommen (x = 0) hat eine geschätzte Lebenszufriedenheit von 1,11 Punkten und jeder Euro Einkommenszuwachs pro Person einen Zuwachs von 0,002 Punkten der Lebenszufriedneheit erbringt.
= Ermittlung des kleinsten Abstands zu den qudrierten Fehlern, sowie des Regressionskoeffizienten ß
Anhand der Konstante kann nun mit dem Bestimmtheitsmaß geprüft werden, wie gut die Regressionsgerade die beobachteten Datenpunkte unsgesamt erklärt.
Schritt 5)
Determinationskoeffizient R² = Bestimmtheitsmaß
Erklärung, wie viel Varianz durch das aufgestellte Regressionsmodell erklärt werden kann = die *Güte des Gesamtmodells
gehört zu sog. PRE-Maßen (Proportiol Reduction of Error), die Auskunft über die prozentuale Verringerung der Fehler durch ein Vorhersagemodell von y geben kann. (ETA² gehört auch dazu)
Berechnung R² am Beispiel:
Anova³ Tabelle
Quelle
SS (Quadratsumme)
df
MS (Mittel der Quadrate)
F
Regression (SSR)
31,6233
13,3134
Residual (SSE)
14,2517
2,37529
Total (SST)
45,8750
Beispiel: R² = Regression 31,62 / Gesamt 45,88 = 0,6892
Funktion: R² = SSR / SST
Interpretation R²:
Gütemaß der Regression:
0 bis 1 stellvertretend für 0% bis 100%
Wert von 1 = uV trägt 100% zur Erklärung Varianz der aV bei.
Wert von 0 = uV trägt nichts zur Erklärung der Varianz aV bei, was auf eine fehlende Integration wichtiger anderer erklärender Merkmale deutet
Beispiel: ≈ 0,689: Einkommen erklärt ~68,9 % der Varianz der Lebenszufriedenheit in dieser Stichprobe — ein hoher Erklärungsanteil.
Bei Stichprobendaten, kann mithilfe der multiplen Regression durch das korrigierte R² auch auf statistische Signifikanz getestet werden
Unterscheidung:
R² =
Anteil der erklärten Varianz der aV.
Steigt automatisch, wenn man mehr Variablen hinzufügt (selbst wenn unnütz).
Adjusted R² =
Berücksichtigt die Anzahl uV.
Wichtigste Größe zur Beurteilung der Modellgüte bei multiplen Modellen
Wenn beide fast gleich sind:
Das Modell ist gut spezifiziert → Keine unnötigen Variablen
Wenn korrig. R² deutlich kleiner ist als R²:
Das Modell enthält unnötige Variablen → Es wurde „überfittet“ (zu viel Ballast)
Beispiel Modell für Lebenszufriedenheit:
Modell
Variablen
R²
Adjusted R²
Modell A
Bildung, Alter
0,40
0,39
Modell B
Bildung, Alter, Lieblingsfarbe
0,41
0,35
➡️ R² steigt leicht, weil eine neue Variable dazu kam.
➡️ Aber das korrigierte R² fällt stark → Lieblingsfarbe ist nutzlos.
2.Multiple lineare Regression
erweitert die bivariate Regression, indem mehrere unabhängige Variablen (uV) gleichzeitig genutzt werden, um eine abhängige Variable (aV) zu erklären. Sie ist eines der wichtigsten Analyseinstrumente in den Sozialwissenschaften, weil soziale Phänomene fast immer von mehreren Faktoren gleichzeitig beeinflusst werden.
Mehrere uV erklären gemeinsam die aV. Beispiel: Einkommen hängt nicht nur von Alter ab, sondern auch von Bildung, Geschlecht, Berufserfahrung.
Ziel: relevante, theoretisch begründete unabhängige Variablen aufnehmen.
Zentrale Frage: Welche uV hat den stärksten Einfluss?
Modelllogik
Bei 2 uV ergibt sich eine Regressionsfläche, bei mehr als 2 uV hochdimensionale Regression (nicht visuell darstellbar).
Die Schätzmethode bleibt: Minimierung der quadrierten Abweichungen zwischen Beobachtung (y) und Schätzung (ŷ).
Ziele
Maximale Erklärung der abhängigen Variable durch mehrere theoretisch relevante Faktoren.
Schätzung der Richtung und Stärke einzelner Einflussfaktoren — isoliert, also unter Kontrolle aller anderen uV.
Statistische Signifikanzprüfung:
Ist das Gesamtmodell signifikant?
Sind die einzelnen Regressionskoeffizienten signifikant?
Berechnung
y = α + β1 x1 + β2 x2+⋯+βk xk +e
α: Achsenabschnitt, vorhergesagter Wert von y, wenn alle uV = 0
β: Einfluss der jeweiligen uV
e: Residuum (nicht erklärter Anteil)
Beispiel: Lebenszufriedenheit = α+β1Einkommen+β2Gesundheit+β3Familienstand+β4Bildung+e
→ Die Regressionsfunktion bildet keine Gerade, sondern eine hyperdimensionale Ebene und lässt sich nur schwer grafisch darstellen
Unstandardisierte Koeffizienten (b)
Zeigen die Änderung der aV bei einer Einheit Änderung der uV.
Gute Wahl zur Hypothesenprüfung.
Standardisierte Koeffizienten (β)
Für Vergleichbarkeit der Variablen (Skalenunabhängigkeit).
Interpretation: Änderung der aV in Standardabweichungen pro 1 SD in der uV.
→ Nur innerhalb derselben Stichprobe vergleichbar.
Achtung: Wird eine uV in die Regression aufgenommen, werden die anderen konstant gehalten. → Jede β-Schätzung zeigt den bereinigten Nettoeffekt.
Beispiel: Einkommen, Bildung, Gesundheit gemeinsam → Effekt von Einkommen ist unabhängig davon, wie gesund oder gebildet jemand ist.
Da die lineare Regression formal metrische Variablen erwartet:
müssen in Dummy-Variablen transformiert werden.
Bei k Kategorien → (k − 1) Dummies.
Die Kategorie, die komplett 0 ist, ist die Referenzkategorie.
Beispiel (Familienstand aus ALLBUS):
Referenz = ledig Dummies: verheiratet, getrennt, geschieden, verwitwet
Interpretation: β(verheiratet) = Unterschied in Lebenszufriedenheit zwischen Verheirateten und Ledigen.
Dummies für nominale Variablen
Nominalskalierte Variablen werden in 0/1-codierte Dummy-Variablen umgewandelt. Eine Kategorie wird zur Referenz, auf die sich die anderen beziehen.
Beipsiel:
Geschlecht (0 = weiblich, 1 = männlich)
Wohnort (0 = Land, 1 = Stadt)
Standardisierte Koeffizienten (Beta)
= alles wird auf Standardabweichungen umgerechnet
Da unstandardisierte Koeffizienten β je nach Maßeinheiten schwer vergleichbar sind, nutzt man standardisierte Koeffizienten:
unstandardisiert bedeutet: Wenn X um 1 Einheit steigt, verändert sich Y um so und soviel Einheiten.
Bei der Umrechung auf Standardabweichungen lassen sich Variablen direkt vergleichen, welche den stärksten Effekt hat:
Werte zwischen −1 und +1
= direkter Vergleich der Einflussstärken innerhalb eines Modells
Aber nicht zwischen verschiedenen Stichproben interpretierbar
Rechenweg:
ß = unstandardisierter Regressionskoeffizient MAL
sₓ = Standardabweichung der unabhängigen Variable DURCH
sᵧ = Standardabweichung der abhängigen Variable
Unstandardisiertes ß = 0,5
SD der unabhängigen Variable (x) = 10
SD der abhängigen Variable (y) = 20
= 0,5 *10/20 = 0,5 * 0,5 = 0,25
Wenn x um 1 Standardabweichung steigt, steigt y um 0,25 Standardabweichungen.
Das ist unabhängig von Einheiten und deshalb vergleichbar.
= standardisierte Koeffizienten
Standardabweichung (SD)
Wie stark streuen die Werte im Durchschnitt um den Mittelwert herum?
Kleine SD → alle Werte liegen eng beieinander
Große SD → Werte sind stark verstreut
Schritte zur Berechnung:
Mittelwert berechnen (alle Werte addieren und durch Summe teilen)
Abweichung des echten Wertes von Mittelwert berechnen in Form einer Tabelle
Wert
Abweichung
–2,67
–0,67
+1,33
+3,33
Abweichungen pro Zeile quaddrieren um negative Zaheln zu vermeiden (Beispielergebnis: 21,32)
Varianz errechnen: Summe der quaddrierten Zahlen und durch Gesamtanzahl teilen (Beispielergebnis: 21,32 / 5 = 4,264
Standardabweichung = Wurzel aus Varianz (Beispielergebnis: 2,06
Heißt: Die Standardabweichung misst, wie weit die Werte im Durchschnitt vom Mittelwert entfernt sind – zuerst quadriert (damit es positiv wird), dann wieder zurück „entquadriert“ durch die Wurzel.
BLUE-Annahmen (Gauss-Markov)
Für unverzerrte, effiziente OLS-Schätzer:
Linearität
Zusammenhang zwischen uV und aV muss (annähernd) linear sein.
Sonst keine Übertragbarkeit auf die Grundgesamtheit.
Keine Multikollinearität
uVs dürfen nicht extrem hoch korrelieren (r > 0,9 kritischer Bereich).
Sonst werden Schätzer instabil.
Residuen dürfen nicht miteinander oder mit X korrelieren.
Residuen haben konstante Varianz.
Heteroskedastizität verzerrt Standardfehler → t-Tests unzuverlässig.
Alle relevanten Variablen drin, keine irrelevant oder weggelassen.
→ theoretische Vorbereitung entscheidend.
OLS ist robust gegenüber milden Verletzungen dieser Annahmen, aber nicht gegenüber starken
Kerneinprägsätze
OLS liefert Nettoeffekte unter Kontrolle aller anderen Variablen.
Dummy-Kodierung ist zentral für kategoriale uV.
Adjusted R² ist entscheidend für Modellbewertung.
Standardisierte β nur innerhalb der Stichprobe vergleichbar.
BLUE-Annahmen sichern unverzerrte Schätzungen.
Regression zeigt Zusammenhang, nicht Kausalität.
Logistische Regression
Wird verwendet, wenn die abhängige Variable (aV) binär ist (z. B. 0/1, gewählt/nicht gewählt) und dadurch kein linearer Zusammenhang dargestellt werden kann. Statt einer linearen Regressionsgeraden wird eine nichtlineare Regressionskurve geschätzt – die Logit-Funktion.
Ziel: Schätzung der Wahrscheinlichkeit, dass ein Ereignis eintritt: P(y=1)
Beispiel: Wie wahrscheinlich ist es, dass jemand wählen geht oder rauchen wird
Grundlage ist das Logit, also der logarithmierte Chancenquotient (Odds):
Logit L = a + ß (+ß + ß + …….)* x
Beispiel: Wahlbeteiligung = Konstante + Politisches Interesse + Parteienidentifikation + Alter * Anzahl in Jahren
Voraussetzungen der logistischen Regression
Fallzahl
Mindestfallzahl: 50 Fälle (Backhaus; Fromm). Pro Kategorie der binären aV: mind. 25 Fälle.
Verlässlichere Ergebnisse ab 100 Beobachtungen.
Pro zusätzlicher unabhängiger Variable (uV) sollten +10 Fälle pro Gruppe hinzukommen.
Skalenniveau muss:
aV: binär (dichotom) kodiert.
uV: metrisch oder binär-kategorial (durch Dummy-Kodierung)
Probleme lineare Regression mit dichotomer aV
Wahrscheinlichkeiten größer 1 / kleiner 0
Residuen sind per Definition heteroskedastisch: die Fehler werden größer, je näher sie sich 0,5 annähert
Lineare Modellierung ist nicht angemessen: Extrembereiche werden nicht gut interpretierbar abgebildet
Unterschiede:
Regressionskurve nach -gerade mit typischem s-Verlauf, welche sich zwar den Grenzen 0 und 1 nähert aber sie eben nicht überschreitet
Statt berechnung der minimalisten Abstände werden Wahrscheinlichkeiten iretativ geschätzt
Schätzverfahren: Maximum-Likelihood (ML)
statt OLS, kommt das Maximum-Likelihood-Prinzip (MLP).
= iteratives (Schritt-für-Schritt) Verfahren, das Parameter nach und nach sucht, die die Wahrscheinlichkeit der beobachteten Daten maximieren.
Wird durch ein Statistikprogramm berechnet
Die Zahl der Iterationen (in R: Number of Fisher Scoring iterations) sollte gering sein (<10). Viele Iterationen → Hinweis auf Modellprobleme (Kohler & Kreuter 2017).
Modellgüte der logistischen Regression
Fokus: Hypothesenprüfung, durch:
Devianz (oder -2-Log-Likelihood)
misst die Abweichung des Modells von einem perfekten Modell.
Auf Basis der ML-Schätzung.
Je kleiner die Devianz, desto besser passt das Modell.
Begriffspaare:
0 = Null deviance: Devianz des Modells ohne uV (Nullmodell).
Residual deviance: Devianz des geschätzten Modells.
Ein Iterationsprotokoll entsteht beim Schätzen einer logistischen Regression, weil die Maximum-Likelihood-Schätzung iterativ also in Schritten arbeitet
🧩 Aufbau eines (verinfachten )Iterationsprotokolls:
Iteration
-2 Log Likelihood (Deviance)
Änderung (Δ)
0
120.0
–
110.5
-9.5
105.2
-5.3
100.0
-5.2
0.0
📌 Interpretation Schritt für Schritt
Startwert (Iteration 0)
Das Modell beginnt mit einem groben Schätzwert (oft nur Intercept).
Die Deviance ist hoch (schlechtes Modell).
Iterationen
Mit jeder Iteration wird die Likelihood maximiert → die Deviance sinkt.
Die Änderungen (Δ) zeigen, wie stark sich das Modell verbessert.
Konvergenz bedeutet:
Die Änderungen zwischen zwei Iterationen werden sehr klein (z. B. < 0.001).
Das Modell hat einen stabilen Punkt erreicht, an dem weitere Iterationen keine Verbesserung mehr bringen.
Man sagt: Das Verfahren ist konvergiert.
Falls keine Konvergenz erreicht wird → das Modell ist nicht zuverlässig, die Schätzung ist problematisch.
Das letzte -2LL ist die Modell-Deviance, die du für Gütevergleiche nutzt.
🎓 Modellgüte beurteilen
Vergleich mit Nullmodell:
Das Nullmodell (nur Intercept) hat seine eigene Deviance.
Die Differenz zur Modell-Deviance wird mit einem Chi²-Test geprüft.
Signifikanz:
Wenn die Differenz groß genug ist → Modell ist signifikant besser als das Nullmodell.
Praktische Faustregel:
Je kleiner die End-Deviance, desto besser die Modellgüte.
Aber: Immer im Vergleich zum Nullmodell oder zu anderen Modellen interpretieren.
🧠 Prüfungsstrategie
Wenn du ein Iterationsprotokoll bekommst:
Schau auf die letzte Zeile → das ist die endgültige Modell-Deviance.
Vergleiche mit dem Nullmodell → Differenz = Modellverbesserung.
Beachte die Konvergenz → wenn die Werte stabil sind, ist das Modell gültig.
Ziehe ein Fazit → „Das Modell hat konvergiert, die Deviance ist deutlich kleiner als beim Nullmodell, daher ist die Modellgüte signifikant verbessert.“
Devianz ist fallzahlabhängig → unterschiedliche Modelle nicht direkt vergleichbar.
= Grundlage für Pseudo-R²-Maße
Pseudo R²
klassische R²: Anteil der erklärten Varianz.
In der logistischen Regression funktioniert das nicht direkt, weil wir keine lineare Varianzzerlegung haben. Stattdessen nutzt man
Pseudo-R², da vergleichbare Indikatoren nicht existieren: daher Pseudo-R²-Maße, die auf Veränderungen der Devianz basieren
Nicht mit R² der linearen Regression vergleichen (Urban & Mayerl 2018).
Gängige Maße
Cox & Snell
Funktion: 1 - (Likelihood 0 / Likelihood Voll) ²/n
Nagelkerke → am häufigsten genutzt (SPSS-Standard)
Funktion: cox & Snell - R² / 1 - Likelihood 0 ²/n
McFadden → Standard in Stata
Funktion: 1- (Likelihood voll / Likelihood 0)
Werte zwischen 0 und 1
Höhere Werte → besseres Modell
Werte größer als o,4 selten zu beobachten
Werte zwischen 0,2 - 0,4 = gut
Werte unter 0,2 = Hinweis, dass wichtige Einflussgrößen nicht ausreichend berücksichtigt wurden
ABER: Sie geben nicht den Anteil erklärter Varianz wieder.
Nagelkerkes R² = 0,205
viele Sozialforscher interpretieren dies als akzeptabel.
Interpretation der logistischen Regression
Logit-Koeffizienten: Steigungsparameter ß
= geben an, wie sich die logarithmierte Chance (log-odds) verändert, wenn X um eine Einheit steigt
= Wie wahrscheinlich es ist, dass jemand zur wahl geht, wenn sich x verändert
Wertebereich: −∞ bis +∞
Interpretation nur über Vorzeichen:
Positiv → Wahrscheinlichkeit steigt
Negativ → Wahrscheinlichkeit sinkt
Inhaltlicher Betrag ist schwer interpretierbar → nicht überschätzen!
Odds Ratio (OR) (Chancenverhältnisse)
= exponierter Koeffizient (OR) = e^ß
Wertebereich: 0 bis +∞
OR < 1 → Chance sinkt (negative Effekt)
OR = 1 → Chance bleibt gleich
OR > 1 → Chance steigt (positiver Effekt)
Warnung:
OR wirken oft größer, als sie sind.
Best & Wolf (2010): empfehlen, OR nicht zur Effektstärkemessung zu verwenden.
Empfehlung: Vorzeichen der β-Koeffizienten interpretieren.
Wahrscheinlichkeitsinterpretation
Um von einer Logit-Chance zu einer tatsächlichen Wahrscheinlichkeit zu kommen benötigen wir folgende Formel:
P = e^Logit / 1 + e^Logit
Beispiel: 50 Jährige Person ohne politisches Interesse ( mit 0 kodiert, daher nicht in Formel aufgeführt) mit geringer Bildung (Zahlen lt. Tabelle im Reader)
Logit L = Konstante -1,99 + 50 Jahre * 0,03 = -0,49
P = 2,718^(-0,49) / 1+ 2,718^(-0,49) ≈ 0,38
→ 38 % Wahrscheinlichkeit einer Wahlteilnahme.
Beispiel 2: 50 Jährige Person mit starkem pol. Interesse und hoher Bildung
Logit L = 1,99 + 50'*0,03 + 2,04 + 1,94 = 3,49
P = e^3,49 / 1+ e^3,49 = 0,97
→ 97 % Wahrscheinlichkeit einer Wahlteilnahme.
Fazit: Die logistische Regression:
modelliert Wahrscheinlichkeiten bei binärer aV
nutzt Maximum-Likelihood statt OLS
braucht Pseudo-R² statt R²
wird über Devianz, Odds Ratio und Wahrscheinlichkeiten interpretiert
erfordert besondere Vorsicht bei Interpretation der Koeffizienten
Darstellung in R
neuer Datensatz <- glm( variable ~ koeffizient + koeffizient…, family = binomial (link = logit), Datensatz)
Beispiel: m.wahl1 <- glm( wahl ~ mann + alter + bildung + polint.ja + stfdem, family = binomial (link=logit), ess9_de_m1)
Ausgabe mit: summary(m.wahl1)
PseudoR²
PseudoR2(Datensatz, c(“McFadden”, “CosSnell”, “Nagelkerke”)
PseudoR2(Datensastz, c(“all)
Regressionskoeffizienten und Odds Ratios
Koeffizienten:coef(m_wahl1)
coef(m_wahl1)
Odds: exp(coef(m_wahl1))
exp(coef(m_wahl1))
Schöne Regressionstabellen
Mit sjPlot:tab_model():
sjPlot:tab_model()
transform = NULL: zeigt Logit-Koeffizienten statt Odds Ratio
transform = NULL
show.ci = FALSE: unterdrückt Konfidenzintervalle
show.ci = FALSE
Standardmäßig: Fallzahl + Pseudo-R² nach Tjur.
Grafische Darstellung
Mit plot_model() aus sjPlot:
plot_model()
Darstellung geschätzter Wahrscheinlichkeiten
Sehr intuitive Interpretationshilfe
befasst sich mit dem Rückschluss von Ergebnissen aus Zufallsstichproben auf unbekannte Parameter der Grundgesamtheit und ist zentral für das Verständnis sozialwissenschaftlicher Forschung.
Grundidee der Inferenzstatistik
Ziel: Übertragung von Stichprobenergebnissen auf die Grundgesamtheit
Ausgangspunkt: Empirische Forschung arbeitet meist mit Zufallsstichproben, nicht mit Vollerhebungen aus:
zeitlich, finanziellen, forschungspraktischen Gründen
Stichprobe = Hilfsmittel, um Aussagen über die eigentlich interessierende Grundgesamtheit zu treffen
Bedeutung der Inferenzstatistik
Ermöglicht fundierte Rückschlüsse von Stichproben auf Grundgesamtheiten
Liefert Grundlage für:
Konfidenzintervalle
Hypothesentests (z.B. t-Test)
Zentrales Werkzeug zur Bewertung von Unsicherheit empirischer Ergebnisse
Zentrale Probleme:
tatsächlicher Wert der Grundgesamtheit ist unbekannt
kein Wissen darüber, ob gezogene Stichprobe gut oder schlecht ist
Resultat:
Stichprobenfehler = Differenz zwischen Stichprobenkennwert und wahrem Wert der Grundgesamtheit
Stichproben weichen immer (mehr oder weniger) vom tatsächlichen Wert der Grundgesamtheit ab
Abweichungen dabei können:
unterschiedlich groß sein
sowohl Unter- als auch Überschätzungen darstellen
Herausforderungen bei der Arbeit mit Zufallsstichproben:
Ergebnisse einer Zufallsstichprobe weichen immer vom tatsächlichen Wert der Grundgesamtheit ab (= Stichprobemfehler)
keine Beurteilung möglich, ob die Abweichung hoch oder niedrig ist, da wir den tatsächlichen Wert der Grundgesamtheit nicht kennen
Viele Stichproben bieten eine bessere Schätzung des Mittelwertes der Grundgesamtheit als der Mittelwert einer Schätzung, welche aber typisch für die Arbeit in sen SW ist
Mittelwerte vieler Stichproben streuen ummer um den tatsächlichen Mittelwert der Grundgesamtheit, dabei kann ein Mittelwert einer einzelnen Stichprobe deutlich vom tatsächlichen Mittelwert der Grundgesamtheit abweichen.
Zentrale Konzepte der Inferenzstatistik
Die Inferenzstatistik nutzt zwei Schlüsselkonzepte, um die Herausforderungen zur Schätzung zu umgehen
Zentraler Grenzwertsatz (ZGS)
= Aussagen über die Verteilung von Stichprobenkennwerten (Mittel- und Anteilswerten), welche “normal” um den tatsächlichen Wert der Grundgesamtheit liegen, vorausgesetzt, die jeweilige Stichproben sind ausreichend groß (n > 30)
Standardfehler
Stichprobenverteilung (Sampling Distribution)
= Theoretische Verteilung aller möglichen Stichprobenkennwerte, wenn man die Stichproben unendlich oft ziehen würde
Erwartungswert = Mittelwert unendlich vieler Stichprobenmittelwerte (wahrer Wert der Grundgesamtheit)
Normalverteilung: Streuung der Stichprobenkennwerte ist normalverteilt (bei n ≥ 30)
Symmetrisch (Glockenkurve)
Mittelwert = Median = Modus (immer in der Mitte)
Streuung wird durch Standardabweichung beschrieben
= beschreibendes Maß, wie stark Einzelpersonen (-werte) um den Mittelwert streuen
erlaubt Aussagen über die Streuung eines Merkmals in der Grundgesamtheit/ Stichprobe
Faustregeln:
±1 SD: ca. 68 % der Werte
±2 SD: ca. 95,5 % der Werte
±3 SD: ca. 99,7 % der Werte
Mittleres Alter = 50 Jahre
Standardabweichung = 20 Jahre
➡️ 68 % der Personen sind zwischen:
30 und 70 Jahren (± 1 SD)
➡️ 95,5 % der Personen sind zwischen:
10 und 90 Jahren (± 2 SD)
Heißt: 95,5 % der möglichen Stichprobenmittelwerte liegen innerhalb von ±2 Standardfehlern um den wahren Mittelwert der Grundgesamtheit.
In der Praxis meist nur eine Stichprobe
Stichprobenverteilung ist ein theoretisches Konstrukt
Standardfehler (SE)
Maß für die Genauigkeit einer Schätzung, wie stark Stichprobenmittelwerte um den wahren Mittelwert der Grundgesamtheit streuen
= durchschnittliche Streuung von Stichprobenkennwerten um den wahren Wert
Großer SE → ungenaue Schätzung
Kleiner SE → präzise Schätzung
➡️ Abhängig von:
Varianz des Merkmals
Stichprobengröße (n)
Formel Standardfehler für Mittelwerte
σ̂ = s* / √n
s* = korrigierte Standardabweichung der Stichprobe
n = Stichprobengröße
Beispiel: Tabelle zeigt Minuten von interviewdauer an: Mittelwertes der Stichprobe von 78,70 min, Fallzahl von 2347 Personen und korrigierte Standardabweichung von 23,18 min
SE Mittelwert = 23,18 / Wurzel aus 2347
= 23,18 / 48,45
= 0,48 Minuten
➡️ Größeres n → kleinerer Standardfehler
Formel für Anteilswerte:
σ̂ = √[ p · (1 − p) / n ]
p = Anteil in der Stichprobe
Variable: Parteipräferenz → nominal
Gesucht: Anteil der CDU/CSU-Wähler in der Grundgesamtheit 1250 Wählenden
Ablesen aus Säulendiagramm: exemplarisch p = 0,38
Formel:
Standardfehler P = Wurzel aus (0,38 * 0,62) / 1250
= Wurzel aus 0,0001885
= 0,0137 -> SE = 0,014
➡️ bedeutet, dass der in der Stichprobe gemessene Stimmenanteil der CDU/CSU im Durchschnitt um etwa 1,4 Prozentpunkte vom tatsächlichen Stimmenanteil in der Grundgesamtheit abweicht.
Standardfehler bei Stichproben ohne Zurücklegen (Endlichkeitskorrektur)
Korrekturfaktor: (N − n) / (N − 1)
Wird mit dem Standardfehler multipliziert
In der Praxis meist vernachlässigbar, wenn:
Grundgesamtheit ≥ 20 × Stichprobe
➡️ In sozialwissenschaftlichen Umfragen fast immer erfüllt
Voraussetzungen für die Berechnung des Standardfehlers
Berücksichtigung von Fehlerquellen: Total Survey Error
Einfache Zufallsstichprobe
jede Person hat gleiche Chance in Stichprobe aufgenommen zu werden → Standardfehler korrekt.
Komplexe Stichproben (z.B. mehrstufig, Random-Route): Standardfehler größer, KIs breiter.
Willkürliche Stichprobe (Convenience Sample): Standardfehler/KIs nicht berechenbar.
Abdeckungsfehler (Coverage Error) berücksichtigen
Overcoverage = Menge an Untersuchungsobjekten, die in die Stichprobe gelangt sind, aber eig. gar nicht zur Grundgesamtheit gehören
z.B. Personen jünger als 18 Jahre
Undercoverage: Untersuchungsobjekte, die eig. eine Chance haben sollten in der Stichprobe zu sein, aber faktisch nicht ausgewählt werden können
z.B. Online-Erhebung fehlender Internetzugang
Folgen: größere Standardfehler, unsichere Schätzungen, mögliche Verzerrungen
Nonresponse berücksichtigen
Arten:
Unit-Nonresponse: komplette Ausfälle = keien Informationen zu einer Person
Item-Nonresponse: Teilweise fehlende Antworten, Person nimmt an Befragung teilt, beantwortet aber einzelne Fragen nicht
Folgen: größere Standardfehler, breitere Konfidenzintervalle, Verzerrungen bei selektiven Ausfällen
Lösungen: Gewichtungsverfahren, multiple Imputation
Standardabweichung vs. Standardfehler
Streuung der Merkmalswerte (z. B. Alter, Interviewdauer) in Stichprobe oder Grundgesamtheit
Deskriptives Maß
Beschreibt Heterogenität der Beobachtungen
Kaum abhängig von der Stichprobengröße
Streuung von Schätzwerten (Mittel- oder Anteilswerten) von Stichprobe zu Stichprobe
Inferenzstatistisches Maß
Misst die Genauigkeit / Unsicherheit einer Schätzung
Stark abhängig von der Stichprobengröße → größeres n ⇒ kleinerer Standardfehler
Bei Anteilswerten:
p≈0,5 ⇒ größter Standardfehler p≈0 oder 1p \approx 0 \text{ oder } 1p≈0 oder 1 ⇒ kleiner Standardfehler
Grundlage für Konfidenzintervalle
heißt:
Standardabweichung beschreibt die Streuung der Daten
Standardfehler die Unsicherheit der Schätzung.
Zusammengefasst: Inferenzstatistik ermöglicht Rückschlüsse von Stichproben auf Grundgesamtheiten, indem sie Stichprobenkennwerte (z.B. Mittelwert/ Anteilwert) schätzt und mit dem Standardfehler die Genauigkeit dieser Schätzung quantifiziert, also wie genau bzw. wie unsicher diese Schätzung ist.
Schätzungsarten
In der Inferenzstatistik werden unbekannte Parameter der Grundgesamtheit (z.B. Mittelwerte oder Anteilswerte) mithilfe von Stichprobendaten geschätzt. Dabei wird zwischen Punktschätzung und Intervallschätzung unterschieden.
Punktschätzung: Ein einzelner Wert schätzt den unbekannten Parameter der Grundgesamtheit
Intervallschätzung: Ein Wertebereich (Intervall) gibt an, wo der wahre Parameter mit bestimmter Sicherheit vermutet wird
Kriterien einer „guten“ Schätzung (nach Fisher)
Ein Schätzer gilt als gut, wenn er folgende Eigenschaften erfüllt:
a) Erwartungstreue (Unverzerrtheit)
Der Schätzer trifft im Mittel den wahren Wert der Grundgesamtheit
Bei unendlich vielen Stichproben entspricht der Mittelwert der Schätzungen dem wahren Parameter
b) Effizienz
Maß für die Präzision einer Schätzung
Je kleiner der Standardfehler, desto effizienter der Schätzer
c) Konsistenz
Mit wachsender Stichprobengröße nähert sich der Schätzer dem wahren Wert an
Abweichung zwischen Schätzung und Populationsparameter wird kleiner
d) Suffizienz
Der Schätzer nutzt alle relevanten Informationen der Stichprobe
Punktschätzung
Schätzung eines unbekannten Parameters durch einen Stichprobenkennwert
Typische Beispiele:
Mittelwert der Stichprobe → Mittelwert der Grundgesamtheit
Anteilswert der Stichprobe → Anteilswert der Grundgesamtheit (z.B. Sonntagsfrage)
Vorteil: einfach, anschaulich
Nachteil: Stichprobenfehler wird nicht sichtbar gemacht
Schätzer für Mittelwerte
Wahrer Mittelwert der Grundgesamtheit: µ
Punktschätzer: µ̂ = x̄ (Mittelwert der Stichprobe)
Formel: µ̂ = x̄ = (1/n) · Σ xᵢ
Der Stichprobenmittelwert ist ein:
erwartungstreuer
effizienter
konsistenter Schätzer für µ
Schätzer für Anteilswerte
Wahrer Anteilswert der Grundgesamtheit: θ
Punktschätzer: θ̂ = p (Anteilswert der Stichprobe)
Typische Anwendung: Wahl- und Meinungsumfragen
Auch p ist ein erwartungstreuer und konsistenter Schätzer
Schätzer für Varianz und Standardabweichung
Empirische Varianz (s²) und Standardabweichung (s):
unterschätzen systematisch die Streuung der Grundgesamtheit
Korrigierte Varianz und Standabweichung:
s*² bzw. s*
Division durch (n − 1) statt durch n
➡️ Korrigierte Varianz/Standardabweichung = erwartungstreuer Schätzer der Populationsstreuung
> Intervallschätzung
Gibt einen Bereich an, in dem der wahre Parameter der Grundgesamtheit liegt
Dieser Bereich heißt Konfidenzintervall (Vertrauensintervall)
Vorteil: macht die Unsicherheit der Schätzung sichtbar
Basieren auf:
Zentralem Grenzwertsatz
Der wahre Parameter liegt mit einer bestimmten Wahrscheinlichkeit im Intervall
Formel: Egal ob Mittelwert oder Anteilswert:
Konfidenzintervall = Schätzwert ± Sicherheitsfaktor · Standardfehler
KI = Schätzer +- z * SE
z-Wert Konfidenzintervalle:
95 %-KI: ± 1,96 · Standardfehler
99 %-KI: ± 2,58 · Standardfehler
99,9 %-KI: ± 3,29 · Standardfehler
Konfidenzintervalle für Mittelwerte
= beschreibt die Streuung der Stichprobenmittelwerte
benötigt werden:
Stichprobenmittelwert xˉ
Standardfehler des Mittelwertes
SE xˉ = korrigierte Standardabweichung s* / Wurzel aus n
Formel: Stichprobenmittelwert xˉ +- z-Wert * SExˉ
Beispiel: n = 3467, MW einer Altersvariable ist 49,02 Jahre und der Standardfehler ist mit 17,55 angegeben, mit 95% KI:
SExˉ = 17,55 / Wurzel aus 3467 = 0,298
KI = 49,02 +- 1,96 * 0,298
= 49,02 +- 0,58
= untere Grenze: 48,44 Jahre
= obere Grenze: 49,60 Jahre
Mit einer Sicherheit von 95 % enthält das Konfidenzintervall den wahren Wert der Grundgesamtheit.
Für unsere Stichprobe liegt das Intervall zwischen 48,44 und 49,60 Jahren.“
„Bei einer Irrtumswahrscheinlichkeit von 5 % enthält das Konfidenzintervall den wahren Wert der Grundgesamtheit
Konfidenzintervalle für Anteilswerte
= Streuung der geschätzten Anteile von Stichprobe zu Stichprobe
größte Unsicherheit bei p = 0,5
Anteilswert p
Standardfehler des Anteilswertes
SEp = Wurzel aus (p*(1-p) / n)
Beispiel: Wurzel aus (0,4 * (1- 0,4) / 1000 Befragte
= Wurzel aus 0,4 * 0,6 / 1000
= 0,015
Formel: KIp = p +- z-Wert * SEp
Beispiel: Anteilswert der Tigerpartei: 0,4, Standardfehler des Anteils 0,015 bei KI 95%
0,4 +- (1,96 * 0,015)
= 0,4 +- 0,029
Untere Grenze = 0,371
Obere Grenze = 0,429
Mit einer Sicherheit von 95 % liegt der Wahre Anteil der Tigerpartei in der Grundgesamtheit zwischen 37,1 % und 42,9 %
Mit einer Irrtumswahrscheinlichkeit von 5% beinhaltet das KI den tatsächlichen Wert der Grundgesamtheit, der zwischen 37,1 % bis 42,9 % liegt.
Bedeutung für die Forschungspraxis
Punktschätzung: liefert einen konkreten Schätzwert Punktschätzung sagt: wo der Wert liegt
Intervallschätzung: zeigt die statistische Unsicherheit Intervallschätzung sagt: wie sicher wir uns sind
Konfidenzintervalle verhindern Überinterpretation kleiner Unterschiede (z.B. in Umfragen)
Standardfehler bestimmt die Breite des Konfidenzintervalls
Konfidenzintervalle lassen sich nicht nur zur Angabe der Unsicherheit von Stichprobenwerten nutzen, sondern auch, um vor der Erhebung die erforderliche Stichprobengröße zu berechnen.
Berechnung der benötigten Fallzahl
Ziel: Bestimmung der Stichprobengröße n, um einen Populationsanteil p mit vorgegebenem Konfidenzniveau und Stichprobenfehler abzuschätzen.
Formel bei großer Grundgesamtheit:
n = (Konfidenzniveau * Wurzel aus p *(1-p) / Stichprobenfehler) ²
Konfidenzniveau: z.B. 1,96 (95 %) oder 2,58 (99 %)
p = vermuteter Anteilswert des Merkmals (0–1)
Stichprobenfehler: z.B. ±3 % oder ±5 %
95 %-Konfidenz, ±3 % Stichprobenfehler, p=0,5, Grundgesamtheit = wahlberechtigte Bevölkerung
n = (1,96 * Wurzel aus (0,5 * 0,5) / 0,03) ²
= 1067 Befragte werden für eine +- Genauigkeit benötigt
Statistische Signifikanz
Signifikanztests sind zentrale Verfahren der quantitativen Sozialforschung
Ziel: Hypothesen prüfen
Reminder –
Hypothesen = Begründete, falsifizierbare Aussagen über Zusammenhänge zwischen mind. 2 Merkmalen, die sich auf eine Grundgesamtheit beziehen.
👉 Da die Grundgesamtheit nicht vollständig beobachtbar ist, erfolgt die Prüfung über Zufallsstichproben, die immer Stichprobenfehler enthalten.
Wichtige Unterscheidung
Signifikanz allgemein: Bedeutsamkeit / Wichtigkeit eines Merkmals
Statistische Signifikanz: → Wie wahrscheinlich ist es, dass ein Ergebnis zufällig entstanden ist?
❗ Wichtig: Statistische Signifikanz ≠ Stärke, Relevanz oder inhaltliche Bedeutung eines Effekts.
➡️ Ein Ergebnis ist signifikant, wenn die Wahrscheinlichkeit gering ist, dass es nur zufallsbedingt zustande kam.
Grundidee von Signifikanztests
Prüfen, ob ein Unterschied oder Zusammenhang zwischen zwei Merkmalen
zufällig ist oder
mit hoher Wahrscheinlichkeit auch in der Grundgesamtheit existiert
Ergebnis ist signifikant → Übertragbarkeit auf die Grundgesamtheit (mit Irrtumswahrscheinlichkeit)
Untersuchungsformen
Experiment
Zufällige Zuweisung zu Experimental- und Kontrollgruppe
Manipulation durch ein Treatment
Vergleich der Mittelwerte beider Gruppen
Nicht-experimentell (z. B. ALLBUS, ESS)
Rückschluss von einer Zufallsstichprobe auf eine unbekannte Grundgesamtheit
Man kann Signifikanzen:
Schätzen
Stichprobenwert → unbekannter Parameter der Grundgesamtheit
z.B Konfidenzintervalle
Testen
Prüfung einer Hypothese über die Grundgesamtheit durch die Nullhypothese (H₀)
t-Test: Mittelwertvergleiche
Chi²-Test: Abweichung beobachteter von erwarteten Häufigkeiten (Zusammenhänge nominaler Variablen)
F-Test: Prüfung Gesamtgüte eines Regressionsmodells
Signifikanztests – allgemeines Prinzip
Berechnung einer empirischen Prüfgröße (z. B. t)
Vergleich mit einem theoretischen kritischen Wert
aus einer Wahrscheinlichkeitsverteilung:
Normal-Verteilung
t-Verteilung
Chi²-Verteilung
F-Verteilung
Empirischer Wert > kritischer Wert → signifikant
Signifikanzniveaus & p-Werte
Signifikanzniveau (α)
Maximal erlaubte Irrtumswahrscheinlichkeit beim Verwerfen von H₀
Niveau
Bedeutung
p < 0,05 = 5%
* signifikant
p < 0,01 = 1%
** hoch signifikant
p < 0,001 = 0,1%
*** höchst signifikant
p-Wert
Wahrscheinlichkeit, den beobachteten (oder extremeren) Effekt zu erhalten, wenn H₀ gilt
= Wie wahrscheinlich ist es, dass der beobachtete Effekt rein zufällig entstanden ist?
kleiner p-Wert → Ergebnis wahrscheinlich nicht zufällig
= Der gefundene Einfluss ist wahrscheinlich nicht zufällig und kann (mit Irrtumswahrscheinlichkeit) auf die Grundgesamtheit übertragen werden
Entscheidungsregel
p < α → H₀ verwerfen, H₁ vorläufig akzeptieren
p ≥ α → H₀ beibehalten, H₁ verwerfen
Vier Schritte eines allgemeinen Signifikanztests
1️⃣ Hypothesen formulieren
Forschungshypothese (H₁): z. B.: Lebenszufriedenheit unterscheidet sich zwischen Männern und Frauen
Nullhypothese (H₀): kein Unterschied / kein Zusammenhang z.B. Kein Unterschied in der Lebenszufriedenheit zwischen Männern und Frauen
Getestet wird immer H₀
Hypothesenpaar: H1 vs. H0
Ungerichtet (zweiseitig): keine Richtung
Gerichtet (einseitig): Richtung explizit festgelegt
2️⃣ Geeignete Teststatistik wählen
Abhängig von:
Art der Stichprobe
Abhängige Stichproben:
gleiche Personen mehrfach befragt (z. B. Panel)
logisch verbundene Paare (z. B. Ehepartner, Eltern–Kind)
Unabhängige Stichproben:
keine Beziehung zwischen den Personen
typische Umfragen (ALLBUS, ESS)
Datenstruktur der Varianzen
Varianz = Streuung der Werte um den Mittelwert
Große Varianz → Werte stark verteilt
Kleine Varianz → Werte liegen eng beieinander
Varianzhomogenität: Streuung ist in beiden zu vergleichenden Gruppen (ungefähr) gleich
(nur bei unabhängigen Stichproben)
Varianzen unterscheiden sich nicht signifikant
Nullhypothese: Varianzen sind gleich
Annahme vieler klassischer t-Tests
Varianzheterogenität: Varianzen der zu vergleichenden Gruppen unterscheiden sich deutlich
= Eine Gruppe streut viel stärker als die andere
Klassischer t-Test wäre problematisch
t-Test für ungleiche Varianzen verwenden
Frauen: Varianz = 0,8
Männer: Varianz = 4,5 → sehr unterschiedlich → heterogen
Viele klassische Signifikanztests setzen Varianzhomogenität voraus, z. B.:
Prüfung in R/ SPSS automatisch ausgegeben:
z. B. Levene-Test oder Bartlett-Tes
Formel in R aus dem car-Paket: leveneTest(abhängige Variable ~ Gruppierungsvariable, Datensatz, + center = mean)
Levene-Test auf Basis der Abweichungen vom arithmetischen Mittel (Standardvariante)
leveneTest(stflife ~ mann, ess9de_m1, center = mean)
leveneTest(stfdem ~ polint.ja, ess9de_m1, center = mean)
Ergebnis: Nullhypothese: Varianzen sind gleich (Varianzhomogenität)
Signifikantes Ergebnis (p < 0,05):
Varianzhomogenität wird verworfen
→ Varianzheterogenität annehmen
3️⃣ Signifikanzniveau festlegen
Konservatives Vorgehen P = 0,05 / 0,01
p < α → H0 verwerfen, H1 vorläufig akzeptieren
p ≥ α → H0 beibehalten
4️⃣ Teststatistik berechnen & Entscheidung treffen
Wichtigsten Testverfahren
T-Tests
Grundlogik:
Prüft, ob sich Mittelwerte der Kontroll/ ExperimentalGruppe zufällig unterscheiden
Keine Aussage über inhaltliche Bedeutsamkeit
einfache Zufallsstichproben
(Pseudo-)metrische Variablen
Merkmale in der Grundgesamtheit normal verteilt
z.B. durch Lilifors-Test
Fallzahl ca. ≥ 30
Bei unabhängigen Stichproben: Varianzhomogenität
t-Verteilung (William Sealy Gosset („Student“, 1908)
ist eine theoretische Verteilung der Prüfgröße t und wird für Signifikanztests (z. B. t-Test) benötigt. Sog. Freiheitsgrade (df) sind ein Parameter der t-Verteilung und bestimmen Form und Streuung der Verteilung
👉 Für jede Anzahl von Freiheitsgraden gibt es eine eigene t-Verteilung.
Wenige Freiheitsgrade:
t-Verteilung ist flacher
hat breitere Enden
höhere kritische t-Werte
Viele Freiheitsgrade:
t-Verteilung nähert sich der Standardnormalverteilung
ab ca. df ≥ 30 kaum noch Unterschied sichtbar
bei df → ∞ identisch mit der Normalverteilung
Ab df ≈ 30 kaum Unterschied
Freiheitsgrade (degrees of freedom df)
= Anzahl der Werte, die frei variieren können, ohne ein statistisches Ergebnis zu verändern
Bestimmen Form der t-Verteilung
Beispiel Mittelwert: bei 3 Werten sind 2 frei
Auswahl des passenden Signifikanztests
Einseitig: gerichtete Hypothese „Frauen haben höhere Lebenszufriedenheit als Männer“
Zweiseitig: ungerichtete Hypothese „Lebenszufriedenheit unterscheidet sich zwischen Männern und Frauen“
Beispiele
Variablen: Erhebungsort: Alte Bundesländer, neue Bundesländer und Lebenszufriedenheit (ps
eudometrische Skala von 0 - 10)
Schritt 1: Komplementäre Hypothesen formulieren
H0 = kein signifikanter Unterschied zwischen den Mittelwerten der Lebenszufriedenheiten zwischen Ost- und Westdeutschland
H1 = signifikanter Unterschied zwischen den Mittelwerten der Lebenszufriedenheiten zwischen Ost- und Westdeutschland
Schritt 2: Berechnung der Prüfgröße T
Stichprobenumfang:
Westdeutschland: n1 = 20
Ostdeutschland n2 = 10
Mittelwert
West x1 = 7,9
Ost x2 = 7,4
Korrigierte Varianz
West Si² = 2,5
West Sj² = 3,5
Formel: Mittelwert 1 - Mittelwert 2 / Wurzel aus Bruch
(n1 - 1) * korrigierte Varianz1 + (n2 -1) * korr. Var. 2
n1 + n2 - 2
(1/ n1 + 1/n2)
Mit Zahlen:
7,9 - 7,4 (Mittelwert 1 - Mittelwert 2)
= 0,5 (Ergebnis oberer Nenner)
(20 - 1) * 2,5 + (10 - 1) * 3,5 / 20 + 10 - 2
= 47,5 * 31,5 / 28
=2,82
2,82 * (1/ 20 + 1/10)
2,82 * 0,15
= 0,423
Wurzel aus 0,423
= 0,650 (Ergebnis unterer Nenner)
0,5 / 0,650
Prüfgröße T = 0,769
Schritt 3: Bestimmung des kritischen t-Werts
Signifikanzniveau = 5% = 0,05 (üblicher Wert)
Freiheitsgrade df = n1 + n2 - 2 = 28
Tabelle zeigt Anzahl an t-tests, relevant ist Ergebnis der df:
0,05 = 2,048
0,01 = 2,763
= kritischer T-Wert
Schritt 4: Interpretation
Vergleich:
Tkrit = 2,048
= Prüfgröße T < T krit
= H0 wird angenommen, H1 verworfen
= kein signifikanter Unterschied zwischen den Mittelwerten der Lebenszufriedenheiten zwischen Ost- und Westdeutschland
Beispiel Berechnung t-Test bei unabhängiger Stichprobe mit heterogener Varianz
Variablen: Frauen, Männer und Zufriedenheit mider Demokratie 0 - 10
H0: Die Zufriedenheit mit der Demokratie unterscheidet sich nicht zwischen den Geschlechtern
H1: Die Zufriedenheit mit der Demokratie unterscheidet sich zwischen den Geschlechtern
2- Seitiger Hypothesentest mit Signifikanzn. 0,05
Stichprobengröße:
Frauen n1 = 30
Männer n2 = 20
Arith. Mittel:
Frauen x1 = 7,0
Männer x2 = 6,8
Korrigierte Varianz:
Frauen s1 = 2,0
Männer s2 = 1,0
Formel: x1 - x2 / Wurzel aus (s1 /n1) + (s2 / n2)
7,0 - 6,8
= 0,2 (Ergebnis oberer Nenner)
2/30 + 1/ 20
= 7/60
Wurzel aus 7/60 ziehen
= 0,34 (Ergebnis unterer Nenner)
0,2 / 0,34 = 0,59
Prüfgröße T = 0,59
auch: empirischer t-Wert
Freiheitsgrad df:
oberer Nenner: (s1/ n1 + s2 / n2)²
unterer Nenner: 1/ n1 - 1 * (s1 / n1)² + 1/ n2-1 * (s2 / n2)²
= 47,79
Immer abrunden: df = 40
Tabelle ablesen: 2,021
Tkrit = 2,021
Die Zufriedenheit mit der Demokratie unterscheidet sich nicht zwischen den Geschlechtern
Aber: Statistische Tests garantieren keine fehlerfreien Entscheidungen
Fehlerarten bei Hypothesentests
Hypothesentests treffen auf Basis einer Stichprobe eine Entscheidung über Aussagen zur Grundgesamtheit. Da Stichproben zufällige Stichprobenfehler enthalten, sind Fehlentscheidungen möglich.
Realität
Entscheidung
Ergebnis
H₀ gilt
H₀ beibehalten
H₀ verwerfen
❌ α-Fehler
H₁ gilt
H₁ annehmen
❌ β-Fehler
Alpha-Fehler (Fehler 1. Art)
Falsch positiv
Wahrscheinlichkeit = α (z. B. 5 %)
Beta-Fehler (Fehler 2. Art)
Falsch negativ
Effektgröße
Stichprobengröße
❗ Trade-off: Alpha und Beta stehen in einem gegenläufigen Verhältnis
Strengere Tests ↓ α-Fehler, ↑ β-Fehler
Forschungspraxis: Effektstärken oft nicht präzise spezifiziert -> Fokus liegt meist auf dem α-Fehler
🔑 Merksätze
Statistisch signifikant ≠ inhaltlich bedeutsam
Signifikanztests liefern keine sicheren Wahrheiten
Ergebnisse immer inhaltlich interpretieren
Last changed2 days ago