Klassifikation von Variablen
Eine Variable ist ein sozialwissenschaftliches Merkmal, das mindestens zwei Ausprägungen hat.
Beispiele: Geschlecht, Schulabschluss, politisches Interesse
Klassifikationskriterien
Skalenniveau: bestimmt, welche statistischen Verfahren zulässig sind.
Viele Verfahren (z. B. Regressionsanalysen) setzen metrisches oder pseudometrisches Skalenniveau voraus.
Je höher das Skalenniveau, desto leistungsfähiger und interpretierbarer sind die möglichen Analyseverfahren.
Diskrete vs. stetige Variablen
Dichotome vs. polytome Variablen
Manifeste vs. latente Variablen
Wichtig: Eine gute Analyse beginnt mit der richtigen Einordnung der Variablen —denn das Skalenniveau entscheidet, was du rechnen und interpretieren darfst.
Skalenniveaus nach Stevens (1946)
Skalenniveau
Beispiel
Zulässige Operationen
Merkmale
Nominalskala
Geschlecht, Religion
Auszählen
Nur Gleichheit/Ungleichheit unterscheidbar, keine Rangfolge, Zahlen sind bloße Bezeichnungen
Ordinalskala
Schulabschluss, politisches Interesse
Auszählen, Ordnen
Rangordnung möglich, Abstände zwischen Rängen nicht gleich
Intervallskala
Temperatur (°C)
Auszählen, Ordnen, Differenzen bilden
Gleiche Abstände interpretierbar, aber kein natürlicher Nullpunkt
Ratioskala
Einkommen, Alter, Temperatur (K)
Auszählen, Ordnen, Differenzen und Verhältnisse bilden
Natürlicher Nullpunkt, Verhältnisbildung möglich („doppelt so groß“)
Wichtig:
Je höher das Skalenniveau, desto mehr Rechenoperationen und Analyseverfahren sind zulässig.
Pseudometrische Variablen: Ordinale Variablen mit mindestens fünf geordneten Ausprägungen, die wie metrische Variablen behandelt werden,wenn gleiche Abstände zwischen den Ausprägungen angenommen werden können.
Beispiel: Zustimmungsskalen („stimme gar nicht zu“ bis „stimme voll zu“)
Diskrete und stetige Variablen
Diskrete Variable: Endliche oder abzählbar viele Ausprägungen, keine Zwischenwerte möglich
Beispiel: Familienstand, Kinderzahl, Anzahl der Fachsemester
Stetige Variable: Unendlich viele Ausprägungen, Zwischenwerte möglich
Beispiel: Größe, Einkommen, Zeitangaben
Dichotome und polytome Variable
Dichotom: Nur 2 mögliche Ausprägungen
z.B. Wahlbeteiligung (Ja/ Nein), Tabakkonsum (Raucher/ Nichtraucher)
📌 Dichotome Variablen sind Sonderformen diskreter Variablen.
Polytom: Mehr als 2 Ausprägungen
z.B. Religionszugehörigkeit mit mehreren Kategorien
Manifeste und latente Variablen
Manifeste Variable: direkt beobachtbar (z.B. Haarfarbe)
Latente Variable: Nicht direkt beobachtbar (z.B. Intelligenz)
🔍 Wichtiges Instrument: Operationalisierung: Prozess, bei dem latente Variablen in messbare Indikatoren übersetzt werden (z. B. durch Fragen im Fragebogen
Standardisierung von Variablen bei Univariaten Datenanalysen
(z-Transformation)
In der Forschung liegen Variablen oft in unterschiedlichen Skalierungen oder Verteilungen vor (z. B. 0–10 vs. 1–7 Skala). Dadurch lassen sich Messwerte nicht direkt vergleichen.Die Lösung: z-Transformation (Standardisierung).
Situation: Messwerte können unterschiedliche Messeinheiten, Skalen oder Streuung haben.
Beispiel: Lisa (45 Pkte) und Bart (60 Pkte) schrieben unterschiedliche Tests → andere Mittelwerte, andere Standardabweichungen → direkte Vergleichbarkeit nicht möglich.
Lösung: Werte aus verschiedenen Verteilungen vergleichbar machen. Standardisierung bringt Werte auf eine gemeinsame Skala:
Mittelwert = 0
Standardabweichung = 1
Beispiel:
Person
(x_i)
(\bar{x})
(s_x)
Lisa
45
25
10
Bart
60
50
Schritte der Berechnung
Der z-Wert gibt an, wie viele Standardabweichungen ein Wert über oder unter dem Mittelwert liegt.
Zentrierung
(xi−xˉ) | Angegebene Wert jeder Person minus arithmetische Mittel
Beispiel Lisa: 45-25
Beispiel Bart: 60-50
Heißt: Verschiebt die Verteilung so, dass der Mittelwert 0 wird.
Werte unterhalb des Mittels → negativ, Werte oberhalb → positiv.
Normierung
Ergebnis durch Division durch die Standardabweichung: xi−xˉ / Sx (Standardabw.)
Beispiel Lisa: 45 - 25 / 10 = 2
Beispiel Bart: 60 - 50 / 25 = 0,4
Skaliert so um, dass die neue Standardabweichung 1 beträgt = Streckung/Stauchung der Verteilung.
Interpretation
Positiver z-Wert: Leistung über dem Durchschnitt
Negativer z-Wert: Leistung unter dem Durchschnitt
Betrag des z-Werts:
Klein → nahe am Mittelwert (typisch)
Groß → ungewöhnlich (potenzieller Ausreißer)
Lisas Leistung: 2 Standardabweichungen über dem Durchschnitt → außergewöhnlich hoch.
Barts Leistung: 0,4 Standardabweichungen über dem Durchschnitt → leicht überdurchschnittlich.
→ Relativ ist Lisa deutlich besser, obwohl Bart absolut mehr Punkte hat.
Grundgesamtheit und Stichprobe
Die Stichprobe dient als Grundlage für empirische Analysen (z. B. Berechnung von Häufigkeiten, Zusammenhängen oder Regressionsmodellen).
Eine Zufallsstichprobe ist entscheidend, damit Ergebnisse verallgemeinert (inferenzstatistisch übertragen) werden können.
Ziel: Aussagen über die Grundgesamtheit auf Basis der Stichprobe treffen.
Arten:
Grundgesamtheit: Die Gesamtheit aller Untersuchungseinheiten, über die eine wissenschaftliche Aussage getroffen werden soll.
Beispiel: Alle 60.510.631 Wahlberechtigten bei der Bundestagswahl 2025
Stichprobe: Auswahl von Untersuchungseinheiten aus der Grundgesamtheit, die tatsächlich empirisch untersucht wird.
Beispiel: Einige tausend Befragte in der German Longitudinal Election Study (GLES).
Merkmal
Vollerhebung
Stichprobe
Erhebung aller Elemente der Grundgesamtheit
✅
❌
Hohe Kosten und Aufwand
Realisierbarkeit
meist unmöglich
praktikabel
Ziel
Exakte Werte der Grundgesamtheit
Schätzung der Werte der Grundgesamtheit
Stichprobenfehler
Der Mittel- oder Anteilswert einer Stichprobe weicht in der Regel leicht vom wahren Wert der Grundgesamtheit ab. → Diese Abweichung nennt man Stichprobenfehler. Beispiel:
Stichprobe: Durchschnittsalter = 45,2 Jahre
Grundgesamtheit: 45,1 oder 45,3 Jahre
Häufige Fehlerquellen
Verwendung einer nicht-zufälligen Stichprobe → keine gültigen Rückschlüsse möglich.
Verwechslung von signifikant mit wichtig oder stark → „Signifikant“ heißt nur: mit hoher Wahrscheinlichkeit auch in der Grundgesamtheit vorhanden – nicht, dass der Effekt groß oder relevant ist.
Merksatz: Nur mit einer Zufallsstichprobe kann man von der Stichprobe auf die Grundgesamtheit schließen – und nur dann sind inferenzstatistische Aussagen valide.
Bedeutung für Inferenzstatistik
Inferenzstatistik = Rückschluss von der Stichprobe auf die Grundgesamtheit.
Voraussetzung: Zufallsstichprobe
Signifikanztests prüfen, ob ein in der Stichprobe beobachteter Zusammenhang wahrscheinlich auch in der Grundgesamtheit besteht.
4 Schritte der Datenanalyse
Univariate Datenanalyse
Fokus auf eine Variable
Zur Beschreibung der Verteilung eines Merkmals innerhalb dieser Variable
Methoden:
Häufigkeiten
Kennzahlen zur Verdichtung vieler Beobachtungen:
Lagemaß: Zentrum der Verteilung
z.B. Mittelwert, Median
Streuungsmaß: Variation der Werte
z.B. Varianzen, Standardabweichung
Formmaß: Charakterisierung der Verteilungsform
z.B. Schiefe, Wölbung
Konzentrationsmaße: wie ungleich sind die Werte verteilt?
z.B. Lorenzkurve, Gini-Koeffizient
Bivariate Datenanalyse
Fokus auf 2 Variablen
Zur Untersuchung von Zusammenhängen oder Unterschieden zwischen 2 Merkmalen (z.B. Bildung und Einkommen)
Kreuztabellen (Crosstabs): Zeigt gemeinsame Verteilung zweier Variablen
Zusammenhangsmaße (Koeffizienten):
Cramérs V: Stärke von Zusammenhängen bei nominalen Variablen
Spearmans rho: Rangkorrelationen bei ordinalen Variablen
Pearsons r: lineare Korrelationen metrischer Variablen
Multivariate Datenanalyse
Fokus auf Drei oder mehr Variablen
Zur Untersuchung mehrerer gleichzeitig einwirkender Einflussfaktoren auf eine abhängige Variable
Lineare Regression: Schätzt Einfluss der unabhängigen Variablen auf eine metrische abhängige Variable
Logistische Regression: Schätzt Einfluss mehrerer Variablen auf eine dichotome (z. B. Ja/Nein) abhängige Variable
Inferenzstatistik
Grundidee: Sozialwissenschaftliche Analysen beruhen meist auf Zufallsstichproben, nicht auf vollständigen Erhebungen.
Fokus auf Übertragung von Stichprobenergebnissen auf die Grundgesamtheit, i.F. einer Prüfung, ob Ergebnisse zufällig oder repräsentativ sind
Zur Beurteilung, ob beobachtete Zusammenhänge statistisch signifikant und verallgemeinbar sind
Häufigkeitsarten (Univariate Datenanalyse)
Die univariate Datenanalyse beschreibt eine einzelne Variable, meist durch Häufigkeiten, Lage- und Streuungsmaße, um ihre Verteilung und Struktur verständlich zu machen.
Häufigkeitstabellen zeigen, wie oft jede Merkmalsausprägung vorkommt und enthält 4 zentrale Angaben:
Absolute Häufigkeiten
geben an wie oft die einzelnen Ausprägungen auftreten
absolute Häufigkeit = fj
Relative Häufigkeiten
Relation der einzelnen absoluten Häufigkeiten zur Gesamtzahl an Fällen
Relative Häufigkeit = pj = fj/Gesamtzahl (n)
Relative Häufigkeiten in Prozent
Darstellung der relativen Häufigkeiten in Prozent im Verhältnis zur Gesamtzahl der Fälle.
= pj% = pj*100%
Kumulierte relative Häufigkeit
zeigt, wie viel Prozent aller gültigen Fälle bis zu einem bestimmten Merkmalswert liegen.
👉 „Kumuliert“ = „aufsummiert“.
Sie hilft, Verteilungen zu beschreiben, nicht Inhalte zu bewerten
Berechnung durch schrittweise Aufsummierung der einzelnen relativen Häufigkeiten in Prozent
=pj(kum)% = einzelnen pj% addieren
Fehlende Werte (NAs) werden nicht mitgezählt.
Bei der höchsten Kategorie steht immer 100 %, weil dort alle gültigen Fälle enthalten sind
Beispiel: Zustimmungsskala
> „Ich finde Online-Unterricht effektiv.“
Antwortoption Personen Relative Häufigkeit Kumuliert (%)
1 – stimme gar nicht zu 5 6,25 % 6,25 %
2 – stimme weniger zu 15 18,75 % 25 %
3 – teils/teils 20 25 % 50 %
4 – stimme eher zu 25 31,25 % 81,25 %
5 – stimme voll zu 15 18,75 % 100 %
Fehlend (NA) 20 – –
Anwendung
Verteilung erkennen: Zeigt, wie sich Fälle entlang einer Skala „aufschichten“.
Median & Quartile bestimmen: 50 %-Punkt der kumulierten Häufigkeit = Median.
Vergleiche zwischen Gruppen Beispiel: Bei Frauen liegen 60 % „höchstens teils/teils“, bei Männern 80 %.
Diagramme: Grundlage für Summenkurve (Ogive), um Verteilungen visuell darzustellen.
Heißt:
Relative Häufigkeit Anteil einer einzelnen Kategorie (z. B. 25 % stimmen eher zu).
Kumulierte Häufigkeit Aufsummierter Anteil bis zu einer bestimmten Kategorie (z. B. 81 % stimmen höchstens eher zu).
Lagemaße (Univariate Datenanalyse)
Lagemaße beschreiben das Zentrum bzw. den typischen Wert einer Verteilung.→ Sie fassen große Datenmengen auf wenige Kennzahlen zusammen (univariate Datenanalyse)
Zuverlässigkeit der Lagemaße je nach Skalenniveau
Modus
Median
Arithmetisches Mittel
Nominal
Ordinal
Intervall / Ratio
Beispiele:
Geschlecht → nominal (nur Modus)
Schulnote → ordinal (Modus & Median)
Alter → Intervall/metrisch (alle drei Lagemaße)
ist der am häufigsten vorkommende (gültige) Wert in einer Verteilung. Abkürzungen: h (Diaz-Bone) oder ẋ (Völkl & Korb)
Eigenschaften:
Kann bei allen Skalenniveaus berechnet werden
Einfach abzulesen aus Häufigkeitstabellen oder Diagrammen
Bei zwei gleich häufigen Werten → bimodale Verteilung
Interpretation: ➡️ Informationsgehalt gering, da nur ein Wert berücksichtigt wird.
Besonderheit: Säulendiagramm -> höchster Balken
Variable
Werte
Geschlecht (1=Frau, 2=Mann)
1,1,1,2,2,2,2,1,1
1
Alter
20,25,25,25,30,30,40,45,45
Familienstand (1=verheiratet, 3=ledig)
1,1,2,2,1,3,3,3,4
1 und 3 (bimodal)
Der Median (x̃) teilt eine geordnete Verteilung in zwei Hälften:50 % der Werte liegen unterhalb und 50 % oberhalb.
Voraussetzung:
Werte müssen sortiert sein
Mindestens ordinalskaliert
Berechnung:
Unsortiert: 1, 5, 3, 2, 3, 1, 5, 3, 3, 4, 2
→ Sortiert: 1, 1, 2, 2, 3, 3, 3, 3, 4, 5, 5
→ Median: 3 (6. Wert)
Praxis:
Häufigkeitstabelle mit kumulierten Prozentwerten: Median bei ≈50 %
ist die Summe aller Werte geteilt durch deren Anzahl.
Voraussetzungen
Mindestens intervallskaliert
Abstände zwischen Werten müssen gleich groß sein
Wird oft fälschlich auch bei ordinalen Daten (z. B. Schulnoten) verwendet
Achtung: Einfluss von Ausreißern
Extremwerte können den Durchschnitt stark verzerren.
Beispiel: Gruppe 1 (max 35 J.) → x̄ = 26,7 / Gruppe 2 (max 70 J.) → x̄ = 30,6
Ausreißerprüfung → Median und Modus bleiben stabil (25)
Streuungsmaße (Univariate Datenanalyse)
Lagemaße (Modus, Median, arithmetisches Mittel) beschreiben das Zentrum einer Verteilung, geben aber keine Informationen über die Streuung der Werte. Streuungsmaße messen die Variation oder Dispersion der Werte um das Zentrum.
Wichtig: Streuungsmaße sind ab Intervallskala sinnvoll berechenbar.
Definition: Durchschnittliche quadrierte Abweichung der Werte vom arithmetischen Mittel.
= Je größer die Varianz, desto stärker streuen die Werte um das Mittel.
Formeln zur Messung der Varianz
Varianz = Maß dafür, wie stark die Werte einer Verteilung um ihr arithmetisches Mittel streuen.Sie sagt dir also: „Sind die Werte ziemlich ähnlich oder stark unterschiedlich?“
Empirische Varianz (Vollerhebung):
s2 = ∑ (xi − xˉ)² / n
Korrigierte Varianz (Stichprobe):
s*²= ∑ (xi − xˉ)² / n-1
Berechnungsschritte
Arithmetisches Mittel eines Datensatzes berechnen. (xˉ)
Abweichungen der Werte vom Mittelwert bilden, durch Subtraktion vom Mittelwert jeden einzelnen Wert: (xi−xˉ)
Abweichungen quadrieren: (xi−xˉ)², damit sich positive und negative Abweichungen nicht gegenseitig aufheben.
Addiere alle quadrierten Abweichungen.
Durch die Anzahl der Werte (n) = empirisch oder (n−1) = korrigiert teilen.
Beispiel (Land-Gruppe Zufriedenheit, n=11):
Summe der quadrierten Abweichungen: 90
Empirische Varianz: s² = 90/ 11 ≈ 8,18
Korrigierte Varianz: s*² = 90/ 10 = 9
Beispielhafte Interpretation:
Varianz = 0 → alle Werte sind gleich (keine Streuung).
Große Varianz → die Werte liegen weit auseinander.
Problem: Die Einheit der Varianz ist quadriert, also nicht mehr direkt vergleichbar mit den Originalwerten (z. B. Lebenszufriedenheit auf einer 0–10 Skala → Varianz in „Punkten²“).
Standardabweichung
Die Standardabweichung ist die Wurzel der Varianz. Dadurch hat sie die gleiche Einheit wie die ursprünglichen Werte.
Sie ist damit viel anschaulicher und leichter interpretierbar.
Formeln:
Empirisch (Vollerhebung): s = ∑s²
Korrigiert (Teilerhebung): s* = ∑s*²
Wenn Lebenszufriedenheit auf einer Skala von 0–10 gemessen wird und die Standardabweichung 2 beträgt, dann liegen die meisten Werte ungefähr 2 Punkte über oder unter dem Mittelwert.
Kleine Werte → geringe Streuung
Große Werte → hohe Streuung
s=0s = 0s=0 → keine Streuung
Am Beispiel der Lebenszufriedenheit:
Empirische Standardabw.: s = ∑8,18 ≈ 2,86
Korrigierte Varianz: s* = ∑3,22 ≈ 1,79
Merksatz:
Varianz: zeigt die Streuung, aber in „Quadrat-Einheiten“.
Standardabweichung: zeigt die Streuung in derselben Einheit wie die Daten → leichter interpretierbar.
Formmaße (Univariate Datenanalyse)
Formmaße beschreiben die Form einer Verteilung, also wie die Werte einer Variable angeordnet sind, jenseits von Mittelwert und Streuung. Sie liefern Informationen über die Struktur der Verteilung.
Die beiden wichtigsten Formmaße sind:
1.Schiefe (Skewness)
misst die horizontale Asymmetrie: Sie zeigt, ob die Werte mehr auf der linken oder rechten Seite konzentriert sind.
Formel wird heute nicht mehr händisch berechnet. Zur angemessenen Beschreibung einer Verteilungsform muss nur der Schiefe-Koeffizient korrekt interpretiert werden. Drei Fälle werden unterschieden
Symmetrisch → Schiefe ≈ 0
Verteilung ist gleichmäßig um das Mittel verteilt (z. B. Normalverteilung). Modus = Median = Mittelwert.
Rechtsschief → Schiefe > 0 (lange rechte Spitze)
die meisten Werte links, wenige rechts. Mittelwert > Median > Modus.
Linksschief → Schiefe < 0 (lange linke Spitze)
die meisten Werte rechts, wenige links. Modus > Median > Mittelwert.
Fechner’sche Lageregel
= Daumenregel (die nicht immer stimmt), aber eine einfache Möglichkeit darstellt, die Schiefe einer Verteilung ohne Berechnung des entsprechenden Formmaßes und ohne grafische Darstellung zu bestimmen
Bei symmetrischen Verteilungen weisen die drei Lagemaße Modus, Median und arithmetisches Mittel denselben Wert auf
Eine Verteilung ist rechtsschief (linksgipflig), wenn der Modus kleiner als der Median und der Median kleiner als das arithmetische Mittel ist (Modus < Median < Arithmetisches Mittel).
Eine Verteilung ist linksschief (rechtsgipflig), wenn der Modus größer als der Median und der Median größer als das arithmetische Mittel ist (Modus > Median > Arithmetisches Mittel)
2.Wölbung (Kurtosis)
Misst die vertikale Form einer Verteilung, also wie „spitz“ oder „flach“ sie im Vergleich zur Normalverteilung ist
Man will damit herausfinden, wie stark die Werte in der Mitte konzentriert sind und wie viele Werte in den Rändern (Extremen) liegen
Viele Werte nah am Mittelwert → hochgipflig (spitzer Berg)
Viele Werte weit vom Mittelwert entfernt → flachgipflig (breiter Hügel)
Mit einer Formel misst ein Programm, wie weit jeder Wert vom Mittelwert entfernt ist, und potenziert diese Abweichung mit 4, weil so große Abweichungen (also Ausreißer) viel stärker gewichtet werden
Außerdem: Da man potenziert, verschwinden die Minuszeichen (wie bei der Varianz)
= Maß dafür, wie stark die Verteilung „spitzt“ oder „flacht“.
Aber:
Wenn man die oben genannte Formel ohne Korrektur bei einer perfekten Normalverteilung anwendet, kommt immer ungefähr 3 heraus — das ist sozusagen der natürliche Wert, der sich aus der Form dieser Kurve ergibt
Weil man möchte, dass die Normalverteilung = 0 bedeutet, subtrahiert man 3 und nennt dies den:
Korrekturfaktor: Anpassung, die dafür sorgt, dass die Normalverteilung als Referenzwert 0 hat.
Typen der Wölbung:
Typ
Beschreibung
Kurtosis = 0
Normalverteilung
Standardgipfelform
Kurtosis > 0
Hochgipflig
Steile Verteilung, viele Werte in der Mitte, wenige an den Rändern
Kurtosis < 0
Flachgipflig
Breite Verteilung, weniger Werte in der Mitte, mehr an den Rändern
Fazit: In der Praxis treten kleine Abweichungen häufig auf – eine exakt „perfekte“ Normalverteilung ist selten. Kurtosis hilft aber zu erkennen, ob eine Variable stark konzentriert oder breit gestreut ist.
Lagemaße und Streuungsmaße sagen nur Zentrum und Streuung.
Formmaße zeigen Asymmetrien und Konzentrationen der Daten, z. B. viele extreme Werte oder eine verzerrte Verteilung.
Relevant für Statistikverfahren, die Normalverteilung voraussetzen, z. B. t-Tests oder Regressionsanalyse.
Konzentrationsmaße (Univariate Datenanalyse)
Konzentrationsmaße beschreiben die Ungleichverteilung eines metrischen und nicht-negativen Merkmals – klassisch: Einkommen.
Ziel: Wie verteilt sich die Merkmalssumme (z. B. Gesamteinkommen) auf die Merkmalsträger (z. B. Personen)?
Wichtig: Konzentrationsmaße werden nur für metrische und nicht-negative Daten verwendet, z. B.:
Einkommen
Vermögen
Marktanteile
Unternehmensgröße
Grundidee
Keine Konzentration: alle Merkmalsträger besitzen denselben Wert.
Maximale Konzentration: ein Merkmalsträger vereint die gesamte Merkmalssumme auf sich.
Wichtig: Konzentration = Ungleichheit der Verteilung.
Die drei wichtigsten Konzentrationsmaße
Lorenzkurve
Grafisches Instrument zur Darstellung der relativen Konzentration.
je mehr die Kurve „durchhängt“, desto ungleicher
Vorgehen:
Merkmalsträger nach der Merkmalsausprägung sortieren (aufsteigend).
Für jede Position j:
Relative kumulierte Häufigkeit: uj=j/n
Kumulierte Merkmalswerte: ∑xi
Relativer Anteil an der Merkmalsgesamtsumme: qj=∑xi/xi
Uj = x-Kurve und qj = y-Kurve, Punkte verbinden → Lorenzkurve.
Vergleichsdiagonale (45°-Linie) zeigt Gleichverteilung.
Je stärker die Kurve unter der Diagonale liegt (= „durchhängt“), desto ungleichmäßiger die Verteilung.
Monoton wachsend, da kumulierte Werte.
Konvex (nach unten gewölbt).
Gini-Koeffizient (normiert 0-1)
Maß für die Stärke der relativen Konzentration; basiert auf Lorenzkurve
Interpretation: Gibt den Anteil der Fläche zwischen Lorenzkurve und Diagonale an der Fläche unter der Diagonale an.
0 = perfekte Gleichheit
1 = maximale Ungleichheit
Formel: Summe aus ∑xi/ Summe aus xi
Lorenz-Münzner-Maß (normierter Gini)
Wird eingesetzt, weil der nicht-normierte Gini vom Umfang n der Merkmalsträger beeinflusst wird.
Formel: n + 1 - 2*c (Gini normal) / n - 1
Beispiel: 5 Personen + 1 - 2*2,464 / 5-1
= 0,268 (Normierter Gini
Siehe s. 38
Kritik
Datenbasis verzerrt: basiert oft auf freiwilligen Haushaltsbefragungen → reiche Haushalte unterrepräsentiert → Ungleichheit wird unterschätzt.
Unabhängig von n: Gini beachtet nicht die Anzahl der Beobachtungen.
Nur relative Ungleichheit:
Gibt an, wie die Merkmalssumme verteilt ist,
aber nicht wie viele Personen zu welchem Anteil beitragen (absolute Konzentration).
Herfindahl-Index
Maß für die absolute Konzentration.
Wertebereich:
1 = ein Merkmalsträger vereinigt alles auf sich
1/n = minimale Konzentration (Gleichverteilung)
Anwendungsgebiete:
Kartellbehörden: Messung der Marktkonzentration.
Politikwissenschaft: Messung der Parteienzersplitterung (niedriger Wert = stark fragmentiert).
Heißt: Konzentrationsmaße sind ein eigener Bestandteil der univariaten Datenanalyse und messen, wie ungleich die Werte einer metrischen, nicht-negativen Variable verteilt sind (z. B. Einkommen), typischerweise mittels Lorenzkurve, Gini-Koeffizient oder Herfindahl-Index
Grafische Darstellung univariater Daten
Säulen/ Balkendiagramm
Voraussetzungen:
Nominale und ordinale Variablen
Merkmale mit wenigen Ausprägungen
Darstellung:
Säulendiagramm: vertikale Rechtecke
Balkendiagramm: horizontale Rechtecke
Höhe/Länge entspricht absoluten oder relativen Häufigkeiten
Kategorien haben gleiche Breite
Einsatz:
Gute Vergleichbarkeit zwischen Kategorien
Beispiel: ALLBUS 2016 – Interesse an Politik
Kreisdiagramm
Nominalssskalierte Variablen
Illustration von (relativen) Häufigkeiten durch Kreissegmente, Größe entsprechen den jeweiligen Ausprägungen
Kritik in der Fachliteratur:
Schwere Interpretierbarkeit, da Flächen/Winkel beurteilt werden müssen
Gefahr der Täuschung über tatsächliche Häufigkeiten
3D verschlechtert Lesbarkeit zusätzlich
Sozialwissenschaftliche Empfehlung: Vermeiden
„In keinem vernünftigen Journal werden Tortendiagramme abgedruckt.“ (Plümper 2012)
Alternative:
Säulen- oder Balkendiagramm fast immer vorzuziehen
Histogramm
Metrische Variablen mit vielen Ausprägungen
Besonders bei gruppierten Daten (z.B. Altersklassen, Einkommen)
Säulen liegen direkt nebeneinander (keine Abstände)
Flächentreue: Fläche (Höhe × Breite) ∝ Häufigkeit
Gute Erkennbarkeit von
Schiefe
Symmetrie
Steilheit der Verteilung
Klassenbildung:
Empfehlungen für Mindestanzahl von Klassen (Degen 2010):
bis 100 Fälle → mind. 10 Klassen
~ 1.000 Fälle → mind. 13 Klassen
~ 10.000 Fälle → mind. 16 Klassen
Empfohlen: gleich breite (äquidistante) Klassen
Unterschiedliche Klassenbreiten möglich, aber schwerer interpretierbar (Flächenvergleich)
Boxplot (Box and Whisker Plot)
Metrische Variablen
Gute Darstellung von Streuung, Lage und Ausreißern
Bestandteile:
Box (Rechteck): enthält die mittleren 50 % der Beobachtungswerte
Unteres Quartil (Q1): 25 % der Werte liegen darunter
Median (Q2): 50 % der Werte liegen darunter bzw. darüber
Oberes Quartil (Q3): 75 % der Werte liegen darunter
Interquartilsabstand (IQR): Q3 – Q1 → Maß für die Streuung der mittleren 50 %
Whiskers (Antennen/Barthaare): Linien, die die Werte außerhalb der Box darstellen
Länge max. 1,5 × IQR über Q3 bzw. unter Q1
Endpunkte = maximale/minimale Werte innerhalb dieser Grenze
Ausreißer: Werte außerhalb der Whiskers
SPSS: Kreis = Ausreißer, Stern = Extremwert (> 3 × IQR außerhalb der Box)
Stata/R: keine Unterscheidung
Darstellung und Interpretation
Lage: Median zeigt zentrale Tendenz
Streuung: Länge der Box → mittlere 50 % der Daten
Symmetrie: Median in der Box → links/rechts gleich verteilt → symmetrisch
Ausreißer: erkennbare Punkte außerhalb der Whiskers
Vergleich mehrerer Gruppen möglich durch nebeneinanderliegende Boxplots
Vorteile:
Zeigt Verteilungslage kompakt
Einfacher Vergleich mehrerer Gruppen
Identifiziert Ausreißer klar
Beispiel aus ALLBUS 2016 (Interviewdauer):
Median: 55 Minuten
Unteres Quartil (Q1): 47 Minuten
Oberes Quartil (Q3): 66 Minuten
IQR: 66 – 47 = 19 Minuten
Ausreißer: z. B. längstes Interview 175 Minuten
→ 50 % der Interviews dauerten zwischen 47 und 66 Minuten
Untersuchung des gemeinsamen Auftretens von zwei Merkmalen.
Aufdeckung von Zusammenhängen, Abhängigkeiten oder Unterschieden zwischen Variablen.
Zusammenhang zwischen Bildung der Eltern & schulischem Erfolg der Kinder
Zusammenhang zwischen Wahlbeteiligung & Einkommen
Zusammenhang zwischen Migrationshintergrund & politischem Wissen
Kombination von zwei Variablen in einer Tabelle
Ermöglicht eine erste deskriptive Übersicht über Zusammenhänge
Dient als Basis für die Formulierung von Hypothesen
Besonders geeignet für nominal- und ordinalskalierte Variablen
Quantitative Kennzahlen, die Stärke und Richtung eines Zusammenhangs beschreiben
Auch genannt: Kontingenz-, Assoziations- oder Korrelationskoeffizienten
Gebräuchliche Maße:
Phi, Cramer’s V, Lambda, C → nominal
Spearman’s Rho, Kendalls Tau, Gamma → ordinal
Pearson’s r, Eta-Koeffizient → metrisch oder metrisch × nominal
Wichtiger Hinweis:
Das Skalenniveau der Variablen bestimmt, welches Maß sinnvoll ist.
Wenn Variablen unterschiedliche Skalenniveaus haben, wird meist das Maß für das niedrigere Skalenniveau gewählt.
Merkmal 1
Merkmal 2
Geeignetes Maß
nominal
Cramer’s V, Phi, Lambda, C
ordinal
Cramer’s V, Lambda, C
metrisch
Eta-Koeffizient
Spearman’s Rho, Kendalls Tau, Gamma
Pearson’s r, Spearman’s Rho, Kendalls Tau, Gamma, Eta
Pearson’s r / Spearman’s Rho:
Vorzeichen → Richtung des Zusammenhangs
Positiv: hohe Werte von X ↔ hohe Werte von Y
Negativ: hohe Werte von X ↔ niedrige Werte von Y
Eta-Quadrat (η²):
Anteil der Varianz der metrischen abhängigen Variable, der durch die unabhängige nominale Variable erklärt wird
Wertebereich: 0–1 → interpretiert als Effektstärke
Faustregeln nach Cohen:
<0,01 → kein Effekt
0,01–0,06 → kleiner Effekt
0,06–0,14 → mittlerer Effekt
≥0,14 → großer Effekt
Streudiagramme / Scatterplots:
Visualisierung von Zusammenhängen zwischen metrischen Variablen
Erste Einschätzung: linear, negativ, nicht-linear, kein Zusammenhang
Keine Kausalitätsaussage:
Zusammenhang ≠ Ursache → mögliche Drittvariablen können Scheinkorrelationen erzeugen
Beispiel: Anzahl Störche ↔ Geburtenrate → Ursache: Bebauungsart des Wohngebiets
Kausalrichtung statistisch nicht bestimmbar:
Theoriearbeit und Hypothesenbildung vor Analyse notwendig
Erkenntnis:
Bivariate Analysen zeigen Zusammenhänge
Sie erklären nicht die Ursache des Zusammenhangs
Auswahl des richtigen Assoziationsmaßes immer vom Skalenniveau abhängig machen
Grafische Darstellung (z. B. Kreuztabellen, Streudiagramme) hilft bei der ersten Einschätzung
Interpretation der Kennzahlen immer im Kontext der Forschungshypothese
Prozente vs. Prozentpunkte
Prozente (%):
Drücken immer ein relatives Verhältnis aus.
Die Zahl vor dem Prozentzeichen ist der Prozentsatz, der das Verhältnis angibt.
Beispiel: 20 % der Befragten sind Männer.
Prozentpunkte (pp):
Beschreiben den absoluten Unterschied zwischen zwei Prozentsätzen.
Beispiel: Anteil Männer bei stark Interessierten = 30 %, Anteil Frauen = 20 % → Unterschied = 10 Prozentpunkte, nicht 10 %.
Prozentsatzdifferenz:
Berechnung: Zeilenweise Differenz zweier Spaltenprozenten.
Wertebereich: −100 bis +100 Prozentpunkte.
Interpretation:
< 5 pp → kaum interpretierbar, kein Zusammenhang
5–<10 pp → schwacher Zusammenhang
10–<25 pp → mittelstarker Zusammenhang
≥25 pp → starker Zusammenhang
Heißt: Prozent / relative Differenz fragt: wie viel mehr im Verhältnis zum Ausgangswert.
Bezogen auf Frauen: (30−20) / 20 = 0.5 = 50%
50% der Frauen = 20*0,5 = 10 Frauen weniger
Das heißt: die 30 Männer sind 50 % mehr als die 20 Frauen
Doppel so viele wären 200%
Kreuztabellen
(Bivariate Datenanalyse)
= Übersichtliche Darstellung von absoluten und relativen Häufigkeiten, die erste Rückschlüsse auf mögliche Zusammenhänge gibt, z.B.
Bildung der Eltern ↔ schulischer Erfolg der Kinder
Einkommen ↔ Wahlbeteiligung
Definition: Matritzen, in deren Zellen die beobachteten Häufigkeiten zweier Variablen stehen (absolut und relativ)
Geeignet für:
Kategoriale (nominale) Variablen
Ordinale Variablen mit wenigen Ausprägungen
Metrische Variablen nur nach Gruppierung in Kategorien
Aufbau:
Zeilenvariable → meist abhängige Variable
Spaltenvariable → meist unabhängige Variable
Zellen → Kombination von Zeilen- und Spaltenausprägungen
Randhäufigkeiten → Summen der Zeilen und Spalten (Gesamtzahl)
stehen „am Rand“ der Tabelle – also unten (für Zeilen) oder rechts (für Spalten) und eigen, wie viele Beobachtungen insgesamt in einer Zeile oder Spalte vorkommen, unabhängig von der anderen Variable.
Prozentualisierung
Zweck: Vergleich von Gruppen bei ungleichen Stichprobengrößen
Ausgangssituation:
In einer Kreuztabelle stehen absolute Häufigkeiten (z. B. 13 Männer nutzen das Abendangebot).
Wenn Gruppen unterschiedlich groß sind, sind absolute Zahlen schwer vergleichbar.
Beispiel: 13 von 30 Männern nutzen das Angebot, 13 von 50 Frauen nutzen es. Absolut gleich, aber relativ unterschiedlich (Männer 43 %, Frauen 26 %).
Deshalb nutzt man Prozente, um relative Anteile innerhalb einer Gruppe darzustellen.
Arten der Prozentberechnung:
Zeilenprozente: Zelle / Zeilensumme × 100
„Wie verteilt sich die abhängige Variable innerhalb dieser Zeile?“
Beispiel (Abendbibliothek):
Zeile „Ja“: 5 Personen nutzen das Angebot
1 BA → 20 %
4 MA → 80 %
Interpretation: Unter allen Personen, die das Abendangebot nutzen, sind die meisten MA.
Achtung: Zeilenprozente sagen nichts über die relative Größe der Gruppen aus. Sie zeigen nur die Zusammensetzung der Zeile.
Spaltenprozente: Zelle / Spaltensumme × 100
„Wie verteilt sich die abhängige Variable innerhalb dieser Spalte?“
Spalte „BA“: 4 BA-Personen insgesamt
1 nutzt das Angebot → 25 %
3 nutzen es nicht → 75 %
Interpretation: Von allen BA-Studierenden nutzen 25 % das Abendangebot.
Standard bei Hypothesenprüfung: wenn man den Einfluss einer unabhängigen Variable (Spalte) auf eine abhängige Variable (Zeile) prüfen will.
Gesamtprozente: Zelle / Gesamtzahl × 100 (Anteil bezogen auf Gesamtstichprobe)
„Welcher Anteil der gesamten Stichprobe fällt in diese Kategorie?“
Beispiel: 1 BA-Nutzer / 9 Gesamtbefragte → 11 %
Nützlich für allgemeine Übersicht, aber nicht für Vergleich zwischen Gruppen.
Will ich Hypothesen prüfen → Spaltenprozente
Will ich Zusammensetzung der Antwort sehen → Zeilenprozente
Will ich relativ zur Gesamtstichprobe sehen → Gesamtprozente
Interpretation nach Kühnel und Krebs
Prozentsatzdifferenzen (PP): Zeilenweise Differenz von Spaltenprozente
< 5 PP → kaum interpretierbar
5–10 PP → schwacher Zusammenhang
10–25 PP → mittlerer Zusammenhang
≥ 25 PP → starker Zusammenhang
Abendliche Bibliotheksnutzung:
BA vs. MA
Spaltenprozente: BA 43 %, MA 61 % nutzen Abendangebot
Mittelstarker Zusammenhang zwischen Studiengang und Nutzung
Politisches Interesse nach Geschlecht:
Männer zeigen stärkeres Interesse
„Sehr stark“: Männer 17,6 % – Frauen 6,7 % → Differenz 10,9 PP → mittlerer Zusammenhang
Bildung der Kinder nach elterlichem Hintergrund:
Kinder hoher Bildungshintergrund → häufiger Hochschulreife (42,5 % vs. 28,5 %)
Zeilenprozente zeigen nur Verteilung innerhalb eines Abschlusses → nicht für Hypothesenprüfung geeignet
Hinweise
Mindestanzahl pro Zelle: 15 Fälle → robuste Interpretation
Explorative Tabellen: Zeilen-, Spalten- und Gesamtprozente können angezeigt werden, immer klar markieren
Konvention: unabhängige Variable in Spalte, abhängige Variable in Zeile, Spaltenprozente berechnen
Zusammenhangsmaß
= Wie man die Stärke und Richtung von Beziehungen zwischen zwei Merkmalen beschreibt
Höhere Bildung → höheres Einkommen?
Geschlecht → politisches Interesse?
Sie dienen dazu, ** Beziehungen quantifizierbar** zu machen.
Arten
Kontingenzkoeffizeinten
Assoziationsmaße
Korrelationskoeffizienten
Wichtigstes Kriterium: Skalenniveau
Skalenniveau der Variablen bestimmt, welches Maß verwendet werden darf.→ falsches Maß = falsche Interpretation.
Messniveau bestimmt, welche mathematischen Operationen zulässig sind
Nominal: nur Kategorien
Ordinal: geordnete Stufen
Metrisch: echte Zahlen mit Abständen
Tabelle: Welche Maße passen zu welchem Niveau
Merkmal A \ Merkmal B
—
Spearman’s Rho, Kendall’s Tau A/B/C, Gamma
Eta (aV = metrisch)
Pearson’s r
Kurzbeschreibung
Nominale
Cramers V
Misst die Stärke des Zusammenhangs
Werte zwischen 0 und 1
0 = kein Zusammenhang; 1 = maximaler Zusammenhang
Basierend auf χ²
Lambda
Proportionale Reduktionsmaßzahl
Wie gut kann eine Variable zur Vorhersage genutzt werden?
Koeffizient C
Vorsicht: abhängig von Tabellengröße
weniger verbreitet
Ordinale
Spearmans Rho
Rangkorrelation
Werte von –1 bis +1
Richtung + Stärke des monotone Zusammenhanges
Kendalls Tau (A, B, C)
Besser bei vielen Bindungen
Interpretiert ähnlich wie Rho
Gamma
Nur Paare ohne Bindung
Werte –1 bis +1
Schwerpunkt: Paarvergleiche
Metrische
Pearsons R
Linearer Zusammenhang
r misst NICHT Stärke des Effekts, sondern Stärke des linearen Zusammenhangs
Mischformen: z. B. Geschlecht (nominal) → politisches Interesse (ordinal)
Regel: Nimm das Maß, das zum niedrigeren Skalenniveau passt
eine Variable ordinal
die andere metrisch → Spearman’s Rho
Nachteil:
Einige Informationen gehen verloren (z. B. echte Abstände bei metrischen Werten)
Darum gibt es spezielle Maße: Eta (η)
Nominal (uV) → metrisch (aV)
Misst Stärke, aber keine Richtung
Nutzt vollständige Varianz der metrischen Variable
Achtung: Ein Koeffizient gibt nur Stärke, nicht automatisch Kausalität an.→ „Zusammenhang ≠ Ursache“
Heißt: Welches Zusammenhangsmaß du wählen musst, hängt immer vom niedrigeren Skalenniveau der beiden Variablen ab – außer du nutzt spezielle Maße wie Eta.
Nominale Zusammenhangsmaße
Bei zwei nominalskalierten Variablen (z. B. Geschlecht, Wahlbeteiligung) kann man nur prüfen, ob ein Zusammenhang besteht – nicht wie stark er gerichtet ist, da Nominalvariablen keine Rangordnung haben.
Zentrale Werkzeuge sind
Chi-Quadrat
Phi
Cramer’s V.
Schritt 1: Unterscheidung:
Beobachtete Häufigkeit: die tatsächlichen Zahlen in der Kreuztabelle. Beispiel (ALLBUS):
311 Männer sind „sehr stark politisch interessiert“
116 Frauen sind „sehr stark politisch interessiert“
Diese Zahlen = fb(ij)
Erwartete Häufigkeit: berechnen, Wie Tabellen aussähen, wenn es ÜBERHAUPT KEINEN echten Zusammenhang gäbe = fe(ij)
= Indifferenztabelle (statistische Unabhängigkeit)
Vergleich:
die beobachteten Werte aus der Umfrage vs.
die erwarteten Werte, die zufällig entstehen würden
Je weiter die beiden voneinander entfernt sind, desto weniger wahrscheinlich, dass der Unterschied Zufall ist.
Formel: fe(ij) = Zeilensumme*Spaltensumme/ n
z.B. Ergebnis ist 216,56 bei sehr starkem Interesse an Politik
Bedeutet: Wenn es KEINEN Zusammenhang zwischen Geschlecht und politischem Interesse gäbe,dann würde man erwarten, dass 216,56 Männer ein „sehr starkes Interesse“ haben.
Die beobachtete Zahl war 311 Männer
Wenn zwei Merkmale unabhängig wären, würden beobachtete und erwartete Zahlen fast identisch sein.
Hier aber:
Männer haben 94 Personen mehr sehr starkes Interesse als erwartet
Heißt: Verteilung des Interesses hängt vom Geschlecht ab.
Das nennt man: statistische Abhängigkeit.
Chi-Quadrat (x²)
misst, wie stark die beobachteten Häufigkeiten von den erwarteten Häufigkeiten abweichen.
Formel: x² = SUMME AUS (fb - fe)² / fe
Große Abweichung → großer χ² → starker Zusammenhang.
Problem: χ² wird größer, wenn:
die Stichprobe größer ist
die Tabelle größer ist
→ nicht vergleichbar zwischen Studien.
Deshalb nutzt man Phi oder Cramer’s V, die χ² standardisieren.
Assoziationsmaße:
Phi (Φ)
= Sonderfall von Cramers V
Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen (=dichotomen Variablen (nur 2x2, 4 Feldertaf.)
Werte: 0 bis 1, Interpretation wie Cramer’s V.
Formel: Φ = Wurzel aus x²/n
Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)
Arbeitstabelle anlegen mit allen Variablen und Ausprägungen
Häufigkeitstabelle
Indifferenztabelle
Zusammengeführte Tabelle
Spalte 1: fb = beobachteten Häufigkeiten
Spalte 2: fe = erwarteten Häufigkeiten
Spalte 3: fb - fe
Spalte 4: Ergebnisse quaddrieren (fb - fe)²
Spalte 5: Spalte 4 / Spalte 2 ((fb - fe)² / fe)
Summe aus Spalte 5: Chi² - Wert
x² Wert in Formel Wurzel aus x² / n eingeben = Phi
Auch für größere Tabellen (nicht nur 2x2).
Formel: V = Wurzel aus x² / n(M - 1)
n = Stichprobengröße M =kleinere Dimension der Tabelle
Beispiel: Tabelle 5 Zeilen x 2 Spalten: M = 2
Konfidentsintervall: zeigt wie sicher diese Schätzung ist, wie stark zwei nominale Variablen nach Cramers V zusammenhängen
Beispiel: Cramer’s V = 0,23 mit 95 %-KI 0,18–0,28→ bedeutet: In der gesamten Population liegt V höchstwahrscheinlich zwischen 0,18 und 0,28 und Wir sind z. B. 95 % sicher, dass der echte Zusammenhang zwischen X und Y in diesem Bereich liegt.
Interpretation Cramers V
Wert
Bedeutung
≤ 0,05
kein Zusammenhang
0,05–0,10
sehr schwach
0,10–0,20
schwach
0,20–0,40
mittelstark
0,40–0,60
stark
> 0,60
sehr stark
Beispiel: Geschlecht x politisches Interesse
Nominale Variable: Geschlecht
Ordinale Variable: politisches Interesse
→ niedrigere Skala = nominal → Cramer’s V verwenden.
Berechnung ergab: V=0,23V
Interpretation: mittelstarker Zusammenhang
Heißt: Cramer’s V sagt, wie stark ein Zusammenhang ist. Die Kreuztabelle zeigt, WIE dieser Zusammenhang aussieht.
Cramer’s V: „Da ist ein mittelstarker Zusammenhang zwicshen Geschlecht und Intertesse.“
Kreuztabelle: „Und dieser Zusammenhang sieht so aus, dass Frauen weniger Interesse haben.“
Ordinale Zusammenhangsmaße
= Normiertes Maß für die Bestimmung eines Zusammenhangs von min. 2 ordinal skalierten Merkmalen
Ordinal = Rangfolgen sind wichtig, aber Abstände nicht unbedingt.
Bildungsabschluss: niedrig → mittel → hoch
Politisches Interesse: sehr niedrig → niedrig → mittel → hoch → sehr hoch
Soziale Schicht: Unterschicht → Arbeiterschicht → Mittelschicht → Oberschicht
Spearmans Rho = Rangkorrelationskoeffizient
Er vergleicht die Rangplätze von zwei Variablen.
+1 → perfekter positiver Zusammenhang (wenn eine Variable steigt, steigt die andere)
0 → kein Zusammenhang
−1 → perfekter negativer Zusammenhang (wenn eine Variable steigt, sinkt die andere)
Vorteile: Robust gegenüber Ausreißern und ermöglicht Vergleich
Vorgehen: Ränge zuordnen
Was sind Ränge: Position eines Wertes, wenn man alle Werte sortiert.
Bindung: passiert, wenn mehrere Personen denselben Wert haben (z.B. zwei Personen haben Realschule = 2).
Dann können wir nicht einfach die Rangplätze 2 und 3 den beiden Personen zuordnen, weil sie denselben Wert haben.
Lösung: Wir nehmen den Durchschnitt dieser Rangplätze.
Beispiel: fünf Leute haben folgende Bildungsabschlüsse (höher = besser):
Bildung
A
Hauptschule (1)
B
Realschule (2)
C
Abitur (3)
D
E
Schritt 1: Sortieren (von min bis max) Werte: 1, 2, 2, 3, 3
Schritt 2: jedem Wert eine Rangnummer geben
Rang
2
3
4
5
Das ist der Rang ohne Bindung. Jede Position kriegt einfach eine Nummer.
Bindung berechnen: Realschule (2) → Rangplätze wären 2 und 3 → Mittelwert = (2+3)/2 = 2,5
Abitur (3) → Rangplätze wären 4 und 5 → Mittelwert = (4+5)/2 = 4,5
2,5
4,5
1 = kleinster Wert → niedrigster Rang
2,5 = zwei Personen teilen sich den Rang 2 & 3
4,5 = zwei Personen teilen sich den Rang 4 & 5
Ränge zeigen die Reihenfolge der Werte, nicht die Werte selbst.
Bindungen = Durchschnittsrang, wenn mehrere denselben Wert haben.
Spearmans Rho berechnen (neues Beispiel)
Daten: Die Zahlen in Klammern sind die Werte, die wir später in Ränge umwandeln.
Soziale Schicht
Gesundheitszustand
Mittelschicht (3)
Schlecht (2)
Arbeiterschicht (2)
Sehr schlecht (1)
Oberschicht (5)
Sehr gut (5)
Obere Mittelschicht (4)
Gut (4)
Unterschicht (1)
Zufriedenstellend (3)
Ränge zuweisen
sortieren jeder Variable und Rangplätze von klein nach groß
Soziale Schicht: keine Bindung, alle Werte unterschiedlich → Ränge = 1, 2, 3, 4, 5
Gesundheitszustand: keine Bindung, jeder Wert ist einzigartig → Ränge = 1, 2, 3, 4, 5
Wir berechnen die Differenz der Ränge
di = Rang(Soziale Schicht)− Rang(Gesundheitszustand)
Rang Schicht
Rang Gesundheit
d_i = Rang(x) - Rang(y)
0
-2
Quadrieren der Differenzen di
d_i
d_i^2
Summe aus di² bilden: 1+1+0+0+4 = 6
Formel ausfüllen:
Spearmans Rho (rsp) = 1 - 6(summe aus di²) * 6 / 5 (Anzahl der Beobachtungen) * 5² (n²) - 1
Bruch zuerst rechnen: 1 - 36/ 5*24 = 1 - 36 / 120 = 1 - 0,3
= 0,7 (Spearmans Rho)
Interpreation:
rSP
Stärke des Zusammenhangs
0,05 – 0,20
0,20 – 0,50
mittel
0,50 – 0,70
> 0,70
rSP=0,7 → starker positiver Zusammenhang
Das bedeutet: je höher die soziale Schicht, desto besser der Gesundheitszustand
aber! Kein kausaler Zusammenhang möglich
Kendalls Tau
Statt die Differenzen der Ränge wie bei Spearman zu betrachten, vergleicht Kendall’s Tau alle Paare von Beobachtungen.
Definition der Paare:
Konkordant: Beide Ränge steigen zusammen → positives Paar
Diskonkordant: Eine steigt, die andere sinkt → negatives Paar
Verbunden: Eine Rangbindung bei einem Merkmal → wird speziell behandelt
Das Maß liegt ebenfalls zwischen −1 und +1:
+1 → perfekter positiver Zusammenhang (alle Paare konkordant)
−1 → perfekter negativer Zusammenhang (alle Paare diskonkordant)
Vorteil: Besonders nützlich, wenn es viele Bindungen gibt oder die Stichprobe groß ist, da Kendall’s Tau robuster gegenüber Bindungen ist als Spearman’s Rho.
Interpretation: Richtung + Stärke wie bei Spearman, nur die Berechnungsmethode unterscheidet sich.
metrische und nominale Zusammenhangsmaße
(Eta-Quadrat der Bivariaten Datenanylse)
Eta² ist ein Zusammenhangsmaß für den Fall:
unabhängige Variable ist nominal z. B. Familienstand, Geschlecht, Migrationshintergrund
abhängige Variable ist metrisch z. B. Einkommen, Zufriedenheit, Testpunkte
Andere Maße wie Pearson r funktionieren nicht, weil der unabhängige Wert (z. B. Familienstand) keine Zahlen sind.
Heißt: Eta² zeigt, wie viel der Varianz (Unterschiede) in der abhängigen Variable durch die Gruppenunterschiede erklärt werden kann.
Beispielfrage: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“
PRE („Proportional Reduction of Error“)
Je stärker sich die Gruppen unterscheiden, desto weniger Fehler machst du.
Ohne Gruppenwissen: du nimmst den Gesamt-Mittelwert als Schätzer
Mit Gruppenwissen: du nimmst die Mittelwerte der einzelnen Gruppen
PRE-Formel:
PRE=E1−E2 / E1
E1 = Fehler beim Raten ohne Gruppen (Gesamtmittelwert)
E2 = Fehler beim Raten mit Gruppen (Gruppenmittelwerte)
Eta² benutzt genau diese Logik
Quadratsummen
Quadratsumme Gesamt: Wie unterschiedlich sind alle Personen vom Gesamtmittelwert? = E1 = Vorhersagefehler ohne Gruppenwissen
Quadratsumme innerhalb: Wie unterschiedlich sind Personen innerhalb ihrer Gruppe vom Gruppenmittelwert? = E2 = Vorhersagefehler mit Gruppenwissen
Quadratsumme zwischen: Wie unterschiedlich sind die Gruppenmittelwerte untereinander? = QSgesamt – QSinnerhalb
Eta² (η2)
0 = kein Zusammenhang
1 = perfekter Zusammenhang
z. B. 0.53 = 53 % der Varianz werden durch die Gruppen erklärt
Interpreation nach Cohen
Eta²
< 0.01
kein Effekt
0.01–0.06
kleiner Effekt
0.06–0.14
≥ 0.14
großer Effekt
Daten: 10 Kinder machen ein Quiz (0–16 Punkte).
Gruppen:
ohne Migrationshintergrund → Mittelwert 12,8
mit Migrationshintergrund → Mittelwert 6,2
Diese Mittelwerte unterscheiden sich massiv.
Darum:
QS innerhalb = 95,6 → Das ist der Fehler, wenn man Gruppenmittelwerte benutzt
QS Gesamt = 204,5 → Das ist der Fehler, wenn man den Gesamtmittelwert benutzt
Dann:
η2 = 204,5 - 95,6 / 204,5 = 0,53
Heißt: Der Eta-Quadrat-Wert von 0,53 zeigt einen sehr starken Effekt des Migrationshintergrunds auf das politische Wissen. 53 % der Varianz im Wissen können durch die Gruppenzugehörigkeit erklärt werden.
Metrische Zusammenhangsmaße
Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei
Scatterplots (Streudiagramme)
Kovarianz und
Pearson’s r (Korrelationskoeffizient)
Grafische Analyse: Streudiagramm (Scatterplot)
= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.
Zweck: Erste Einschätzung des Zusammenhangs.
Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.
Arten von Zusammenhängen:
Keine Korrelation: Punkte zufällig verteilt.
Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.
Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.
Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.
Kovarianz: unstandardisiertes Zusammenhangsmaß
Misst, ob zwei metrische Variablen gemeinsam variieren (in dieselbe oder entgegengesetzte Richtung).
Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n
Interpretation des Ergebnis:
positiv → steigen gemeinsam
negativ → einer steigt, der andere fällt
≈ 0 → kein linearer Zusammenhang
Problem: einheitenabhängig → schwer vergleichbar
Beispiel aus dem Text:
Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben
Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.
Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)
= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.
heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.
Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).
Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.
Wertebereich -1 bis 1
Berechnung über Tabelle:
Erstelle eine Tabelle mit diesen 5 Spalten:
xi → Werte von Merkmal X (z. B. Einkommen)
yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)
xi · yi → Produkt aus X und Y
(xi)² → X-Werte quadriert
(yi)² → Y-Werte quadriert
Am Ende addierst du jede Spalte als Randwert
Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)
Formel auffüllen (Zähler):
Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi
Formel auffüllen (Nenner):
Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN
ID
Xi
Yi
X·Y
X²
Y²
8
16
64
6
24
36
Σ
12
18
56
116
MW
21,33
18,67
38,67
= 0,22
Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy
Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.
Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.
Mögliche 3. Variablen können nicht ausgeschlossen werden
= keine kausale Interpretation möglich nur Schein Korrelationen
auch keine Richtung der Kausalität möglich
nur je höher, desto wahrscheinlicher… Aussagen möglich
Interpreation des Ergebnis:
r > 0 → positiver linearer Zusammenhang
r < 0 → negativer linearer Zusammenhang
r = 0 → kein linearer Zusammenhang
Faustregel:
≤ 0,05 kein Zusammenhang
>0,05 – 0,20 schwach
>0,20 – 0,50 mittelstark
>0,50 – 0,70 stark
>0,70 sehr stark
Beispiel 1 (IQ & Test):
r = 0,89 → sehr starker positiver Zusammenhang
Beispiel 2 (Einkommen & Lebenszufriedenheit):
r = 0,64 → starker positiver Zusammenhang
Zusammengefasst:
Streudiagramm → zeigt die Form des Zusammenhangs (visuell)
Kovarianz → zeigt die Richtung (positiv/negativ), ist aber nicht interpretierbar in der Stärke
Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)
Last changed7 days ago