Buffl

Quantitative Analyseverfahren

CC
by Cathérine C.

Klassifikation von Variablen

Eine Variable ist ein sozialwissenschaftliches Merkmal, das mindestens zwei Ausprägungen hat.

  • Beispiele: Geschlecht, Schulabschluss, politisches Interesse


Klassifikationskriterien

  1. Skalenniveau: bestimmt, welche statistischen Verfahren zulässig sind.

    • Viele Verfahren (z. B. Regressionsanalysen) setzen metrisches oder pseudometrisches Skalenniveau voraus.

    • Je höher das Skalenniveau, desto leistungsfähiger und interpretierbarer sind die möglichen Analyseverfahren.

  2. Diskrete vs. stetige Variablen

  3. Dichotome vs. polytome Variablen

  4. Manifeste vs. latente Variablen


Wichtig: Eine gute Analyse beginnt mit der richtigen Einordnung der Variablen —denn das Skalenniveau entscheidet, was du rechnen und interpretieren darfst.


Skalenniveaus nach Stevens (1946)

Skalenniveau

Beispiel

Zulässige Operationen

Merkmale

Nominalskala

Geschlecht, Religion

Auszählen

Nur Gleichheit/Ungleichheit unterscheidbar, keine Rangfolge, Zahlen sind bloße Bezeichnungen

Ordinalskala

Schulabschluss, politisches Interesse

Auszählen, Ordnen

Rangordnung möglich, Abstände zwischen Rängen nicht gleich

Intervallskala

Temperatur (°C)

Auszählen, Ordnen, Differenzen bilden

Gleiche Abstände interpretierbar, aber kein natürlicher Nullpunkt

Ratioskala

Einkommen, Alter, Temperatur (K)

Auszählen, Ordnen, Differenzen und Verhältnisse bilden

Natürlicher Nullpunkt, Verhältnisbildung möglich („doppelt so groß“)


Wichtig:

  • Je höher das Skalenniveau, desto mehr Rechenoperationen und Analyseverfahren sind zulässig.

  • Pseudometrische Variablen: Ordinale Variablen mit mindestens fünf geordneten Ausprägungen, die wie metrische Variablen behandelt werden,wenn gleiche Abstände zwischen den Ausprägungen angenommen werden können.

    • Beispiel: Zustimmungsskalen („stimme gar nicht zu“ bis „stimme voll zu“)


Diskrete und stetige Variablen

  • Diskrete Variable: Endliche oder abzählbar viele Ausprägungen, keine Zwischenwerte möglich

    • Beispiel: Familienstand, Kinderzahl, Anzahl der Fachsemester

  • Stetige Variable: Unendlich viele Ausprägungen, Zwischenwerte möglich

    • Beispiel: Größe, Einkommen, Zeitangaben


Dichotome und polytome Variable

  • Dichotom: Nur 2 mögliche Ausprägungen

    • z.B. Wahlbeteiligung (Ja/ Nein), Tabakkonsum (Raucher/ Nichtraucher)

    • 📌 Dichotome Variablen sind Sonderformen diskreter Variablen.

  • Polytom: Mehr als 2 Ausprägungen

    • z.B. Religionszugehörigkeit mit mehreren Kategorien


Manifeste und latente Variablen

  • Manifeste Variable: direkt beobachtbar (z.B. Haarfarbe)

  • Latente Variable: Nicht direkt beobachtbar (z.B. Intelligenz)

🔍 Wichtiges Instrument: Operationalisierung: Prozess, bei dem latente Variablen in messbare Indikatoren übersetzt werden (z. B. durch Fragen im Fragebogen


Standardisierung von Variablen bei Univariaten Datenanalysen

(z-Transformation)

In der Forschung liegen Variablen oft in unterschiedlichen Skalierungen oder Verteilungen vor (z. B. 0–10 vs. 1–7 Skala). Dadurch lassen sich Messwerte nicht direkt vergleichen.Die Lösung: z-Transformation (Standardisierung).


Situation: Messwerte können unterschiedliche Messeinheiten, Skalen oder Streuung haben.

  • Beispiel: Lisa (45 Pkte) und Bart (60 Pkte) schrieben unterschiedliche Tests → andere Mittelwerte, andere Standardabweichungen → direkte Vergleichbarkeit nicht möglich.

  • Lösung: Werte aus verschiedenen Verteilungen vergleichbar machen. Standardisierung bringt Werte auf eine gemeinsame Skala:

    • Mittelwert = 0

    • Standardabweichung = 1

Beispiel:

Person

(x_i)

(\bar{x})

(s_x)

Lisa

45

25

10

Bart

60

50

25


Schritte der Berechnung

Der z-Wert gibt an, wie viele Standardabweichungen ein Wert über oder unter dem Mittelwert liegt.

  • Zentrierung

    • (xi​−xˉ) | Angegebene Wert jeder Person minus arithmetische Mittel

      • Beispiel Lisa: 45-25

      • Beispiel Bart: 60-50

    • Heißt: Verschiebt die Verteilung so, dass der Mittelwert 0 wird.

    • Werte unterhalb des Mittels → negativ, Werte oberhalb → positiv.

  • Normierung

    • Ergebnis durch Division durch die Standardabweichung: xi​−xˉ / Sx (Standardabw.)

      • Beispiel Lisa: 45 - 25 / 10 = 2

      • Beispiel Bart: 60 - 50 / 25 = 0,4

    • Skaliert so um, dass die neue Standardabweichung 1 beträgt = Streckung/Stauchung der Verteilung.


Interpretation

  • Positiver z-Wert: Leistung über dem Durchschnitt

  • Negativer z-Wert: Leistung unter dem Durchschnitt

  • Betrag des z-Werts:

    • Klein → nahe am Mittelwert (typisch)

    • Groß → ungewöhnlich (potenzieller Ausreißer)

Beispiel:

  • Lisas Leistung: 2 Standardabweichungen über dem Durchschnitt → außergewöhnlich hoch.

  • Barts Leistung: 0,4 Standardabweichungen über dem Durchschnitt → leicht überdurchschnittlich.

  • Relativ ist Lisa deutlich besser, obwohl Bart absolut mehr Punkte hat.


Grundgesamtheit und Stichprobe


Die Stichprobe dient als Grundlage für empirische Analysen (z. B. Berechnung von Häufigkeiten, Zusammenhängen oder Regressionsmodellen).

  • Eine Zufallsstichprobe ist entscheidend, damit Ergebnisse verallgemeinert (inferenzstatistisch übertragen) werden können.

  • Ziel: Aussagen über die Grundgesamtheit auf Basis der Stichprobe treffen.


Arten:

  • Grundgesamtheit: Die Gesamtheit aller Untersuchungseinheiten, über die eine wissenschaftliche Aussage getroffen werden soll.

    • Beispiel: Alle 60.510.631 Wahlberechtigten bei der Bundestagswahl 2025

  • Stichprobe: Auswahl von Untersuchungseinheiten aus der Grundgesamtheit, die tatsächlich empirisch untersucht wird.

    • Beispiel: Einige tausend Befragte in der German Longitudinal Election Study (GLES).


Merkmal

Vollerhebung

Stichprobe

Erhebung aller Elemente der Grundgesamtheit

Hohe Kosten und Aufwand

Realisierbarkeit

meist unmöglich

praktikabel

Ziel

Exakte Werte der Grundgesamtheit

Schätzung der Werte der Grundgesamtheit


Stichprobenfehler

Der Mittel- oder Anteilswert einer Stichprobe weicht in der Regel leicht vom wahren Wert der Grundgesamtheit ab. → Diese Abweichung nennt man Stichprobenfehler. Beispiel:

  • Stichprobe: Durchschnittsalter = 45,2 Jahre

  • Grundgesamtheit: 45,1 oder 45,3 Jahre


Häufige Fehlerquellen

  • Verwendung einer nicht-zufälligen Stichprobe → keine gültigen Rückschlüsse möglich.

  • Verwechslung von signifikant mit wichtig oder stark → „Signifikant“ heißt nur: mit hoher Wahrscheinlichkeit auch in der Grundgesamtheit vorhanden – nicht, dass der Effekt groß oder relevant ist.


Merksatz: Nur mit einer Zufallsstichprobe kann man von der Stichprobe auf die Grundgesamtheit schließen – und nur dann sind inferenzstatistische Aussagen valide.


Bedeutung für Inferenzstatistik

  • Inferenzstatistik = Rückschluss von der Stichprobe auf die Grundgesamtheit.

  • Voraussetzung: Zufallsstichprobe

  • Signifikanztests prüfen, ob ein in der Stichprobe beobachteter Zusammenhang wahrscheinlich auch in der Grundgesamtheit besteht.


4 Schritte der Datenanalyse

  1. Univariate Datenanalyse

    • Fokus auf eine Variable

    • Zur Beschreibung der Verteilung eines Merkmals innerhalb dieser Variable

    • Methoden:

      • Häufigkeiten

      • Kennzahlen zur Verdichtung vieler Beobachtungen:

        • Lagemaß: Zentrum der Verteilung

          • z.B. Mittelwert, Median

        • Streuungsmaß: Variation der Werte

          • z.B. Varianzen, Standardabweichung

        • Formmaß: Charakterisierung der Verteilungsform

          • z.B. Schiefe, Wölbung

        • Konzentrationsmaße: wie ungleich sind die Werte verteilt?

          • z.B. Lorenzkurve, Gini-Koeffizient

  2. Bivariate Datenanalyse

    • Fokus auf 2 Variablen

    • Zur Untersuchung von Zusammenhängen oder Unterschieden zwischen 2 Merkmalen (z.B. Bildung und Einkommen)

    • Methoden:

      • Kreuztabellen (Crosstabs): Zeigt gemeinsame Verteilung zweier Variablen

      • Zusammenhangsmaße (Koeffizienten):

        • Cramérs V: Stärke von Zusammenhängen bei nominalen Variablen

        • Spearmans rho: Rangkorrelationen bei ordinalen Variablen

        • Pearsons r: lineare Korrelationen metrischer Variablen

  3. Multivariate Datenanalyse

    • Fokus auf Drei oder mehr Variablen

    • Zur Untersuchung mehrerer gleichzeitig einwirkender Einflussfaktoren auf eine abhängige Variable

    • Methoden:

      • Lineare Regression: Schätzt Einfluss der unabhängigen Variablen auf eine metrische abhängige Variable

      • Logistische Regression: Schätzt Einfluss mehrerer Variablen auf eine dichotome (z. B. Ja/Nein) abhängige Variable

  4. Inferenzstatistik

    • Grundidee: Sozialwissenschaftliche Analysen beruhen meist auf Zufallsstichproben, nicht auf vollständigen Erhebungen.

    • Fokus auf Übertragung von Stichprobenergebnissen auf die Grundgesamtheit, i.F. einer Prüfung, ob Ergebnisse zufällig oder repräsentativ sind

    • Zur Beurteilung, ob beobachtete Zusammenhänge statistisch signifikant und verallgemeinbar sind




Häufigkeitsarten (Univariate Datenanalyse)

Die univariate Datenanalyse beschreibt eine einzelne Variable, meist durch Häufigkeiten, Lage- und Streuungsmaße, um ihre Verteilung und Struktur verständlich zu machen.


Häufigkeitstabellen zeigen, wie oft jede Merkmalsausprägung vorkommt und enthält 4 zentrale Angaben:


  1. Absolute Häufigkeiten

  • geben an wie oft die einzelnen Ausprägungen auftreten

  • absolute Häufigkeit = fj


  1. Relative Häufigkeiten

  • Relation der einzelnen absoluten Häufigkeiten zur Gesamtzahl an Fällen

  • Relative Häufigkeit = pj = fj/Gesamtzahl (n)


  1. Relative Häufigkeiten in Prozent

  • Darstellung der relativen Häufigkeiten in Prozent im Verhältnis zur Gesamtzahl der Fälle.

  • = pj% = pj*100%


  1. Kumulierte relative Häufigkeit

  • zeigt, wie viel Prozent aller gültigen Fälle bis zu einem bestimmten Merkmalswert liegen.

  • 👉 „Kumuliert“ = „aufsummiert“.

  • Sie hilft, Verteilungen zu beschreiben, nicht Inhalte zu bewerten

  • Berechnung durch schrittweise Aufsummierung der einzelnen relativen Häufigkeiten in Prozent

  • =pj(kum)% = einzelnen pj% addieren


Wichtig:

  • Fehlende Werte (NAs) werden nicht mitgezählt.

  • Bei der höchsten Kategorie steht immer 100 %, weil dort alle gültigen Fälle enthalten sind


Beispiel: Zustimmungsskala

> „Ich finde Online-Unterricht effektiv.“


Antwortoption Personen Relative Häufigkeit Kumuliert (%)

1 – stimme gar nicht zu 5 6,25 % 6,25 %

2 – stimme weniger zu 15 18,75 % 25 %

3 – teils/teils 20 25 % 50 %

4 – stimme eher zu 25 31,25 % 81,25 %

5 – stimme voll zu 15 18,75 % 100 %

Fehlend (NA) 20 – –


Anwendung

  • Verteilung erkennen: Zeigt, wie sich Fälle entlang einer Skala „aufschichten“.

  • Median & Quartile bestimmen: 50 %-Punkt der kumulierten Häufigkeit = Median.

  • Vergleiche zwischen Gruppen Beispiel: Bei Frauen liegen 60 % „höchstens teils/teils“, bei Männern 80 %.

  • Diagramme: Grundlage für Summenkurve (Ogive), um Verteilungen visuell darzustellen.


Heißt:

  • Relative Häufigkeit Anteil einer einzelnen Kategorie (z. B. 25 % stimmen eher zu).

  • Kumulierte Häufigkeit Aufsummierter Anteil bis zu einer bestimmten Kategorie (z. B. 81 % stimmen höchstens eher zu).


Lagemaße (Univariate Datenanalyse)

Lagemaße beschreiben das Zentrum bzw. den typischen Wert einer Verteilung.→ Sie fassen große Datenmengen auf wenige Kennzahlen zusammen (univariate Datenanalyse)


Zuverlässigkeit der Lagemaße je nach Skalenniveau

Skalenniveau

Modus

Median

Arithmetisches Mittel

Nominal

Ordinal

Intervall / Ratio

Beispiele:

  • Geschlecht → nominal (nur Modus)

  • Schulnote → ordinal (Modus & Median)

  • Alter → Intervall/metrisch (alle drei Lagemaße)


Modus

ist der am häufigsten vorkommende (gültige) Wert in einer Verteilung. Abkürzungen: h (Diaz-Bone) oder (Völkl & Korb)

  • Eigenschaften:

    • Kann bei allen Skalenniveaus berechnet werden

    • Einfach abzulesen aus Häufigkeitstabellen oder Diagrammen

    • Bei zwei gleich häufigen Werten → bimodale Verteilung

    • Interpretation: ➡️ Informationsgehalt gering, da nur ein Wert berücksichtigt wird.

    • Besonderheit: Säulendiagramm -> höchster Balken

Beispiel

Variable

Werte

Modus

Geschlecht (1=Frau, 2=Mann)

1,1,1,2,2,2,2,1,1

1

Alter

20,25,25,25,30,30,40,45,45

25

Familienstand (1=verheiratet, 3=ledig)

1,1,2,2,1,3,3,3,4

1 und 3 (bimodal)


Median

Der Median (x̃) teilt eine geordnete Verteilung in zwei Hälften:50 % der Werte liegen unterhalb und 50 % oberhalb.

  • Voraussetzung:

    • Werte müssen sortiert sein

    • Mindestens ordinalskaliert

  • Berechnung:

    • Unsortiert: 1, 5, 3, 2, 3, 1, 5, 3, 3, 4, 2

    • Sortiert: 1, 1, 2, 2, 3, 3, 3, 3, 4, 5, 5

    • Median: 3 (6. Wert)

  • Praxis:

    • Häufigkeitstabelle mit kumulierten Prozentwerten: Median bei ≈50 %


Arithmetisches Mittel

ist die Summe aller Werte geteilt durch deren Anzahl.

  • Voraussetzungen

    • Mindestens intervallskaliert

    • Abstände zwischen Werten müssen gleich groß sein

    • Wird oft fälschlich auch bei ordinalen Daten (z. B. Schulnoten) verwendet

  • Achtung: Einfluss von Ausreißern

    • Extremwerte können den Durchschnitt stark verzerren.

    • Beispiel: Gruppe 1 (max 35 J.) → x̄ = 26,7 / Gruppe 2 (max 70 J.) → x̄ = 30,6

    • Ausreißerprüfung → Median und Modus bleiben stabil (25)



Streuungsmaße (Univariate Datenanalyse)

Lagemaße (Modus, Median, arithmetisches Mittel) beschreiben das Zentrum einer Verteilung, geben aber keine Informationen über die Streuung der Werte. Streuungsmaße messen die Variation oder Dispersion der Werte um das Zentrum.

  • Wichtig: Streuungsmaße sind ab Intervallskala sinnvoll berechenbar.


Definition: Durchschnittliche quadrierte Abweichung der Werte vom arithmetischen Mittel.

= Je größer die Varianz, desto stärker streuen die Werte um das Mittel.


Formeln zur Messung der Varianz

Varianz = Maß dafür, wie stark die Werte einer Verteilung um ihr arithmetisches Mittel streuen.Sie sagt dir also: „Sind die Werte ziemlich ähnlich oder stark unterschiedlich?“

  • Empirische Varianz (Vollerhebung):

    s2 = ∑ (xi − xˉ)² / n

  • Korrigierte Varianz (Stichprobe):

    s*²= ∑ (xi − xˉ)² / n-1


Berechnungsschritte

  1. Arithmetisches Mittel eines Datensatzes berechnen. (xˉ)

  2. Abweichungen der Werte vom Mittelwert bilden, durch Subtraktion vom Mittelwert jeden einzelnen Wert: (xi−xˉ)

  3. Abweichungen quadrieren: (xi−xˉ)², damit sich positive und negative Abweichungen nicht gegenseitig aufheben.

  4. Addiere alle quadrierten Abweichungen.

  5. Durch die Anzahl der Werte (n) = empirisch oder (n−1) = korrigiert teilen.


  • Beispiel (Land-Gruppe Zufriedenheit, n=11):

    • Summe der quadrierten Abweichungen: 90

    • Empirische Varianz: s² = 90/ 11 ≈ 8,18

    • Korrigierte Varianz: s*² = 90/ 10 = 9

  • Beispielhafte Interpretation:

    • Varianz = 0 → alle Werte sind gleich (keine Streuung).

    • Große Varianz → die Werte liegen weit auseinander.


Problem: Die Einheit der Varianz ist quadriert, also nicht mehr direkt vergleichbar mit den Originalwerten (z. B. Lebenszufriedenheit auf einer 0–10 Skala → Varianz in „Punkten²“).


Standardabweichung

Die Standardabweichung ist die Wurzel der Varianz. Dadurch hat sie die gleiche Einheit wie die ursprünglichen Werte.

  • Sie ist damit viel anschaulicher und leichter interpretierbar.

  • Formeln:

    • Empirisch (Vollerhebung): s = ∑s²

    • Korrigiert (Teilerhebung): s* = ∑s*²

  • Beispielhafte Interpretation:

    • Wenn Lebenszufriedenheit auf einer Skala von 0–10 gemessen wird und die Standardabweichung 2 beträgt, dann liegen die meisten Werte ungefähr 2 Punkte über oder unter dem Mittelwert.

    • Kleine Werte → geringe Streuung

    • Große Werte → hohe Streuung

    • s=0s = 0s=0 → keine Streuung

  • Am Beispiel der Lebenszufriedenheit:

    • Empirische Standardabw.: s = ∑8,18 ≈ 2,86

    • Korrigierte Varianz: s* = ∑3,22 ≈ 1,79


Merksatz:

  • Varianz: zeigt die Streuung, aber in „Quadrat-Einheiten“.

  • Standardabweichung: zeigt die Streuung in derselben Einheit wie die Daten → leichter interpretierbar.



Formmaße (Univariate Datenanalyse)

Formmaße beschreiben die Form einer Verteilung, also wie die Werte einer Variable angeordnet sind, jenseits von Mittelwert und Streuung. Sie liefern Informationen über die Struktur der Verteilung.


Die beiden wichtigsten Formmaße sind:


1.Schiefe (Skewness)

misst die horizontale Asymmetrie: Sie zeigt, ob die Werte mehr auf der linken oder rechten Seite konzentriert sind.

  • Formel wird heute nicht mehr händisch berechnet. Zur angemessenen Beschreibung einer Verteilungsform muss nur der Schiefe-Koeffizient korrekt interpretiert werden. Drei Fälle werden unterschieden

    • Symmetrisch → Schiefe ≈ 0

      • Verteilung ist gleichmäßig um das Mittel verteilt (z. B. Normalverteilung). Modus = Median = Mittelwert.

    • Rechtsschief → Schiefe > 0 (lange rechte Spitze)

      • die meisten Werte links, wenige rechts. Mittelwert > Median > Modus.

    • Linksschief → Schiefe < 0 (lange linke Spitze)

      • die meisten Werte rechts, wenige links. Modus > Median > Mittelwert.


Fechner’sche Lageregel

= Daumenregel (die nicht immer stimmt), aber eine einfache Möglichkeit darstellt, die Schiefe einer Verteilung ohne Berechnung des entsprechenden Formmaßes und ohne grafische Darstellung zu bestimmen

  • Bei symmetrischen Verteilungen weisen die drei Lagemaße Modus, Median und arithmetisches Mittel denselben Wert auf

  • Eine Verteilung ist rechtsschief (linksgipflig), wenn der Modus kleiner als der Median und der Median kleiner als das arithmetische Mittel ist (Modus < Median < Arithmetisches Mittel).

  • Eine Verteilung ist linksschief (rechtsgipflig), wenn der Modus größer als der Median und der Median größer als das arithmetische Mittel ist (Modus > Median > Arithmetisches Mittel)


2.Wölbung (Kurtosis)

Misst die vertikale Form einer Verteilung, also wie „spitz“ oder „flach“ sie im Vergleich zur Normalverteilung ist

  • Man will damit herausfinden, wie stark die Werte in der Mitte konzentriert sind und wie viele Werte in den Rändern (Extremen) liegen

    • Viele Werte nah am Mittelwerthochgipflig (spitzer Berg)

    • Viele Werte weit vom Mittelwert entferntflachgipflig (breiter Hügel)

  • Mit einer Formel misst ein Programm, wie weit jeder Wert vom Mittelwert entfernt ist, und potenziert diese Abweichung mit 4, weil so große Abweichungen (also Ausreißer) viel stärker gewichtet werden

    • Außerdem: Da man potenziert, verschwinden die Minuszeichen (wie bei der Varianz)

      = Maß dafür, wie stark die Verteilung „spitzt“ oder „flacht“.

    Aber:

  • Wenn man die oben genannte Formel ohne Korrektur bei einer perfekten Normalverteilung anwendet, kommt immer ungefähr 3 heraus — das ist sozusagen der natürliche Wert, der sich aus der Form dieser Kurve ergibt

  • Weil man möchte, dass die Normalverteilung = 0 bedeutet, subtrahiert man 3 und nennt dies den:

    • Korrekturfaktor: Anpassung, die dafür sorgt, dass die Normalverteilung als Referenzwert 0 hat.

  • Typen der Wölbung:

    Typ

    Beschreibung

    Interpretation

    Kurtosis = 0

    Normalverteilung

    Standardgipfelform

    Kurtosis > 0

    Hochgipflig

    Steile Verteilung, viele Werte in der Mitte, wenige an den Rändern

    Kurtosis < 0

    Flachgipflig

    Breite Verteilung, weniger Werte in der Mitte, mehr an den Rändern


Fazit: In der Praxis treten kleine Abweichungen häufig auf – eine exakt „perfekte“ Normalverteilung ist selten. Kurtosis hilft aber zu erkennen, ob eine Variable stark konzentriert oder breit gestreut ist.


Heißt:

  • Lagemaße und Streuungsmaße sagen nur Zentrum und Streuung.

  • Formmaße zeigen Asymmetrien und Konzentrationen der Daten, z. B. viele extreme Werte oder eine verzerrte Verteilung.

  • Relevant für Statistikverfahren, die Normalverteilung voraussetzen, z. B. t-Tests oder Regressionsanalyse.


Konzentrationsmaße (Univariate Datenanalyse)

Konzentrationsmaße beschreiben die Ungleichverteilung eines metrischen und nicht-negativen Merkmals – klassisch: Einkommen.

Ziel: Wie verteilt sich die Merkmalssumme (z. B. Gesamteinkommen) auf die Merkmalsträger (z. B. Personen)?


Wichtig: Konzentrationsmaße werden nur für metrische und nicht-negative Daten verwendet, z. B.:

  • Einkommen

  • Vermögen

  • Marktanteile

  • Unternehmensgröße


Grundidee

  • Keine Konzentration: alle Merkmalsträger besitzen denselben Wert.

  • Maximale Konzentration: ein Merkmalsträger vereint die gesamte Merkmalssumme auf sich.

  • Wichtig: Konzentration = Ungleichheit der Verteilung.


Die drei wichtigsten Konzentrationsmaße

  • Lorenzkurve

    • Grafisches Instrument zur Darstellung der relativen Konzentration.

    • je mehr die Kurve „durchhängt“, desto ungleicher

    • Vorgehen:

      • Merkmalsträger nach der Merkmalsausprägung sortieren (aufsteigend).

      • Für jede Position j:

        • Relative kumulierte Häufigkeit: uj=j/n

        • Kumulierte Merkmalswerte: ∑xi​

        • Relativer Anteil an der Merkmalsgesamtsumme: qj=∑xi/xi

        • Uj = x-Kurve und qj = y-Kurve, Punkte verbinden → Lorenzkurve.

        • Vergleichsdiagonale (45°-Linie) zeigt Gleichverteilung.

    • Interpretation

      • Je stärker die Kurve unter der Diagonale liegt (= „durchhängt“), desto ungleichmäßiger die Verteilung.

      • Eigenschaften:

        • Monoton wachsend, da kumulierte Werte.

        • Konvex (nach unten gewölbt).

  • Gini-Koeffizient (normiert 0-1)

    • Maß für die Stärke der relativen Konzentration; basiert auf Lorenzkurve

    • Interpretation: Gibt den Anteil der Fläche zwischen Lorenzkurve und Diagonale an der Fläche unter der Diagonale an.

      • 0 = perfekte Gleichheit

      • 1 = maximale Ungleichheit

    • Formel: Summe aus ∑xi/ Summe aus xi

    • Lorenz-Münzner-Maß (normierter Gini)

      • Wird eingesetzt, weil der nicht-normierte Gini vom Umfang n der Merkmalsträger beeinflusst wird.

      • Formel: n + 1 - 2*c (Gini normal) / n - 1

        • Beispiel: 5 Personen + 1 - 2*2,464 / 5-1

          = 0,268 (Normierter Gini

      • Siehe s. 38

    • Kritik

      • Datenbasis verzerrt: basiert oft auf freiwilligen Haushaltsbefragungen → reiche Haushalte unterrepräsentiert → Ungleichheit wird unterschätzt.

      • Unabhängig von n: Gini beachtet nicht die Anzahl der Beobachtungen.

      • Nur relative Ungleichheit:

        • Gibt an, wie die Merkmalssumme verteilt ist,

        • aber nicht wie viele Personen zu welchem Anteil beitragen (absolute Konzentration).

  • Herfindahl-Index

    • Maß für die absolute Konzentration.

    • Wertebereich:

      • 1 = ein Merkmalsträger vereinigt alles auf sich

      • 1/n = minimale Konzentration (Gleichverteilung)

    • Anwendungsgebiete:

      • Kartellbehörden: Messung der Marktkonzentration.

      • Politikwissenschaft: Messung der Parteienzersplitterung (niedriger Wert = stark fragmentiert).


Heißt: Konzentrationsmaße sind ein eigener Bestandteil der univariaten Datenanalyse und messen, wie ungleich die Werte einer metrischen, nicht-negativen Variable verteilt sind (z. B. Einkommen), typischerweise mittels Lorenzkurve, Gini-Koeffizient oder Herfindahl-Index

Grafische Darstellung univariater Daten

  1. Säulen/ Balkendiagramm

    • Voraussetzungen:

      • Nominale und ordinale Variablen

      • Merkmale mit wenigen Ausprägungen

      Darstellung:

      • Säulendiagramm: vertikale Rechtecke

      • Balkendiagramm: horizontale Rechtecke

      • Höhe/Länge entspricht absoluten oder relativen Häufigkeiten

      • Kategorien haben gleiche Breite

      Einsatz:

      • Gute Vergleichbarkeit zwischen Kategorien

      • Beispiel: ALLBUS 2016 – Interesse an Politik

  2. Kreisdiagramm

    • Voraussetzungen:

      • Nominalssskalierte Variablen

      • Merkmale mit wenigen Ausprägungen

      Darstellung:

      • Illustration von (relativen) Häufigkeiten durch Kreissegmente, Größe entsprechen den jeweiligen Ausprägungen

      Kritik in der Fachliteratur:

      • Schwere Interpretierbarkeit, da Flächen/Winkel beurteilt werden müssen

      • Gefahr der Täuschung über tatsächliche Häufigkeiten

      • 3D verschlechtert Lesbarkeit zusätzlich

      • Sozialwissenschaftliche Empfehlung: Vermeiden

        • „In keinem vernünftigen Journal werden Tortendiagramme abgedruckt.“ (Plümper 2012)

      Alternative:

      • Säulen- oder Balkendiagramm fast immer vorzuziehen

  3. Histogramm

    • Voraussetzungen:

      • Metrische Variablen mit vielen Ausprägungen

      • Besonders bei gruppierten Daten (z.B. Altersklassen, Einkommen)

      Darstellung:

      • Säulen liegen direkt nebeneinander (keine Abstände)

      • Flächentreue: Fläche (Höhe × Breite) ∝ Häufigkeit

      • Gute Erkennbarkeit von

        • Schiefe

        • Symmetrie

        • Steilheit der Verteilung

      Klassenbildung:

      • Empfehlungen für Mindestanzahl von Klassen (Degen 2010):

        • bis 100 Fälle → mind. 10 Klassen

        • ~ 1.000 Fälle → mind. 13 Klassen

        • ~ 10.000 Fälle → mind. 16 Klassen

      • Empfohlen: gleich breite (äquidistante) Klassen

      • Unterschiedliche Klassenbreiten möglich, aber schwerer interpretierbar (Flächenvergleich)

  4. Boxplot (Box and Whisker Plot)

    • Voraussetzungen:

      • Metrische Variablen

      • Gute Darstellung von Streuung, Lage und Ausreißern

    • Bestandteile:

      • Box (Rechteck): enthält die mittleren 50 % der Beobachtungswerte

        • Unteres Quartil (Q1): 25 % der Werte liegen darunter

        • Median (Q2): 50 % der Werte liegen darunter bzw. darüber

        • Oberes Quartil (Q3): 75 % der Werte liegen darunter

      • Interquartilsabstand (IQR): Q3 – Q1 → Maß für die Streuung der mittleren 50 %

      • Whiskers (Antennen/Barthaare): Linien, die die Werte außerhalb der Box darstellen

        • Länge max. 1,5 × IQR über Q3 bzw. unter Q1

        • Endpunkte = maximale/minimale Werte innerhalb dieser Grenze

      • Ausreißer: Werte außerhalb der Whiskers

        • SPSS: Kreis = Ausreißer, Stern = Extremwert (> 3 × IQR außerhalb der Box)

        • Stata/R: keine Unterscheidung

    • Darstellung und Interpretation

      • Lage: Median zeigt zentrale Tendenz

      • Streuung: Länge der Box → mittlere 50 % der Daten

      • Symmetrie: Median in der Box → links/rechts gleich verteilt → symmetrisch

      • Ausreißer: erkennbare Punkte außerhalb der Whiskers

      • Vergleich mehrerer Gruppen möglich durch nebeneinanderliegende Boxplots

    • Vorteile:

      • Zeigt Verteilungslage kompakt

      • Einfacher Vergleich mehrerer Gruppen

      • Identifiziert Ausreißer klar

    • Beispiel aus ALLBUS 2016 (Interviewdauer):

      • Median: 55 Minuten

      • Unteres Quartil (Q1): 47 Minuten

      • Oberes Quartil (Q3): 66 Minuten

      • IQR: 66 – 47 = 19 Minuten

      • Ausreißer: z. B. längstes Interview 175 Minuten

      • → 50 % der Interviews dauerten zwischen 47 und 66 Minuten



Bivariate Datenanalyse

1️⃣ Ziele der bivariaten Analyse

  • Untersuchung des gemeinsamen Auftretens von zwei Merkmalen.

  • Aufdeckung von Zusammenhängen, Abhängigkeiten oder Unterschieden zwischen Variablen.

  • Beispiele:

    • Zusammenhang zwischen Bildung der Eltern & schulischem Erfolg der Kinder

    • Zusammenhang zwischen Wahlbeteiligung & Einkommen

    • Zusammenhang zwischen Migrationshintergrund & politischem Wissen

2️⃣ Bestandteile der Analyse

a) Kreuztabelle / Kontingenztafel

  • Kombination von zwei Variablen in einer Tabelle

  • Ermöglicht eine erste deskriptive Übersicht über Zusammenhänge

  • Dient als Basis für die Formulierung von Hypothesen

  • Besonders geeignet für nominal- und ordinalskalierte Variablen

b) Zusammenhangs- / Assoziationsmaße

  • Quantitative Kennzahlen, die Stärke und Richtung eines Zusammenhangs beschreiben

  • Auch genannt: Kontingenz-, Assoziations- oder Korrelationskoeffizienten

  • Gebräuchliche Maße:

    • Phi, Cramer’s V, Lambda, C → nominal

    • Spearman’s Rho, Kendalls Tau, Gamma → ordinal

    • Pearson’s r, Eta-Koeffizient → metrisch oder metrisch × nominal

Wichtiger Hinweis:

  • Das Skalenniveau der Variablen bestimmt, welches Maß sinnvoll ist.

  • Wenn Variablen unterschiedliche Skalenniveaus haben, wird meist das Maß für das niedrigere Skalenniveau gewählt.

3️⃣ Detaillierte Auswahl nach Skalenniveau

Merkmal 1

Merkmal 2

Geeignetes Maß

nominal

nominal

Cramer’s V, Phi, Lambda, C

nominal

ordinal

Cramer’s V, Lambda, C

nominal

metrisch

Eta-Koeffizient

ordinal

ordinal

Spearman’s Rho, Kendalls Tau, Gamma

ordinal

metrisch

Spearman’s Rho, Kendalls Tau, Gamma

metrisch

metrisch

Pearson’s r, Spearman’s Rho, Kendalls Tau, Gamma, Eta

4️⃣ Interpretation der Maße

  • Pearson’s r / Spearman’s Rho:

    • Vorzeichen → Richtung des Zusammenhangs

      • Positiv: hohe Werte von X ↔ hohe Werte von Y

      • Negativ: hohe Werte von X ↔ niedrige Werte von Y

  • Eta-Quadrat (η²):

    • Anteil der Varianz der metrischen abhängigen Variable, der durch die unabhängige nominale Variable erklärt wird

    • Wertebereich: 0–1 → interpretiert als Effektstärke

    • Faustregeln nach Cohen:

      • <0,01 → kein Effekt

      • 0,01–0,06 → kleiner Effekt

      • 0,06–0,14 → mittlerer Effekt

      • ≥0,14 → großer Effekt

5️⃣ Darstellungsmöglichkeiten

  • Streudiagramme / Scatterplots:

    • Visualisierung von Zusammenhängen zwischen metrischen Variablen

    • Erste Einschätzung: linear, negativ, nicht-linear, kein Zusammenhang

6️⃣ Begrenzungen bivariater Analysen

  • Keine Kausalitätsaussage:

    • Zusammenhang ≠ Ursache → mögliche Drittvariablen können Scheinkorrelationen erzeugen

    • Beispiel: Anzahl Störche ↔ Geburtenrate → Ursache: Bebauungsart des Wohngebiets

  • Kausalrichtung statistisch nicht bestimmbar:

    • Theoriearbeit und Hypothesenbildung vor Analyse notwendig

  • Erkenntnis:

    • Bivariate Analysen zeigen Zusammenhänge

    • Sie erklären nicht die Ursache des Zusammenhangs

7️⃣ Praxis-Tipps

  • Auswahl des richtigen Assoziationsmaßes immer vom Skalenniveau abhängig machen

  • Grafische Darstellung (z. B. Kreuztabellen, Streudiagramme) hilft bei der ersten Einschätzung

  • Interpretation der Kennzahlen immer im Kontext der Forschungshypothese


Kreuztabellen

(Bivariate Datenanalyse)

= Übersichtliche Darstellung von absoluten und relativen Häufigkeiten, die erste Rückschlüsse auf mögliche Zusammenhänge gibt, z.B.

  • Bildung der Eltern ↔ schulischer Erfolg der Kinder

  • Einkommen ↔ Wahlbeteiligung

Definition: Matritzen, in deren Zellen die beobachteten Häufigkeiten zweier Variablen stehen (absolut und relativ)


Geeignet für:

  • Kategoriale (nominale) Variablen

  • Ordinale Variablen mit wenigen Ausprägungen

  • Metrische Variablen nur nach Gruppierung in Kategorien

Aufbau:

  • Zeilenvariable → meist abhängige Variable

  • Spaltenvariable → meist unabhängige Variable

  • Zellen → Kombination von Zeilen- und Spaltenausprägungen

  • Randhäufigkeiten → Summen der Zeilen und Spalten (Gesamtzahl)

    • stehen „am Rand“ der Tabelle – also unten (für Zeilen) oder rechts (für Spalten) und eigen, wie viele Beobachtungen insgesamt in einer Zeile oder Spalte vorkommen, unabhängig von der anderen Variable.


Prozentualisierung

  • Zweck: Vergleich von Gruppen bei ungleichen Stichprobengrößen

  • Ausgangssituation:

    • In einer Kreuztabelle stehen absolute Häufigkeiten (z. B. 13 Männer nutzen das Abendangebot).

    • Wenn Gruppen unterschiedlich groß sind, sind absolute Zahlen schwer vergleichbar.

      • Beispiel: 13 von 30 Männern nutzen das Angebot, 13 von 50 Frauen nutzen es. Absolut gleich, aber relativ unterschiedlich (Männer 43 %, Frauen 26 %).

    • Deshalb nutzt man Prozente, um relative Anteile innerhalb einer Gruppe darzustellen.

  • Arten der Prozentberechnung:

    1. Zeilenprozente: Zelle / Zeilensumme × 100

      • „Wie verteilt sich die abhängige Variable innerhalb dieser Zeile?“

      • Beispiel (Abendbibliothek):

        • Zeile „Ja“: 5 Personen nutzen das Angebot

          • 1 BA → 20 %

          • 4 MA → 80 %

        • Interpretation: Unter allen Personen, die das Abendangebot nutzen, sind die meisten MA.

      • Achtung: Zeilenprozente sagen nichts über die relative Größe der Gruppen aus. Sie zeigen nur die Zusammensetzung der Zeile.

    2. Spaltenprozente: Zelle / Spaltensumme × 100

      • „Wie verteilt sich die abhängige Variable innerhalb dieser Spalte?“

      • Beispiel (Abendbibliothek):

        • Spalte „BA“: 4 BA-Personen insgesamt

          • 1 nutzt das Angebot → 25 %

          • 3 nutzen es nicht → 75 %

      • Interpretation: Von allen BA-Studierenden nutzen 25 % das Abendangebot.

      • Standard bei Hypothesenprüfung: wenn man den Einfluss einer unabhängigen Variable (Spalte) auf eine abhängige Variable (Zeile) prüfen will.

    3. Gesamtprozente: Zelle / Gesamtzahl × 100 (Anteil bezogen auf Gesamtstichprobe)

      • „Welcher Anteil der gesamten Stichprobe fällt in diese Kategorie?“

      • Beispiel: 1 BA-Nutzer / 9 Gesamtbefragte → 11 %

      • Nützlich für allgemeine Übersicht, aber nicht für Vergleich zwischen Gruppen.


Merksatz:

  • Will ich Hypothesen prüfenSpaltenprozente

  • Will ich Zusammensetzung der Antwort sehen → Zeilenprozente

  • Will ich relativ zur Gesamtstichprobe sehen → Gesamtprozente


Interpretation nach Kühnel und Krebs

  • Prozentsatzdifferenzen (PP): Zeilenweise Differenz von Spaltenprozente

    • < 5 PP → kaum interpretierbar

    • 5–10 PP → schwacher Zusammenhang

    • 10–25 PP → mittlerer Zusammenhang

    • ≥ 25 PP → starker Zusammenhang


Beispiel

  1. Abendliche Bibliotheksnutzung:

    • BA vs. MA

    • Spaltenprozente: BA 43 %, MA 61 % nutzen Abendangebot

    • Mittelstarker Zusammenhang zwischen Studiengang und Nutzung

  2. Politisches Interesse nach Geschlecht:

    • Männer zeigen stärkeres Interesse

    • „Sehr stark“: Männer 17,6 % – Frauen 6,7 % → Differenz 10,9 PP → mittlerer Zusammenhang

  3. Bildung der Kinder nach elterlichem Hintergrund:

    • Kinder hoher Bildungshintergrund → häufiger Hochschulreife (42,5 % vs. 28,5 %)

    • Zeilenprozente zeigen nur Verteilung innerhalb eines Abschlusses → nicht für Hypothesenprüfung geeignet


Hinweise

  • Mindestanzahl pro Zelle: 15 Fälle → robuste Interpretation

  • Explorative Tabellen: Zeilen-, Spalten- und Gesamtprozente können angezeigt werden, immer klar markieren

  • Konvention: unabhängige Variable in Spalte, abhängige Variable in Zeile, Spaltenprozente berechnen


Zusammenhangsmaß

(Bivariate Datenanalyse)

= Wie man die Stärke und Richtung von Beziehungen zwischen zwei Merkmalen beschreibt

  • Beispiele:

    • Höhere Bildung → höheres Einkommen?

    • Geschlecht → politisches Interesse?

Sie dienen dazu, ** Beziehungen quantifizierbar** zu machen.


Arten

  • Kontingenzkoeffizeinten

  • Assoziationsmaße

  • Korrelationskoeffizienten


Wichtigstes Kriterium: Skalenniveau

Skalenniveau der Variablen bestimmt, welches Maß verwendet werden darf.→ falsches Maß = falsche Interpretation.

  • Messniveau bestimmt, welche mathematischen Operationen zulässig sind

  • Nominal: nur Kategorien

  • Ordinal: geordnete Stufen

  • Metrisch: echte Zahlen mit Abständen


Tabelle: Welche Maße passen zu welchem Niveau

Merkmal A \ Merkmal B

nominal

ordinal

metrisch

nominal

Cramer’s V, Lambda, C

ordinal

Spearman’s Rho, Kendall’s Tau A/B/C, Gamma

metrisch

Eta (aV = metrisch)

Pearson’s r

Kurzbeschreibung

Nominale

  • Cramers V

    • Misst die Stärke des Zusammenhangs

    • Werte zwischen 0 und 1

    • 0 = kein Zusammenhang; 1 = maximaler Zusammenhang

    • Basierend auf χ²

  • Lambda

    • Proportionale Reduktionsmaßzahl

    • Wie gut kann eine Variable zur Vorhersage genutzt werden?

  • Koeffizient C

    • Vorsicht: abhängig von Tabellengröße

    • weniger verbreitet

Ordinale

  • Spearmans Rho

    • Rangkorrelation

    • Werte von –1 bis +1

    • Richtung + Stärke des monotone Zusammenhanges

  • Kendalls Tau (A, B, C)

    • Besser bei vielen Bindungen

    • Interpretiert ähnlich wie Rho

  • Gamma

    • Nur Paare ohne Bindung

    • Werte –1 bis +1

    • Schwerpunkt: Paarvergleiche

Metrische

  • Pearsons R

    • Linearer Zusammenhang

    • Werte –1 bis +1

    • r misst NICHT Stärke des Effekts, sondern Stärke des linearen Zusammenhangs

Mischformen: z. B. Geschlecht (nominal) → politisches Interesse (ordinal)

  • Regel: Nimm das Maß, das zum niedrigeren Skalenniveau passt

  • Beispiel:

    • eine Variable ordinal

    • die andere metrisch → Spearman’s Rho

  • Nachteil:

    • Einige Informationen gehen verloren (z. B. echte Abstände bei metrischen Werten)

  • Darum gibt es spezielle Maße: Eta (η)

    • Nominal (uV) → metrisch (aV)

    • Misst Stärke, aber keine Richtung

    • Werte zwischen 0 und 1

    • Nutzt vollständige Varianz der metrischen Variable


Achtung: Ein Koeffizient gibt nur Stärke, nicht automatisch Kausalität an.→ „Zusammenhang ≠ Ursache“


Heißt: Welches Zusammenhangsmaß du wählen musst, hängt immer vom niedrigeren Skalenniveau der beiden Variablen ab – außer du nutzt spezielle Maße wie Eta.

Nominale Zusammenhangsmaße

(Bivariate Datenanalyse)

Bei zwei nominalskalierten Variablen (z. B. Geschlecht, Wahlbeteiligung) kann man nur prüfen, ob ein Zusammenhang besteht – nicht wie stark er gerichtet ist, da Nominalvariablen keine Rangordnung haben.

Zentrale Werkzeuge sind

  • Kreuztabellen

  • Chi-Quadrat

  • Phi

  • Cramer’s V.


Schritt 1: Unterscheidung:

  • Beobachtete Häufigkeit: die tatsächlichen Zahlen in der Kreuztabelle. Beispiel (ALLBUS):

    • 311 Männer sind „sehr stark politisch interessiert“

    • 116 Frauen sind „sehr stark politisch interessiert“

    • Diese Zahlen = fb(ij)

  • Erwartete Häufigkeit: berechnen, Wie Tabellen aussähen, wenn es ÜBERHAUPT KEINEN echten Zusammenhang gäbe = fe(ij)

    • = Indifferenztabelle (statistische Unabhängigkeit)

    • Vergleich:

      • die beobachteten Werte aus der Umfrage vs.

      • die erwarteten Werte, die zufällig entstehen würden

    • Je weiter die beiden voneinander entfernt sind, desto weniger wahrscheinlich, dass der Unterschied Zufall ist.

    • Formel: fe(ij) = Zeilensumme*Spaltensumme/ n

    • z.B. Ergebnis ist 216,56 bei sehr starkem Interesse an Politik

      • Bedeutet: Wenn es KEINEN Zusammenhang zwischen Geschlecht und politischem Interesse gäbe,dann würde man erwarten, dass 216,56 Männer ein „sehr starkes Interesse“ haben.

      • Die beobachtete Zahl war 311 Männer

      • Wenn zwei Merkmale unabhängig wären, würden beobachtete und erwartete Zahlen fast identisch sein.

        Hier aber:

        • Männer haben 94 Personen mehr sehr starkes Interesse als erwartet

      • Heißt: Verteilung des Interesses hängt vom Geschlecht ab.

      • Das nennt man: statistische Abhängigkeit.


Chi-Quadrat (x²)

misst, wie stark die beobachteten Häufigkeiten von den erwarteten Häufigkeiten abweichen.


Formel: x² = SUMME AUS (fb - fe)² / fe

  • Große Abweichung → großer χ² → starker Zusammenhang.

  • Problem: χ² wird größer, wenn:

    • die Stichprobe größer ist

    • die Tabelle größer ist

    → nicht vergleichbar zwischen Studien.

    Deshalb nutzt man Phi oder Cramer’s V, die χ² standardisieren.


Assoziationsmaße:

Phi (Φ)

= Sonderfall von Cramers V

Zusammenhangsmaß für nominale Merkmale mit nur 2 Ausprägungen (=dichotomen Variablen (nur 2x2, 4 Feldertaf.)

  • Werte: 0 bis 1, Interpretation wie Cramer’s V.

  • Formel: Φ = Wurzel aus x²/n

  • Beispiel: Geschlecht (m/w) × Wahlteilnahme (ja/nein)

Berechnung:

  • Arbeitstabelle anlegen mit allen Variablen und Ausprägungen

    • Häufigkeitstabelle

    • Indifferenztabelle

    • Zusammengeführte Tabelle

      • Spalte 1: fb = beobachteten Häufigkeiten

      • Spalte 2: fe = erwarteten Häufigkeiten

      • Spalte 3: fb - fe

      • Spalte 4: Ergebnisse quaddrieren (fb - fe)²

      • Spalte 5: Spalte 4 / Spalte 2 ((fb - fe)² / fe)

      • Summe aus Spalte 5: Chi² - Wert

  • x² Wert in Formel Wurzel aus x² / n eingeben = Phi


Cramers V

Auch für größere Tabellen (nicht nur 2x2).


Formel: V = Wurzel aus x² / n(M - 1)

n = Stichprobengröße M =kleinere Dimension der Tabelle

Beispiel: Tabelle 5 Zeilen x 2 Spalten: M = 2


Konfidentsintervall: zeigt wie sicher diese Schätzung ist, wie stark zwei nominale Variablen nach Cramers V zusammenhängen

  • Beispiel: Cramer’s V = 0,23 mit 95 %-KI 0,18–0,28→ bedeutet: In der gesamten Population liegt V höchstwahrscheinlich zwischen 0,18 und 0,28 und Wir sind z. B. 95 % sicher, dass der echte Zusammenhang zwischen X und Y in diesem Bereich liegt.


Interpretation Cramers V

Wert

Bedeutung

≤ 0,05

kein Zusammenhang

0,05–0,10

sehr schwach

0,10–0,20

schwach

0,20–0,40

mittelstark

0,40–0,60

stark

> 0,60

sehr stark


Beispiel: Geschlecht x politisches Interesse

  • Nominale Variable: Geschlecht

  • Ordinale Variable: politisches Interesse

→ niedrigere Skala = nominal → Cramer’s V verwenden.


Berechnung ergab: V=0,23V


Interpretation: mittelstarker Zusammenhang


Heißt: Cramer’s V sagt, wie stark ein Zusammenhang ist. Die Kreuztabelle zeigt, WIE dieser Zusammenhang aussieht.

  • Cramer’s V: „Da ist ein mittelstarker Zusammenhang zwicshen Geschlecht und Intertesse.“

  • Kreuztabelle: „Und dieser Zusammenhang sieht so aus, dass Frauen weniger Interesse haben.“


Ordinale Zusammenhangsmaße

(Bivariate Datenanalyse)

= Normiertes Maß für die Bestimmung eines Zusammenhangs von min. 2 ordinal skalierten Merkmalen


Ordinal = Rangfolgen sind wichtig, aber Abstände nicht unbedingt.

  1. Beispiele:

    • Bildungsabschluss: niedrig → mittel → hoch

    • Politisches Interesse: sehr niedrig → niedrig → mittel → hoch → sehr hoch

    • Soziale Schicht: Unterschicht → Arbeiterschicht → Mittelschicht → Oberschicht


Spearmans Rho = Rangkorrelationskoeffizient

Er vergleicht die Rangplätze von zwei Variablen.

  • Wertebereich:

    • +1 → perfekter positiver Zusammenhang (wenn eine Variable steigt, steigt die andere)

    • 0 → kein Zusammenhang

    • −1 → perfekter negativer Zusammenhang (wenn eine Variable steigt, sinkt die andere)

  • Vorteile: Robust gegenüber Ausreißern und ermöglicht Vergleich


Vorgehen: Ränge zuordnen

  • Was sind Ränge: Position eines Wertes, wenn man alle Werte sortiert.

    • Bindung: passiert, wenn mehrere Personen denselben Wert haben (z.B. zwei Personen haben Realschule = 2).

      • Dann können wir nicht einfach die Rangplätze 2 und 3 den beiden Personen zuordnen, weil sie denselben Wert haben.

      • Lösung: Wir nehmen den Durchschnitt dieser Rangplätze.

  • Beispiel: fünf Leute haben folgende Bildungsabschlüsse (höher = besser):

    Person

    Bildung

    A

    Hauptschule (1)

    B

    Realschule (2)

    C

    Abitur (3)

    D

    Abitur (3)

    E

    Realschule (2)

  • Schritt 1: Sortieren (von min bis max) Werte: 1, 2, 2, 3, 3

  • Schritt 2: jedem Wert eine Rangnummer geben

    Wert

    Rang

    1

    1

    2

    2

    2

    3

    3

    4

    3

    5

  • Das ist der Rang ohne Bindung. Jede Position kriegt einfach eine Nummer.

  • Bindung berechnen: Realschule (2) → Rangplätze wären 2 und 3 → Mittelwert = (2+3)/2 = 2,5

  • Abitur (3) → Rangplätze wären 4 und 5 → Mittelwert = (4+5)/2 = 4,5

    Person

    Bildung

    Rang

    A

    1

    1

    B

    2

    2,5

    E

    2

    2,5

    C

    3

    4,5

    D

    3

    4,5

  • 1 = kleinster Wert → niedrigster Rang

  • 2,5 = zwei Personen teilen sich den Rang 2 & 3

  • 4,5 = zwei Personen teilen sich den Rang 4 & 5

Heißt:

  • Ränge zeigen die Reihenfolge der Werte, nicht die Werte selbst.

  • Bindungen = Durchschnittsrang, wenn mehrere denselben Wert haben.


Spearmans Rho berechnen (neues Beispiel)

  • Daten: Die Zahlen in Klammern sind die Werte, die wir später in Ränge umwandeln.

    Person

    Soziale Schicht

    Gesundheitszustand

    1

    Mittelschicht (3)

    Schlecht (2)

    2

    Arbeiterschicht (2)

    Sehr schlecht (1)

    3

    Oberschicht (5)

    Sehr gut (5)

    4

    Obere Mittelschicht (4)

    Gut (4)

    5

    Unterschicht (1)

    Zufriedenstellend (3)

  1. Ränge zuweisen

    • sortieren jeder Variable und Rangplätze von klein nach groß

    • Soziale Schicht: keine Bindung, alle Werte unterschiedlich → Ränge = 1, 2, 3, 4, 5

    Wert

    Rang

    1

    1

    2

    2

    3

    3

    4

    4

    5

    5

  • Gesundheitszustand: keine Bindung, jeder Wert ist einzigartig → Ränge = 1, 2, 3, 4, 5

    Wert

    Rang

    1

    1

    2

    2

    3

    3

    4

    4

    5

    5

  1. Wir berechnen die Differenz der Ränge

    • di = Rang(Soziale Schicht)− Rang(Gesundheitszustand)

    Person

    Rang Schicht

    Rang Gesundheit

    d_i = Rang(x) - Rang(y)

    1

    3

    2

    1

    2

    2

    1

    1

    3

    5

    5

    0

    4

    4

    4

    0

    5

    1

    3

    -2

  2. Quadrieren der Differenzen di

d_i

d_i^2

1

1

1

1

0

0

0

0

-2

4

  1. Summe aus di² bilden: 1+1+0+0+4 = 6

  2. Formel ausfüllen:

    Spearmans Rho (rsp) = 1 - 6(summe aus di²) * 6 / 5 (Anzahl der Beobachtungen) * 5² (n²) - 1

  3. Bruch zuerst rechnen: 1 - 36/ 5*24 = 1 - 36 / 120 = 1 - 0,3

    = 0,7 (Spearmans Rho)

  4. Interpreation:

    rSP

    Stärke des Zusammenhangs

    ≤ 0,05

    kein Zusammenhang

    0,05 – 0,20

    schwach

    0,20 – 0,50

    mittel

    0,50 – 0,70

    stark

    > 0,70

    sehr stark

Heißt:

  • rSP=0,7 → starker positiver Zusammenhang

  • Das bedeutet: je höher die soziale Schicht, desto besser der Gesundheitszustand

  • aber! Kein kausaler Zusammenhang möglich


Alternative:


Kendalls Tau

Statt die Differenzen der Ränge wie bei Spearman zu betrachten, vergleicht Kendall’s Tau alle Paare von Beobachtungen.

  • Definition der Paare:

    • Konkordant: Beide Ränge steigen zusammen → positives Paar

    • Diskonkordant: Eine steigt, die andere sinkt → negatives Paar

    • Verbunden: Eine Rangbindung bei einem Merkmal → wird speziell behandelt

  • Das Maß liegt ebenfalls zwischen −1 und +1:

    • +1 → perfekter positiver Zusammenhang (alle Paare konkordant)

    • 0 → kein Zusammenhang

    • −1 → perfekter negativer Zusammenhang (alle Paare diskonkordant)

  • Vorteil: Besonders nützlich, wenn es viele Bindungen gibt oder die Stichprobe groß ist, da Kendall’s Tau robuster gegenüber Bindungen ist als Spearman’s Rho.

  • Interpretation: Richtung + Stärke wie bei Spearman, nur die Berechnungsmethode unterscheidet sich.


metrische und nominale Zusammenhangsmaße

(Eta-Quadrat der Bivariaten Datenanylse)

Eta² ist ein Zusammenhangsmaß für den Fall:

  • unabhängige Variable ist nominal z. B. Familienstand, Geschlecht, Migrationshintergrund

  • abhängige Variable ist metrisch z. B. Einkommen, Zufriedenheit, Testpunkte

Andere Maße wie Pearson r funktionieren nicht, weil der unabhängige Wert (z. B. Familienstand) keine Zahlen sind.


Heißt: Eta² zeigt, wie viel der Varianz (Unterschiede) in der abhängigen Variable durch die Gruppenunterschiede erklärt werden kann.


Beispielfrage: „Erklärt der Migrationshintergrund Unterschiede im politischen Wissen?“


PRE („Proportional Reduction of Error“)

Je stärker sich die Gruppen unterscheiden, desto weniger Fehler machst du.

  • Ohne Gruppenwissen: du nimmst den Gesamt-Mittelwert als Schätzer

  • Mit Gruppenwissen: du nimmst die Mittelwerte der einzelnen Gruppen

PRE-Formel:

PRE=E1−E2 / E1

  • E1 = Fehler beim Raten ohne Gruppen (Gesamtmittelwert)

  • E2 = Fehler beim Raten mit Gruppen (Gruppenmittelwerte)

Eta² benutzt genau diese Logik


Quadratsummen

  • Quadratsumme Gesamt: Wie unterschiedlich sind alle Personen vom Gesamtmittelwert? = E1 = Vorhersagefehler ohne Gruppenwissen

  • Quadratsumme innerhalb: Wie unterschiedlich sind Personen innerhalb ihrer Gruppe vom Gruppenmittelwert? = E2 = Vorhersagefehler mit Gruppenwissen

  • Quadratsumme zwischen: Wie unterschiedlich sind die Gruppenmittelwerte untereinander? = QSgesamt – QSinnerhalb


Eta² (η2)

  • 0 = kein Zusammenhang

  • 1 = perfekter Zusammenhang

  • z. B. 0.53 = 53 % der Varianz werden durch die Gruppen erklärt


Interpreation nach Cohen

Eta²

Bedeutung

< 0.01

kein Effekt

0.01–0.06

kleiner Effekt

0.06–0.14

mittel

≥ 0.14

großer Effekt


Beispiel:

Daten: 10 Kinder machen ein Quiz (0–16 Punkte).


Gruppen:

  • ohne Migrationshintergrund → Mittelwert 12,8

  • mit Migrationshintergrund → Mittelwert 6,2

Diese Mittelwerte unterscheiden sich massiv.

Darum:

  • QS innerhalb = 95,6 → Das ist der Fehler, wenn man Gruppenmittelwerte benutzt

  • QS Gesamt = 204,5 → Das ist der Fehler, wenn man den Gesamtmittelwert benutzt

Dann:

η2 = 204,5 - 95,6 / 204,5 = 0,53

Heißt: Der Eta-Quadrat-Wert von 0,53 zeigt einen sehr starken Effekt des Migrationshintergrunds auf das politische Wissen. 53 % der Varianz im Wissen können durch die Gruppenzugehörigkeit erklärt werden.

Metrische Zusammenhangsmaße

(Bivariate Datenanalyse)

Wenn zwei Merkmale metrisch skaliert sind (z. B. IQ, Einkommen, Testergebnisse), nutzt man grafische Verfahren und statistische Kennwerte, um Richtung und Stärke ihres Zusammenhangs zu bestimmen. Zentral sind dabei

  • Scatterplots (Streudiagramme)

  • Kovarianz und

  • Pearson’s r (Korrelationskoeffizient)


Grafische Analyse: Streudiagramm (Scatterplot)

= Darstellung von Wertepaaren (x, y) in einem Koordinatensystem.

  • Zweck: Erste Einschätzung des Zusammenhangs.

  • Beispiel: IQ ↗ → Testpunkte im räumlichen Denken ↗ → positiver linearer Zusammenhang.

  • Arten von Zusammenhängen:

    • Keine Korrelation: Punkte zufällig verteilt.

    • Positive lineare Korrelation: „Je mehr, desto mehr“ – steigende Punktewolke.

    • Negative lineare Korrelation: „Je mehr, desto weniger“ – fallende Punktewolke.

    • Nicht-linear: z. B. U-förmig oder umgekehrt U-förmig.


Kovarianz: unstandardisiertes Zusammenhangsmaß

Misst, ob zwei metrische Variablen gemeinsam variieren (in dieselbe oder entgegengesetzte Richtung).


Formel: COVxy = Summe aus (Xi - X mit Strich) (Yi - Y mit Strich) / n


Interpretation des Ergebnis:

  • positiv → steigen gemeinsam

  • negativ → einer steigt, der andere fällt

  • ≈ 0 → kein linearer Zusammenhang

  • Problem: einheitenabhängig → schwer vergleichbar

Beispiel aus dem Text:

Kovarianz von IQ & Testergebnis = 64,23 → Beide bewegen sich gemeinsam nach oben


Aber: Die Kovarianz ist nur der Rohwert des Zusammenhangs und deshalb schlecht interpretierbar.


Pearsons R: Standardidiertes Maß (Korrelationskoeffizient)

= normiertes Maß für die Berechnung der Stärke eines linearen Zusammenhangs von 2 metrischen Variablen.

heißt: Misst die Stärke und Richtung eines linearen Zusammenhangs, unabhängig von Maßeinheiten → Pearson’s r ist der standardisierte, aussagekräftige Wert der Korrelation.

  • Viele sozialwissenschaftliche Merkmale sind ordinal (z. B. Likert-Skalen 0–10).

  • Wenn ≥ 5 Ausprägungen und ungefähr gleiche Abstände vorliegen → werden sie als metrisch behandelt, sodass Pearson’s r zulässig ist.

  • Wertebereich -1 bis 1


Berechnung über Tabelle:

  1. Erstelle eine Tabelle mit diesen 5 Spalten:

    • xi → Werte von Merkmal X (z. B. Einkommen)

    • yi → Werte von Merkmal Y (z. B. Lebenszufriedenheit)

    • xi · yi → Produkt aus X und Y

    • (xi)² → X-Werte quadriert

    • (yi)² → Y-Werte quadriert

  2. Am Ende addierst du jede Spalte als Randwert

  3. Alle Summen anschließend durch n teilen = Mittelwert (x/ y mit Strich)

  4. Formel auffüllen (Zähler):

    Mittelwert aus xi * yi MINUS Mittelwert aus xi MAL Mittelwert aus yi

  5. Formel auffüllen (Nenner):

    Wurzel aus Mittelwert x² MINUS Mittelwert xi QUADDRIEREN MAL Wurzel aus yi² MINUS Mittelwert yi QUADDRIEREN

Beispiel aus dem Text:

ID

Xi

Yi

X·Y

1

2

8

16

4

64

2

4

6

24

16

36

3

6

4

24

36

16

Σ

12

18

64

56

116

MW

4

6

21,33

18,67

38,67

  • = 0,22


Einfachere Formel über Kovarianz: r = COVxy / Sx * Sy


Aber:

  • Korrelationskoeffizienten zeigen nur, ob Variablen „im Gleichklang“ verlaufen.

  • Sie sagen nichts darüber, ob x → y bewirkt oder umgekehrt.

  • Mögliche 3. Variablen können nicht ausgeschlossen werden

  • = keine kausale Interpretation möglich nur Schein Korrelationen

    auch keine Richtung der Kausalität möglich

  • nur je höher, desto wahrscheinlicher… Aussagen möglich

Interpreation des Ergebnis:

  • r > 0 → positiver linearer Zusammenhang

  • r < 0 → negativer linearer Zusammenhang

  • r = 0 → kein linearer Zusammenhang


Faustregel:

  • ≤ 0,05 kein Zusammenhang

  • >0,05 – 0,20 schwach

  • >0,20 – 0,50 mittelstark

  • >0,50 – 0,70 stark

  • >0,70 sehr stark

Beispiel 1 (IQ & Test):

r = 0,89 → sehr starker positiver Zusammenhang

Beispiel 2 (Einkommen & Lebenszufriedenheit):

r = 0,64 → starker positiver Zusammenhang


Zusammengefasst:

  • Streudiagramm → zeigt die Form des Zusammenhangs (visuell)

  • Kovarianz → zeigt die Richtung (positiv/negativ), ist aber nicht interpretierbar in der Stärke

  • Pearson’s r → zeigt Richtung und Stärke (präzise interpretierbar)


Author

Cathérine C.

Information

Last changed