Univariate Datenanalyse

Die univariate Datenanalyse befasst sich mit einzelnen Variablen. In einem ersten Schritt werden die absoluten und relativen Häufigkeiten der einzelnen Ausprägungen einer Variable in Tabellen oder Grafiken dargestellt. In der quantitativen Sozialforschung sind wir allerdings in der Regel mit vielen Untersuchungsobjekten konfrontiert. Deshalb wird in einem zweiten Schritt die Informationsmenge von mehreren tausend Beobachtungen auf wenige Kennzahlen verdichtet. Dabei lassen sich Lage-, Streuungs- und Formmaße unterscheiden. Während Lagemaße über das Zentrum einer Verteilung informieren, beschreiben Streuungsmaße die Variation eines Merkmals in einer Verteilung. Mit Schiefe und Wölbung kann die Form einer Verteilung charakterisiert werden. Die z-Transformation (z-Standardisierung) ermöglicht den Vergleich von Werten unterschiedlicher Verteilungen.
Häufigkeitstabelle: Eine Häufigkeitstabelle gibt eine Übersicht über die Merkmalsausprägungen (Kategorien) einer Variable und zeigt, wie häufig jede einzelne Ausprägung vorkommt.
Absolute Häufigkeiten: Die absolute Häufigkeit ist die Anzahl der Fälle (hier: Personen), bei der die jeweilige Kategorie auftritt. Bei der ALLBUS 2016 liegen insgesamt Angaben von 3490 Personen zum Interesse an Politik vor. 427 Personen haben die Antwortkategorie „sehr stark“ gewählt, 882 Befragte haben sich für die Antwort „stark“ entschieden, 1429 Personen interessieren sich nach eigenen Angaben „mittel“ für Politik, 556 Bürger wählten die Antwortoption „wenig“ und 196 Befragte haben die Kategorie „überhaupt nicht“ ausgewählt. Die absoluten Häufigkeiten werden oftmals mit dem Buchstaben f (engl. frequency) abgekürzt. Um die einzelnen Kategorien einer Variablen zu unterscheiden, wird meist der Index j verwendet. Mit fj wird also die absolute Häufigkeit einer bestimmten Kategorie dargestellt: fj ist die absolute Häufigkeit, mit der die Kategorie j vorliegt.
Relative Häufigkeiten: Die relativen Häufigkeiten werden mit p (engl. proportion) abgekürzt. Die relative Häufigkeit einer Kategorie j ist pj. Die relative Häufigkeit (pj) ist definiert als die absolute Häufigkeit (fj) dividiert durch die Fallzahl (n): pj = fj : n
Für die Berechnung der relativen Häufigkeit wird die absolute Fallzahl einer Kategorie durch die Gesamtfallzahl geteilt. Für die Berechnung der relativen Häufigkeit der Kategorie „sehr stark“ wird die absolute Fallzahl dieser Kategorie (427) durch die Gesamtzahl (3490) dividiert: psehr stark = 427 3490 ≈ 0,122 Die Summe der relativen Häufigkeiten aller Kategorien ergibt immer 1.
Prozentuale Häufigkeiten: Durch die Multiplikation der relativen Häufigkeit mit 100% werden die prozentualen Häufigkeiten der einzelnen Kategorien berechnet. Die Prozentsätze weisen die gleichen Informationen wie die relativen Häufigkeiten aus, es handelt sich nur um verschiedene Darstellungsformen. Die als Prozentsatz dargestellte relative Häufigkeit wird als prozentuale Häufigkeit bezeichnet. Die Prozentsätze lassen sich mit folgender Formel berechnen: pj% = fj : n ∗ 100%
Für die Berechnung der prozentualen Häufigkeit der Kategorie „wenig“ wird die absolute Häufigkeit (556) durch die Gesamtzahl (3490) dividiert. Das gerundete Ergebnis (0,159) wird anschließend mit 100% multipliziert.
pj% = 556 : 3490 ∗ 100% ≈ 15,9 Prozent
15,9 Prozent der Befragten geben an, sich wenig für Politik zu interessieren.
Kumulierte prozentuale Häufigkeiten: In der letzten Spalte in Tabelle 2 werden die kumulierten Prozentsätze ausgewiesen. Dabei handelt es sich um eine schrittweise Addition (Kumulation) der Prozentsätze. Die kumulierten Prozente der Kategorie „stark“ (37,5 Prozent) kommen durch die Addition der Prozentsätze in den Kategorien „sehr stark“ (12,2 Prozent) und „stark“ (25,3 Prozent). Alternativ können auch die absoluten Häufigkeiten der beiden Kategorien addiert (427+882=1309) und durch die Gesamtzahl (3490) dividiert werden. Das Ergebnis (0,375) entspricht der kumulierten relativen Häufigkeit. Durch die Multiplikation mit 100 werden die kumulierte prozentuale Häufigkeit bzw. die kumulierten Prozente berechnet (37,5 Prozent). Bei Merkmalen, die mindestens ordinal skaliert sind, bieten die kumulierten Prozentsätze eine anschauliche Interpretationsmöglichkeit. Der Wert von 37,5 Prozent in Tabelle 2 kann wie folgt interpretiert werden: 37,5 Prozent der Befragten haben mindestens ein starkes Interesse an Politik
In der empirischen Sozialforschung kommt es häufig zu fehlenden Werten (engl. Missing Values). Bei Befragungen antworten die Personen bei einzelnen Fragen beispielsweise mit „weiß nicht“ oder verweigern die Angabe (Item-Nonresponse). Gelegentlich handelt es sich auch um Fehler bei der Dateneingabe. Wenn eine Variable fehlende Werte aufweist, dann bietet sich eine Form der Prozentuierung an, bei der nur die gültigen Angaben berücksichtigt werden
Die Prozentangaben einer Häufigkeitstabelle können nur dann angemessen interpretiert werden, wenn erstens die absolute Häufigkeit eines Merkmals und zweitens die Art der Prozentuierung bekannt sind (Gehring und Weins 2009, S. 102-104). Die Angabe von Prozenten ohne eine Information zur absoluten Häufigkeit ist irreführend, da es natürlich einen erheblichen Unterschied macht, ob die Prozentangabe auf Grundlage von 30 oder 3000 Fällen ermittelt wurde. Insbesondere bei kleinen Fallzahlen haben Veränderungen der absoluten Häufigkeiten starke Auswirkungen auf die Prozentangaben. Deshalb sollte eine Häufigkeitstabelle immer Angaben zur absoluten Häufigkeit enthalten. Bei weniger als 100 Fällen (n < 100) ist zu prüfen, ob die Prozentangabe inhaltlich sinnvoll interpretiert werden kann.
Lagemaße: In der quantitativen Sozialforschung sind Forscherinnen in der Regel mit großen Fallzahlen konfrontiert. Bei der univariaten Datenanalyse wird diese Informationsmenge meist auf wenige Kenngrößen verdichtet. Dabei beschreiben Lagemaße das Zentrum bzw. typische Werte einer Verteilung. Zu den wichtigsten Lagemaßen in den Sozialwissenschaften zählen Modus, Median und arithmetisches Mittel. Die Zulässigkeit der Berechnung eines Lagemaßes ist vom Skalenniveau der Variable abhängig. Je höher das Skalenniveau ist, desto mehr Lagemaße lassen sich berechnen. Wie Tabelle 4 zeigt, setzt die Berechnung des arithmetischen Mittels mindestens eine intervallskalierte Variable (z. B. Alter) voraus. Für die Bestimmung des Medians muss die Variable mindestens ordinalskaliert sein (z. B. politisches Interesse). Der Modus kann bereits für nominalskalierte Variablen angegeben werden (z. B. Geschlecht).
Der Modus, auch Modalwert genannt, ist der am häufigsten vorkommende (gültige) Wert in einer Verteilung. Der Modus wird mit dem Buchstaben h (Diaz-Bone 2018, S. 47) oder mit ẋ (x mit Punkt, siehe Völkl und Korb 2018) abgekürzt. Der Modus muss nicht berechnet werden, sondern kann aus einer Tabelle einfach abgelesen werden. Der Modus ist ein einfaches Maß der univariaten Datenanalyse. Der Informationsgehalt ist allerdings eher gering, da er sich nur auf einen einzigen Wert der V
Median: Der Median, auch Zentralwert genannt, ist der „mittlere“ Wert einer geordneten Verteilung. Er wird meist mit x� (lies: x-Schlange oder x-Tilde) abgekürzt und setzt eine mindestens ordinalskalierte Variable voraus. Der Median teilt eine Verteilung in der Mitte, so dass 50 Prozent der Werte kleiner oder gleich dem Median und 50 Prozent der Werte größer oder gleich dem Median sind. Neben dem ordinalen Skalenniveau ist eine Voraussetzung für die Berechnung des Medians, dass die Werte bereits in aufsteigender Reihenfolge sortiert sind.
- In Tabelle 7 sind die Angaben von elf Befragten zum politischen Interesse dargestellt. Dabei deuten höhere Zahlen auf ein größeres politisches Interesse hin. In der oberen Zeile von Tabelle 7 sind die Angaben der Befragten noch unsortiert. Vor der Berechnung des Medians müssen die Angaben der Reihe nach sortiert werden. Der Median ist dann der Wert, der in der Mitte der Verteilung liegt. Bei elf Befragten ist der Wert an der sechsten Position der Median. In unserem Beispiel ist der Median 3.
- Bei einer ungeraden Fallzahl ist der mittlere Wert eines geordneten Datensatzes eindeutig bestimmt. Bei einer geraden Fallzahl gibt es allerdings zwei Werte, die die Mitte des Datensatzes repräsentieren. Tabelle 8 enthält die Angaben von zehn Befragten. Der Median findet sich zwischen der fünften und sechsten Position. In unserem Beispiel ist der Median auch bei einer ordinalen Variable eindeutig bestimmbar, da sich die Werte an den beiden Positionen nicht unterscheiden (x = 3). Bei einer intervallskalierten Variable kann der Median auch bestimmt werden, wenn sich die Werte unterscheiden. In einem solchen Fall wird der Mittelwert der beiden zentralen Werte berechnet.
- Bei einer ungeraden Fallzahl wird der Median wie folgt bestimmt: x= x * n+1 /2
  Bei einer geraden Fallzahl wird der Median wie folgt bestimmt: x= 1/ 2 ∗ (x=n /2 + x* n/ 2+1 ) In beiden Fällen muss der Datensatz zunächst sortiert werden. Bei einer ungeraden Fallzahl ist der Median der Wert, der in der Mitte des Datensatzes liegt. Bei einer geraden Fallzahl ergibt sich der Median aus den beiden zentralen Werten eines Datensatzes. In der Forschungspraxis kann der Median meist auf Basis einer Häufigkeitstabelle abgelesen werden, die im Idealfall bereits die kumulierten Prozentwerte ausweist. Alternativ – und einfacher – kann der Median auch anhand der Spalte „kumulierte Prozent“ ermittelt werden. Der Median ist der Wert, bei dem die kumulierten Prozente 50 Prozent erreichen oder übersteigenAnsonsten müssen die kumulierten Prozentwerte zunächst berechnet werden.
Das bekannteste Lagemaß einer Verteilung ist das arithmetische Mittel, das mit x (lies: x quer) abgekürzt wird. Das arithmetische Mittel begegnet uns auch im Alltag, umgangssprachlich wird es als Mittelwert oder Durchschnittswert bezeichnet . Das arithmetische Mittel kann allerdings nur für Daten berechnet werden, die mindestens intervallskaliert sind oder als pseudometrisch behandelt werden können. Im Alltag wird das arithmetische Mittel häufig auch bei ordinalen Daten (z.B. Schulnoten) berechnet. Dies ist formal allerdings nicht korrekt, da bei ordinalen Daten die Abstände zwischen den Werten nicht gleich sind. Das arithmetische Mittel wird berechnet, indem zunächst alle (gültigen) Werte addiert und die Summe anschließend durch die Anzahl der (gültigen) Fälle dividiert wird. Formal ist das arithmetische Mittel definiert als die Summe der Messwerte geteilt durch ihre Anzahl: x quer= x1 + x2 + x3 + ⋯ + xn/ n = ∑ ni= 1 xi /n
- Der Vorteil des arithmetischen Mittels ist, dass bei der Berechnung alle verfügbaren Informationen ausgeschöpft werden. Allerdings ist das arithmetische Mittel – insbesondere bei kleinen Fallzahlen – auch besonders sensibel für Extremwerte.
- Während das arithmetische Mittel durch Extremwerte beeinflusst wird, gelten Modus und Median als relativ robust gegenüber Ausreißern bzw. Extremwerten. Bei beiden Gruppen in Tabelle 12 liegen Modus und Median bei 25. Ein Wert bzw. der Ausreißer hat keinen Einfluss auf Modus und Median.
Streuungsmaße: für die Beschreibung einer Verteilung neben Lagemaßen auch Streuungsmaße erforderlich, die die Variation einer Verteilung abbilden. Wichtige Streuungsmaße in den Sozialwissenschaften sind Varianz und Standardabweichung, die ab intervallskalierten Variablen berechnet werden können.
Varianz: Die Varianz ist definiert als die durchschnittliche quadrierte Abweichung vom arithmetischen Mittel. Eine Varianz von 0 zeigt an, dass überhaupt keine Streuung vorliegt. Je größer die Varianz ist, desto stärker streuen die einzelnen Werte einer Verteilung um das arithmetische Mittel. Für die Berechnung der Varianz wird für jeden Wert die Abweichung vom arithmetischen Mittel bestimmt. Eine Abweichung ist positiv, wenn der Wert über dem arithmetischen Mittel liegt. Falls der Wert kleiner als das arithmetische Mittel ist, ist die Abweichung negativ. Die Summe aller Abweichungen vom Mittelwert ist per Definition 0. Damit sich bei der Addition der einzelnen Abweichungen positive und negative Abweichungen nicht gegenseitig aufheben, werden diese quadriert. Die quadrierten Abweichungen aller Werte werden anschließend addiert.
- Abschließend muss die Summe der quadrierten Abweichungen noch durch die Fallzahl dividiert werden. Dabei ist zu berücksichtigen, ob Daten einer Vollerhebung (z.B. alle Personen der Grundgesamtheit) oder einer Stichprobe (z.B. zufällige Auswahl von Personen der Grundgesamtheit) vorliegen. Wir müssen deshalb zwischen der empirischen und der korrigierten Varianz unterscheiden
- Liegen Daten einer Vollerhebung vor, dann wird die sogenannte empirische Varianz (s²) berechnet. In diesem Fall wird die Summe der quadrierten Abweichungen einfach durch die Fallzahl dividiert. Formal ausgedrückt: Empirische Varianz: s2 = ∑ni=1 (xi − x quer)² /n
- Bei Stichproben wird die sogenannte korrigierte Varianz (s*²) berechnet. Dabei wird die Fallzahl vor der Division um 1 verringert. Diese Modifikation bietet bei Stichprobendaten bestimmte Vorteile, die bei der Inferenzstatistik noch dargestellt werden. Statistikprogramme wie SPSS oder Stata berechnen die korrigierte Varianz. Korrigierte Varianz: s∗2 = ∑ni=1 (xi − x quer)²/ n − 1
- Für die händische Berechnung der Varianz wird empfohlen, eine Arbeitstabelle anzulegen und die Berechnung schrittweise durchzuführen. Dabei sind folgende Schritte zu beachten: 1. Das arithmetische Mittel (x quer) wird berechnet. 2. Für jeden Merkmalswert wird die Abweichung vom arithmetischen Mittel berechnet: xi − x quer. 3. Diese Abweichung wird quadriert: (xi − x quer)² 4. Die quadrierte Abweichung wird für alle Fälle aufsummiert: ∑ni=1(xi − x quer)²
  5. Für die empirische Varianz wird die Summe der quadrierten Abweichungen durch die Fallzahl (n) dividiert. Für die korrigierte Varianz wird die Summe der quadrierten Abweichungen durch die Fallzahl minus 1 dividiert.
- Durch die Quadrierung der Abweichungen vom arithmetischen Mittel hat die Varianz zudem eine andere Einheit als das zugrundeliegende Merkmal (hier: subjektive Lebenszufriedenheit, die auf einer Skala von 0 bis 10 erfasst wurde). Bei der Beschreibung empirischer Verteilungen spielt die Varianz deshalb nur eine untergeordnete Rolle. Sie ist ein (notwendiger) Zwischenschritt auf dem Weg zu einem einfacheren und zugänglicheren Streuungsmaß: der Standardabweichung, die dieselbe Maßeinheit wie die Ursprungsvariable aufweist (hier: Punkte). Für die Berechnung der Standardabweichung muss lediglich die Wurzel aus der Varianz gezogen werden.
Standardabweichung: Die Standardabweichung kann als durchschnittliche Variabilität der Werte um das arithmetische Mittel interpretiert werden . Etwas zugänglicher formulieren es Völkl und Korb, die die Standardabweichung als durchschnittliche Abweichung vom arithmetischen Mittel definieren. Ein kleiner Wert deutet auf eine geringe Streuung der Werte in der Verteilung hin, ein großer Wert auf eine große Streuung der Werte in der Verteilung. Beträgt die Standardabweichung 0, dann liegt überhaupt keine Streuung vor. Für die Berechnung der empirischen Standardabweichung wird die Wurzel aus der empirischen Varianz gezogen. Für die Berechnung der korrigierten Standardabweichung wird die Wurzel aus der korrigierten Varianz gezogen
- Empirische Standardabweichung: Wurzel aus s = ni=1∑ (𝐱i − 𝐱 quer)²/n
- Korrigierte Standardabweichung: s∗ = Wurzel aus ∑ni=1 (𝐱𝐢−𝐱 quer)²/n-1
Formmaße: Mit Schiefe (engl. skewness) und Wölbung (engl. kurtosis) wird die Form einer Verteilung beschrieben. Beide Maße beschreiben dabei die Abweichung einer Verteilung von der Normalverteilung. Die Kenntnis der Schiefe und Wölbung einer Verteilung ist wichtig, da bestimmte statistische Verfahren eine normalverteilte Variable voraussetzen. Bei den meisten Verfahren sind geringe Abweichungen zwar unproblematisch, aber bei starken Abweichungen müssen die Variablen vor der Analyse transformiert werden.
Bei der Normalverteilung handelt es sich um eine wichtige Verteilung der Inferenzstatistik, die nach dem Mathematiker Carl Friedrich Gauß häufig auch als Gauß-Verteilung bezeichnet wird. Die Normalverteilung lässt sich wie folgt charakterisieren: Die Verteilung ist symmetrisch, das heißt in der Mitte befinden sich die meisten Werte. Die Häufigkeiten der Werte nehmen links und rechts gleichermaßen – also wieder symmetrisch – vom arithmetischen Mittel ab. Durch die symmetrische Form der Normalverteilung sind Modus, Median und das arithmetische Mittel identisch.
Empirische Verteilungen können horizontal und/oder vertikal von der Normalverteilung abweichen. Die Schiefe ist ein Maß für die horizontale (waagerechte) Abweichung einer Verteilung von der Normalverteilung. Der höchste Punkt einer Verteilung befindet sich nicht mehr in der Mitte, sondern links oder rechts von der Mitte. Die Wölbung ist ein Maß für die vertikale (senkrechte) Abweichung einer Verteilung von der Normalverteilung. Sie informiert, ob eine Verteilung breit oder schmalgipflig ist. Für die Berechnung der Schiefe und Wölbung wurden Maßzahlen entwickelt. Sind die Werte jeweils 0, dann ist die Abweichung von der Normalverteilung gleich 0
Schiefe: Die Schiefe ist ein Maß für die horizontale Abweichung einer Verteilung von der Normalverteilung. Die mittlere Grafik in Abbildung 4 zeigt eine symmetrische Verteilung. Die Häufigkeiten der Werte nehmen symmetrisch von der Mitte ab. Modus = Median = Mittelwert. Bei der linken Grafik in Abbildung 4 handelt es sich um eine sogenannte rechtsschiefe Verteilung. Die meisten Werte bzw. der häufigste Wert befinden bzw. befindet sich auf der linken Seite der Verteilung. Nach rechts nehmen die Werte immer mehr ab. Anstelle der Bezeichnung „rechtsschief“ wird auch der Begriff „linkssteil“ verwendet
- Die Bezeichnungen „rechtsschief“ und „linksschief“ sind nicht sehr zugänglich, da der „Gipfel“ der Verteilung jeweils entgegengesetzt liegt. Weiß nutzt die Bezeichnungen „rechtsgipflig“ und „linksgipflig“, die eindeutig den Ort der meisten Werte beschreiben. Bei der rechten Grafik in Abbildung 4 handelt es sich um eine sogenannte linksschiefe Verteilung. Die meisten Werte bzw. der häufigste Wert befinden bzw. befindet sich auf der rechten Seite der Verteilung. Nach links nehmen die Werte immer mehr ab. Anstelle der Bezeichnung „linksschief“ wird auch der Begriff „rechtssteil“ verwendet
- Für die Berechnung der Schiefe wird zunächst die Abweichung jedes Werts (xi) vom arithmetischen Mittel (x quer) gebildet. Diese Differenz wird durch die Standardabweichung (sx) dividiert und anschließend mit 3 potenziert. Durch dieses Vorgehen werden erstens Werte, die weiter vom arithmetischen Mittel entfernt sind, stärker gewichtet und zweitens bleiben negative Abweichungen durch die dritte Potenz erhalten. Abschließend wird die Summe durch die Fallzahl (n) dividiert. Formal: Schiefe = ∑ni=1 (xi−x quer/sx) hoch 3/n
- Die Schiefe einer Verteilung wird heute nicht mehr händisch berechnet. Diese Aufgabe übernimmt ein Statistikprogramm wie SPSS, Stata oder R. Zur angemessenen Beschreibung einer Verteilungsform muss allerdings der Schiefe-Koeffizient korrekt interpretiert werden. Drei Fälle werden unterschieden: – Schiefe < 0: linksschiefe Verteilung (rechtsgipflig)
  – Schiefe = 0: symmetrische Verteilung
  – Schiefe > 0: rechtsschiefe Verteilung (linksgipflig)
- Nach Schendera werden Schiefe-Werte, deren Beträge größer oder gleich 1 sind, als deutliche Abweichung vom symmetrischen Verlauf der Normalverteilung interpretiert.
- Eine einfache Möglichkeit, die Schiefe einer Verteilung ohne Berechnung des entsprechenden Formmaßes und ohne grafische Darstellung zu bestimmen, bietet die sogenannte Fechner‘sche Lageregel. Völkl und Korb (2018, S. 121) weisen allerdings darauf hin, dass es sich bei der Fechner‘schen Lageregel um eine Daumenregel handelt, die nicht immer korrekt ist.
  – Bei symmetrischen Verteilungen weisen die drei Lagemaße Modus, Median und arithmetisches Mittel denselben Wert auf (siehe Abbildung 3).
  – Eine Verteilung ist rechtsschief (linksgipflig), wenn der Modus kleiner als der Median und der Median kleiner als das arithmetische Mittel ist (Modus < Median < Arithmetisches Mittel).
  – Eine Verteilung ist linksschief (rechtsgipflig), wenn der Modus größer als der Median und der Median größer als das arithmetische Mittel ist (Modus > Median > Arithmetisches Mittel).
Wölbung: Die Wölbung (Kurtosis) einer Verteilung ist das Maß ihrer vertikalen Abweichung von der Normalverteilung. In Abbildung 6 werden die Normalverteilung und zwei typische vertikale Abweichungen dargestellt. Die Normalverteilung (durchgezogene Linie) dient als Referenzwert der Wölbung. Eine Verteilung kann einerseits flacher (flachgipflige Verteilung) oder andererseits steiler verlaufen (hochgipflige Verteilung).
- Bei einem flacheren Verlauf liegen weniger Werte in der Mitte und mehr Werte an den Rändern der Verteilung. Eine solche Verteilung wird als flach- oder breitgipflig bezeichnet. Bei einem steileren Verlauf liegen mehr Werte in der Mitte und weniger Werte an den Rändern der Verteilung. Eine solche Verteilung wird hochgipflig oder auch schmalgipflig genannt.
- Die Formel für die Berechnung der Wölbung unterscheidet sich in zwei Punkten von der Formel für die Berechnung der Schiefe. Erstens ist der Exponent 4 statt 3, zweitens gibt es einen Korrekturfaktor 3. Der Korrekturfaktor ist erforderlich, da die Normalverteilung einen Referenzwert von 3 hat. Durch die Korrektur wird das Maß auf 0 zentriert und ermöglicht einfache Vergleiche. Für die Berechnung wird auf folgende Formel zurückgegriffen: Wölbung = ∑ ni=1 (xi−x quer/ sx) hoch 4/ n – 3
- Auch die Wölbung einer Verteilung wird heute nicht mehr händisch berechnet. Zur Unterscheidung der Verteilungsformen muss der entsprechende Koeffizient allerdings angemessen interpretiert werden. Drei Fälle werden unterschieden: – Kurtosis < 0: flachgipflige Verteilung – Kurtosis = 0: Normalverteilung – Kurtosis > 0: hochgipflige Verteilung Bei einem Kurtosis-Wert von 0 entspricht die Verteilung exakt der Wölbung einer Normalverteilung. Werte kleiner als 0 deuten auf einen flacheren Verlauf und Werte größer als 0 auf eine steilere Verteilung hin
Variablen standardisieren (z-Transformation): Um Werte unterschiedlicher Verteilungen vergleichen zu können, müssen diese standardisiert werden. Diese Standardisierung wird in der Fachliteratur als z-Transformation oder auch als z-Standardisierung bezeichnet. Bei der z-Standardisierung wird jeder Wert einer Verteilung – in unserem Fall die Punktzahl jedes Teilnehmenden – in einen z-Wert transformiert. Nach der Transformation hat jede Person einen ursprünglichen Wert (x-Wert) und einen standardisierten Wert (z-Wert). Während die x-Werte nicht vergleichbar sind, sind die z-Werte über die Ursprungsverteilung hinaus vergleichbar. Für die Berechnung des z-Werts wird folgende Formel verwendet: zi = xi − x quer/ sx
- Bei der Berechnung des z-Werts lassen sich zwei Schritte unterscheiden: Zentrierung und Normierung. Im ersten Schritt wird die Variable zentriert. Dafür wird von jedem x-Wert das entsprechende arithmetische Mittel abgezogen (xi − x quer). Dadurch liegt das neue arithmetische Mittel der Variable bei 0. Für Personen, die einen x-Wert unterhalb des arithmetischen Mittels haben, ergibt sich ein negativer Wert. Für Personen, die einen x-Wert oberhalb des arithmetischen Mittels haben, ergibt sich ein positiver Wert. Der zweite Schritt wird als Normierung bezeichnet. Dabei wird der zentrierte x-Wert durch die Standardabweichung (sx) dividiert. Dadurch wird die ursprüngliche Verteilung gestaucht oder gestreckt. Die Standardabweichung der neuen Verteilung beträgt daher immer 1.
- „Das heißt, ein z-Wert gibt an, wie viele Standardabweichungen ein Wert über oder unter dem Mittelwert liegt. Z-Werte können positiv oder negativ sein. Ein negativer z-Wert bedeutet, dass der interessierende Datenpunkt kleiner ist als der Mittelwert, ein positiver z-Wert, dass der Datenpunkt größer ist als der Mittelwert. Die Größe der z-Werte wiederum gibt Aufschluss darüber, wie breit sie um den Mittelwert streuen. Ein kleiner Betrag des z-Werts weist darauf hin, dass er in der Nähe des Mittelwerts liegt und damit in einen Bereich fällt, in dem sich ein Großteil der Fälle einer Verteilung befindet. Ein hoher Betrag des z-Werts dagegen gilt als außergewöhnlich und kann ein Hinweis auf einen Ausreißer sein.“
Grafische Darstellungen:
- Säulen- und Balkendiagramme sind Darstellungsformen für Merkmale mit wenigen Ausprägungen. Sie eignen sich für nominale und ordinale Variablen. Die Häufigkeiten oder Anteile der einzelnen Kategorien werden durch Säulen bzw. Balken gleicher Breite dargestellt. Die Höhe der Säulen bzw. die Länge der Balken entspricht der absoluten oder relativen Häufigkeit der jeweiligen Merkmalsausprägung der jeweiligen Kategorie. Wie unterscheiden sich Säulen- von Balkendiagrammen? Bei einem Säulendiagramm werden die einzelnen Kategorien durch stehende (vertikale) Rechtecke dargestellt, bei einem Balkendiagramm durch liegende (horizontale) Balken (Gehring und Weins 2009, S. 110). Säulendiagramme können unkompliziert in Balkendiagramme transformiert werden. Dazu muss die Abbildung nur um 90 Grad gedreht werden
- In den Medien und in Präsentationen von Unternehmensberatungen werden häufig Kreisdiagramme genutzt (häufig auch Kuchen- oder Tortendiagramme genannt), um Merkmale mit wenigen Ausprägungen darzustellen. Die Häufigkeiten oder Anteile einer Kategorie werden durch verschieden große Kreissegmente dargestellt. In der sozialwissenschaftlichen Literatur werden Kreisdiagramme eher kritisch gesehen. Die Darstellung von Häufigkeiten oder Anteilen in Kreissegmenten oder Tortenstücken ist schwierig zu interpretieren, weil der Betrachter Winkel und Flächen interpretieren muss. Deshalb kann die Darstellung leicht über die tatsächlichen Häufigkeiten bzw. Anteile der einzelnen Kategorien täuschen. Insbesondere die dreidimensionale oder perspektivische Gestaltung eines Kreisdiagramms erschwert die Interpretation. Deshalb wird von dieser Darstellungsform eher abgeraten
- Histogramme sind Darstellungen für metrische Variablen mit vielen Ausprägungen bzw. vielen Gruppen. Der auffälligste Unterschied zu Säulen- und Balkendiagrammen ist, dass die Säulen eines Histogramms unmittelbar aneinander angrenzen. Für die Säulen gilt das Prinzip der Flächentreue: Die Fläche über den Klassen (das Produkt aus Säulenhöhe und Säulenbreite) ist proportional zu den absoluten bzw. relativen Häufigkeiten. Deshalb bieten Histogramme einen informativen Eindruck der empirischen Häufigkeitsverteilung. Symmetrie, Schiefe und Steilheit einer Verteilung können leicht erkannt werden. Häufig werden Histogramme für gruppierte Daten verwendet (z.B. Altersgruppen oder Einkommensklassen). Für die Mindestanzahl der Klassen gibt es zahlreiche Empfehlungen. Bei bis zu 100 Beobachtungswerten sind mindestens zehn Klassen, bei 1000 Beobachtungen mindestens 13 Klassen und bei 10000 Beobachtungen mindestens 16 Klassen zu bilden.Bei der Konstruktion eines Histogramms empfiehlt Degen (2010, S. 100) die Bildung gleich breiter (äquidistanter) Klassen. Durch eine identische Klassenbreite können die Häufigkeiten leichter verglichen werden. Grundsätzlich sind aber auch unterschiedliche Klassenbreiten möglich. Dann müssen allerdings die Flächeninhalte der Rechtecke verglichen werden. Diese sind deutlich schwieriger zu interpretieren.
- Eine wichtige Darstellungsform für metrische Merkmale ist der Boxplot, der oft auch als Box-and-Whisker-Plot bezeichnet wird und von John W. Tukey vorgestellt wurde. Abbildung 11 sind die charakteristischen Elemente eines Boxplots zu entnehmen. Ein Boxplot besteht aus einem Rechteck (Box), das die mittleren 50 Prozent der Beobachtungswerte umfasst. Linie 1 repräsentiert das untere Quartil (25 Prozent der Beobachtungen) und Linie 3 das obere Quartil (75 Prozent der Beobachtungen). Linie 2 zeigt den Median an (50 Prozent der Beobachtungen). Der Bereich vom unteren zum oberen Quartil wird auch als Interquartilsabstand bezeichnet. Durch die Antennen (4) werden die Werte außerhalb der Box dargestellt. Diese Antennen werden auch Whisker (Barthaare) genannt. Daher kommt die englische Bezeichnung als Box-and-Whisker-Plot. Die Länge der Whiskers wird auf maximal das 1,5-Fache des Interquartilsabstands beschränkt. Gibt es keine Werte außerhalb der Grenze, dann wird die Länge durch den minimalen und maximalen Datenpunkt festgelegt. Beobachtungen, die außerhalb der Whiskers liegen, gelten als auffällige Datenpunkte. Das Statistikprogramm SPSS unterscheidet dabei zwischen Ausreißern, die mit einem Kreis markiert werden, und Extremwerten, die mit einem Stern gekennzeichnet werden. Als Extremwerte gelten Beobachtungen, die mehr als das Dreifache des Interquartilsabstands von den Rändern der Box entfernt liegen

Bivariate Datenanalyse

Bei der bivariaten Datenanalyse werden immer genau zwei Variablen in Beziehung gesetzt (z.B. Bildung und Einkommen). Bivariate Analyseverfahren werden genutzt, um Zusammenhänge oder Unterschiede zwischen zwei Merkmalen zu untersuchen und Hypothesen empirisch zu überprüfen. Dafür nutzen wir Kreuztabellen und Zusammenhangsmaße. Kreuztabellen (engl. crosstabs) sind eine einfache und anschauliche Möglichkeit, um die Beziehung zwischen zwei Merkmalen in den Blick zu nehmen. Neben absoluten Häufigkeiten können auch die Anteile der einzelnen Häufigkeiten (Anteile) berechnet werden. Die Stärke einer Beziehung zwischen zwei Merkmalen (z.B. Bildung und Einkommen) kann mit Zusammenhangsmaßen – sogenannten Koeffizienten – charakterisiert werden. Die bekanntesten Zusammenhangsmaße sind sicherlich Cramér’s V, Spearman’s rho und Pearson’s r.

Kreuztabellen: Die Kreuztabellenanalyse stellt in der sozialwissenschaftlichen Datenanalyse ein klassisches bivariates Instrument zur Betrachtung von Zusammenhängen zweier Merkmale dar. Sie ermöglicht eine übersichtliche und kompakte Darstellung der Häufigkeiten der interessierenden Merkmale, in der auch prozentuale Anteile berechnet werden können.
- Die Erstellung von Kreuztabellen empfiehlt sich grundsätzlich als erster Schritt der bivariaten Analyse, wenn die Skalenvoraussetzungen der betreffenden Variablen vorhanden sind. Mit Hilfe von Kreuztabellen lassen sich die kombinierten Häufigkeiten mindestens zweier Variablen darstellen. Deren gemeinsames Auftreten wird in Tabellenform abgebildet.
- Technisch gesprochen handelt es sich bei Kreuztabellen um Matrizen, in deren Zellen die beobachteten (absoluten und relativen) Häufigkeiten der Fälle der Stichprobe abgetragen werden. Allein schon aus Gründen der Übersichtlichkeit ist es daher plausibel, dass sich zur Darstellung in Kreuztabellen vor allem kategoriale (nominale) bzw. teilweise auch ordinale Variablen eignen, letztere vor allem dann, wenn sie über wenige Ausprägungen verfügen. Metrische Variablen hingegen, die über eine Vielzahl von potenziellen Ausprägungen verfügen, eignen sich per se nicht (siehe dazu den Abschnitt über Pearson‘s r). Allerdings lassen sich metrische Variablen häufig in wenige Kategorien (z.B. Alters- oder Einkommensgruppen) zusammenfassen. In dieser gruppierten Form kann dann ebenfalls die Kreuztabellenanalyse genutzt werden
- Kreuztabellen verfügen also über k Zeilen und l Spalten, was bedeutet, dass eine Kreuztabelle k x l Zellen umfasst. Im einfachen Beispiel aus Tabelle 19 gibt es 2 x 2 = 4 Zellen. Als Zeilenvariable, hier „Nutzung“, bezeichnet man die Variable, deren Merkmalspausprägungen die Zeilen der Kreuztabelle bilden. Als Spaltenvariable. bezeichnet man die Variable, deren Ausprägungen die Spalten der Kreuztabelle vorgeben
- die unterste Zeile sowie die Spalte ganz rechts von der Tabelle beinhalten die sogenannten Randhäufigkeiten. Als Randhäufigkeiten bezeichnet man den rechten und unteren „Rand“ einer Kreuztabelle. Diese Informationen, die sich auch durch univariate Häufigkeitsauszählungen der beiden Merkmale getrennt voneinander herausbekommen lassen, sind allgemein deskriptiver Natur. So lässt sich ablesen, dass insgesamt fünf Studierende eine Abendnutzung bejahen, während vier Befragte dies verneinen
- Im Beispiel wurden die absoluten Häufigkeiten der Merkmalskombinationen eingetragen. In Kreuztabellen lassen sich diese auch um relative Häufigkeiten ergänzen bzw. um eine prozentuale Anschauung des gemeinsamen Auftretens beider Variablen. Da nicht immer davon ausgegangen werden kann, dass sich die Beobachtungseinheiten in allen Zellen ähnlich sind, lassen sich die einzelnen Zellen durch die Ergänzung von prozentualen Häufigkeiten besser miteinander vergleichen
- Da vor dem Hintergrund der unterschiedlichen Perspektiven der Prozentuierung die Interpretation einer Kreuztabelle nicht immer intuitiv zu erfassen ist, gibt es in der empirischen Sozialforschung eine sinnvolle Konvention bezüglich der Erstellung von Kreuztabellen. Diese ist insbesondere dann relevant, wenn vorab kausale Annahmen aufgestellt wurden, wir also den Einfluss einer (unabhängigen) Variable auf eine (abhängige) Variable untersuchen möchten. In einem solchen Fall wird konventionell in der Spalte die unabhängige Variable und in der Zeile die abhängige Variable abgebildet. Als Basis der Prozentuierung wird dann die unabhängige Variable gewählt, womit die Spaltenprozente ausgegeben und interpretiert werden müssen. Selbstverständlich würde ein umgekehrtes Vorgehen mit der abhängigen Variable in der Spalte, der unabhängigen Variable in der Zeile und der Angabe der Zeilenprozente zu denselben Ergebnissen führen. Dieses Vorgehen entspricht aber nicht der sozialwissenschaftlichen Konvention
Zusammenhangsmaße für nominale Merkmale: Mit der im letzten Abschnitt im Rahmen von konventionell gestalteten Kreuztabellen kennengelernten Prozentsatzdifferenz lassen sich bereits erste Schlüsse auf mögliche Zusammenhänge zwischen zwei Variablen ziehen. Diese lassen sich mit dem Vergleich der sogenannten erwarteten und beobachteten Häufigkeiten weiter erhärten. Auf einem Abgleich zwischen erwarteten und beobachteten Häufigkeiten basiert auch das Assoziationsmaß Chi-Quadrat. Die absoluten Häufigkeiten, die in den einzelnen Zellen abgebildet sind, stellen die sogenannten beobachteten Häufigkeiten dar. Tabelle 26 zeigt die beobachteten Häufigkeiten der Merkmale „Geschlecht“ und „Politisches Interesse“ in einer Kontingenztafel (bzw. einer Kreuztabelle ohne prozentuale Anteile). Wenn es keinen Zusammenhang zwischen den beiden Variablen gibt, dann lässt sich erwarten, dass diese beobachteten Häufigkeiten auch den erwarteten Häufigkeiten entsprechen. Dies lässt sich im Kontext der Kreuztabelle mit Hilfe einer sogenannten Indifferenztabelle darstellen. Eine Indifferenztabelle stellt die kombinierte Verteilung zweier Variablen dar, die erwartet wird, wenn es zwischen den beiden Merkmalen keinen Zusammenhang oder Unterschied gibt – das heißt, wenn zwischen den beiden betrachteten Variablen statistische Unabhängigkeit vorliegt. Um das Beispiel von Tabelle 26 aufzugreifen: Wenn es keinen Zusammenhang zwischen Geschlecht und politischem Interesse gibt, dann lässt sich erwarten, dass die Anzahl von Männern und Frauen gemäß ihres Anteils an der gesamten Stichprobe in jeder Kategorie des politischen Interesses mit den beobachteten Häufigkeiten deckungsgleich ist.
- Die erwarteten Häufigkeiten können unter Einbezug der Randhäufigkeiten ermittelt werden. Es werden die Zeilensumme und die Spaltensumme der entsprechenden Zelle miteinander multipliziert und dann durch den Umfang aller Beobachtungen geteilt. Am bereits erwähnten Beispiel des gemeinsamen Auftretens der Merkmale Geschlecht und politisches Interesse werden in Tabelle 27 für zwei Zellen beispielhaft die erwarteten Häufigkeiten berechnet. Gibt man in einer Kreuztabelle die berechnete erwartete Anzahl an, spricht man auch von einer sogenannten Indifferenztabelle.
Auf Basis des Vergleichs zwischen erwarteten und beobachteten Häufigkeiten wird das sogenannte Chi-Quadrat-Assoziationsmaß berechnet. Zunächst werden von den beobachteten Häufigkeiten die erwarteten Häufigkeiten subtrahiert, man erhält die sogenannten Residuen. Diese Differenzen werden dann quadriert. Dadurch erhalten alle Werte ein positives Vorzeichen. Anschließend wird durch die erwarteten Häufigkeiten dividiert. Chi-Quadrat ist die Summe dieser Quotienten. Formal ergibt sich:
χ2 = km (fb(ij) − fe(ij))² / fe(ij)
fb(ij) = beobachtete Häufigkeit in der i‐ten Zeile und j‐ten Spalte
fe(ij) = erwartete Häufigkeit in der i‐ten Zeile und j‐ten Spalte
k = Anzahl der Zeilen
m = Anzahl der Spalten
Für die Berechnung von Chi-Quadrat bietet es sich an, eine Arbeitstabelle zu erstellen. In Tabelle 29 sind die einzelnen Schritte dargestellt. Zunächst werden die Residuen berechnet – dabei werden die erwarteten von den beobachteten Häufigkeiten abgezogen. Im Anschluss werden für jede Zelle die Residuen quadriert.
Nimmt Chi-Quadrat den Wert Null an, besteht kein Unterschied zu den erwarteten Häufigkeiten. Mit ansteigendem Wert nimmt auch die empirische Abhängigkeit der beiden Merkmale zu. Der im Beispiel berechnete Wert von 190,46 unterscheidet sich deutlich von 0 und weist ebenfalls darauf hin, dass keine statistische Unabhängigkeit der beiden Merkmale gegeben ist.
Allerdings hat Chi-Quadrat den Nachteil, dass es von der Fallzahl, also der Größe der Stichprobe, abhängig ist. Daher wurden auf Basis der Berechnung von Chi-Quadrat weitere Assoziationsmaße entwickelt, die auch vergleichend eingesetzt werden können.
—>Zwei Assoziationsmaße sind wichtig: phi und darauf aufbauend Cramer's V.
Phi: Für zwei dichotome Merkmale, also 2x2-Tabellen (Kreuztabellen, die über zwei Zeilen und zwei Spalten verfügen), wird häufig der Phi-Koeffizient genutzt. Hier wird der Chi-Quadrat-Wert durch die Anzahl der Beobachtungen geteilt und danach die Wurzel gezogen: Φ = Wurzel aus χ2/ n

Cramer´s V: 2x2-Tabellen bzw. Zusammenhänge zwischen zwei dichotomen Merkmalen stellen einen Sonderfall dar. Eine mathematische Weiterentwicklung für Kreuztabellen, die mehr als vier Zellen umfassen, ist Cramer’s V. Dieser Assoziationskoeffizient für zwei diskrete und nominalskalierte Variablen hat, wie Phi auch, zudem den Vorteil, dass er Werte zwischen 0 und 1 annimmt und daher gut interpretierbar ist. Sowohl der Wert von Cramer’s V als auch der Wert des Phi-Koeffizienten können damit vergleichend interpretiert werden. Der Wert 0 bedeutet dabei empirische Unabhängigkeit der beiden Variablen, während 1 die vollständige Abhängigkeit der Merkmale abbildet. Um Cramer‘s V zu berechnen, muss Chi-Quadrat dividiert werden durch das Produkt der Fallzahl (n) und der kleinsten Abmessung der Kontingenztafel – 1 (M bezeichnet die kleinere Abmessung der Tabelle). Aus diesem Quotienten wird die Wurzel gezogen, um Cramer’s V zu erhalten: V = Wurzel aus χ2/ n ∗ (M − 1)
—>Die Interpretation von Cramer's V berücksichtigt (in der Regel) nur die Stärke des Zusammenhangs, nicht aber dessen Richtung. Da es sich um nominale Variablen handelt, ist es allerdings auch nicht möglich, eine Aussage über die Richtung des Zusammenhangs zu treffen, also inwiefern es sich um einen positiven oder negativen Zusammenhang zwischen den beiden Merkmalen handelt
Zusammenhänge zwischen nominalen Merkmalen werden als Wenn-dann-Hypothesen formuliert. Beispielsweise würde man formulieren: „Wenn jemand im Master-Studium eingeschrieben ist, dann nutzt er das Abendangebot der Bibliothek.“ Daher empfiehlt es sich auch immer, ergänzend zur Berechnung von Cramer’s V eine Kreuztabelle zu erstellen und die beobachteten und erwarteten Häufigkeiten in Augenschein zu nehmen, um die „Substanz“, die Art oder Qualität des Zusammenhangs erfassen zu können
Es gibt Faustregeln zur Interpretation der Stärke des Zusammenhangs vom Phi-Koeffizienten und Cramer’s V:
Wert von Cramer’s V (V) bzw. Betrag von Phi (|Φ|) / Interpretation:
≤ 0,05 kein Zusammenhang
> 0,05 bis ≤ 0,10 sehr schwacher Zusammenhang
> 0,10 bis ≤ 0,20 schwacher Zusammenhang
> 0,20 bis ≤ 0,40 mittelstarker Zusammenhang > 0,40 bis ≤ 0,60 starker Zusammenhang4
> 0,60 sehr starker Zusammenhang
Generell ist Cramer’s V ein Zusammenhangsmaß für zwei nominalskalierte Merkmale (z.B. Familienstand und Wahlabsicht). Allerdings bietet sich Cramer’s V auch an, um den Zusammenhang zwischen einem nominalskalierten Merkmal und einem ordinalskalierten Merkmal (z.B. Geschlecht und formale Bildung) bzw. einem metrischskalierten Merkmal5 (z.B. Geschlecht und Einkommen) zu untersuchen, da bei unterschiedlichen Messniveaus ein Zusammenhangsmaß gewählt werden muss, welches für das niedrigere Messniveau geeignet ist (Weins 2010). Am bereits bekannten Beispiel von Geschlecht und politischem Interesse, in dem das politische Interesse ordinalskaliert ist, soll nun die Berechnung von Cramer’s V vorgestellt werden. Wie beim Chi-Quadrat-Wert müssen auch hier zunächst die Randhäufigkeiten und die erwarteten Häufigkeiten ermittelt werden. Das heißt, die Arbeitsschritte bis zur Berechnung des Chi-Quadrat-Werts sind identisch. Ist Chi-Quadrat berechnet, muss lediglich der Nenner in der Formel zur Berechnung von Cramer’s V bestimmt werden.
—>Dabei entspricht n dem Umfang der Beobachtungen bzw. Fälle, welcher multipliziert wird mit M minus 1. M bezeichnet dabei die kleinere Abmessung der Kontingenztafel, welche im vorliegenden Beispiel aus 5 Zeilen und 2 Spalten besteht. M ist also 2. Mit einem ermittelten Chi-Quadrat von 190,46, einem n von 3490 und einem M von 2 ergibt sich eingesetzt in obige Formel für Cramer’s V: 0,23. Es ergibt sich somit ein Cramer’s V von 0,23, was einem mittelstarken Zusammenhang entspricht.

Zusammenhangsmaße für ordinale Merkmale:

Spearman´s Rho: Liegen zwei ordinalskalierte Variablen vor, wie beispielsweise das politische Interesse auf einer Ordinalskala sowie der formale Bildungsabschluss, dann lassen sich ebenfalls Zusammenhänge illustrieren und berechnen. Je nach Anzahl der Ausprägungen der Merkmale bietet sich nach wie vor eine Kreuztabelle zur deskriptiven Darstellung an. Im Gegensatz zu Cramer’s V, welches keine Aussage zur Richtung des Zusammenhangs geben kann, lässt sich mit Spearman’s Rho allerdings auf ein Maß zurückgreifen, welches positive und negative Korrelationen bestimmen sowie die Stärke des Zusammenhangs angeben kann
Der Rangkorrelationskoeffizient Spearman’s Rho ist ein normiertes Maß für die Bestimmung eines Zusammenhangs zwischen zwei (mindestens) ordinalskalierten Merkmalen. Die Voraussetzung des ordinalen Messniveaus ist wichtig, da der Rangkorrelationskoeffizient darauf basiert, dass die Merkmalsausprägungen zweier Merkmale in jeweils geordnete Rangfolgen gebracht werden. Anschließend werden nicht ihre einzelnen Merkmalsausprägungen paarweise zueinander in Beziehung gesetzt, sondern die jeweiligen Rangpositionen der gepaarten Merkmalsausprägungen. Die (vereinfachte) Formel zur Berechnung von Spearman’s Rho lautet wie folgt:
rSP = 1 − 6 ∑ ni=1 d2i/ n ∗ (n² − 1) wobei di = rg(xi) − rg(yi)
Dabei kann der Rangkorrelationskoeffizient nach Spearman Werte zwischen −1 und +1 annehmen. Der Wert 0 zeigt dabei keinen Zusammenhang an und ein positiver Koeffizient weist auf einen gleichgerichteten bzw. positiven Zusammenhang hin. Betrachtet man beispielsweise die beiden ordinalen Merkmale „Schulbildung“ und „Politisches Interesse“, dann würde man einen positiven Rangkorrelationskoeffizienten wie folgt interpretieren: Je höher der formale Bildungsabschluss einer Person ist, desto höher ist auch ihr politisches Interesse. Ein negatives Vorzeichen weist dagegen auf einen gegenläufigen bzw. negativen Zusammenhang zwischen zwei Merkmalen hin. Mit steigendem Bildungsgrad sinkt das politische Interesse, wäre dann die beispielbezogene Interpretation. Der Wert −1 steht für einen perfekten negativen Zusammenhang und +1 für einen perfekten positiven Zusammenhang.
Auch bei diesem Assoziationsmaß stehen wiederum Faustregeln für die Interpretation der Stärke des Zusammenhangs zur Verfügung, die vom Betrag des Rangkorrelationskoeffizienten abhängen:
Rangkorrelationskoeffizient (|rSP|) /Interpretation
≤ 0,05 kein Zusammenhang
> 0,05 bis ≤ 0,20 schwacher Zusammenhang
> 0,20 bis ≤ 0,50 mittelstarker Zusammenhang > 0,50 bis ≤ 0,70 starker Zusammenhang
> 0,70 sehr starker Zusammenhang
Im obigen Beispiel kam bei der Vergabe von Rängen gemäß den geordneten Merkmalsausprägungen jeder Rang nur einmal vor. In Fällen, in denen dies zutrifft, kann die oben vorgestellte vereinfachte Formel für Spearman’s Rho angewendet werden. Insbesondere bei „echten“ Rangkorrelationen, wenn beispielsweise das Ranking von Ländern im Human Development Index mit dem Ranking auf einem Demokratieindex in Bezug gesetzt werden soll, funktioniert dies problemlos, da es sich um Rangplätze handelt, die nur einmal vergeben werden. Bei größeren Stichproben, die auch mehr Befragte als Merkmalsausprägungen umfassen, kommt es stattdessen häufig vor, dass mindestens zwei oder mehr Fälle die gleiche Merkmalsausprägung aufweisen. Das heißt, hier werden Rangpositionen mit sogenannten Bindungen (engl. ties) vergeben.
Kendall´s Tau: Ein alternatives Assoziationsmaß, welches zur Berechnung von Korrelationen zwischen zwei ordinalskalierten Merkmalen zur Verfügung steht, ist Kendall‘s Tau. Dieses basiert auf dem Vergleich zwischen Paaren von Merkmalsausprägungen: Weisen beide Merkmalsausprägungen eines Paars die gleiche Rangreihenfolge auf, dann spricht man von einem konkordanten Paar. Sind die Merkmalsausprägungen gegenläufig in ihren Rangreihenfolgen, dann wird das Paar als diskonkordant bezeichnet. Als „verbunden“ wird ein Paar dann bezeichnet, wenn beide Beobachtungseinheiten auf einem Merkmal unterschiedliche Werte, auf dem anderen Merkmal aber identische Werte aufweisen. Kendall’s Tau-Assoziationsmaße berechnen nun alle möglichen Paarkombinationen. Überwiegen konkordante Paare, zeugt dies von einem positiven Zusammenhang, finden sich mehr diskonkordante Paare, weist dies auf einen negativen Zusammenhang hin, während überwiegend verbundene Paare auf keinen Zusammenhang hinweisen. Die errechneten Maßzahlen umfassen ebenfalls einen Wertebereich zwischen −1 und +1 und können hinsichtlich Richtung und Stärke des Zusammenhangs entsprechend interpretiert werden.

Zusammenhangsmaße für metrische Merkmale:

Liegen zwei Merkmale vor, die ein metrisches Skalenniveau aufweisen, bietet sich zunächst eine grafische Anschauung der Merkmalskombinationen an, um mögliche Zusammenhänge in Augenschein nehmen zu können. Diese Art der Darstellung wird Streudiagramm, Punktwolkendiagramm oder Scatterplot genannt.
Um zu erkennen, welche Art des Zusammenhangs zwischen zwei Merkmalen eines Datensatzes besteht, empfiehlt sich die Erstellung von Streudiagrammen. Anhand der Darstellung im Streudiagramm können wir die Art des Zusammenhangs zwischen den beiden Merkmalen beschreiben.
- Einen „Je-mehr-desto-mehr“- Zusammenhang nennt man auch einen positiv linearen Zusammenhang bzw. eine positive lineare Korrelation. An dieser Stelle soll bereits darauf hingewiesen werden, dass eine Korrelation keine Aussage zur Kausalität trifft, sondern die Korrelation und die damit verbundenen Korrelationskoeffizienten nur messen, ob sich zwei Merkmale „im Gleichklang bewegen“. Neben einer linearen Korrelation gibt es auch andere Arten des Zusammenhangs zwischen zwei (metrischen) Variablen. Das linke Streudiagramm zeigt keine Beziehung zwischen zwei Variablen an; es liegt keine Korrelation vor. Die Datenpunkte ergeben kein Beziehungsmuster.
- Das mittlere Streudiagramm zeigt eine negative lineare Korrelation. Je höher die Werte bei der einen Variable sind, desto niedriger sind die Werte bei der anderen Variable bzw. umgekehrt. Als Beispiel könnte man sich den Zusammenhang zwischen dem Alter eines Autos in Jahren und seinem Wert in Euro vorstellen. Das heißt, je älter das Auto ist, desto geringer ist sein Wert
Kovarianz: Werden sogenannte „Je-desto“-Hypothesen formuliert, werden lineare Korrelationen postuliert, beide Merkmale hängen linear positiv zusammen. Allerdings wird aus dem Streudiagramm nicht ersichtlich, wie stark der Zusammenhang genau ist. Dieser Zusammenhang lässt sich mit der sogenannten Bravais-Pearson-Produktkorrelation berechnen. Dazu bietet sich als Zwischenschritt zunächst die Berechnung der Kovarianz an. Die Kovarianz ist ein Maß für den linearen Zusammenhang zweier Variablen x und y und zeigt die wechselseitige Varianz von zwei Merkmalen an.
- Diese ergibt sich, indem für jedes Wertepaar zunächst berechnet wird, wie weit der betreffende x‐Wert bzw. der y‐Wert vom jeweils zugehörigen arithmetischen Mittel entfernt ist. Das hat zur Folge, dass der Wert für die Kovarianz durch die Maßeinheiten der beiden Merkmale beeinflusst wird. Die Kovarianz (cov) gibt also die gemeinsame Streuung zweier Variablen x und y an. Sie stellt ein (unstandardisiertes) Maß zur Bestimmung eines linearen Zusammenhangs von zwei metrisch skalierten Merkmalen dar. Analog zur Varianz eines einzelnen (metrischen) Merkmals, wird die (empirische) Kovarianz mit folgender Formel berechnet:
  covxy = ∑ni=1 (xi − x quer) ∗ (yi − y quer)/n
- Ein positives Vorzeichen des Kovarianzwerts gibt an, dass sich beide Variablen in dieselbe Richtung bewegen (das bedeutet, dass sich der Wert einer Variable erhöht, wenn der Wert der anderen Variable ansteigt). Ein negatives Vorzeichen sagt das Gegenteil über den Zusammenhang aus (das heißt, wenn der Wert einer Variable steigt, fällt der Wert der anderen). Ein Wert von Null oder nahe Null weist darauf hin, dass kein oder nur ein sehr geringer Zusammenhang besteht. Der Kovarianzwert steigt zwar mit der Stärke des Zusammenhangs, da der Wert selbst aber unstandardisiert bzw. abhängig von den Maßeinheiten der Merkmale ist, ist eine Interpretation der Stärke des Zusammenhangs schwierig.
Pearson´s r: Als ein von den Maßeinheiten unabhängiges Maß für den Zusammenhang zwischen zwei metrischen Variablen eignet sich der sogenannte Korrelationskoeffizient nach Bravais-Pearson, gemeinhin auch Pearson’s r genannt. Diesen Korrelationskoeffizienten für zwei (mindestens) intervallskalierte Merkmale erhält man, indem man die Kovarianz durch das Produkt der Standardabweichungen der beiden Variablen x und y teilt. Neben diesem „Umweg“ über die Kovarianz, lässt sich Pearson’s r auch mit folgender Formel berechnen: r = x quer y quer- (x quer y quer)/ Wurzel aus x²-x² quer * Wurzel aus y² quer- y² quer
- Schritte: Datenpunkte in einem Streudiagramm eintragen, Formel anwenden (für die händische Berechnung Arbeitstabelle zu empfehlen: In der ersten Spalte sind die Identifikationsnummern dokumentiert. In den Spalten daneben finden sich die Angaben für die beiden Variablen , Die erste Berechnung findet sich in der vierten Spalte. Dort werden die jeweiligen Werte von x und y multipliziert. In der fünften und sechsten Spalte werden die Werte jeweils quadriert), Die einzelnen Werte werden zunächst addiert und anschließend durch die Fallzahl dividiert, um die arithmetischen Mittel x quer und 𝑦 quer zu erhalten
- Der auf diese Weise errechnete Korrelationskoeffizient Pearson’s r kann Werte zwischen −1 und +1 annehmen, wobei 0 keinen Zusammenhang anzeigt. Das Vorzeichen des Koeffizienten gibt die Art des Zusammenhangs an: Ist der Koeffizient positiv, so spricht man von einem gleichgerichteten oder gleichläufigen (bzw. positiven) Zusammenhang – sowohl die Werte von x als auch die Werte von y steigen oder fallen gleichzeitig. Ist das Vorzeichen negativ, so spricht man von einem gegengerichteten oder gegenläufigen (bzw. negativen) Zusammenhang – steigen die Werte von x, so fallen gleichzeitig die Werte von y und andersherum. Die Interpretation der Stärke des Zusammenhangs bezieht sich auf den Betrag des Koeffizienten. Sie kann somit für die entsprechenden positiven und negativen Werte auf gleiche Weise erfolgen. Tabelle 36 gibt Faustregeln an die Hand, nach denen die Beträge angemessen interpretiert werden können: Interpretation von Pearson’s r Korrelationskoeffizient (|r|)/ Interpretation ≤ 0,05 kein Zusammenhang
  > 0,05 bis ≤ 0,20 schwacher Zusammenhang
  > 0,20 bis ≤ 0,50 mittelstarker Zusammenhang
  > 0,50 bis ≤ 0,70 starker Zusammenhang > 0,70 sehr starker Zusammenhang
Die in der sozialwissenschaftlichen Forschung betrachteten und relevanten Merkmale sind allerdings nur selten metrisch skaliert (Ausnahmen sind z.B. Alter in Lebensjahren und Einkommen). Deshalb werden in der Forschungspraxis häufig auch ordinalskalierte Merkmale, die mindestens fünf Merkmalsausprägungen aufweisen und deren (inhaltliche) Abstände zwischen den Ausprägungen gleich sind, als metrisch behandelt. Insbesondere bei der standardisierten Erfassung von latenten Merkmalen wie Einstellungen liegen sogenannte Likert-Skalen zugrunde, die als „pseudo-“ oder „quasi-metrisch“ behandelt werden

ETA-Quadrat für metrische und nominale Merkmale
Es wurde besprochen, dass – wenn die beiden zu betrachtenden Merkmale unterschiedliche Skalenniveaus aufweisen – das Assoziationsmaß ausgewählt werden soll, welches zum niedrigsten Skalenniveau passt. Soll beispielsweise der Zusammenhang zwischen Familienstand und Nettoeinkommen berechnet werden, würde man nach dieser Logik Cramer’s V nutzen, da die Variable Familienstand nominal skaliert ist und in diesem Beispiel das niedrigere Skalenniveau umfasst. Allerdings steht mit dem Eta-Koeffizienten auch ein Parameter zur Verfügung, mit dem sich spezifisch die Beziehung zwischen einer nominalen und einer metrischen Variable berechnen lässt. Es wird dabei ermittelt, inwieweit bzw. wie „gut“ die Varianz einer (abhängigen) mindestens intervallskalierten Variable (z.B. Einkommen) durch eine unabhängige nominale Variable (z.B. Familienstand) erklärt wird. Eta-Quadrat wird auch genutzt, um Auskunft über die sogenannte Effektstärke der unabhängigen Variable zu erhalten.
Für die Berechnung von Eta-Quadrat muss die abhängige Variable mindestens Intervallskalenniveau haben, während die unabhängige Variable jedes andere, also auch Nominalskalenniveau, haben kann. Statistisch lässt sich mit Eta-Quadrat angeben, wie viel Prozent der Gesamtvarianz der abhängigen Variable durch die unabhängige Variable aufgeklärt wird. Damit gehört der Eta-Koeffizient bzw. Eta-Quadrat zur Familie der sogenannten PRE-Maße (Proportional Reduction of Error). Die relative Verbesserung der Vorhersage (bzw. die Verringerung der Fehlerquote) wird im PRE-Maß ausgedrückt. Für ein PRE-Maß benötigt man zwei Vorhersageregeln: Eine für den Fall, dass man keine Kenntnis über den Zusammenhang zwischen x (= uV) und y (= aV) hat sowie und eine für den Fall, dass man über entsprechende Kenntnisse verfügt.
PRE-Maße Die Ausgangsfrage bei der Berechnung von PRE-Maßen lautet, wie gut die Werte einer abhängigen Variable durch die Werte einer unabhängigen Variable vorhergesagt werden können. Anders ausgedrückt versuchen PRE-Maße zu ermitteln, wie gut eine unabhängige Variable die abhängige Variable vorhersagen kann. Je nach Skalenniveau lassen sich verschiedene Maße berechnen. Das Vorgehen folgt dabei immer derselben schrittweisen Logik. Erstens: Wie lautet die Prognose des Wertes der abhängigen Variable ohne Kenntnis der unabhängigen Variablen? (Vorhersagefehler E1). Hier stehen als Annäherungswerte die Mittelwerte der abhängigen Variable zur Verfügung (arithmetisches Mittel bei intervallskalierter Variable und Modus bei nominaler Variable). Zweitens: Prognose des Wertes der abhängigen Variable mit Kenntnis der Verteilung der unabhängigen Variable (Vorhersagefehler E2). Drittens: Ermittlung des PRE-Maßes und Aussage, ob die Vorhersage durch die unabhängige Variable verbessert wurde. Subtrahiert man Fehler 2 (E2) von Fehler 1 (E1) und dividiert dies durch Fehler 1 (E1), erhält man das entsprechende PRE-Maß. Je nach PRE-Maß werden dabei die Fehler unterschiedlich berechnet. Die allgemeine PRE-Formel lautet: PRE = (E1 - E2) / E1
Die Berechnung des PRE-Maßes Eta-Quadrat basiert auf sogenannten Quadratsummen. Die Quadratsumme stellt die Summe der quadrierten Abweichungen vom Mittelwert eines Merkmals dar (geteilt durch die Fallzahl ergibt sich daraus die empirische Varianz). Verschiedene Quadratsummen lassen sich unterscheiden: – Die „Quadratsumme Gesamt“: Entspricht der Summe aller quadrierten Abweichungen vom Mittelwert der (abhängigen) Variable. Dies ist Vorhersagefehler E1. – „Quadratsumme innerhalb“: Wird die unabhängige Gruppenvariable berücksichtigt, wird innerhalb der Gruppen berechnet, wie stark die Gruppenmittelwerte vom Gesamtmittelwert abweichen (also beispielsweise wird bei der Gruppenvariable „Familienstand“ geschaut, wie die Mittelwerte der Gruppen der Verheirateten, der Ledigen, der Geschiedenen etc. ausfallen und in Bezug zum Gesamtmittelwert gesetzt). Dies ist Vorhersagefehler E2.
Subtrahiert man von der „Quadratsumme Gesamt“ die „Quadratsumme innerhalb“, ergibt sich die „Quadratsumme zwischen“: Dies sind die quadrierten Abweichungen der unterschiedlichen Gruppenmittelwerte. Es wird also untersucht, wie stark die Vorhersagekraft gegenüber dem Mittelwert des abhängigen Merkmals verbessert wird, wenn die unabhängige Gruppenvariable (z.B. Familienstand oder Geschlecht) berücksichtigt wird. Ist der Unterschied zwischen den einzelnen Gruppen, die durch die unabhängige Variable konstituiert werden, substanziell und innerhalb der einzelnen Gruppen niedrig, deutet dies auf einen Zusammenhang hin. Um herauszufinden, wie sich die Gruppenzugehörigkeit auf das abhängige metrische Merkmal auswirkt, wird auf Basis obiger PRE-Formel Eta-Quadrat wie folgt berechnet: η2 = Quadratsumme Gesamt − Quadratsumme innerhalb/ Quadratsumme Gesamt = Quadratsumme Zwischen/ Quadratsumme Gesamt
Der Eta-Koeffizient kann Werte zwischen 0 und 1 annehmen. Je höher der Wert ist, desto besser trägt die untersuchte unabhängige Variable zur Erklärung der abhängigen Variable bei. Cohen (1988) unterscheidet bei der Interpretation von Eta zwischen folgenden drei Effekten: kleine Effekte, mittlere und große Effekte. Damit lässt sich ein Eta-Koeffizient ab 0,14 dahingehend interpretieren, dass die beiden untersuchten Variablen sich in einem starken Zusammenhang befinden, das heißt, die unabhängige Variable einen großen Effekt auf die abhängige Variable ausübt, während ein niedriger Wert auf eine schwache Assoziation verweist. Multipliziert man den Wert von Eta-Quadrat mit 100 %, lässt sich eine Aussage darüber treffen, wie viel Prozent der Varianz der abhängigen Variable von der Zugehörigkeit zu einer bestimmten Gruppe vorhergesagt oder erklärt werden kann.
—> Eta-Quadrat/ Interpretation
< 0,01 kein Effekt
0,01 bis < 0,06 kleiner Effekt
0,06 bis < 0,14 mittlerer Effekt
≥ 0,14 großer Effekt
Zusammenfassung
Kreuztabellen und die damit verbundenen Maße (Chi-Quadrat, Phi und Cramer‘s V) geben Auskunft über Zusammenhänge zwischen zwei nominalskalierten Variablen bzw. einer nominal- und einer ordinalskalierten Variable. Der Rangkorrelationskoeffizient Spearman’s Rho bietet sich an, wenn echte Rangkorrelationen zu berechnen sind bzw. wenn Assoziationen zwischen zwei ordinalskalierten Merkmalen berechnet werden sollen. Für zwei (pseudo-)metrisch skalierte Variablen wird Pearson's r genutzt. Eta-Quadrat eignet sich für bivariate Merkmalskombinationen, bei denen die uV nominal skaliert und die aV über ein metrisches Skalenniveau verfügt. Die kennengelernten Assoziationsmaße beschreiben die Stärke eines Zusammenhangs zweier Variablen. Verfügen beide interessierenden Merkmale über unterschiedliche Skalenniveaus, dann sollte man sich ein geeignetes Assoziationsmaß für das niedrigere Skalenniveau auswählen. Möchte man beispielsweise eine ordinalskalierte Bildungsvariable mit der nominalskalierten Familienstandsvariable in Beziehung setzen und mögliche Zusammenhänge untersuchen, sollte man zu Cramer’s V als Assoziationsmaß für nominale Variablen greifen.
Was können bivariate Analysen nicht leisten? Art und Stärke des Zusammenhangs zweier Merkmale können durch die kennengelernten Assoziationsmaße ermittelt werden. Ob eine kausale Beziehung zwischen den Merkmalen besteht, lässt sich jedoch „technisch“ oder statistisch nicht bestimmen. Zum einen ist dies nicht möglich, weil mögliche und plausible (aber nicht erhobene) weitere Merkmale, sogenannte Drittvariablen, mit beiden Merkmalen zusammenhängen könnten. Somit könnte auch eine bestimmte Beziehung zwischen zwei Merkmalen nur vorgetäuscht sein – in solchen Fällen spricht man von einer Scheinkorrelation

Prozente und Prozentpunkte

Prozente machen immer relative Angaben, drücken also ein Verhältnis aus. Die Zahl vor einem Prozentzeichen (%) wird als Prozentsatz bezeichnet, der vom Verhältnis unabhängig, also absolut zu verstehen ist. Vergleicht man Prozentsätze miteinander, werden keine relativen Prozentangaben verwendet, da dies zu Missverständnissen führen kann. Stattdessen kommt der Begriff „Prozentpunkte“ zum Einsatz, der den absoluten Unterschied zwischen zwei Prozentsätzen angibt. Das heißt, in Bezug auf obiges Beispiel muss es heißen, dass der Anteil an Männern unter den stark an Politik Interessierten um knapp 10 Prozentpunkte höher ist als der Anteil an Frauen in dieser Kategorie des Politikinteresses. Er ist aber nicht um 10 Prozent höher, denn das würde einem Prozentsatz der Männer von knapp über 22 Prozent entsprechen (20,1 plus 10% von 20,1).
Bei der Berechnung der sogenannten Prozentsatzdifferenz wird die zeilenweise Differenz von zwei Spaltenprozenten berechnet. Damit kann sie theoretisch Werte zwischen −100 und +100 Prozentpunkten annehmen. Unterscheiden sich die Spaltenprozente in einer Zeile (zwischen den Ausprägungen einer unabhängigen Variable) nicht (weisen sie also den Wert 0 auf) oder nur kaum, lässt sich davon ausgehen, dass kein Zusammenhang besteht. Als Anhaltspunkt für die Interpretation von festgestellten Prozentsatzdifferenzen gilt : – Differenzen unter 5 Prozentpunkten sind kaum interpretierbar und weisen auf keinen Zusammenhang hin, – Differenzen ab 5 bis unter 10 Prozentpunkten weisen auf einen schwachen Zusammenhang hin, – Differenzen ab 10 bis unter 25 Prozentpunkten weisen auf einen mittelstarken Zusammenhang hin, – Differenzen von 25 und mehr Prozentpunkten weisen auf einen starken Zusammenhang hin.

Multivariate Datenanalyse

Multivariate Analyseverfahren bieten die Möglichkeit, den Einfluss verschiedener erklärender Faktoren oder Variablen auf ein erklärungsbedürftiges Phänomen zu untersuchen. Das am häufigsten angewandte Verfahren ist hierbei die Regressionsanalyse.
Neben der Erklärung von abhängigen Variablen lässt sich auf der anderen Seite eine Regressionsanalyse auch nutzen, um auf Basis der unabhängigen Variablen Vorhersagen für die abhängige Variable zu machen. Das heißt, die Regressionsanalyse kann auch für Prognosen eingesetzt werden. Um wieder auf obiges Beispiel zurückzukommen: Wenn wir das politische Interesse und den sozialen Status einer Person kennen, können wir auf Basis dieser Informationen „schätzen“, wie wahrscheinlich es ist, dass sie zur Wahlurne gehen wird.
Im Kontext der Regressionsanalyse werden häufig auch alternative Bezeichnungen für abhängige und unabhängige Variablen verwendet (siehe Tabelle 46). Anstelle von abhängiger Variable spricht man auch von erklärter Variable, Kriteriumsvariable, endogener Variable oder auch Regressand. Die unabhängige Variable wird je nach Fachkultur auch als erklärende Variable, Prädiktorvariable, exogene Variable oder auch Regressor bezeichnet.
Im Unterschied zu bivariaten Analyseverfahren untersucht die Regressionsanalyse auch Kausalbeziehungen, das heißt, sie bestimmt die Richtung und den Ursprung eines Einflusses und möchte dessen Stärke messen. Wir gehen also beispielsweise nicht nur davon aus, dass die Merkmale „politisches Interesse“ und „Wahlbeteiligung“ zusammenhängen, sondern dass das politische Interesse der Wahlberechtigten einen Einfluss darauf nimmt, ob er oder sie ins Wahllokal geht. Damit gehört die Regressionsanalyse zu den sogenannten „strukturprüfenden Verfahren“ (siehe auch Backhaus et al. 2018), mittels derer sich theoretisch entwickelte Hypothesen über die Beziehungsstruktur zwischen Variablen prüfen lassen. Zu beachten ist hierbei, dass die Regressionsanalyse aus statistischer Perspektive Kausalität selbst nicht nachweisen kann, sondern Korrelationen zwischen Variablen berechnet werden.
Ganz allgemein gesprochen lassen sich mit Regressionsanalysen zwei (verwandte) Fragen beantworten: 1) Welchen Einfluss üben einzelne (unabhängige) Variablen auf eine abhängige Variable aus? Dies beinhaltet auch Aussagen über die Stärke und die Richtung (positiv oder negativ) des Einflusses der einzelnen unabhängigen Variablen auf die abhängige Variable. 2) Wie gut erklären bestimmte (unabhängige) Variablen eine abhängige Variable insgesamt? Hier geht es um die Gesamtgüte des Regressionsmodells.
Je nach Messniveau der zu erklärenden bzw. abhängigen Variable unterscheidet man hierbei zwischen der linearen Regressionsanalyse (bei metrischen bzw. pseudometrischen abhängigen Variablen) und der logistischen Regressionsanalyse (bei dichotomen abhängigen Vatriablen).

Lineare Regression

Bei einer linearen Regression wird der lineare Zusammenhang zwischen mindestens einer unabhängigen Variable und einer abhängigen Variable untersucht. Sie geht dabei von einem linearen Zusammenhang der Variablen aus. Mit der linearen Regressionsanalyse werden aus statistischer Sicht verschiedene Ziele verfolgt. Dabei liegt das übergeordnete Ziel darin, eine Schätzgleichung zu ermitteln, die eine möglichst genaue Beschreibung der durchschnittlichen linearen Abhängigkeit einer Variable (aV) von mindestens einer anderen Variable (uV) darstellt. Es geht also darum, die beobachtete Varianz bzw. Streuung einer abhängigen Variable durch andere (theoretisch relevante) Variablen zu erklären
Um das Prinzip, die Grundlagen, das generelle Vorgehen und die grundlegenden Begrifflichkeiten der linearen Regressionsanalyse zu verstehen, wird zunächst beispielhaft der bivariate Fall betrachtet, also eine unabhängige und eine abhängige Variable, um danach weitere unabhängige Variablen mit einzubeziehen.

Bivariate Regression

Wie in der kurzen Einführung im letzten Abschnitt bereits angedeutet, hängt es vom Skalenniveau der abhängigen Variable ab, welches Regressionsmodell eingesetzt werden kann. Die lineare Regression ist immer dann möglich, wenn die abhängige Variable zumindest intervallskaliert vorliegt, wie beispielsweise beim Einkommen in Euro. In der sozialwissenschaftlichen Praxis hat man es aber eher selten mit „echten“ metrischen Variablen zu tun. Allerdings erhebt die sozialwissenschaftliche Forschung Einstellungen und Zustimmungen häufig mit sogenannten Likert-Skalen bzw. sogenannten „endpunktbenannten Skalen“ (Porst 2014). Damit stehen Messinstrumente zur Erfassung von Merkmalen, die als quasi- oder pseudometrisch gelten können, zur Verfügung. Diese Skalen erheben – unter Vorbehalt – den Anspruch, dass sie sich als intervallskaliert behandeln lassen. Um diesen Anspruch zu erfüllen, sollten diese Skalen aber zum einen mindestens fünf Ausprägungen besitzen und zum anderen sollten die Abstände zwischen den Ausprägungen der Skala durch entsprechende Wertzuweisungen als gleich groß verstanden werden können.
Lineare Beziehungen zwischen zwei Variablen werden mathematisch durch eine Gerade dargestellt. So wie sich in der sozialen Wirklichkeit aber keine perfekten Korrelationen zwischen zwei sozialen Phänomenen finden lassen, wird sich in der sozialwissenschaftlichen Praxis eine Variable nie vollständig auf eine andere zurückführen lassen, so dass immer ein unerklärter Rest übrig bleibt. In der Regel gibt es in der Sozialforschung also keinen perfekten Zusammenhang zwischen zwei Variablen – zu viele „Störvariablen“ existieren außerhalb des Labors im „wirklichen“ Leben. Dennoch gehen wir davon aus, dass die einzelnen Ausprägungen unserer abhängigen Variable Y funktional von den jeweiligen Ausprägungen der unabhängigen Variablen X abhängen. Das heißt: y = f(x)
Da die generelle Gleichung einer Geraden f(x) = α + β * x lautet, wobei α den Schnittpunkt der Geraden mit der y-Achse und β die Steigung der Geraden darstellt, können wir folgende Gleichung für unsere Regressionsgerade aufstellen: y = α + β * x
Es wurde bereits angesprochen, dass verschiedene Störgrößen verhindern, dass alle Beobachtungen auf einer Regressionsgeraden liegen. Erstens sind dies systematische Fehler, die dadurch zustande kommen, dass bestimmte Variablen (noch) nicht im Regressionsmodell integriert sind. In unserem Beispiel könnte dies der Gesundheitszustand der befragten Personen sein, der – unabhängig von der finanziellen Situation – sicherlich einen Einfluss auf die Lebenszufriedenheit hat. Zweitens sind dies Beobachtungs- und Messfehler, die während der Datenerhebung auftreten können (z.B. Befragte machen falsche Angaben). Drittens gibt es unbekannte Störgrößen, die sich nicht näher spezifizieren lassen. Die Aufgabe der linearen Regressionsanalyse besteht nun darin, die Regressionsgerade mit Hinblick auf die Datenpunkte bestmöglich zu schätzen.
Trotz Störungen besteht nämlich die Möglichkeit, eine Regressionsgerade anzupassen, die die empirischen Beobachtungen so genau wie möglich erklärt. Die in Abbildung 17 eingezeichnete (vorweggenommene) lineare Regressionsgerade erklärt die Punktwolke in dieser Hinsicht und gibt dabei Auskunft über Richtung und Stärke des Einflusses von X (Einkommen) auf Y (Lebenszufriedenheit). Daraus ergibt sich für die zu schätzende Regressionsgerade folgende Gleichung:
ŷ = α + β * x Dabei ist:
ŷ: geschätzter Wert der abhängigen Variable y (das „Dach“ über y zeigt an, dass es sich um eine Schätzung handelt).
α: Schnitt mit der y-Achse (bei x = 0), auch Konstante oder englisch „intercept“ genannt.
β: mathematisch gesehen die Steigung der Regressionsgeraden zur Vorhersage von y. Im Kontext der Regressionsanalyse wird β als Regressionskoeffizient bezeichnet. Seine Ausprägung beantwortet die Frage nach der Stärke des Effekts von X auf Y. Das heißt, der Wert β bedeutet inhaltlich die durchschnittliche Veränderungsrate der y-Werte pro Zunahme einer Einheit von x-Werten.
X: Wert der unabhängigen Variable X für den der ŷ-Wert vorhergesagt wird
Die Residuen sind Störungen, also die Abweichungen der Datenpunkte von der Regressionsgeraden. Unter Berücksichtigung der Residuen lässt sich für die Regressionsfunktion dann folgende Gleichung aufstellen: y = α + β * x + e, wobei e = y – ŷ entspricht (der Buchstabe e leitet sich vom englischen Wort „error“ ab)
Die Regressionsfunktion setzt sich damit zusammen aus der geschätzten Regressionsgeraden und den Residuen e. Für das verwendete Beispiel heißt das, dass sich die beobachtete Lebenszufriedenheit durch die mit der Regressionsgeraden geschätzten Lebenszufriedenheit und einem Rest, der sich durch das Einkommen nicht erklären lässt, ergibt
Doch wie erhält man diese Regressionsgerade? Durch die bestehende Punktwolke könnten durchaus verschiedene Geraden gezogen werden. Um die Varianz aber bestmöglich zu erklären, wird diejenige Gerade gesucht, bei der der Abstand aller beobachteten Punkte zur Geraden minimal ist. Damit eine Gleichung die beobachteten Daten bestmöglich beschreibt, müssen also die Fehler bzw. Residuen minimiert werden
Dieser Abstand wird mathematisch durch Messung des vertikalen Abstands (bezeichnet als Residuen oder e) der beobachteten y-Werte von den vorhergesagten ŷ-Werten ermittelt. Um diesen Abstand von Vorzeichen unabhängig zu gestalten, wird er quadriert. Man nennt dieses Vorgehen auch Ordinary Least Square- oder OLS-Verfahren, im Deutschen mitunter auch Kleinste-Quadrat-Schätzung (KQ-Schätzung) oder „Methode der kleinsten Quadrate“. Die „beste“ Regressionsgerade erhält man also mit einem mathematischen Verfahren, das eine Konstante α und eine Steigung β schätzt sowie dabei die lineare Beziehung zwischen X und Y abbildet, indem die Quadrate der Residuen minimiert werden.
ni=1 ei²= n i=1 (yi − yi)² =n i=1 (yi − α + β ∗ xi)² = Minimum
Diese Gleichung lässt sich nun nach α und β ableiten, sodass die Konstante sowie die Steigung der Regressionsgeraden berechnet werden können. In der Praxis übernimmt diese Aufgabe das Statistikprogramm
Wie bereits besprochen, gibt der Regressionskoeffizient β Auskunft über Stärke und Richtung des Einflusses. Sein Vorzeichen bestimmt, ob es sich um einen positiven oder negativen Zusammenhang handelt. Bezüglich der Stärke des Effekts ist festzuhalten, dass mit Zunahme der Variablen x (uV) um eine Einheit die Variable y (aV) um den Wert des Koeffizienten ansteigt. Dieser als „unstandardisiert“ bezeichnete Regressionskoeffizient berücksichtigt die Maßeinheiten der Variablen und hat den Vorteil, dass der Effekt leicht interpretierbar ist. In der Regel interessiert bei der Interpretation einer Regressionsanalyse vor allem der Regressionskoeffizient β, da er Informationen über die Stärke eines Einflusses gibt. Die Konstante stellt den Schnittpunkt der Regressionsgeraden mit der y-Achse dar und zeigt den Wert an, den die abhängige Variable annimmt, wenn die unabhängige Variable gleich 0 ist.
Mit Hilfe der Methode der kleinsten Quadrate können also die Regressionsgerade, die den kleinsten Abstand zu den quadrierten Fehlern aufweist, sowie der entsprechende Regressionskoeffizient ermittelt werden. Wie gut erklärt nun aber die Regressionsgerade unsere beobachteten Datenpunkte insgesamt? Dies kann mit dem sogenannten „Bestimmtheitsmaß“ bzw. Determinationskoeffizienten R2 geprüft werden. Dieses Maß gibt an, wie groß der Anteil der durch die Regressionsgerade erklärten Varianz der beobachteten Datenpunkte. ist.
Mit dem Determinationskoeffizienten R2 kann also regressionsanalytisch ein Parameter berechnet werden, der uns etwas über die Güte des Gesamtmodells verrät. Bei seiner Berechnung wird die Gesamtvarianz sy 2 der abhängigen Variable y in zwei Teile zerlegt: erstens in die durch die Regressionsfunktion erklärte Varianz sŷ 2 und zweitens in die dadurch nicht erklärte „Restvarianz“. Daraus ergibt sich folgende Formel zur Berechnung: R2= Varianz der vorhergesagten Werte/ Varianz der beobachteten Werte
—>Das heißt:
R2 = ni=1 (yi − y quer)²/ n i=1 (yi − y quer)²
Mit dem R2 lässt sich dann bestimmen, wie viel Varianz durch das aufgestellte Regressionsmodell „erklärt“ werden kann, weshalb man auch von erklärter Varianz spricht. R2 gehört damit zu den sogenannten PRE-Maßen (Proportional Reduction of Error), die Auskunft über die prozentuale Verringerung der Fehler durch ein Vorhersagemodell von y geben
R2 wird auch als „Prozentsatz der erklärten Varianz“ bezeichnet und lässt sich dadurch als ein Maß für die Güte der Anpassung der Regressionsfunktion an die beobachteten Daten verstehen. R2 kann Werte zwischen 0 und 1 annehmen. Multipliziert man es mit 100, lässt sich die erklärte Varianz als Prozentwert ausdrücken. Ein Wert von 1 bedeutet folglich, dass 100 Prozent der Varianz aufgeklärt werden können. Damit würden im bivariaten Modell alle beobachteten Datenpunkte auf der prognostizierten Regressionsgerade liegen. Der Wert 0 sagt dagegen aus, dass die untersuchte unabhängige Variable nichts zur Erklärung der abhängigen Variable beiträgt. Je näher R2 an 1 ist, desto besser erklärt das spezifizierte Modell die Streuung.
Rechnet man für unser Beispiel das Bestimmtheitsmaß aus, ergibt sich ein R2 von 0,69, das heißt, 69 Prozent der Varianz unseres fiktiven Beispiels können durch die unabhängige Variable Einkommen erklärt werden. In der sozialwissenschaftlichen Praxis ist ein solch hohes R2 selten, denn wie gesagt: Die soziale Wirklichkeit befindet sich jenseits von Laborbedingungen und damit sind die Modelle für Störungen anfällig. Ein niedriges R² kann auf einer fehlenden Integration wichtiger erklärender Merkmale beruhen, es kann aber auch einer fehlerhaften Operationalisierung von Variablen geschuldet sein (siehe zur Diskussion weiterer Fehlerquellen Urban und Mayerl 2018). Sicherlich liegt ein Ziel sozialwissenschaftlicher Regressionsanalysen darin, die abhängige Variable möglichst gut erklären zu können. Allerdings sollte man davon absehen, das Bestimmtheitsmaß allein als Gütekriterium für eine durchgeführte Regressionsanalyse zu betrachten

Multiple Regression

Die multiple Regressionsanalyse ermöglicht es mit dem Einschluss mehrerer erklärender Variablen erstens, ein theoretisch basiertes und empirisch bestmögliches Modell zur Erklärung bzw. Vorhersage von y zu schätzen. Zweitens lässt sich die Stärke des Einflusses einzelner erklärender Variablen auf die abhängige Variable unabhängig voneinander untersuchen. Indem wir alle theoretisch interessierenden Variablen in die Regressionsanalyse aufnehmen, erhalten wir die Möglichkeit, gewissermaßen den „Netto-Effekt“ einer unabhängigen Variable auf das zu erklärende Phänomen zu ermitteln. Wir halten die „konkurrierenden“ erklärenden Variablen in der Regressionsanalyse konstant, um die Auswirkung der Änderung einer Variable zu untersuchen. Dies nennt man auch für diese Variablen „kontrollieren“. Prinzipiell gilt, dass das im bivariaten Beispiel kennengelernte Grundmodell erhalten bleibt, jetzt allerdings die Regressionsgeraden um die zusätzlichen unabhängigen Variablen erweitert werden müssen. Eine solche multiple Regressionsgleichung sieht formal folgendermaßen aus:
y = α + β1 ∗ x1 + β2 ∗ x2 + … + βk ∗ xk + e
Wir gehen zwar davon aus, dass die abhängige Variable durch den Einschluss weiterer theoretisch relevanter Variablen besser erklärt werden kann als durch einen einzelnen Prädiktor. Jedoch kann nicht erwartet werden, dass diese Faktoren das Phänomen vollständig erklären. Auch hier gibt es einen nicht erklärten Rest, der in der Regressionsgleichung durch die Residuen (e) ausgedrückt wird. Im multiplen Fall versuchen jetzt also mehrere Prädiktoren die Kriteriumsvariable zu erklären und schätzen gemeinsam das multiple Regressionsmodell. Damit wird auch die zweidimensionale Betrachtungsweise verlassen, da wir nicht mehr eine Regressionsgerade erhalten, sondern so viele Regressionskoeffizienten wie unabhängige Variablen in die Regressionsgleichung eingehen. Diese k-Variablen spannen einen mehrdimensionalen Raum auf und erstellen eine Regressions-(hyper)- Ebene:
yi = α + β1 ∗ x1 + β2 ∗ x2 + … + βk ∗ xk
Drei Ziele lassen sich für die in der Sozialforschung praktizierte Durchführung multipler Regressionsanalysen formulieren:
1. die abhängige Variable (aV) mit den einbezogenen theoretisch relevanten Variablen (uVs) bestmöglich zu erklären
2. die Richtung und Stärke einzelner Einflussfaktoren zu ermitteln
3. herauszufinden, ob das anhand von Stichprobendaten vorhergesagte Regressionsmodell sowie die Einflüsse der einzelnen Prädiktoren auch auf die Grundgesamtheit übertragen werden kann, also statistisch signifikant ist.
Allerdings wird deutlich, dass wir es nicht bei allen erklärenden Variablen mit metrisch skalierten Variablen zu tun haben. Das lineare Regressionsmodell setzt allerdings implizit voraus, dass nicht nur die abhängige, sondern auch die erklärenden Variablen metrisches Messniveau aufweisen, damit der lineare Zusammenhang abgebildet werden kann. Damit auch ordinal- oder nominalskalierte erklärende Variablen ohne Informationsverlust in ein Regressionsmodell integriert werden können, müssen sie entsprechend umgeformt werden. Hier kommt die sogenannte „Dummy-Kodierung“ zum Einsatz, bei der die kategorialen Variablen in verschiedene dichotome Variablen mit den Ausprägungen 0 („Merkmal liegt nicht vor“) und 1 („Merkmal liegt vor“) transformiert werden. Diese neu konstruierten dichotomen Variablen nennt man Dummy-Variablen (oder Design- bzw. Indikatorvariablen). Das heißt, dass man die betreffenden nicht metrisch vorliegenden Variablen so transformiert, dass sie ohne Informationsverlust in der Regressionsanalyse mitberücksichtigt werden können. Bei insgesamt k Ausprägungen einer kategorialen Variable sind im Prinzip k Dummies denkbar
Die nicht dichotomisierte k-te Ausprägung (in unserem Beispiel „ledig“) erkennt man daran, dass sie auf allen anderen Dummies den Wert 0 aufweist. Dadurch wird sie zur sogenannten „Referenzkategorie“ im linearen Regressionsmodell, was bedeutet, dass die Regressionskoeffizienten der anderen Merkmale in Bezug auf dieses Merkmal interpretiert werden.
Da die Formel für das Bestimmtheitsmaß R2 abhängig ist von der Anzahl der im Modell aufgenommenen Prädiktoren (je mehr Variablen in einem Regressionsmodell berücksichtigt werden, desto größer ist das R²), wird bei multivariaten Regressionsanalysen meist das sogenannte korrigierte R2 berichtet, um eine verlässliche Aussage über die globale Güte des Modells machen zu können. Da bei der Berechnung des korrigierten R² die Anzahl der unabhängigen Variablen berücksichtigt wird, fällt es immer etwas niedriger aus als das unkorrigierte R²
Standardisierte Koeffizienten: Die Hypothesen können also auf Basis der unstandardisierten Koeffizienten mit der sozialen Wirklichkeit unserer Stichprobe abgeglichen werden. Will man allerdings zusätzlich die Einflussstärke verschiedener Variablen miteinander vergleichen, stößt man mit unstandardisierten Regressionskoeffizienten auf Schwierigkeiten, da diese ja mit Hinblick auf die ihnen zugrundeliegenden Maßeinheiten interpretiert werden müssen (z. B. Euro oder Skalenpunkte). Um Effektstärken der unterschiedlichen unabhängigen Variablen im multiplen Regressionsmodell dennoch miteinander vergleichen zu können, wird in der Forschungspraxis häufig zu sogenannten „standardisierten“ Koeffizienten gegriffen. Diese werden von Statistikprogrammen automatisch mit ausgegeben, doch wie kommen sie zustande?
- Sie lassen sich auf zwei verschiedene Arten berechnen. Zum einen, indem die unabhängigen Variablen vor Berechnung der Regressionsgleichung z-transformiert, also standardisiert, werden. Dabei werden sie so umgeformt, dass sie ein arithmetisches Mittel von 0 und eine Standardabweichung von 1 aufweisen. Wie alle z-transformierte oder standardisierte Variablen reichen die Werte der standardisierten Regressionskoeffizienten von −1 bis +1. Damit ermöglichen sie auch eine Vereinheitlichung der Regressionskoeffizienten.
- Standardisierte Koeffizienten erhält man zum anderen, wenn jeder der unstandardisierten Regressionskoeffizienten mit seiner Standardabweichung multipliziert und durch die Standardabweichung der abhängigen Variable geteilt wird. Damit sind nun alle Koeffizienten vereinheitlicht, wenn auch ihre Interpretation nun nicht mehr so anschaulich und leicht nachvollziehbar erfolgen kann, sondern Bezug auf die Standardisierung nehmen muss
- Ein standardisierter Regressionskoeffizient gibt nun Auskunft darüber, um wie viele Standardabweichungen sich die abhängige Variable verändert, wenn das unabhängige Merkmal um eine Standardabweichung ansteigt. Tabelle 49 zeigt in der zweiten Spalte die standardisierten Regressionskoeffizienten, auch Beta genannt. Für den Gesundheitszustand lautet die Interpretation: Verbessert sich der wahrgenommene Gesundheitszustand einer Person um eine Standardabweichung auf der Fünf-Punkt-Skala, dann steigt die Lebenszufriedenheit dieser Person um 0,38 Standardabweichungen. Die standardisierten Regressionskoeffizienten ermöglichen uns nun auch, die Einflüsse der vier untersuchten erklärenden Merkmale miteinander zu vergleichen. Es zeigt sich, dass der Gesundheitszustand den stärksten Effekt auf die Lebenszufriedenheit ausübt, gefolgt vom Familienstand „verheiratet“ (im Vergleich zu „ledig“).
- Die Verwendung standardisierter Koeffizienten ist aus statistischer Sicht nicht ganz unproblematisch. Beachtet werden sollte bei der Verwendung der standardisierten Koeffizienten, dass sie nur innerhalb einer Stichprobe miteinander verglichen werden können. Würden wir eine ähnliche Regressionsanalyse auf Basis der Daten des European Social Surveys durchführen, sollten wir nicht unhinterfragt die standardisierten Regressionskoeffizienten der beiden Regressionsmodelle miteinander vergleichen.
Statistische Signifikanz: Wie ausgeführt, können die aufgestellten Hypothesen für die ALLBUS-Stichprobendaten bestätigt werden. Aber lassen sich die Ergebnisse auch auf die Grundgesamtheit übertragen? Da der ALLBUS eine Zufallsstichprobe der deutschen Wohnbevölkerung darstellt, könnten bei Vorliegen statistischer Signifikanz auch Aussagen über die gesamte deutsche Wohnbevölkerung getroffen werden. Sind also die Ergebnisse der Regressionsanalyse statistisch signifikant oder womöglich nur zufällig in unserer Stichprobe vorhanden?
- Mittels inferenzstatistischer Verfahren kann bei einer Regressionsanalyse die statistische Signifikanz des Gesamtmodells sowie der einzelnen Regressionskoeffizienten geprüft werden. Die letzten drei Spalten von Tabelle 49 geben Parameter an, die sich mit der statistischen Signifikanz der Einflussfaktoren beschäftigen.
- Mit ihrer Hilfe können wir Aussagen darüber machen, ob das Gesamtmodell sowie die Effekte der unabhängigen Variablen auch auf die Grundgesamtheit übertragen werden können. Das heißt, dass bei Vorliegen statistischer Signifikanz die Passgenauigkeit des Regressionsmodells insgesamt sowie die Effektstärken der einzelnen unabhängigen Merkmale als Schätzer der „wahren“ (in der Grundgesamtheit vorliegenden) Zusammenhänge verstanden werden – selbstverständlich mit einer gewissen statistischen Irrtumswahrscheinlichkeit versehen. Hierzu werden zwei verschiedene Hypothesentests durchgeführt: das Gesamtmodell wird mit Hilfe der F-Statistik geprüft und t-Tests überprüfen, inwieweit die einzelnen Regressionskoeffizienten von 0 verschieden sind.
Bei der Berechnung der Prüfgröße F werden wie bei der Berechnung des Determinationskoeffizienten R² die erklärte und die nicht-erklärte Streuung des Modells sowie der Stichprobenumfang und die Anzahl der Einflussfaktoren berücksichtigt. Der F-Test prüft, inwieweit die ins Regressionsmodell aufgenommenen unabhängigen Variablen zusammengenommen einen statistisch signifikanten Beitrag zur Erklärung der abhängigen Variable leisten. Die Ergebnisse des F-Tests werden in sozialwissenschaftlichen Artikeln, in denen Regressionsanalysen angewandt werden, meist nicht berichtet. Allerdings sollte – wenn keine statistische Signifikanz vorliegt – überlegt werden, inwieweit das Regressionsmodell möglicherweise falsch spezifiziert ist: inwieweit üben die einbezogenen unabhängigen Variablen einen linearen Effekt auf die abhängige Variable aus oder wurde womöglich eine theoretisch relevante Variable vergessen? Hier müssen dann zunächst die theoretischen Annahmen überprüft werden. Empirisch kann bivariat geprüft werden, ob die entsprechenden unabhängigen Variablen tatsächlich mit der abhängigen Variablen in einem linearen Zusammenhang stehen.
Auch die einzelnen Regressionskoeffizienten können auf ihre statistische Signifikanz getestet werden. Da die theoretisch abgeleiteten Hypothesen den Einfluss eines bestimmten Merkmals vermuten, ist dies für die Interpretation der Ergebnisse meist relevanter als die Prüfung des Gesamtmodells. Hier wird nun zunächst der Standardfehler des (unstandardisierten) Regressionskoeffizienten inferenzstatistisch ermittelt und auf seiner Basis dann der sogenannte t-Wert berechnet. Mit Hilfe des Standardfehlers von β lässt sich ein Konfidenzintervall oder „Vertrauensbereich“ ermitteln, also ein Bereich, von dem wir auf Basis von inferenzstatistischen Annahmen davon ausgehen können, dass in 95 Prozent aller Schätzungen der „wahre“ Regressionskoeffizient nicht weiter als ± 1,96 Standardfehler entfernt zu finden ist. Um dieses Konfidenzintervall zu berechnen, wird die Student-t-Verteilung (anstelle der Standardnormalverteilung) genutzt.
- —>Der berichtete t-Wert lässt also Rückschlüsse darauf zu, dass der berechnete Regressionskoeffizient tatsächlich auch auf die Grundgesamt übertragen werden kann. Mit Hilfe der t-Tabelle kann dann auch der p-Wert (letzte Spalte in Tabelle 49) angegeben werden. Am p-Wert für den zweiseitigen t-Test lässt sich ablesen, wie hoch die Irrtumswahrscheinlichkeit bei einer Übertragung von der Stichprobe auf die Grundgesamtheit ist.
- Statistikprogramme berechnen bei regressionsanalytischen Verfahren automatisch die Standardfehler für die Konstante und die einzelnen (unstandardisierten) Regressionskoeffizienten. Der Standardfehler (engl. standard error) wird auch mit S. E. abgekürzt. Auf Basis der Werte des unstandardisierten Regressionskoeffizienten und des Standardfehlers können die t-Werte für die Regressionskoeffizienten berechnet und auf deren Basis dann entschieden werden, ob der Befund einer Stichprobe (mit einer gewissen Irrtumswahrscheinlichkeit) auf die Grundgesamtheit übertragen werden darf. Der t-Wert berechnet sich dabei wie folgt: t= unstandardisierter Regressionskoeffizient/ Standardfehler des Regressionskoeffizienten.
- In den Sozialwissenschaften werden meist drei Signifikanzniveaus unterschieden (siehe ausführlich Abschnitt 5.4): p-Wert kleiner als 0,05 (Irrtumswahrscheinlichkeit liegt bei 5 Prozent, abgekürzt mit einem Sternchen *), p-Wert kleiner als 0,01 (Irrtumswahrscheinlichkeit liegt bei 1 Prozent, abgekürzt mit zwei Sternchen **) und p-Wert kleiner als 0,001 (Irrtumswahrscheinlichkeit liegt bei 0,1 Prozent, abgekürzt mit drei Sternchen ***). Auf Grundlage dieser Konvention spricht man dann bei Vorliegen der entsprechenden p-Werte von statistischer Signifikanz; Damit können die beobachteten Zusammenhänge und Einflüsse von der Stichprobe auf die Grundgesamtheit übertragen werden. Befindet sich der Betrag des empirisch ermittelten t-Werts für den betreffenden Parameter über dem für das gewählte Signifikanzniveau kritischen t-Wert (bei p < 0,05 liegt dieser bei ± 1,96), so sprechen wir von einem statistisch signifikanten Koeffizienten.
Voraussetzungen für Regression:
1. Möchte man eine lineare Regressionsbeziehung analysieren, sollte zwischen den einzelnen unabhängigen Variablen und der abhängigen Variable tatsächlich ein linearer Zusammenhang bestehen. Dies lässt sich am besten mit Streudiagrammen wie in Abbildung 16 kontrollieren. Sollte die Linearitätsannahme verletzt sein, gibt es verschiedene Möglichkeiten, damit umzugehen.
2. Damit die vorhergesagten Regressionsparameter auch auf die Grundgesamtheit übertragen werden können, muss es sich bei der Stichprobe um eine Zufallsstichprobe handeln.
3. Multikollinearität sollte vermieden werden. Multikollinearität bedeutet, dass einige der erklärenden Variablen untereinander sehr hoch korrelieren. Ist dies der Fall, wird eine unverzerrte Schätzung der Regressionsparameter beeinträchtigt. Zwar lassen sich Korrelationen zwischen unabhängigen Variablen nicht vollkommen vermeiden, diese sollten aber vorab getestet werden. Bei Korrelationen von r > 0,9 sollte eine der Variablen ausgeschlossen werden.
4. Die Residuen sollten zufällig auftreten und sich gegenseitig „ausgleichen“, also den Erwartungswert 0 haben. Sie sollten nicht miteinander und auch nicht mit der abhängigen Variablen Y korreliert sein.
5. Es sollte Homoskedastizität vorliegen, das heißt, die Varianz der Residuen sollte konstant sein. Ist diese Annahme verletzt, spricht man von Heteroskedastizität. Heteroskedastizität kann dazu führen, dass der Standardfehler der Regressionskoeffizienten nicht mehr korrekt berechnet werden kann und dadurch auch inferenzstatistische Aussagen zur Signifikanz erschwert werden.
6. Schließlich sollte auf eine korrekte Spezifikation des Modells geachtet werden, das heißt, alle theoretisch relevanten Faktoren sollten im Modell enthalten sein.

Logistische Regression

Mit Hilfe der logistischen Regressionsanalyse wird ein Modell aufgestellt, das auf Grundlage der Ausprägung(en) einer oder mehrerer unabhängiger Variablen die Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses vorhersagt. Da es bei einer binären abhängigen Variable nur zwei Möglichkeiten gibt, entweder tritt das Ereignis ein oder nicht (also beispielsweise jemand beteiligt sich an Wahlen oder nicht), liegt die Wahrscheinlichkeit für den Eintritt eines Ereignisses immer zwischen 0 und 1. Wie im linearen Fall, geht man auch im logistischen Regressionsmodell davon aus, dass eine Veränderung in den unabhängigen Variablen eine Veränderung der abhängigen Variable mit sich bringt. Diese Veränderung muss nun jedoch nicht mehr linear sein. Vielmehr werden die Wahrscheinlichkeiten dafür geschätzt, ob also zum Beispiel jemand zur Wahl geht oder nicht.
Auch bei der logistischen Regressionsanalyse kann eine Regressionsgleichung aufgestellt werden, um etwas über die Richtung und Stärke der Beziehungen der unabhängigen Variablen zur abhängigen Variable aussagen zu können. Da es sich bei der logistischen Regressionsanalyse um eine Form des „verallgemeinerten linearen Modells“ (generalized linear model) handelt, ähnelt die Gleichung – wie noch deutlich werden wird – einer linearen Gleichung. Bei solchen Modellen werden die Werte der abhängigen Variable nicht direkt durch eine lineare Gleichung geschätzt, sondern indirekt über eine Verknüpfungs- oder Linkfunktion zwischen Schätzparameter und linearer Gleichung ermittelt
Die logistische Regressionsanalyse macht damit – wie im linearen Fall – eine Vorhersage für Y, wenn X bestimmte Werte annimmt. Allerdings wird bei der logistischen Regression nicht auf das Verfahren der Kleinsten Quadrate (Ordinary-Least-Squares OLS) zurückgegriffen, sondern auf das Maximum-Likelihood-Verfahren (Gautschi 2010). Dabei handelt es sich um ein iteratives Vorgehen, mit Hilfe dessen diejenige Kombination von Regressionskoeffizienten gesucht wird, mit der sich die empirischen Werte der abhängigen Variable möglichst gut reproduzieren lassen.

Bivariate Regression

Stellt man sich eine lineare Regressionsgerade vor, wird deutlich, dass die Daten durch diese nicht optimal repräsentiert werden können. Die Gerade würde auch Werte unter 0 bzw. über 1 beinhalten, die aber nicht sinnvoll interpretiert werden können. Schließlich kann niemand mit einer negativen bzw. mehr als hundertprozentigen Wahrscheinlichkeit zur Wahlurne gehen. Anstelle einer Regressionsgeraden wird deshalb eine logistische Funktion genutzt, die sich den Beobachtungspunkten anpasst und nur Werte zwischen 0 und 1 annehmen kann. Damit wird auch argumentiert, dass sich die Wahrscheinlichkeiten in den Extrembereichen 0 und 1 nicht linear sind, sondern sich allmählich annähern. Zur Schätzung der Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses werden also nichtlineare – in unserem Fall logistische Funktionen – genutzt.
Wie wird nun die Regressionskurve geschätzt? Hierbei wird nicht das OLS-Verfahren eingesetzt, das wir im linearen Regressionsmodell kennengelernt haben und welches mit einer Reihe von Voraussetzungen verbunden ist (z. B. Homoskedastizität). Stattdessen wird das sogenannte Maximum-Likelihood-Schätzverfahren genutzt, um die zu den Daten bestmöglich passende Regressionskurve zu finden. Dabei handelt es sich um ein iteratives Vorgehen, bei dem schrittweise verschiedene Werte für die Parameter „ausprobiert“ werden, bis die bestmögliche Lösung gefunden ist. Das iterative Vorgehen bei der Maximum-Likelihood-Schätzung wird durch die Verwendung der logarithmierten Likelihood-Funktion (LL) erleichtert. In der Forschungspraxis übernimmt das Statistikprogramm die iterative Schätzung der Regressionskoeffizienten.
Wie aus Abbildung 19 ersichtlich, hat die allgemeine logistische Regressionsfunktion typischerweise einen s-förmigen Verlauf. Die Abbildung zeigt, dass die nichtlineare Regressionsfunktion immer innerhalb der Grenzen von 0 und 1 verläuft. Weiterhin ist sie symmetrisch um den Wendepunkt P(y = 1) = 0,5 und nähert sich zwar asymptotisch den Werten 0 und 1 an, überschreitet diese Grenzen aber nicht. Zudem erlaubt dieser nichtlineare Verlauf häufig eine bessere Anpassung an die Daten, da eine Veränderung der unabhängigen Variable um eine Einheit (z.B. ein Anstieg des Alters um ein Jahr) nicht an allen Stellen der Funktion die gleiche Wirkung auf die abhängige Variable hat (z.B. Wähler oder Nichtwählerin). Im Bereich sehr kleiner und sehr großer x-Werte (also bei sehr jungen bzw. sehr alten Befragten) sind die Veränderungen nur sehr gering; starke Effekte der unabhängigen Variable auf die abhängige Variable finden sich im mittleren Bereich der unabhängigen Variable.
Die allgemeine Logit-Funktion für den bivariaten Fall lässt sich mathematisch wie folgt darstellen:
P(y = 1) = e hoch α + βx /1+ e hoch α + βx = eLogit/ 1+eLogit
In der Gleichung ist neben der Euler‘schen Zahl (e≈2,718) mit Logit die Regressionsgleichung gemeint.
—>Die Regressionsgleichung lautet: Logit (Li) = α + β ∗ x
In ihrer Struktur ähnelt die logistische Regressionsgleichung bzw. Logit-Funktion der linearen Regressionsgleichung. Mit α wird wieder der Achsenabschnitt bezeichnet, mit ß der Steigungskoeffizient.
Der s-förmige Verlauf ist nötig, um – wie oben dargestellt – prognostizierte Wahrscheinlichkeiten kleiner als 0 bzw. größer als 1 zu vermeiden. Diese Transformation der linearen Regressionsgleichung in eine Logit-Funktion bedeutet aber auch, dass die Schätzwerte für die Parameter auf andere Weise interpretiert werden müssen. Dabei ist angesichts der Kurve leicht ersichtlich, dass die Interpretation der Steigungskoeffizienten nicht für alle Werte der unabhängigen Variablen gleich ausfallen kann, wie dies im linearen Modell der Fall ist.
Wie wird nun die logistische Regressionskurve interpretiert? Die Regressionsgleichung oben zeigt an, dass auch im logistischen Modell als Parameter wieder der Schnittpunkt mit der y-Achse sowie ein (bzw. im multiplen Fall mehrere) Regressionskoeffizient(en) Auskunft über die Steigung der Kurve geben und im Modell geschätzt werden. Für unser bivariates Modell ergibt sich ein Schnittpunkt mit der y-Achse von −6,40 (d.h. für jemanden mit 0 Jahren beträgt die logarithmierte Chance, zur Wahl zu gehen, −6,40). Der Steigungskoeffizient von 0,17 bedeutet, dass mit jedem Jahr, das eine Person älter wird, die logarithmierte Chance, dass sie zur Wahl geht, um 0,17 steigt. Die Interpretation mittels logarithmierter Chancen ist nicht sehr intuitiv, wie wir auch im multiplen Fall noch sehen werden. Wichtig ist aber zur Überprüfung der Hypothese 1, dass der Steigungskoeffizient ein positives Vorzeichen hat. Die Hypothese kann bestätigt werden.

Multiple Regression

Für eine binäre logistische Regressionsanalyse mit mehr als einer unabhängigen Variable können wir obige Gleichung für die multiple Logit-Funktion erweitern:
Logit (Li) = α + β1 ∗ x1 + β2 ∗ x2+. . . + βk ∗ xk
Die Logit-Koeffizienten (Steigungsparameter β) geben uns die logarithmierte Chance an, dass das Ereignis „Wahlbeteiligung“ eintritt. Dabei beschreibt die Konstante der logistischen Regression – wie bei der linearen Regression – Fälle, die bei allen unabhängigen Variablen den Wert 0 aufweisen (bzw. bei Dummy-Variablen die Referenzkategorie bezeichnen). Wie auch im linearen Fall schon angesprochen, handelt es sich hier in erster Linie um einen technischen Wert, den wir nicht überinterpretieren sollten.
In unserem Beispiel beschreibt die Konstante auf Basis der Kodierungen der unabhängigen Variablen Männer im Alter von 0 Jahren mit mittlerer Bildung, keinem politischen Interesse und keiner Parteiidentifikation. Bei dieser Merkmalskonstellation liegt die vorhergesagte logarithmierte Chance, zur Wahl zu gehen, bei −0,544. Für die Prüfung der Hypothesen sind auch im logistischen Fall die (inhaltlichen) Regressionskoeffizienten wichtiger. Die Konstante lässt sich allerdings – wie noch gezeigt wird – nutzen, um bestimmte Merkmalskombinationen zu berechnen.
Der Steigungskoeffizient β gibt Hinweise auf die Lage der Logit-Funktion: Wie flach bzw. wie steil ist die Kurve für die jeweilige unabhängige Variable? Wie beim linearen Fall interpretieren wir die Regressionskoeffizienten für die unabhängigen Variablen im Hinblick auf eine Veränderung der abhängigen Variable, wenn die jeweils betrachtete unabhängige Variable um eine Einheit steigt. Allerdings sind die geschätzten Werte bei der logistischen Regression die logarithmierten Chancen für das Eintreten des Ereignisses (im Beispiel: zur Wahl gehen). Mit Blick auf die Analyse auf Basis der GLES-Daten von 2017 lässt sich als Ergebnis festhalten: Pro Lebensjahr steigt die logarithmierte Wahrscheinlichkeit, einen Wahlzettel abzugeben, um 0,021. Für Personen mit hoher Bildung steigt die logarithmierte Chance, an der Bundestagswahl teilzunehmen, im Vergleich zu einer mittleren Bildung um 0,741.
Diese Beispiele zeigen, dass die Interpretation der logarithmierten Chancen nicht sehr intuitiv ist. Deshalb werden bei einer logistischen Regression häufig nur die Vorzeichen der Regressionskoeffizienten interpretiert. Ein positives Vorzeichen bedeutet, dass die logarithmierte Chance (oder auch Wahrscheinlichkeit), zur Wahl zu gehen, steigt. Ein negatives Vorzeichen bedeutet eine sinkende (logarithmierte) Wahrscheinlichkeit für die Stimmabgabe bei der Wahl. Die Betragshöhe des Regressionskoeffizienten gibt einen Hinweis auf die Effektstärke, allerdings können (ohne mathematische Umrechnungen) keine Aussagen über das genaue Ausmaß der Veränderung der Wahrscheinlichkeit gemacht werden.
Odds-Rations und Exp (B): Eine alternative Möglichkeit der Interpretation bieten die Koeffizienten in der Spalte „Exp(B)“. Diese Koeffizienten werden als Effektkoeffizienten bezeichnet. Bei Odds-Ratios handelt es sich um Chancenverhältnisse. Ein Exp(B)-Koeffizient von 2,098 heißt aber nicht, dass hochgebildete Personen eine 2,1-mal höhere Wahrscheinlichkeit aufweisen, wählen zu gehen, sondern, dass das Vorliegen eines hohen Bildungsniveaus die Chance des Eintretens des Ereignisses y = 1 (Wahl) im Verhältnis zum Nichteintreten y = 0 (Nicht-Wahl) um den Faktor 2,098 erhöht. Es handelt sich also um ein Chancenverhältnis, das die vorhergesagte Veränderung in der abhängigen Variable angibt, wenn sich die unabhängige Variable um eine Einheit ändert.
Ein Exp(B)-Koeffizient von 2,019 bedeutet, dass sich das Chancenverhältnis von Wähler zu Nichtwähler um den Faktor 2 zugunsten des Wahlgangs verändert, wenn eine Person ein um einen Skalenpunkt höheres politisches Interesse aufweist. Dagegen sinkt das Chancenverhältnis für den Wahlgang um 0,495, wenn Befragte über keinen oder nur über einen Hauptschulabschluss (anstelle der Mittleren Reife) verfügen. Der Wertebereich der Exp(B)-Koeffizienten unterscheidet sich vom Wertebereich der Logit-Regressionskoeffizienten. Während der Wertebereich der oben besprochenen Logit-Regressionskoeffizienten zwischen −∞ und +∞ liegt, liegt der Wertebereich der Exp(B)-Koeffizienten zwischen 0 und +∞. Ein Exp(B)-Koeffizient kleiner als 1 deutet auf eine geringere Chance und ein Exp(B)- Koeffizient größer als 1 auf eine höhere Chance hin. Bei einem Exp(B)-Koeffizient von 1 bleibt die Chance gleich.
Mit den Effektkoeffizienten bzw. Odds-Ratios ändert sich selbstverständlich nur die Art der Interpretation – die substanziellen Ergebnisse bleiben gleich. Ein positiver Logit-Regressionskoeffizient wird einen Odds-Ratio größer als 1 haben, ein negativer Logit-Regressionskoeffizient wird einen Odds-Ratio kleiner als 1 haben (aber niemals kleiner als 0). Die Kenntnis der unterschiedlichen Wertebereiche ist wichtig, da in Veröffentlichungen entweder die Logit-Regressionskoeffizienten oder die Exp(B)-Koeffizienten ausgewiesen werden. Bei den Logit-Regressionskoeffizienten deuten negative Werte auf eine geringere Chance hin, bei den Exp(B)-Koeffizienten hingegen Werte zwischen 0 und 1. Bei den Logit-Regressionskoeffizienten deuten positive Werte auf eine höhere Chance hin, bei den Exp(B)-Koeffizienten sind das Werte größer als 1. Die absoluten Beträge der Regressionskoeffizienten bzw. der Effektkoeffizienten sollten allerdings nicht interpretiert werden.
Wahrscheinlichkeiten berechnen: Für ausgewählte Kombinationen können aber die Wahrscheinlichkeiten berechnet werden. Dafür wird das Logit der Regressionsgleichung berechnet und in die Formel eingetragen13: P (y = 1) = eLogit 1+eLogit Für eine 40-jährige Person mit Parteiidentifikation und hoher Bildung in unserem Beispiel wird das Logit wie folgt berechnet: −0,544 (Konstante) + 0,617 (Parteiidentifikation) + (40*0,021) (Alterseffekt) + (0,741) (Bildungseffekt). Das Logit von 1,654 wird in die Formel eingetragen und damit die Wahrscheinlichkeit berechnet: P (y = 1) = e1,654 1+e1,654 = 5,228 1+ 5,228 = 0,84
Das heißt, die Wahrscheinlichkeit, dass eine 40-jährige Person mit hoher Bildung und Parteiidentifikation zur Wahl geht, liegt bei etwa 84 Prozent.
Statistische Signifikanz: Wie Tabelle 52 auch zeigt, können wir bei der logistischen Regression ebenfalls wieder Aussagen darüber treffen, ob wir auf Basis der Stichprobe auch auf die Grundgesamtheit schließen können. Die letzte Spalte berichtet die sogenannten p-Werte. Ein p-Wert gibt die Wahrscheinlichkeit für ein Ergebnis unter der Bedingung an, dass die Nullhypothese zutrifft. In den Sozialwissenschaften wird bei einem p-Wert kleiner als 0,05 die Nullhypothese vorläufig verworfen und die Alternativhypothese angenommen.
- Dabei werden in den Sozialwissenschaften meist drei Signifikanzniveaus unterschieden (siehe auch den Abschnitt zur linearen Regression): p-Wert kleiner als 0,05 (Irrtumswahrscheinlichkeit liegt bei 5 Prozent, abgekürzt mit einem Sternchen *), p-Wert kleiner als 0,01 (Irrtumswahrscheinlichkeit liegt bei 1 Prozent, abgekürzt mit zwei Sternchen **) und p-Wert kleiner als 0,001 (Irrtumswahrscheinlichkeit liegt bei 0,1 Prozent, abgekürzt mit drei Sternchen ***).
- Auf Grundlage dieser Konvention spricht man dann bei Vorliegen der entsprechenden p-Werte von statistischer Signifikanz. Damit können (vorbehaltlich der Irrtumswahrscheinlichkeit) die beobachteten Zusammenhänge von der Stichprobe auf die Grundgesamtheit übertragen werden. Der p-Wert bzw. die Signifikanz darf keineswegs als Indikator für die Effektstärke interpretiert werden. Je größer die Stichprobe ist, desto kleiner ist in der Regel der p-Wert. Ein p-Wert sagt nichts über die Bedeutsamkeit eines Befunds aus. Der p-Wert informiert lediglich darüber, ob ein in der Stichprobe gefundener Zusammenhang auf die Grundgesamtheit übertragen werden kann.
Modellgüte von Pseudo-R2: m Abschnitt zur linearen Regression haben wir mit dem Determinationskoeffizienten R² ein Maß kennengelernt, welches uns anschaulich über die Güte des Gesamtmodells informiert und uns den Anteil erklärter Varianz an der Gesamtvarianz berichtet. Auch im logistischen Fall gibt es die Möglichkeit einer solchen Angabe. Analog zum R² sagen sogenannte Pseudo-R² etwas über die globale Güte des Modells aus. Gängige Pseudo-R², die auch von den Statistikprogrammen ausgegeben werden, sind Cox und Snell sowie Nagelkerke.
- Nagelkerkes R² wird häufig interpretiert wie das Bestimmtheitsmaß in der linearen Regression, nämlich als Anteil der durch alle unabhängigen Variablen erklärten Varianz. Diese Interpretation ist allerdings problematisch, da Pseudo-R²-Maßzahlen auf der Veränderung des Maximum-Likelihood-Werts basieren. Deshalb sollten Pseudo-R²-Maßzahlen nicht mit dem R² der linearen Regression verglichen werden. Grundsätzlich deutet ein höherer Wert auf ein passenderes Modell hin und kann als Indiz für die globale Güte des Modells interpretiert werden. Tabelle 52 berichtet ein Nagelkerkes R² von 0,205. Diesen Wert würden viele Sozialforscher als akzeptabel interpretieren.
Voraussetzungen für logistische Regression:
Wie wir gesehen haben, unterscheidet sich die logistische Regression vor allem in zwei Punkten von der linearen Regression.
- Erstens wird statt einer linearen Regressionsgeraden eine nichtlineare Regressionskurve geschätzt (die sogenannte Logit-Funktion).
- Zweitens wird bei der Schätzung der Regressionsparameter nicht auf das OLS-Verfahren, sondern auf das Maximum-Likelihood-Prinzip zurückgegriffen. In der Literatur wird vor allem auf zwei wesentliche Voraussetzungen für die Durchführung einer binären logistischen Regressionsanalyse hingewiesen: die Fallzahl und die Skalenniveaus der abhängigen und unabhängigen Variablen.
- Für eine logistische Regression ist eine größere Fallzahl als bei einer linearen Regression erforderlich. Backhaus et al. und Fromm nennen als Minimum 50 Fälle. Dabei sollten für jede Ausprägung der abhängigen Variable mindestens 25 Fälle vorliegen. Nach Fromm können aussagekräftige Ergebnisse sogar erst ab einer Fallzahl von 100 Beobachtungen erreicht werden. Die erforderliche Fallzahl steigt zudem mit der Anzahl der unabhängigen Variablen. Für jede weitere unabhängige Variable sollte die Fallzahl jeweils um zehn Beobachtungen steigen.
- Was die Messung der verwendeten Variablen anbelangt, muss die abhängige Variable binär kodiert sein und die unabhängigen Variablen müssen – wie im linearen Fall – ein metrisches oder binäres kategoriales Skalenniveau aufweisen. Letzteres kann durch eine Dummy-Kodierung – wie im linearen Fall gezeigt – erreicht werden.

Inferenzstatistik

Die univariate, bivariate und multivariate Datenanalyse haben das Ziel, die Verteilung von Variablen zu beschreiben und Zusammenhänge zwischen zwei oder mehr Variablen zu untersuchen. Diese Datenanalyse basiert in der Regel auf Stichproben. Das heißt, es liegen nicht von allen Untersuchungsobjekten einer Grundgesamtheit empirische Informationen vor, sondern nur von einer (zufälligen) Auswahl. Die Inferenzstatistik beschäftigt sich mit der Frage, ob und wie Befunde von Zufallsstichproben auf zugehörige Grundgesamtheiten übertragen werden können
Die Anwendung der Inferenzstatistik setzt eine Zufallsstichprobe voraus. Nur bei einer Zufallsstichprobe kann innerhalb statistischer Fehlergrenzen ein Befund auf die Grundgesamtheit übertragen werden.
Bei einem sogenannten Signifikanztest (dabei handelt es sich um ein Instrument der Inferenzstatistik) wird geprüft, ob ein in der Stichprobe gefundener Zusammenhang (sehr) wahrscheinlich auch in der Grundgesamtheit existiert. Ein Befund wird als signifikant bezeichnet, wenn er mit großer Sicherheit von der Stichprobe auf die Grundgesamtheit übertragen werden kann. Signifikant bedeutet aber nicht, dass es sich um einen wichtigen oder starken Zusammenhang zwischen zwei Merkmalen handelt.
Overcoverage und Undercoverage: Mit Overcoverage ist die Menge an Untersuchungsobjekten gemeint, die in die Stichprobe gelangen kann, aber eigentlich gar nicht zur Grundgesamtheit gehört. In unserem Beispiel könnten dies Personen sein, die jünger als 18 Jahre sind. Mit Undercoverage sind Untersuchungsobjekte gemeint, die eigentlich eine Chance haben sollten, in die Stichprobe zu gelangen, aber faktisch nicht ausgewählt werden können. Bei einer Online-Erhebung sind das beispielsweise Personen, die keinen Internetanschluss haben.
Punktschätzung: Angenommen, wir haben keine Informationen über das mittlere Alter in der Grundgesamtheit. Dann könnten (und würden) wir das mittlere Alter der Grundgesamtheit auf Grundlage unserer Stichprobe schätzen. Wir würden also davon ausgehen, dass das mittlere Alter in der Grundgesamtheit ebenfalls 49,98 Jahre beträgt. Diese Vorgehensweise wird allgemein als Punktschätzung bezeichnet. Der nicht bekannte Parameter der Grundgesamtheit „Mittleres Alter“ wird auf Basis unserer Stichprobe geschätzt
Stichprobenfehler: Unsere (fiktive) Grundgesamtheit (siehe Abbildung 20) entspricht an dieser Stelle allerdings nicht der Realität, da uns verlässliche Informationen über sie nicht zur Verfügung stehen. Wir wissen, dass das mittlere Alter unserer Grundgesamtheit 50,23 Jahre beträgt. Es gibt also eine Differenz zwischen dem mittleren Alter unserer Stichprobe (49,98) und dem mittleren Alter der Grundgesamtheit (50,23 Jahre). Diese Differenz beträgt 0,25 Jahre. Mit unserer Stichprobe unterschätzen wir das mittlere Alter um 0,25 Jahre. Diese Abweichung wird allgemein als Stichprobenfehler oder als Stichprobenschwankung bezeichnet.
vier Herausforderungen, mit denen Sozialwissenschaftler bei der Arbeit mit Zufallsstichproben konfrontiert sind:
– Erstens weichen die empirischen Ergebnisse einer Zufallsstichprobe immer (mehr oder weniger) vom tatsächlichen Wert in der Grundgesamtheit ab. Diese Abweichung wird – wie oben dargestellt – als Stichprobenfehler oder als Stichprobenschwankung bezeichnet.
– Zweitens können wir auf den ersten Blick nicht beurteilen, ob die Abweichung einer Stichprobe von der Grundgesamtheit als „hoch“ oder „niedrig“ bezeichnet werden kann. Schließlich kennen wir den tatsächlichen Wert der Grundgesamtheit nicht.
– Drittens bieten viele Stichproben – und deren Mittelwerte – eine bessere Schätzung des Mittelwerts der Grundgesamtheit als der Mittelwert einer Stichprobe.
– Viertens „streuen“ die Mittelwerte vieler Stichproben um den tatsächlichen Mittelwert der Grundgesamtheit. Dabei kann ein einzelner Mittelwert einer Stichprobe deutlich vom tatsächlichen Mittelwert in der Grundgesamtheit abweichen.
Das Ziel der Inferenzstatistik ist es, von den bekannten Kennwerten einer Stichprobe (z.B. Mittelwert) auf die unbekannten Parameter einer Grundgesamtheit zu schließen. Das Beispiel in Abschnitt 5.1 hat zwei Probleme illustriert: Erstens weichen Stichprobenwerte mehr oder weniger vom tatsächlichen Wert in der Grundgesamtheit ab. Zweitens streuen die Mittelwerte vieler Stichproben um den wahren Wert der Grundgesamtheit. Für den Rückschluss von der Stichprobe auf die Grundgesamtheit greift die Inferenzstatistik auf zwei zentrale Konzepte zurück: den zentralen Grenzwertsatz (Central Limit Theorem) und den Standardfehler
Vereinfacht formuliert, macht der zentrale Grenzwertsatz eine Aussage über die Verteilung von Mittel- und Anteilswerten in Zufallsstichproben. Diese liegen – so der zentrale Grenzwertsatz – „normal“ um den tatsächlichen Wert der Grundgesamtheit, vorausgesetzt die jeweiligen Stichproben sind ausreichend groß. Ausreichend groß ist eine Stichprobe, wenn sie mindestens 30 Untersuchungsobjekte (z.B. Personen) umfasst
Stichprobenverteilung: Die Verteilung der einzelnen Mittelwerte (oder auch Anteilswerte) wird in der Statistik als Stichprobenverteilung (engl. sampling distribution) bezeichnet (Bortz und Schuster 2010, S. 82-83). Die Stichprobenverteilung beschreibt, wie sich aus Stichproben gewonnene Kennwerte (z.B. Mittel- und Anteilswerte) verteilen, wenn man die Stichprobenziehung unendlich oft wiederholen würde. Zwei Merkmale der Stichprobenverteilung sind besonders wichtig: – Der Mittelwert der (unendlich) vielen Stichproben entspricht dem tatsächlichen Wert in der Grundgesamtheit. Dieser Mittelwert wird auch Erwartungswert genannt. – Die Mittelwerte der einzelnen Stichproben streuen um diesen Erwartungswert. Dabei folgt die Streuung (bei einer Stichprobengröße von n ≥ 30) der Normalverteilung. Beachten Sie: Die Stichprobenverteilung beschreibt die Verteilung der einzelnen Stichprobenmittelwerte, wenn man unendlich viele Stichproben ziehen würde. In der Forschungspraxis ziehen wir meist nur eine Stichprobe. Deshalb handelt es sich bei der Stichprobenverteilung um eine theoretische Verteilung. Wenn wir aber unendlich viele Stichproben ziehen würden, dann würden die einzelnen Stichprobenwerte normal um den tatsächlichen Wert der Grundgesamtheit streuen
Normalverteilung: Aus dem zentralen Grenzwertsatz lässt sich ableiten, dass die Streuung der Stichprobenkennwerte (z.B. Mittel- oder Anteilswert) von (unendlich) vielen Stichproben der Normalverteilung folgt. Die typische Form der Normalverteilung – häufig auch Glockenkurve oder Gauß-Kurve genannt – ist in Abbildung 23 dargestellt. Jede Normalverteilung hat bestimmte Eigenschaften, die bei der Anwendung der Inferenzstatistik genutzt werden: – Die Normalverteilung ist symmetrisch. – Mittelwert, Median und Modus sind identisch, liegen genau in der Mitte und teilen die Normalverteilung in zwei gleich große Hälften.
– Die Standardabweichung (SD) ist die typische (durchschnittliche) Entfernung aller Daten vom Mittelwert. Die durchschnittliche Streuung der Mittelwerte wird als Standardfehler bezeichnet. – 68 Prozent aller Werte liegen in einem Bereich von ± einer Standardabweichung.
– 95,5 Prozent aller Werte liegen in einem Bereich von ± zwei Standardabweichungen.
– 99,7 Prozent aller Werte liegen in einem Bereich von ± drei Standardabweichungen.
Standardfehler: Die einzelnen Stichprobenwerte streuen um den tatsächlichen Wert in der Grundgesamtheit. Bei einigen Stichproben ist die Abweichung „niedrig“, bei anderen Stichproben ist die Abweichung „hoch“. Die durchschnittliche Abweichung von (theoretisch) unendlich vielen Stichproben wird als Standardfehler bezeichnet
In der Forschungspraxis steht uns allerdings immer nur eine Stichprobe zur Verfügung. Die zentrale Frage ist, ob unsere eine Stichprobe eine „gute“ (genaue) oder eine „schlechte“ (ungenaue) Schätzung des wahren Wertes in der Grundgesamtheit bietet. Der Standardfehler informiert über die durchschnittliche Streuung der einzelnen Stichproben. Je größer der Standardfehler, desto unsicherer die Schätzung. Der Standardfehler ist damit ein Maß für die Genauigkeit einer Schätzung. Der Standardfehler – die durchschnittliche Abweichung vom tatsächlichen Wert in der Grundgesamtheit – ist von zwei Faktoren abhängig: Erstens von der Varianz des Merkmals in der Grundgesamtheit und zweitens von der Stichprobengröße. Beide Faktoren werden nachfolgend kurz erläutert:
– Der Standardfehler ist von der Varianz des Merkmals in der Grundgesamtheit abhängig. Warum? Je stärker ein Merkmal in der Grundgesamtheit streut, desto stärker werden die Mittelwerte des Merkmals in verschiedenen Stichproben variieren. Allerdings ist die Varianz des Merkmals in der Grundgesamtheit in der Regel nicht bekannt. Deshalb wird die Varianz des Merkmals in der Grundgesamtheit auf Basis der Varianz des Merkmals in der Stichprobe geschätzt.
– Der Standardfehler ist von der Stichprobengröße abhängig. Je größer die Stichprobe ist, desto kleiner ist der Standardfehler. Zur Illustration dieses Zusammenhangs ziehen wir erneut 1000 Stichproben aus unserer „fiktiven“ Grundgesamtheit. Allerdings variieren wir jeweils die Anzahl der Personen. Wir ziehen zunächst 1000 Stichproben mit jeweils 100 Personen, dann ziehen wir 1000 Stichproben mit jeweils 500 Personen und schließlich ziehen wir 1000 Stichproben mit jeweils 1000 Personen. In Abbildung 25 sind diese drei verschiedenen Stichprobenverteilungen dargestellt. In allen drei Fällen liegen die Stichprobenwerte zwar normal um den tatsächlichen Wert der Grundgesamtheit, aber die Breite der Verteilungen ist völlig unterschiedlich. Je größer die Anzahl der Personen ist, desto geringer fällt die durchschnittliche Streuung der Stichprobenwerte aus
Der Standardfehler (engl. standard error) wird mit dem griechischen Buchstaben σ (Sigma) dargestellt. Mit dem ^ wird dokumentiert, dass es sich um eine Schätzung handelt. Um eine Schätzung handelt es sich, da die zur Berechnung des Standardfehlers benötigte Varianz des Merkmals in der Grundgesamtheit nicht bekannt ist. In der Regel stehen uns keine Informationen dazu zur Verfügung, wie stark das interessierende Merkmal (hier: Alter) in der Grundgesamtheit streut. Da die Varianz des Merkmals in der Grundgesamtheit nicht bekannt ist, wird die korrigierte Varianz (s²* ) bzw. korrigierte Standardabweichung (s* ) des Merkmals verwendet. Diese Information kann auf Grundlage der Stichprobe einfach berechnet werden. Neben der (korrigierten) Varianz bzw. der Standardabweichung ist für die Berechnung des Standardfehlers die Fallzahl der Stichprobe (n) erforderlich. Die Berechnung des Standardfehlers für Mittelwerte basiert auf folgender Formel: Standardfehler für Mittelwerte: σ = Wurzel aus s²∗/ n = s∗ / √n
Die korrigierte Varianz (s²* ) des Merkmals in der Stichprobe wird durch die Stichprobengröße (n) dividiert. Anschließend wird die Wurzel gezogen. Anstelle der korrigierten Varianz kann natürlich auch die korrigierte Standardabweichung verwendet werden. In diesem Fall wird die korrigierte Standardabweichung durch √n dividiert. Der Standardfehler informiert dann über die durchschnittliche Streuung der Stichprobenmittelwerte. Ein großer Standardfehler deutet auf eine große Unsicherheit hin, ein kleiner Standardfehler auf eine geringe Unsicherheit.
Neben dem Mittelwert bzw. dem Standardfehler für einen Mittelwert sind Sozialwissenschaftlerinnen häufig auch an Anteilswerten, wie zum Beispiel dem Stimmenanteil einer Partei (Sonntagsfrage), interessiert. Auch für Anteilswerte kann der Standardfehler geschätzt werden. Mit p ist der Anteil des interessierenden Merkmals in der Stichprobe gemeint, mit n die Stichprobengröße. Auch hier wird der Standardfehler auf Grundlage von Stichprobendaten geschätzt. Dies wird mit dem ^ dargestellt.
—>Standardfehler für Anteilswerte: σ = Wurzel aus p ∗ (1 − p)/ n
Die Berechnung des Standardfehlers wird an einem Beispiel illustriert. Bei einer (fiktiven) Umfrage wurde für eine Partei ein Anteilswert von 40 Prozent (0,4) ermittelt, insgesamt wurden 1000 Personen befragt. Der Anteilswert von 0,4 wird in die Formel eingetragen und mit der Gegenwahrscheinlichkeit von 0,6 multipliziert (0,4 * 0,6 = 0,24). Der Wert 0,24 wird durch die Fallzahl dividiert. Anschließend wird die Wurzel gezogen.
Standardfehler für Anteilswerte: σ = 0,4 ∗ (1 − 0,4)/ 1000 = 0,4 ∗ 0,6/ 1000 = 0,24/ 1000 = 0,015. Für unsere Partei liegt der Standardfehler bei 0,015. Auch hier deutet ein kleinerer Standardfehler auf eine präzisere Schätzung und ein größerer Standardfehler auf eine unpräzisere Schätzung hin. Der Standardfehler ist ein Maß für die Unsicherheit einer Schätzung und erforderlich, um sogenannte Konfidenzintervalle zu berechnen . Bei Konfidenzintervallen handelt es sich um Bereiche, in denen der tatsächliche Wert der Grundgesamtheit mit einer bestimmten Sicherheit vermutet wird
Die oben präsentierten Formeln für die Berechnung des Standardfehlers gelten für Stichproben, die mit Zurücklegen gezogen wurden. In der Forschungspraxis sind wir allerdings mit Stichproben ohne Zurücklegen konfrontiert. Ein Untersuchungsobjekt (z.B. eine Person), das einmal in die Stichprobe gelangt ist, wird bei einer sozialwissenschaftlichen Studie (z.B. ALLBUS oder ESS) nicht ein zweites Mal gezogen bzw. befragt. Bei Stichproben ohne Zurücklegen muss für die Berechnung des Standardfehlers formal ein Korrekturfaktor (Endlichkeitsfaktor) berücksichtigt werden, der wie folgt definiert ist: Korrekturfaktor bei Stichproben ohne Zurücklegen: Wurzel aus N−n/ N−1
—>Dieser Korrekturfaktor (grau hinterlegt) berücksichtigt das Verhältnis zwischen Grundgesamtheit (N) und Stichprobe (n) und wird mit dem berechneten Standardfehler multipliziert. σ = s∗/ √n ∗ Wurzel aus N − n/ N − 1
Aus praktischer Sicht kann dieser Korrekturfaktor allerdings vernachlässigt werden, wenn es das Verhältnis zwischen Grundgesamtheit und Stichprobe erlaubt. Mit anderen Worten: Nur bei einer großen Stichprobe aus einer kleinen Grundgesamtheit beeinflusst der Korrekturfaktor das Ergebnis. In unserem Beispiel – 1000 Personen aus einer Grundgesamtheit von 50000 Personen – beträgt der Korrekturfaktor 0,99. Dieser Wert, multipliziert mit dem oben berechneten Standardfehler (0,65), verringert den Standardfehler gerade einmal um 0,01. Allerdings werden in den Sozialwissenschaften in der Regel Stichproben aus sehr großen Grundgesamtheiten entnommen (z.B. wahlberechtigte Bevölkerung in Deutschland), so dass der Korrekturfaktor vernachlässigt werden kann. Nach Gehring und Weins kann bei Stichproben ohne Zurücklegen der Korrekturfaktor vernachlässigt werden, wenn der Umfang der Grundgesamtheit (N) mindestens dem 20-Fachen des Umfangs der Stichprobe entspricht. Diese Voraussetzung ist bei sozialwissenschaftlichen Umfragen praktisch immer erfüllt, so dass der Korrekturfaktor in der Forschungspraxis keine Bedeutung hat.
Schätzungsarten: Die Schätzung der Populationsparameter – also der Merkmale der Grundgesamtheit – kann als Punktschätzung oder als Intervallschätzung vorgenommen werden. Bei einer Punktschätzung wird der Parameter der Grundgesamtheit (z.B. Mittel- oder Anteilswert) durch einen einzigen Wert der Stichprobe dargestellt. Bei einer Intervallschätzung wird ein Intervall (Bereich) angegeben, in dem der gesuchte Parameter der Grundgesamtheit vermutet wird
Punktschätzung: Wird nur ein Schätzwert für den unbekannten Parameter der Grundgesamtheit (z.B. Mittel- oder Anteilswert) berechnet, dann handelt es sich um eine Punktschätzung. Wir berechnen beispielsweise das arithmetische Mittel des Alters der Personen einer Zufallsstichprobe, um das durch durchschnittliche Alter der Grundgesamtheit zu schätzen. Der Mittelwert und der Anteilswert einer Zufallsstichprobe sind die bekanntesten Schätzer, um Aussagen über die Grundgesamtheit zu machen.
Was sind aber die Kriterien für eine „gute“ Schätzung? In der „Theory of Statistical Estimation“ hat Fisher (1925a) Kriterien formuliert, die ein statistischer Kennwert erfüllen muss, um einen Populationsparameter der Grundgesamtheit bestmöglich schätzen zu können. Dies sind Erwartungstreue, Effizienz, Konsistenz und Suffizienz.
- Erwartungstreue: Ein erwartungstreuer Schätzer ist ein unverzerrter Schätzer; er entspricht im Mittel dem Wert der Grundgesamtheit. Bei einer Stichprobe wird ein erwartungstreuer Schätzer den „wahren“ Wert der Grundgesamtheit in der Regel über- bzw. unterschätzen. Ein erwartungstreuer Schätzer zeichnet sich aber dadurch aus, dass bei „unendlich“ vielen Stichproben der Mittelwert der einzelnen Schätzungen dem tatsächlichen Wert der Grundgesamtheit entspricht. Die Abweichungen der einzelnen Stichproben gleichen sich aus und der tatsächliche Wert der Grundgesamtheit wird nicht systematisch unterschätzt bzw. überschätzt.
- Effizienz: Die zweite Eigenschaft eines „guten“ Schätzers ist die Effizienz. Damit ist die Präzision einer Schätzung gemeint. Der Standardfehler informiert über die durchschnittliche Abweichung des geschätzten Werts vom wahren Wert. Je kleiner der Standardfehler, also je geringer die durchschnittliche Abweichung des geschätzten Werts vom wahren Wert ist, desto effizienter ist der Schätzer.
- Konsistenz: Die Konsistenz beschreibt das Verhalten eines Schätzers bei Vergrößerung der Stichprobe. Ein Schätzer wird als konsistent bezeichnet, wenn bei steigender Stichprobengröße die Differenz zwischen dem geschätzten Wert und dem wahren Wert der Grundgesamtheit geringer wird
- Suffizienz: Bortz und Schuster (2010, S. 90) bezeichnen einen Schätzer als suffizient oder erschöpfend, „wenn er alle in einer Stichprobe enthaltenen Informationen berücksichtigt“
Schätzer für Mittelwerte: In der Statistik wird der wahre Mittelwert einer Grundgesamtheit häufig mit dem griechischen Buchstaben µ (lies: Mü) dargestellt. Dieser wahre Mittelwert der Grundgesamt – also beispielsweise das durchschnittliche Alter der Grundgesamtheit – ist in der Regel nicht bekannt. Wir nutzen die Daten einer Zufallsstichprobe, um den Mittelwert der Grundgesamtheit zu schätzen. Der Punktschätzer für den Mittelwert wird mit einem ^-Symbol gekennzeichnet (μ) Mit dem ^ wird angezeigt, dass es sich um eine Schätzung handelt. Mit den Daten einer Zufallsstichprobe lässt sich der Mittelwert der Grundgesamtheit schätzen.
—>μ = x= ∑ni=1 xi/ n
Wir schätzen den Mittelwert der Grundgesamtheit (μ) durch den Mittelwert der Stichprobe (x). Dazu werden die Werte in der Stichprobe addiert und durch die Stichprobengröße dividiert. Der Mittelwert einer Stichprobe bietet die bestmögliche Schätzung für den Mittelwert einer Grundgesamtheit. Der Schätzwert μ einer Stichprobe wird allerdings mehr oder weniger stark vom tatsächlichen Mittelwert der Grundgesamtheit µ abweichen.
Schätzer für Anteilswerte: Der Anteilswert eines Merkmals in der Grundgesamtheit (z.B. Anteil der SPD-Wähler in der Grundgesamtheit) wird mit dem griechischen Buchstaben θ (lies: Theta) gekennzeichnet. Auch dieser Wert ist in der Regel nicht bekannt und muss durch die Stichprobendaten geschätzt werden. Dies wird mit dem ^-Symbol gekennzeichnet (θ). Dabei dient der Anteil des Merkmals in der Stichprobe (z B. Anteil der SPD-Wählerinnen in der Stichprobe) als Schätzer für den Anteil in der Grundgesamtheit: θ = p Dabei ist θ die Schätzung des Anteils in der Grundgesamtheit; p ist der Anteil des Merkmals in der Stichprobe.
Schätzer für Varianzen: Statistisch lässt sich zeigen, dass der Mittelwert bzw. der Anteilswert einer Zufallsstichprobe die formulierten Kriterien für eine „gute“ Schätzung erfüllt. Der Mittelwert bzw. der Anteilwert einer Zufallsstichprobe bietet damit die bestmögliche Schätzung für den Mittelwert bzw. Anteilswert in einer Grundgesamtheit. Die empirische Varianz (s²) bzw. empirische Standardabweichung (s) ist allerdings nicht die bestmögliche Schätzung für die Varianz bzw. Standardabweichung eines Merkmals in der Grundgesamtheit (zur Erinnerung: Die Varianz bzw. Standardabweichung ist ein Maß für die Streuung der Daten). Die empirische Varianz (s²) bzw. empirische Standardabweichung (s) wird mit folgender Formel berechnet: s2 = ∑ni=1 (xi-x quer)² /𝐧
s= ∑ni=1 (𝐱i-𝐱 quer) hoch 2 /n
—>Für die Schätzung der Varianz bzw. Standardabweichung eines Merkmals auf Basis einer Zufallsstichprobe wird die Formel leicht modifiziert. Statt durch 1 n wird durch 1 n−1 dividiert. Es handelt sich um die korrigierte Varianz (s*2 ) bzw. um die korrigierte Standardabweichung (s*).
s∗2 = ∑ ni=1 (𝐱i-𝐱 quer)² / n-1
s∗ = Wurzel aus ∑n i=1 (𝐱i − x quer)²/ n-1
Soll die Varianz bzw. Standardabweichung eines Merkmals (z.B. Alter) auf Grundlage einer Zufallsstichprobe geschätzt werden, dann bietet die korrigierte Varianz bzw. die korrigierte Standardabweichung die bestmögliche Schätzung. Bei der korrigierten Varianz bzw. Standardabweichung handelt es sich um einen erwartungstreuen (unverzerrten) Schätzer der Varianz bzw. Standardabweichung der Grundgesamtheit.
Intervallschätzung: Bei der Intervallschätzung wird statt eines Wertes ein Bereich angegeben, in dem der gesuchte Parameter der Grundgesamtheit (z.B. Anteile von Parteien) vermutet wird. Ein solcher Bereich wird als Vertrauens- oder Konfidenzintervall bezeichnet. Ein Vertrauens- oder Konfidenzintervall wirkt damit auf den ersten Blick zwar ungenauer als eine Punktschätzung, bildet aber die Unsicherheit von Stichprobenergebnissen deutlich besser ab als eine Punktschätzung.
Ein Konfidenzintervall, auch Vertrauensintervall genannt, ist ein Bereich (Intervall), in dem der tatsächliche Wert der Grundgesamtheit mit großer Sicherheit (meist 95 oder 99 Prozent) vermutet wird. Für die Berechnung eines Konfidenzintervalls greifen wir auf die zentralen Konzepte der Inferenzstatistik zurück. Auf Basis des zentralen Grenzwertsatzes wissen wir, dass hinreichend große Stichproben (n > 30) normal um den tatsächlichen Wert der Grundgesamtheit streuen. Die Streuung der (unendlich) vielen Stichproben wird dabei durch den Standardfehler erfasst. zwei wichtige Konfidenzintervalle: das sogenannte 95-Prozent-Konfidenzintervall und das 99-Prozent-Konfidenzintervall
Wie können diese beiden Konfidenzintervalle interpretiert werden? Stellen Sie sich vor, Sie ziehen unendlich viele Stichproben aus der Grundgesamtheit und berechnen für jede dieser Stichproben den Mittel- oder Anteilswert. Dann liegen 95 Prozent aller Stichprobenwerte in einem Bereich von ± 1,96 Standardfehler um den tatsächlichen Wert der Grundgesamtheit. Die graue Fläche in Abbildung 27 markiert das 95-Prozent-Konfidenzintervall. Diese Fläche umfasst 95 Prozent der Werte, die beiden nicht schraffierten Flächen rechts und links davon beinhalten jeweils 2,5 Prozent der Stichprobenwerte. Das 95-Prozent-Konfidenzintervall umfasst also 95 Prozent aller Stichprobenwerte. Falls Ihnen 95 Prozent zu wenig sind, bietet sich das 99-Prozent-Konfidenzintervall an (Abbildung 28). Beim 99- Prozent-Konfidenzintervall liegen 99 Prozent aller Stichprobenwerte in einem Bereich ± 2,58 Standardfehler um den tatsächlichen Wert.
Konfidenzintervalle für Mittelwerte: Für die Berechnung eines Konfidenzintervalls eines Mittelwerts sind zwei Angaben erforderlich: Erstens der Mittelwert der Stichprobe und zweitens der Standardfehler dieses Mittelwerts. Der Mittelwert einer Stichprobe (x quer) ist die Summe der einzelnen Werte dividiert durch die Anzahl der Werte: x quer = ∑ n i = 1 xi/ n
Der Standardfehler des Mittelwerts (σ) wird mit folgender Formel geschätzt: σ = s∗/ √n
Dabei ist s* die korrigierte Standardabweichung und n die Stichprobengröße. Für die Berechnung des 95-Prozent-Konfidenzintervalls wird der Wert 1,96 mit dem Standardfehler multipliziert (1,96* σ). Dieser Wert addiert mit dem Mittelwert (x quer + 1,96 ∗ σ) bildet die obere Grenze des 95- Prozent-Konfidenzintervalls. Die untere Grenze des 95-Prozent-Konfidenzintervalls ergibt sich nach der Subtraktion vom Mittelwert (x quer− 1,96 ∗ σ).
x quer ± 1,96 ∗ σ
- Für die Berechnung des 99-Prozent-Konfidenzintervalls wird statt dem Wert 1,96 der Wert 2,58 verwendet: x quer ± 2,58 ∗ σ
- Die Berechnung des Konfidenzintervalls wird an einem Beispiel illustriert. Wir berechnen das 95- Prozent-Konfidenzintervall des Alters in der ALLBUS 2014. Das mittlere Alter der Befragten in der ALLBUS-Stichprobe liegt bei 49,02 Jahren. Die korrigierte Standardabweichung des Mittelwerts ist 17,55; die Stichprobengröße ist 3467. Mit diesen Angaben wird der Standardfehler des Mittelwerts geschätzt:
  σ = s∗ /√n = 17,55/ √3467 = 0,298
- Der Standardfehler des Mittelwerts liegt bei 0,298. Der Mittelwert (49,02) und der Standardfehler (0,298) werden in die Formel zur Berechnung des 95-Prozent-Konfidenzintzervalls eingetragen:
  x quer± 1,96 ∗ σ= 49,02 ± 1,96 ∗ 0,298
  —>Die untere Grenze des Konfidenzintervalls liegt bei 48,44 Jahren; die obere Grenze des Konfidenzintervalls liegt bei 49,60 Jahren. Mit einer Sicherheit von 95 Prozent liegt das mittlere Alter in der Grundgesamtheit zwischen 48,44 und 49,60 Jahren. Häufig findet sich auch folgende Formulierung zur Beschreibung des Konfidenzintervalls: Bei einer Irrtumswahrscheinlichkeit von fünf Prozent ist zu vermuten, dass der Mittelwert der Grundgesamt zwischen 48,44 und 49,60 Jahren liegt.
- Falls die Irrtumswahrscheinlichkeit von fünf Prozent zu gering ist, können wir eine Irrtumswahrscheinlichkeit von einem Prozent festlegen und das 99-Prozent-Konfidenzintervall berechnen. Es muss lediglich der Wert 1,96 durch 2,58 ersetzt werden: x quer ± 2,58 ∗ σ = 49,02 ± 2,58 ∗ 0,298 Die untere Grenze des 99-Prozent-Konfidenzintervalls liegt bei 48,25 Jahren; die obere Grenze des Konfidenzintervalls liegt bei 49,79 Jahren. Mit einer Sicherheit von 99 Prozent liegt das mittlere Alter in der Grundgesamtheit zwischen 48,25 und 49,79 Jahren. Eine geringere Irrtumswahrscheinlichkeit führt damit zu einem breiteren Konfidenzintervall.
Konfidenzintervalle für Anteilswerte: Die Vorgehensweise für die Berechnung eines Konfidenzintervalls für Anteilswerte (z. B. Parteianteile) ist mit der Berechnung für Mittelwerte vergleichbar. Statt eines Mittelwerts einer Stichprobe benötigen wir den Anteilswert p (relative Häufigkeit). Die relative Häufigkeit eines Merkmals ist die absolute Häufigkeit dividiert durch die Fallzahl: p = absolute Häufigkeit/n
- Der Standardfehler des Anteilswerts (σ) wird mit folgender Formel geschätzt (siehe auch Abschnitt 5.2.2):
  σ = Wurzel aus p ∗ (1 − p)/ n
  Dabei ist p der Anteilswert und n die Stichprobengröße. Für die Berechnung des 95-Prozent-Konfidenzintervalls wird wieder der Wert 1,96 mit dem Standardfehler multipliziert (1,96 * σ). Dieser Wert, addiert mit dem Anteilswert (p + 1,96 * σ), bildet die obere Grenze des 95-Prozent-Konfidenzintervalls. Die untere Grenze des 95-Prozent-Konfidenzintervalls ergibt sich nach der Subtraktion vom Anteilswert (p – 1,96 * σ). p ± 1,96 ∗ σ
- Für die Berechnung des 99-Prozent-Konfidenzintervalls wird statt des Werts 1,96 der Wert 2,58 verwendet: p ± 2,58 ∗ σ
Interpretation von Konfidenzintervallen:
In der Forschungspraxis werden Konfidenzintervalle gelegentlich falsch interpretiert. Ein typisches Beispiel ist folgender Satz: „Mit einer Wahrscheinlichkeit von 95 Prozent liegt der tatsächliche Wert der Grundgesamtheit innerhalb des Konfidenzintervalls.“ Diese Interpretation ist formal nicht korrekt. Von 100 Konfidenzintervallen umfassen 94 Konfidenzintervalle den tatsächlichen Wert der Grundgesamtheit. Dies ist ein Anteil von 94 Prozent. Sechs Konfidenzintervalle (6 Prozent) enthalten den tatsächlichen Wert nicht. Werden statt 100 Konfidenzintervallen jetzt unendliche viele Konfidenzintervalle berechnet und in die Abbildung eingetragen, dann werden 95 Prozent dieser (unendlich vielen) Konfidenzintervalle den tatsächlichen Wert der Grundgesamtheit abdecken. Fünf Prozent (der unendlich vielen) Konfidenzintervalle werden den wahren Wert nicht berücksichtigen. In der Forschungspraxis ziehen wir allerdings nicht unendlich viele Zufallsstichproben. Wir ziehen auch nicht 100 Zufallsstichproben. Wir ziehen lediglich eine (!) Zufallsstichprobe und berechnen das entsprechende Konfidenzintervall. Dieses eine Konfidenzintervall beinhaltet den tatsächlichen Wert der Grundgesamtheit oder es beinhaltet den wahren Wert der Grundgesamtheit nicht. Diese Frage können wir nicht beantworten, da wir den tatsächlichen Wert nicht kennen. Diese Unsicherheit können (und sollten) wir auch verbal ausdrücken. Anstelle von „Wahrscheinlichkeit“ ist es bei der Beschreibung von Konfidenzintervallen formal korrekt, von Sicherheit zu sprechen. Folgende Aussage ist formal korrekt: „Mit einer Sicherheit von 95 Prozent beinhaltet das Konfidenzintervall den tatsächlichen Wert der Grundgesamtheit.“ Alternativ bietet sich auch folgende Formulierung an: „Bei einer Irrtumswahrscheinlichkeit von 5 Prozent beinhaltet das Konfidenzintervall den tatsächlichen Wert der Grundgesamtheit.“ Die Wahrscheinlichkeitsaussage bezieht sich nicht auf ein bestimmtes Konfidenzintervall, sondern auf (unendlich) viele Konfidenzintervalle. Da wir es meist aber nur mit einem Konfidenzintervall zu tun haben, können (und sollten) wir diese Wahrscheinlichkeitsaussage nicht auf das konkrete Konfidenzintervall anwenden.
Berechnung der benötigten Fallzahl: Die Logik von Konfidenzintervallen kann auch genutzt werden, um vor der Durchführung einer Erhebung den erforderlichen Stichprobenumfang zu ermitteln. Für die Berechnung der erforderlichen Fallzahl müssen das Konfidenzniveau, der vermutete Anteilswert des Merkmals in der Stichprobe (p) und der akzeptierte Stichprobenfehler festgelegt werden. Bei einem 95-Prozent-Konfidenzniveau wird der Wert 1,96 eingetragen, bei einem 99- Prozent-Konfidenzniveau der Wert 2,58. Der vermutete Anteilswert eines Merkmals in der Grundgesamtheit (p) liegt zwischen 0 und 1. Als Stichprobenfehler werden häufig ± fünf Prozentpunkte oder ± drei Prozentpunkte akzeptiert. Bei großen Grundgesamtheiten (z.B. wahlberechtigte Bevölkerung) kann folgende Formel zur Berechnung der benötigten Fallzahl verwendet werden:
n = (Konfidenzniveau ∗ Wurzel aus p*(1−p) hoch 2/Stichprobenfehler)
Bei kleinen Grundgesamtheiten wird noch ein Korrekturfaktor (grau hinterlegt) hinzugefügt:
n = (Konfidenzniveau ∗ Wurzel aus p(1−p) /Stichprobenfehler * Wurzel aus 1 − n/ N) hoch 2
- Beispiel: . Bei einem 95-Prozent-Konfidenzniveau (1,96) wird ein Stichprobenfehler von ± 3 Prozentpunkten (0,03) festgelegt. Als Anteil von p in der Grundgesamtheit vermuten wir 0,5. Dabei handelt es sich um den konservativsten Wert (ein kleineres p verringert die erforderliche Stichprobengröße). Unsere Grundgesamtheit ist die wahlberechtigte Bevölkerung in Deutschland, so dass wir auf den Korrekturfaktor verzichten können. Eingetragen ist die Formel: n = (Konfidenzniveau ∗ Wurzel aus p∗(1−p)/ Stichprobenfehler) ² = 1,96 ∗ Wurzel aus 0,5 ∗(1−0,5)/ 0,03)² = 0,98/ 0,03² 2 = 1067,11
- —>Die erforderliche Stichprobengröße liegt bei 1067 Personen. Wenn 1067 Personen aus der Grundgesamtheit (zufällig) befragt werden, dann kann der tatsächliche Anteil des Merkmals (z.B. Anteil der Wähler einer Partei) mit einer Irrtumswahrscheinlichkeit von 5 Prozent und einem Stichprobenfehler von ± 3 Prozentpunkten bestimmt werden.
Herausforderungen: drei zentrale Voraussetzungen für die korrekte Berechnung des Standardfehlers und damit auch für die Berechnung eines Konfidenzintervalls : – Einfache Zufallsstichprobe – Overcoverage und Undercoverage – Nonresponse
- Kohler und Kreuter (2017, S. 225-233) bezeichnen Zufallsstichproben, die nicht auf der einfachen Zufallsauswahl beruhen, als komplexe Stichproben. Bei komplexen Stichproben ist der Standardfehler aus verschiedenen Gründen größer als bei einfachen Stichproben. Deshalb werden auch die Konfidenzintervalle breiter. Bei den meisten Statistikprogrammen (z.B. SPSS) basiert die Berechnung von Standardfehler und Konfidenzintervallen allerdings auf der Annahme einer einfachen Zufallsstichprobe. Die Konsequenz: Die Statistikprogramme unterschätzen in der „Voreinstellung“ den Standardfehler und die Konfidenzintervalle sind zu eng
- Die Grundgesamtheit umfasst alle Elemente, über die Aussagen beabsichtigt sind. Die Auswahlgesamtheit beinhaltet alle Elemente, die eine Chance haben, in die Stichprobe zu gelangen. Im Idealfall ist die Auswahlgesamtheit mit der Grundgesamtheit deckungsgleich, in der Forschungspraxis ist aber ein sogenannter Abdeckungsfehler (coverage error) unvermeidlich. Dabei lassen sich allgemein Overcoverage und Undercoverage unterscheiden. Abdeckungsfehler führen zu größeren Standardfehlern, zu unsicheren Schätzungen und gegebenenfalls auch zu verzerrten Ergebnissen..
- . In der Forschungspraxis werden sich in der Regel nicht alle (zufällig) ausgewählten Personen an der Erhebung beteiligen. Wir können dabei zwischen Unit- und Item-Nonresponse unterscheiden. Bei Unit-Nonresponse handelt es sich um einen vollständigen Ausfall. Es liegen keine Informationen für diese Person vor. Bei Item-Nonresponse hat sich die Person an der Befragung beteiligt, aber einzelne Fragen (z.B. zum Einkommen) nicht beantwortet. Die Konsequenzen von Unit-Nonresponse und Item-Nonresponse sind vergleichbar: die Standardfehler werden größer und die Konfidenzintervalle breiter. Selektive Ausfälle (z.B. insbesondere Personen mit hohem Einkommen verweigern die Teilnahme) können zudem zu verzerrten Schätzergebnissen führen

Statistisches Testen

Wenn wir in einer Stichprobe einen Zusammenhang zwischen zwei Merkmalen finden (z.B. zwischen Bildung und Einkommen) oder sich zwei Gruppen unterscheiden (z.B. Lebenszufriedenheit zwischen Männern und Frauen), stellt sich die Frage, ob der in der Stichprobe nachgewiesene Zusammenhang (oder Unterschied) jetzt zufallsbedingt (also ein Resultat des Stichprobenfehlers) ist oder auch in der Grundgesamtheit existiert. Diese Frage wird auf Grundlage statistischer Testverfahren beantwortet. Ein Signifikanztest prüft, wie wahrscheinlich der Befund unserer Stichprobe ist, wenn in der entsprechenden Grundgesamtheit kein Zusammenhang zwischen zwei Merkmalen besteht bzw. sich zwei Gruppen nicht unterscheiden. Ein empirisches Ergebnis wird als signifikant bezeichnet, wenn wir uns sehr sicher sein können, dass der Zusammenhang von zwei Merkmalen bzw. der Unterschied zwischen zwei Gruppen in einer Stichprobe nicht zufallsbedingt ist. Mit anderen Worten: Der Zusammenhang bzw. Unterschied existiert (vermutlich) nicht nur in der Stichprobe, sondern auch in der Grundgesamtheit
Beim Schätzen und Testen gibt es einige Gemeinsamkeiten, aber auch wichtige Unterschiede. Beide Verfahren basieren jeweils auf einer Zufallsstichprobe. Wie Abbildung 31 illustriert, wird beim Schätzen eine Zufallsstichprobe genutzt, um von einer Maßzahl in der Stichprobe auf einen Parameter in der Grundgesamtheit zu schließen (z.B. vom mittleren Alter in der Stichprobe auf das mittlere Alter in der Grundgesamtheit). Beim Testen bezieht sich die zu überprüfende Hypothese auf die Grundgesamtheit. Wir nutzen die Stichprobe, um zu prüfen, ob die Hypothese korrekt ist oder nicht.
—>Wir wollen die unterschiedlichen Logiken an zwei Beispielen illustrieren. Wir berechnen beim Schätzen für eine Zufallsstichprobe das mittlere Alter der Personen (z.B. 49,98 Jahre). Das mittlere Alter dieser Stichprobe ist unsere Schätzung für das mittlere Alter der entsprechenden Grundgesamtheit. Bei Kenntnis des Standardfehlers können wir einen Bereich angeben, in dem mit einer Sicherheit von 95 Prozent (alternativ: 99 Prozent) das mittlere Alter der Grundgesamtheit liegt
In der Forschungspraxis gibt es nicht einen Signifikanztest, sondern sehr unterschiedliche Testverfahren. Der bekannteste Signifikanztest ist der t-Test, der genutzt wird, um Mittelwerte zu vergleichen. Weitere wichtige Testverfahren sind der Chi-Quadrat-Test und der F-Test. Die allgemeine Vorgehensweise folgt bei allen Signifikanztests der gleichen Logik:
- Erstens muss eine Forschungshypothese formuliert werden, die der Nullhypothese gegenübergestellt wird.
- Zweitens wird die geeignete Teststatistik ausgewählt.
- Drittens wird das Signifikanzniveau festgelegt.
- Viertens wird die Teststatistik der vorliegenden Stichprobe berechnet. Auf Grundlage der Teststatistik der vorliegenden Stichprobe wird eine Entscheidung für oder gegen die Nullhypothese getroffen. Vorausgesetzt wird, dass es sich bei der Stichprobe um eine Zufallsstichprobe handelt
Im ersten Schritt wird eine Forschungshypothese bzw. Alternativhypothese formuliert. Eine Forschungshypothese bzw. Alternativhypothese beinhaltet die eigentlich interessierende Aussage (z.B. Die Lebenszufriedenheit unterscheidet sich zwischen Männern und Frauen). Dieser Forschungshypothese wird die Nullhypothese gegenübergestellt, die den in der Forschungshypothese formulierten Zusammenhang verneint (z.B. Die Lebenszufriedenheit unterscheidet sich nicht zwischen Männern und Frauen). Die Forschungshypothese und die Nullhypothese bilden dabei ein Hypothesenpaar. Die Forschungshypothese wird meist mit H1 abgekürzt und die Nullhypothese mit H0. In der Forschungspraxis wird in der Regel nur die Forschungshypothese explizit formuliert, die dann gegen die entsprechende Nullhypothese getestet wird.
Forschungshypothesen können ungerichtet oder gerichtet sein. Ungerichtete Hypothesen treffen keine Aussagen über die Richtung eines Unterschieds. Die Hypothesen „Die Lebenszufriedenheit unterscheidet sich zwischen Männern und Frauen“ und „Es besteht ein Zusammenhang zwischen Bildung und Einkommen“ sind Beispiele für ungerichtete Hypothesen. Es wird postuliert, dass sich zum Beispiel die Lebenszufriedenheit zwischen Männern und Frauen unterscheidet. Eine andere Bezeichnung für ungerichtete Hypothesen sind zweiseitige Hypothesen, weil der Unterschied bzw. der Zusammenhang in beide Richtungen gehen kann (z.B. Männer können eine höhere Lebenszufriedenheit haben oder Frauen können eine höhere Lebenszufriedenheit haben)
Bei einer gerichteten Hypothese wird eine Aussage über die Richtung eines vermuteten Unterschieds bzw. Zusammenhangs gemacht. „Frauen haben eine höhere Lebenszufriedenheit als Männer“ sowie „Je höher die Bildung einer Person ist, desto größer ist ihr Einkommen“ sind Beispiele für gerichtete Hypothesen. Eine gerichtete Hypothese wird auch als einseitige Hypothese bezeichnet.
Wie oben ausgeführt, lassen sich verschiedene Testverfahren unterscheiden.
- Der bekannteste Test, der auch in diesem Kurs im Mittelpunkt steht, ist der t-Test. Mit dem t-Test wird der Unterschied zwischen zwei arithmetischen Mittelwerten untersucht. Vereinfacht formuliert wird geprüft, ob der Unterschied zwischen zwei arithmetischen Mittelwerten in einer Stichprobe auf zufallsbedingte Abweichungen zurückzuführen ist oder ob sich diese beiden Werte (wahrscheinlich) auch in der entsprechenden Grundgesamtheit unterscheiden.
- Beim Chi-Quadrat-Test wird geprüft, ob die empirisch beobachteten Häufigkeiten von den bei statistischer Unabhängigkeit erwarteten Häufigkeiten abweichen. Die Berechnung des Zusammenhangsmaßes Cramer’s V basiert auf Chi-Quadrat (siehe Kapitel 3.2). In der Regressionsanalyse wird häufig ein F-Test genutzt, um „die Abhängigkeit der Gesamtschätzung eines Regressionsmodells von zufälligen Verzerrungen zu überprüfen“.
- Ein F-Test bezieht sich nicht auf einen einzelnen Regressionskoeffizienten, sondern auf das Regressionsmodell als Ganzes. Es wird geprüft, ob das Regressionsmodell zur Varianzaufklärung beitragen kann oder auf Zufallsfehler zurückzuführen ist. In der Forschungspraxis spielt die Signifikanz der einzelnen Regressionskoeffizienten, die mit einem t-Test geprüft wird, allerdings eine wichtigere Rolle als die Prüfung des Gesamtmodell
Signifikanzniveau: Eine Stichprobe kann die Grundgesamtheit allerdings nicht exakt abbilden. Deshalb könnte der Stichprobenbefund auch auf zufällige Abweichungen der beiden Stichprobenmittelwerte – also der mittleren Lebenszufriedenheit der Frauen und der Männer in der Stichprobe – von den Mittelwerten in der Grundgesamtheit zurückgehen. Die entscheidende Frage ist: Wie wahrscheinlich ist der Stichprobenbefund, wenn sich in der Grundgesamtheit die mittlere Lebenszufriedenheit zwischen Männern und Frauen nicht unterscheidet? Die Festlegung dieser Wahrscheinlichkeit wird in der Sprache der empirischen Sozialforschung als Signifikanzniveau bezeichnet.
- In den Sozialwissenschaften ist das 5-Prozent-Signifikanzniveau üblich, gelegentlich wird auch das 1-Prozent- oder das 0,1-Prozent-Signifikanzniveau gewählt. Bei kleinen Stichproben arbeiten Forscherinnen auch mit dem 10-Prozent-Signifikanzniveau. Das 5- Prozent-Signifikanzniveau gilt allerdings meist als ungeschriebene Regel (siehe Cowles und Davis 1982 für den Ursprung dieser Konvention).
- Mit dem Signifikanzniveau wird ein kritischer Schwellenwert festgelegt. Die Ausgangsfrage lautet: Wie wahrscheinlich ist der Stichprobenbefund (also der gefundene Unterschied bei der Lebenszufriedenheit zwischen Männern und Frauen), wenn in der Grundgesamtheit kein Unterschied existiert? Wenn diese Wahrscheinlichkeit kleiner als 5 Prozent ist (5-Prozent-Signifikanzniveau), dann wird die Nullhypothese abgelehnt und die Forschungs- bzw. Alternativhypothese (vorläufig) akzeptiert.
- Mit anderen Worten: Bei einem statistischen Test wird nicht die eigentlich interessierende Forschungshypothese getestet, sondern die Nullhypothese. Wenn die Wahrscheinlichkeit für die Bestätigung der Nullhypothese kleiner als 5 Prozent ist, dann wird die Nullhypothese verworfen. Die Vorgehensweise ist konservativ. Nur, wenn wir uns sehr sicher sind, dass die Nullhypothese nicht zutrifft, wird sie verworfen und die Forschungs- bzw. Alternativhypothese vorläufig akzeptiert.
Teststatistik berechnen: Schließlich wird die Teststatistik der vorliegenden Stichprobe ermittelt. Dabei wird eine empirische Prüfgröße (z.B. t-Wert) berechnet, die mit dem kritischen Wert der jeweiligen Teststatistik abgeglichen wird. Der kritische Wert der jeweiligen Teststatistik ist in Tabellen dokumentiert und kann direkt abgelesen werden. Wenn der Betrag der berechneten Prüfgröße größer ist als der kritische Wert der Teststatistik, dann wird die Nullhypothese verworfen und die Alternativhypothese vorläufig akzeptiert.
- In der Forschungspraxis berechnen Statistikprogramme wie SPSS die Signifikanztests. Neben der empirischen Prüfgröße (z.B. t-Wert) geben Statistikprogramme auch den p-Wert an. Der p-Wert gibt die Wahrscheinlichkeit für den empirischen Befund (oder für ein noch extremeres Ergebnis) an, wenn in der Grundgesamtheit die Nullhypothese gilt.
- Dabei werden allgemein drei zentrale p-Werte unterschieden:
  – p < 0,05: Der p-Wert liegt unter 0,05. Die Wahrscheinlichkeit für den empirischen Befund, wenn die Nullhypothese tatsächlich gültig wäre, ist kleiner als 5 Prozent.
  – p < 0,01: Der p-Wert liegt unter 0,01. Die Wahrscheinlichkeit für den empirischen Befund, wenn die Nullhypothese tatsächlich gültig wäre, ist kleiner als 1 Prozent.
  – p < 0,001: Der p-Wert liegt unter 0,001. Die Wahrscheinlichkeit für den empirischen Befund, wenn die Nullhypothese tatsächlich gültig wäre, ist kleiner als 0,1 Prozent.
- In der Forschungspraxis werden Befunde mit einem p-Wert, der kleiner als 0,05 (p < 0,05) ist, als signifikant bezeichnet. Die Nullhypothese wird abgelehnt und die Forschungshypothese (vorläufig) akzeptiert. Der in der Stichprobe gefundene Unterschied (oder Zusammenhang) existiert wahrscheinlich nicht nur in der Stichprobe, sondern auch in der entsprechenden Grundgesamtheit. In Publikationen werden signifikante Befunde häufig mit Sternchen (Asterisk) gekennzeichnet. Die Sternchen informieren dabei über den jeweiligen p-Wert:
  – *: Der p-Wert liegt unter 0,05, ist aber größer als oder gleich 0,01. Das Ergebnis ist auf dem 5-Prozent-Niveau signifikant.
  – **: Der p-Wert liegt unter 0,01, ist aber größer als oder gleich 0,001. Das Ergebnis ist auf dem 1-Prozent-Niveau signifikant.
  – ***: Der p-Wert liegt unter 0,001. Das Ergebnis ist auf dem 0,1-Prozent-Niveau signifikant.
Bei kleinen Stichproben wird gelegentlich auch das 10-Prozent-Signifikanzniveau ausgewiesen (p < 0,10). Welche Bedeutung die Sternchen im Einzelfall haben, muss stets aus der jeweiligen Ergebnistabelle hervorgehen. In der Tabellenlegende sollte sich beispielsweise folgender Hinweis finden: Signifikanzniveaus: *** p < 0,001, ** p < 0,01, * p <0,05. Grundsätzlich wird die Nullhypothese also erst verworfen, wenn sich das empirische Ergebnis nur schlecht mit dieser vereinbaren lässt. Ein Signifikanzniveau von fünf Prozent bedeutet aber auch, dass wir bei rund fünf Prozent aller Stichproben empirische Ergebnisse erhalten, die unwahrscheinlich sind und der Nullhypothese widersprechen, aber grundsätzlich möglich sind. Mit anderen Worten: Das Ergebnis ist zwar unwahrscheinlich, aber dennoch könnte die Nullhypothese korrekt sein. Ein statistischer Test kann folglich keine korrekte Testentscheidung garantieren. In der Literatur werden meist zwei Fehlerarten unterschieden, die als Alpha-Fehler und Beta-Fehler bezeichnet und im nächsten Abschnitt behandelt werden.
Alpha- und Beta-Fehler: Bei der Forschungs- bzw. Alternativhypothese und der Nullhypothese handelt es sich um Aussagen über eine Grundgesamtheit. Auf Basis einer Stichprobe wird eine Entscheidung getroffen, ob die Nullhypothese verworfen und die Alternativhypothese (vorläufig) akzeptiert wird, oder ob die Nullhypothese beibehalten und die Alternativhypothese abgelehnt wird. Bei Stichproben sind allerdings Stichprobenfehler unvermeidlich. Aufgrund der durch Stichprobenfehler bedingten Abweichung einer Stichprobe von der entsprechenden Grundgesamtheit kann es beim Hypothesentest zu zwei Fehlentscheidungen kommen, die als Fehler 1. Art (α-Fehler) und Fehler 2. Art (β-Fehler) bezeichnet werden. Bei einem statistischen Hypothesentest lassen sich vier Entscheidungen unterscheiden:
- Entscheidung 1: In der Grundgesamtheit besteht kein Zusammenhang zwischen zwei Merkmalen. Aufgrund der Teststatistik der Stichprobe entscheiden wir uns für die Nullhypothese und lehnen die Forschungs- bzw. Alternativhypothese ab. Wir haben die richtige Entscheidung getroffen.
- Entscheidung 2: In der Grundgesamtheit besteht kein Zusammenhang zwischen zwei Merkmalen. Aufgrund der Teststatistik der Stichprobe entscheiden wir uns allerdings für die Forschungs- bzw. Alternativhypothese, die einen Zusammenhang zwischen den beiden Merkmalen postuliert. Wir lehnen also fälschlicherweise die Nullhypothese ab und akzeptieren die Forschungs- bzw. Alternativhypothese. Ein solcher Fehler wird als Fehler 1. Art oder auch als α-Fehler bezeichnet. Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht dem gewählten Signifikanzniveau α (deshalb auch die Bezeichnung α-Fehler). Bei einem Signifikanzniveau von fünf Prozent werden wir bei fünf Prozent aller Stichproben einen solchen Fehler begehen. Das Ergebnis der Teststatistik spricht zwar sehr wahrscheinlich gegen die Nullhypothese, aber eben nur „sehr wahrscheinlich“. Mit anderen Worten: Bei einem Signifikanzniveau von fünf Prozent werden bei 100 Stichproben etwa fünf Stichproben ein Ergebnis liefen, das gegen die Nullhypothese spricht, auch wenn in der Grundgesamtheit die Nullhypothese gültig ist.
- Entscheidung 3: In der Grundgesamtheit gilt die Forschungs- bzw. die Alternativhypothese. Es besteht ein Unterschied zwischen zwei Merkmalen. Auf Grundlage der Teststatistik einer Stichprobe entscheiden wir uns für die Forschungs- bzw. Alternativhypothese. Es handelt sich um die richtige Entscheidung.
- Entscheidung 4: In der Grundgesamtheit gilt die Forschungs- bzw. die Alternativhypothese. Auf Basis der Teststatistik entscheiden wir uns allerdings gegen die Forschungs- bzw. Alternativhypothese. Wir akzeptieren also die Nullhypothese, obwohl in der Grundgesamtheit die Forschungs- bzw. Alternativhypothese gilt. Ein solcher Fehler wird „Fehler 2. Art“ oder auch β-Fehler genannt.
- Alpha- und Beta-Fehler verhalten sich gegenläufig. Je kleiner die Wahrscheinlichkeit für einen α-Fehler ist, desto größer ist die Wahrscheinlichkeit für einen β-Fehler. Die (mathematische) Berechnung für die Wahrscheinlichkeit eines β-Fehlers ist allerdings deutlich schwieriger als die Berechnung für die Wahrscheinlichkeit eines α-Fehlers. Für die Berechnung des β-Fehlers benötigen wir präzise Annahmen über die Stärke des vermuteten Zusammenhangs bzw. die Größe eines Unterschieds. In den meisten sozialwissenschaftlichen Hypothesen wird allerdings nur formuliert, dass es einen Zusammenhang bzw. Unterschied zwischen zwei Merkmalen gibt, nicht aber, wie stark dieser Zusammenhang bzw. wie groß dieser Unterschied ist. Die Wahrscheinlichkeit eines β-Fehlers ist also von der konkreten Hypothese abhängig, während die Wahrscheinlichkeit für einen α-Fehler konstant ist, da ein Zusammenhang bzw. Unterschied stets verneint wird (Nullhypothese).

t-Test

Mit einem t-Test wird geprüft, ob ein Unterschied zwischen zwei arithmetischen Mitteln in einer Stichprobe wahrscheinlich auch in der entsprechenden Grundgesamtheit existiert. Ein empirischer Befund wird als „signifikant“ bezeichnet, wenn der Befund einer Zufallsstichprobe auf die Grundgesamtheit übertragen werden kann. Ein Signifikanztest macht keine Aussage darüber, ob man einen bedeutenden bzw. wichtigen Unterschied gefunden hat oder nicht
Der t-Test trägt seinen Namen nicht zufällig. Mit Hilfe des t-Tests wird die (empirische) Prüfgröße T berechnet. Diese Prüfgröße T wird mit dem sogenannten kritischen t-Wert der t-Verteilung abgeglichen. Ist der Betrag der Prüfgröße T größer als der kritische t-Wert, wird die Nullhypothese verworfen und die Forschungshypothese bzw. Alternativhypothese akzeptiert
Die t-Verteilung wird häufig als „kleine Schwester“ der Standardnormalverteilung bezeichnet. Die t-Verteilung wurde von William Sealy Gosset unter dem Pseudonym „Student“ (1908) entwickelt und ist – wie die Standardnormalverteilung – symmetrisch und eingipflig mit einem Mittelwert von 0. Während die Standardnormalverteilung bei großen Stichproben genutzt wird, kommt die t-Verteilung vor allem bei kleinen Stichproben zum Einsatz. Abbildung 32 zeigt die t-Verteilung im Vergleich zur Normalverteilung. Die t-Verteilung ist flacher als die Normalverteilung, „denn gewissermaßen besteht der Preis, den man für die geringe Datenmenge zahlen muss, darin, dass die Werte stärker streuen und weniger Werte nahe am Mittelwert liegen“
Wie Abbildung 33 allerdings illustriert, gibt es nicht eine t-Verteilung, sondern viele t-Verteilungen. Je größer die Fallzahl ist, desto stärker nähert sich die t-Verteilung der Normalverteilung an. Bereits ab einer Fallzahl von 30 ist praktisch kein Unterschied mehr zwischen der t-Verteilung und der Normalverteilung zu erkennen. Bei einer Fallzahl von 120 sind die kritischen Werte der t-Verteilung mit der Normalverteilung nahezu identisch
Was sind Freiheitsgrade? Die Beschreibung einer Verteilung ist von sogenannten Freiheitsgraden abhängig. Was ist damit gemeint? Die Anzahl der Freiheitsgrade (englisch: degrees of freedom (df)) ist die Anzahl der Werte, die frei geändert werden können, ohne den interessierenden statistischen Parameter oder ein zur Berechnung des statistischen Parameters benötigtes Zwischenergebnis zu ändern. Ein Beispiel: Wir haben das Alter von drei Personen erfasst: 36, 49 und 65 Jahre. Das arithmetische Mittel ist 50 Jahre. Wir könnten jetzt das Alter von zwei anderen Personen erfassen (z. B. 40 und 80 Jahre), dann müsste die dritte Person allerdings 30 Jahre alt sein, um das arithmetische Mittel von 50 Jahren zu erhalten. Für die Berechnung des arithmetischen Mittels sind also nur zwei Werte (bzw. zwei Altersangaben) frei, der dritte Wert kann nicht geändert werden
verschiedene Varianten eines t-Tests zu unterscheiden: Zunächst muss geklärt werden, ob es sich um abhängige oder unabhängige Stichproben handelt. Bei unabhängigen Stichproben muss zudem geprüft werden, ob sich die Varianzen des Merkmals (z.B. Lebenszufriedenheit) in den beiden Stichproben unterscheiden. In Abhängigkeit von diesen Entscheidungen wird ein bestimmter t-Test ausgewählt
Art der Stichprobe: Bei der Art der Stichprobe ist zu klären, ob es sich um abhängige oder unabhängige Stichproben handelt. Ein typisches Beispiel für eine abhängige Stichprobe wäre eine wiederholte Befragung. Die Personen werden beispielsweise zu zwei Zeitpunkten zu ihrer Lebenszufriedenheit gefragt. Die erste Befragung fand dabei im Sommer und die zweite Befragung im Winter statt (Panelbefragung). Eine abhängige Stichprobe liegt aber auch vor, wenn beispielsweise Personen zufällig gezogen werden und dann jeweils zu diesen Personen noch eine weitere Person berücksichtigt wird, die in bestimmter Weise von der Person abhängt. Beispiele wären die Ehepartner oder die Kinder der zufällig gezogenen Personen.
Eine unabhängige Stichprobe liegt vor, wenn die Personen der zwei Stichproben in keiner sich beeinflussenden Beziehung stehen. Eine Erhebung im Rahmen der ALLBUS oder des ESS sind typische Beispiele für unabhängige Stichproben. Die Personen sind jeweils unabhängig von anderen Personen ausgewählt.
Prüfung der Varianzhomogenität: Liegen zwei unabhängige Stichproben vor, dann muss zusätzlich die Varianzhomogenität des Merkmals geprüft werden. Die Varianzhomogenität bezieht sich auf die Streuung des Merkmals in den beiden Stichproben (z.B. die Streuung der Lebenszufriedenheit). Varianzhomogenität wäre gegeben, wenn sich die Varianz der Lebenszufriedenheit zwischen Männern und Frauen in der Grundgesamtheit nicht signifikant unterscheidet.
- Varianzheterogenität liegt vor, wenn sich die Streuung der Lebenszufriedenheit in beiden Stichproben signifikant unterscheidet. Für die Prüfung der Varianzhomogenität stehen wieder eigene Testverfahren zur Verfügung (z.B. der Bartlett-Test oder der Levene-Test). Diese Tests sind in den gängigen Statistikprogrammen implementiert. In SPSS werden bei der Berechnung eines t-Tests für unabhängige Stichproben automatisch auch die Resultate eines Levene-Tests ausgegeben, so dass die Prüfung der Varianzhomogenität nur ein (weiterer) Zwischenschritt bei einem t-Test ist.
- Bei einem Test auf Varianzhomogenität ist die Nullhypothese, dass es keinen signifikanten Unterschied zwischen den Varianzen der beiden Gruppen in der Grundgesamtheit gibt. Entsprechend lautet die Alternativhypothese, dass sich die Varianzen in den beiden Gruppen unterscheiden. Bei einem signifikanten Testergebnis (p < 0,05) muss folglich die Nullhypothese verworfen und die Alternativhypothese akzeptiert werden. Mit anderen Worten: Bei einem signifikanten Testergebnis ist davon auszugehen, dass sich die Varianzen unterscheiden und der t-Test für heterogene Varianzen angewendet werden muss
t-Test für unabhängige Stichproben mit homogenen Varianzen: Bei einem t-Test wird die Prüfgröße t berechnet. Dieser auf Basis der Stichprobe berechnete empirische t-Wert wird mit dem kritischen t-Wert der t-Verteilung verglichen. Falls der Betrag des empirischen t-Werts größer ist als der (entsprechende) kritische t-Wert, wird die Nullhypothese abgelehnt und die Forschungshypothese bzw. Alternativhypothese akzeptiert. Ein größerer empirischer t-Wert deutet darauf hin, dass der Unterschied zwischen zwei arithmetischen Mitteln in der Stichprobe wahrscheinlich nicht zufallsbedingt ist, sondern auf tatsächliche Unterschiede in der Grundgesamtheit zurückzuführen ist.
- Bei unabhängigen Stichproben mit homogenen Varianzen wird die Prüfgröße t mit folgender Formel bestimmt:
  T = X1 quer − X2 quer/ Wurzel aus (n1 − 1) ∗ S1 ∗² + (n2 − 1) ∗ S2 ∗²/ n1 + n2 − 2 ∗ ( 1/ n1 + 1/ n2)
  Dabei sind X1 und X2 die arithmetischen Mittel der Variable X (z.B. Lebenszufriedenheit) in Gruppe 1 und Gruppe 2. Mit n1 und n2 sind die Fallzahlen der beiden Gruppen gemeint. S1² und S2² sind die korrigierten Varianzen der Variable in Gruppe 1 und Gruppe 2. Für die Berechnung der Prüfgröße t sind also die gruppenspezifischen Angaben zur Stichprobengröße, zum arithmetischen Mittel sowie zur korrigierten Varianz erforderlich
- In Abhängigkeit von den formulierten Hypothesen können einseitige und zweiseitige t-Tests unterschieden werden. Bei einem zweiseitigen Test können Werte, die auf Abweichungen sowohl nach oben als auch nach unten hindeuten, als Indiz gegen die Nullhypothese aufgefasst werden. Ein Beispiel: Die ungerichtete Hypothese „Die Lebenszufriedenheit zwischen Männern und Frauen unterscheidet sich“ wäre der Ausgangspunkt für einen zweiseitigen Test. Starke Abweichungen zugunsten der Frauen oder der Männer deuten darauf hin, dass die Nullhypothese nicht zutrifft. Bei einer gerichteten Hypothese wird ein einseitiger t-Test durchgeführt. Ausgangspunkt wäre folgende Hypothese: „Frauen haben eine höhere Lebenszufriedenheit als Männer.“ Nur starke Abweichungen zugunsten der Frauen sprechen gegen die Nullhypothese. In Abbildung 35 sind die Logiken des einseitigen und des zweiseitigen t-Tests illustriert. Bei einem zweiseitigen t-Test (ungerichtete Hypothese) können starke Abweichungen in beide Richtungen auf die Ablehnung der Nullhypothese hindeuten (grau markierter Bereich). Bei einem einseitigen t-Test (gerichtete Hypothese) deuten nur starke Abweichungen in eine Richtung auf die Ablehnung der Nullhypothese hin
Die Durchführung eines t-Test wird im Folgenden an einem Beispiel illustriert. Wir unterscheiden insgesamt vier Schritte:
Erstens wird die Forschungs- bzw. Alternativhypothese formuliert, der die Nullhypothese gegenübergestellt wird. Zweitens wird die empirische Prüfgröße T berechnet.
Drittens wird der kritische t-Wert abgelesen. Die Entscheidung über die Ablehnung der Nullhypothese bzw. der Annahme der Forschungshypothese fällt viertens auf Grundlage des Vergleichs der Prüfgröße T mit dem entsprechenden kritischen t-Wert.
Vor der Berechnung der Prüfgröße T werden Forschungshypothese und Nullhypothese formuliert. Folgende Forschungshypothese wird z.B. formuliert. H1: Die Lebenszufriedenheit zwischen Männern und Frauen unterscheidet sich.Gemäß der Hypothese können Frauen eine höhere Lebenszufriedenheit als Männer oder Männer eine höhere Lebenszufriedenheit als Frauen haben. Es handelt sich also um einen zweiseitigen Signifikanztest. Der Forschungshypothese wird die Nullhypothese gegenübergestellt, die keinen Zusammenhang zwischen den Merkmalen Geschlecht und Lebenszufriedenheit unterstellt. Sie lautet: H0: Die Lebenszufriedenheit zwischen Männern und Frauen unterscheidet sich nicht
Berechnung der Prüfgröße T: In Tabelle 59 sind die (fiktiven) Ergebnisse einer Befragung zur Lebenszufriedenheit dokumentiert. Die Zufallsstichprobe umfasst die Angaben von 42 Personen. Die mittlere Lebenszufriedenheit liegt bei den Frauen bei 7,5 Punkten, bei den Männern bei 6,5 Punkten. Die korrigierte Varianz bei den Frauen beträgt 1 und bei den Männern 1,2. Für unser Beispiel unterstellen wir, dass die Varianzhomogenität gewährleistet ist. Die Angaben der Stichprobe werden in die Formel zur Berechnung der Prüfgröße T eingetragen: Die Prüfgröße beträgt: 3,03
Berechnung des kritischen t-Werts: Für die Bestimmung des kritischen t-Werts sind drei Informationen erforderlich: Erstens die Anzahl der sogenannten Freiheitsgrade, zweitens die Festlegung des Signifikanzniveaus und drittens die Entscheidung, ob es sich um einen einseitigen oder zweiseitigen Signifikanztest handelt. Liegen diese Informationen vor, kann der kritische t-Wert aus Tabelle 60 abgelesen werden. Für die Bestimmung der Anzahl der Freiheitsgrade wird die Fallzahl der beiden Gruppen addiert und anschließend um zwei verringert:
—>Freiheitsgrade (df) = n1 + n2 − 2
Mit n1 und n2 sind die Fallzahlen der Gruppen gemeint. Im Beispiel betragen die Fallzahlen 20 (n1) und 22 (n2). Die Gesamtfallzahl ist 42. Diese wird um 2 verringert (40). Die Anzahl der Freiheitsgrade ist 40. Das Signifikanzniveau wird auf fünf Prozent festgelegt (α = 0,05). Die Hypothese postuliert einen Unterschied bei der Lebenszufriedenheit zwischen Männern und Frauen, aber es wird keine Aussage über die Richtung getroffen. Es handelt sich also um eine ungerichtete Hypothese und damit um einen zweiseitigen Signifikanztest.
—>Mit der berechneten Anzahl an Freiheitsgraden (40), der Festlegung des Signifikanzniveaus (α = 0,05) sowie der Art des Hypothesentests (zweiseitig) kann in Tabelle 60 der kritische t-Wert direkt abgelesen werden. Ausgehend von der Anzahl an Freiheitsgraden (40) muss der Wert der Tabelle in der Spalte „zweiseitig“ und „α = 0,05“ abgelesen werden. Der kritische t-Wert liegt bei 2,021
Testentscheidung treffen: Im letzten Schritt wird der Betrag des empirischen t-Werts (|3,03|) mit dem kritischen t-Wert verglichen. Ist der Betrag des empirischen t-Werts größer als der kritische t-Wert, dann wird die Nullhypothese verworfen und die Alternativhypothese akzeptiert. Dies ist in unserem Beispiel der Fall. Die Wahrscheinlichkeit, dass bei gegebener Stichprobe die Nullhypothese korrekt ist, ist kleiner als 5 Prozent. Deshalb wird die Nullhypothese abgelehnt und die Alternativhypothese akzeptiert. Die Lebenszufriedenheit zwischen Männern und Frauen unterscheidet sich nicht nur in der Stichprobe, sondern (wahrscheinlich) auch in der Grundgesamtheit. Der Unterschied bei der Lebenszufriedenheit ist statistisch signifikant
Bei den bisherigen Beispielen haben wir (ungeprüft) vorausgesetzt, dass sich die korrigierten Varianzen der beiden Gruppen in der Grundgesamtheit nicht unterscheiden. Die jeweiligen korrigierten Varianzen waren sehr ähnlich und konnten als vergleichbar interpretiert werden. Bei der Arbeit mit einem Statistikprogramm (z. B. SPSS) wird die Annahme der Varianzhomogenität meist automatisch geprüft und die Ergebnisse zweier t-Tests werden ausgegeben: für homogene Varianzen und für heterogene Varianzen. In der Praxis und der Arbeit mit großen Stichproben unterscheiden sich die Ergebnisse dieser beiden t-Tests zudem nur geringfüg
t-Test für unabhängige Stichproben mit heterogenen Varianzen:
Für die Berechnung der empirischen Prüfgröße T bei heterogenen Varianzen wird folgende Formel verwendet : T = X1 quer − X2 quer/ Wurzel aus S1 ∗²/ n1 + S2 ∗²/ n2
Deutlich aufwändiger bei der Durchführung eines t-Tests mit heterogenen Varianzen ist die Berechnung der Anzahl der Freiheitsgrade. Während bei einem t-Test mit homogenen Varianzen die Fallzahl der beiden Stichproben addiert und um 2 verringert wird (n1 + n2 − 2), wird bei heterogenen Varianzen folgende Berechnung der Freiheitsgrade vorgeschlagen:
Freiheitsgrade (df) = (S1 ∗²/ n1 + S2 ∗²/ n2)² / 1/ n1−1 ∗ (S1 ∗²/ n1 )² + 1/ n2−1 ∗(S1 ∗²/ n2)²
t-Test für abhängige Stichproben:
Bei den bisher betrachteten t-Tests waren die Stichproben (z. B. Frauen und Männer) jeweils unabhängig und nicht miteinander verbunden. Bei experimentellen Designs oder auch bei Panelstudien sind die Stichproben allerdings häufig nicht unabhängig voneinander. Ein einfaches Beispiel ist die wiederholte Messung eines Merkmals (z. B. Einstellung zum Umweltschutz) an zwei Zeitpunkten (z. B. vor und nach einer Veranstaltung zum Umweltschutz). Mit einem t-Test für abhängige Stichproben kann untersucht werden, ob sich beispielsweise die Einstellung zum Umweltschutz geändert hat oder nicht. Für die Berechnung des empirischen t-Werts bei abhängigen Stichproben wird folgende Formel verwendet: T = XD quer/ s*D/ √n
—>Dabei ist XD quer der Mittelwert der Differenzen aller Wertpaare (identisch mit der Differenz der beiden Stichprobenmittelwerte), sD ∗ die korrigierte Standardabweichung der Differenzen und n die Anzahl der Wertepaare.
Die Berechnung der korrigierten Standardabweichung der Differenzen (sD ∗ ) erfolgt nach folgender Formel:
sD ∗ = Wurzel aus ∑ni =1(xDi − x D quer)²/n-1
Dabei ist xDi die Differenz des Wertpaars, X D quer ist das arithmetische Mittel der Differenzen aller Wertpaare und n ist die Anzahl der Wertpaare. Der empirische t-Wert wird wieder mit dem kritischen t-Wert der t-Verteilung verglichen. Die Anzahl der Freiheitsgrade beim t-Test für abhängige Stichproben beträgt n−1. Ist der Betrag des empirischen t-Werts größer als der kritische t-Wert, dann wird die Nullhypothese verworfen und die Alternativ- bzw. Forschungshypothese (vorläufig) akzeptiert
—>Beispiel: In Tabelle 63 finden sich (fiktive) Angaben von sechs Personen, die vor und nach einer Veranstaltung zu ihrer Einstellung zum Umweltschutz befragt wurden. Für jede der befragten Personen liegen also zwei Angaben vor, die ein Wertpaar bilden. Die mittlere Einstellung der sechs Befragten vor der Veranstaltung liegt bei 5 und die mittlere Einstellung nach der Veranstaltung liegt bei 8. Die Differenz beträgt drei Punkte. Auf den ersten Blick hat die Teilnahme an der Veranstaltung die Einstellung zum Umweltschutz erhöht. Mit einem t-Test für abhängige Stichproben kann nun geklärt werden, ob die Mittelwertdifferenz von 3 Punkten möglicherweise auf zufällige Schwankungen oder aber auf den Besuch der Veranstaltung zurückgeführt werden kann. Folgende Hypothesen werden aufgestellt:
- H1: Die durchschnittliche Haltung zum Umweltschutz vor und nach der Veranstaltung unterscheidet sich. H0: Die durchschnittliche Haltung zum Umweltschutz vor und nach der Veranstaltung unterscheidet sich nicht.
- Wir berechnen zunächst die korrigierte Standardabweichung der Differenzen: Das Zwischenergebnis kann anschließend in die Formel zur Berechnung der Prüfgröße T eingesetzt werden. Für unser Beispiel ergibt sich ein empirischer t-Wert von 6,71.
- Der Betrag des empirischen t-Werts mit 6,67 wird abschließend mit dem kritischen t-Wert verglichen. Der kritische t-Wert für einen zweiseitigen Signifikanztest mit einer Irrtumswahrscheinlichkeit von 5 Prozent und fünf Freiheitsgraden liegt bei 2,571. Der Betrag des empirischen t-Werts ist größer als der kritische t-Wert. Die Nullhypothese wird abgelehnt und die Alternativ- bzw. Forschungshypothese wird vorläufig akzeptiert. Die Mittelwertdifferenz von drei Punkten ist vermutlich nicht zufällig entstanden, sondern auf die Veranstaltung zurückzuführen.
Voraussetzungen für einen t-Test:
-einfache Zufallsstichprobe: Die Anwendung statistischer Testverfahren setzt (einfache) Zufallsstichproben voraus. Die in diesem Kurs dargestellten und in den meisten Statistikprogrammen implementierten Testverfahren basieren auf der Annahme einer einfachen Zufallsstichprobe. Bei komplexen Stichproben sind ggf. Korrekturverfahren erforderlich. Bei willkürlichen Stichproben (Convenience Sample) können statistische Testverfahren nicht sinnvoll verwendet werden.
-Skalenniveau der Variable: Beim t-Test werden die arithmetischen Mittel von zwei Gruppen verglichen. Die Berechnung des arithmetischen Mittels bzw. die Berechnung der korrigierten Varianz setzt ein metrisches Skalenniveau voraus. Die Variablen müssen also zumindest ein pseudometrisches Skalenniveau aufweisen, um das arithmetische Mittel und die korrigierte Varianz berechnen zu können.
-Merkmal ist normalverteilt: Das untersuchte Merkmal (z.B. Lebenszufriedenheit) sollte in der Grundgesamtheit annähernd normalverteilt sein. Für die Überprüfung der Normalität einer Verteilung gibt es verschiedene Testverfahren, z.B. den Kolmogoroff-Smirnov-Test und den Lillifors-Test. Auf die Verletzung dieser Voraussetzung reagiert der t-Test bei großen Stichproben allerdings relativ robust
-angemessene Fallzahl: Schließlich ist bei der Durchführung eines t-Tests auf eine angemessene Fallzahl zu achten. Zwar gewährleisten die Tests, dass auch bei kleiner Fallzahl das festgelegte Signifikanzniveau eingehalten wird, aber aus verschiedenen Gründen sind große Stichprobenumfänge wünschenswert. Bortz und Schuster nennen als groben Orientierungspunkt eine Fallzahl von n > 30 je Stichprobe.
Bei kleineren Stichproben oder bei der Verletzung einzelner Voraussetzungen (z.B. Normalverteilung) existieren voraussetzungsärmere Verfahren, die als nicht-parametrische bzw. verteilungsfreie Verfahren bezeichnet werden. Für den Vergleich von zwei unabhängigen Stichproben bietet sich der U-Test von Mann-Whitney und für den Vergleich von zwei verbundenen Stichproben der Wilcoxon-Test an. Beide Testverfahren sind jeweils nicht an die Normalverteilungsvoraussetzung geknüpft. In der Soziologie und in der Politikwissenschaft sind wir allerdings meist mit großen Stichproben konfrontiert, so dass in der Regel auf den t-Test zurückgegriffen wird

Variablen

Eine Variable ist ein sozialwissenschaftliches Merkmal mit mindestens zwei Ausprägungen. Das Geschlecht, der allgemeinbildende Schulabschluss oder auch das politische Interesse einer Person sind Beispiele für sozialwissenschaftliche Variablen. Sozialwissenschaftliche Merkmale bzw. Variablen können nach verschiedenen Kriterien klassifiziert werden. Wir unterscheiden vier Kriterien: Skalenniveau, diskrete und stetige Variablen, dichotome und polytome Variablen sowie manifeste und latente Variablen
Eine wichtige Voraussetzung für die Anwendung bestimmter Analyseverfahren ist das Skalenniveau der Variable bzw. des Merkmals. In den Sozialwissenschaften werden meist die Skalenarten von Stevens (1946) verwendet, der vier Skalenniveaus unterscheidet: Nominal-, Ordinal-, Intervall- und Ratioskala. Intervall- und Ratioskalen werden auch metrische Skalen genannt. Das jeweilige Skalenniveau bestimmt die zulässigen Rechenoperationen. Je höher das Skalenniveau ist, desto mehr Rechenoperationen sind möglich.
Nominales Skalenniveau: Das nominale Skalenniveau ist das niedrigste Skalenniveau. Können die Ausprägungen eines Merkmals lediglich im Hinblick auf Gleichheit oder Ungleichheit verglichen werden, liegt ein nominales Skalenniveau vor. Ein Beispiel für eine nominal skalierte Variable ist das Geschlecht. In vielen sozialwissenschaftlichen Datensätzen wird der Ausprägung „weiblich“ die Ziffer 1 und der Ausprägung „männlich“ die Ziffer 2 zugeordnet. Aber diese Zuordnung ist eine Konvention. Man könnte auch 1 für „männlich“ und 2 für „weiblich“ verwenden. Bei einer nominalskalierten Variable stellen die Ziffern lediglich eine Kennzeichnung dar, die nicht richtig oder falsch, sondern allenfalls mehr oder weniger sinnhaft ist. Die Möglichkeiten der quantitativen Datenanalyse bei nominalskalierten Variablen sind daher begrenzt.
Das ordinale Skalenniveau ist das nächsthöhere Skalenniveau. Bei einer ordinalskalierten Variable können die verschiedenen Ausprägungen einer Variable in eine Rangfolge gebracht werden. Beispiele für ordinalskalierte Variablen sind der Schulabschluss oder auch das politische Interesse. Die allgemeine Hochschulreife ist ein höherer Schulabschluss als die Mittlere Reife und die Mittlere Reife ist ein höherer Abschluss als ein Hauptschulabschluss. Ein „sehr starkes“ Interesse für Politik ist ein größeres Interesse als ein „mittleres“ Interesse für Politik. Bei einer ordinalskalierten Variable können zwar die einzelnen Ausprägungen in eine Rangfolge gebracht werden, aber die Abstände zwischen den Ausprägungen (z.B. Abstand zwischen „Hauptschulabschluss“ und „Mittlere Reife“ sowie zwischen „Mittlere Reife“ und „Allgemeine Hochschulreife“) sind nicht gleich. Über die Abstände zwischen den Ausprägungen von ordinalskalierten Variablen sind daher keine Aussagen möglich.
Pseudometrische Variablen In der Praxis werden ordinale Variablen ab etwa fünf Ausprägungen häufig als pseudometrische Variable behandelt. Neben der Mindestanzahl von fünf geordneten Ausprägungen ist allerdings entscheidend, dass angenommen wird, dass die Abstände zwischen den Ausprägungen gleich sind
Variablen sind intervallskaliert, wenn deren Ausprägungen nicht nur in eine Rangfolge gebracht werden können, sondern auch die Abstände zwischen den Ausprägungen sinnvoll interpretiert werden können. Ein Beispiel ist die Temperaturmessung in Celsius. Der Abstand zwischen 15 und 20 Grad Celsius ist genau so groß wie der Abstand zwischen 20 und 25 Grad Celsius (jeweils fünf Grad Celsius). Intervallskalen besitzen allerdings keinen natürlichen Nullpunkt. Der Nullpunkt bei der Celsius-Skala wurde lediglich unter pragmatischen Gesichtspunkten gewählt; auch Temperaturen im negativen Bereich der Celsius-Skala sind immer noch eine „Temperatur“. Bei einer Intervallskala sind die Abstände zwischen den Merkmalsausprägungen interpretierbar, aber es können keine Verhältnisse berechnet werden.
Ratioskala: Bei einer Ratioskala (auch Verhältnisskala genannt) existiert ein natürlicher (echter) Nullpunkt. Die Temperaturmessung in Kelvin erfolgt auf einer Ratioskala, da bei 0 Kelvin keine Temperatur (keine Bewegungsenergie) mehr feststellbar ist. Auch das Einkommen und das Alter sind Beispiele für ratioskalierte bzw. verhältnisskalierte Variablen. Dabei können nicht nur die Abstände zwischen zwei Ausprägungen, sondern auch die Verhältnisse von zwei Ausprägungen interpretiert werden. Ein Einkommen von 5000 Euro ist doppelt so hoch wie ein Einkommen von 2500 Euro. Eine 60- jährige Person ist doppelt so alt wie eine 30-jährige Person
Je höher das Skalenniveau einer Variable ist, desto mehr (und leistungsfähigere) Analyseverfahren stehen der Sozialwissenschaftlerin zur Verfügung. Die Kenntnis des Skalenniveaus einer Variable ist wichtig, um bei der Datenanalyse nur die zulässigen Analyseverfahren auszuwählen. Viele statistische Verfahren sind nur zulässig, wenn die Variable mindestens intervallskaliert ist bzw. als pseudometrisch behandelt werden kann
Diskrete und stetige Variablen: Die Einteilung als diskrete oder stetige Variable basiert auf der Anzahl der möglichen Ausprägungen. Eine diskrete Variable ist eine Variable, die nur endlich viele Ausprägungen oder höchstens „abzählbar“ unendlich viele verschiedene Ausprägungen besitzt. Bei einer diskreten Variable sind keine Zwischenwerte zwischen zwei aufeinander folgenden Ausprägungen möglich. Beispiele für diskrete Variablen sind der Familienstand einer Person, die Anzahl der Fachsemester oder auch die Kinderzahl einer Familie. Bei diesen Variablen sind Zwischenwerte wie 5,6 Fachsemester oder 2,3 Kinder keine möglichen Ausprägungen. Eine stetige Variable ist dadurch gekennzeichnet, dass auch Zwischenwerte möglich sind. Typische Beispiele für stetige Variablen sind Zeit- und Größenangaben, aber auch monetäre Größen wie Einkommen oder Mietpreise. In der Praxis wird bei solchen Merkmalen aber nur eine begrenzte Anzahl an Nachkommastellen erfasst, beispielsweise werden bei Größenangaben meist nur zwei Nachkommastellen angegeben. Grundsätzlich sind allerdings auch mehr Nachkommastellen möglich.
Eine diskrete Variable, die nur eine geringe Anzahl an Ausprägungen hat, wird als kategoriale Variable bezeichnet. Hat eine kategoriale Variable nur zwei mögliche Ausprägungen, dann handelt es sich um eine dichotome Variable. Typische Beispiele für dichotome Variablen sind der Tabakkonsum oder auch die Wahlbeteiligung, bei denen nur die Ausprägungen „Ja“ und „Nein“ möglich sind. Eine diskrete Variable mit mehreren Ausprägungen wird als polytome Variable bezeichnet. Ein Beispiel für eine polytome Variable ist die Zugehörigkeit bzw. Nicht-Zugehörigkeit zu einer Religionsgemeinschaft mit den Ausprägungen „römisch-katholische Kirche“, „evangelische Kirche (ohne Freikirchen)“, „evangelische Freikirche“, „eine andere christliche Religionsgemeinschaft“, „eine andere, nicht-christliche Religionsgemeinschaft“ und „keine Religionsgemeinschaft“.
Manifeste und latente Variablen: Schließlich lassen sich auch manifeste und latente Variablen unterscheiden. Bei manifesten Variablen handelt es sich um Merkmale, die direkt beobachtbar sind. Eine manifeste Variable ist beispielsweise das Geschlecht oder die Haarfarbe einer Person. Dagegen handelt es sich bei latenten Variablen um Merkmale, die sich der direkten Beobachtung entziehen. Latente Variablen sind beispielsweise Intelligenz, Einstellungen wie die Zufriedenheit mit der Demokratie oder auch das soziale Vertrauen. Für eine empirische Untersuchung müssen latente Variablen erst „beobachtbar“ gemacht werden. Dieser Vorgang wird als Operationalisierung bezeichnet

Beitreten

Vorschau

Author

Maya G.

Informationen

Zuletzt geändert
vor 2 Jahren

Kurs melden

Quantitative Analyseverfahren