Relevanz bivarianter Zusammenhänge
Überblick
bivariate Zusammenhänge = Zusammenhänge zwischen zwei verschiedenen Variablen
Sozialforschung interessiert sich (fast) immer für den Zusammenhang von zwei (oder mehr) Phänomenen, z.B.
Hängt Anzahl der Vorlesungsbesuche mit Klausurnote zusammen?
Haben Frauen eine höhere Lebenserwartung als Männer?
Steigt mit Altersdifferenz der Ehepartner das Scheidungsrisiko?
Analyse bivariater Zusammenhänge in mehreren Schritten:
Besteht ein statistischer Zusammenhang zwischen X und Y?
Wie stark ist der Zusammenhang?
Welches Muster hat der Zusammenhang (z.B. Richtung)?
Ist der Zusammenhang kausal, d.h. ist X tatsächlich die Ursache für (Unterschiede in) Y?
zwei Arten von bivariaten Zusammenhängen
ungerichteter (symetrischer) Zusammenhang
es gibt einen Zusammenhang (mit einer gewissen Stärke)
UV —> AV-Beziehung wird nicht! definiert , d.h. wir wissen nicht, was Ursache und was Wirkung ist
gerichteter (asymmetrischer) Zusammenhang
zusätzlich zur Stärke gibt es eine Wirkungsrichtung des Zusammenhangs
dazu muss UV —>AV-Beziehung definiert werden
unabhängige = erklärende = bedingende Variable (i.d.R. X)
abhängige = erklärte = bedingte Variable (i.d.R. Y)
—>Fokus der quantitativ-empirischen Sozialforschung
Korrelation vs. Kausalität
„Correlation does not imly causation“
auch wenn empirisch zwei Phänomene X und Y gemeinsam auftreten, heißt dass nicht, dass diese auch tatsächlich kausal miteinander zusammenhängen, z.B.
Schokoladenkonsum (X) und Nobelpreisträger pro Land (X)
Anzahl Störche (X) und Anzahl Kinder (Y)
ausführlicher in nächster Sitzung (Drittvariablenkontrolle)
grundsätzlich: Nachweis von Kausalität durch
geeignete Erhebungsdesigns (v.a. Experimente) & geeignete Analyseverfahren (z.B. multivariate Regressionen)
ABER: Grundlage ist immer eine theoretisch begründete Annahme der Richtung des Zusammenhangs
Beispiele für Empirie ohne Theorie
Bivariante Analyse: Grundsätzliches Vorgehen
Wie finden wir heraus, ob es einen Zusammenhang gibt (= Stärke des Zusammenhangs)?
im Anschluss ggf Frage nach Muster des Zusammenhangs (z.B. positive oder negative Richtung des Zusammenhang)
—>Achtung verwirrend: Richtung des Zusammenhangs nicht gleichbedeutend mit gerichteter/ asymetrischer Beziehung! z.B. können zwei metrische Variablen negativ zusammenhängen (je größer X, desto kleiner Y), aber das sagt nichts darüber aus was Ursache (UV) und was Wirkung (AV) ist!
Vorgehen zu Beantwortung hängt davon ab, welches Skalenniveau unsere zwei Variablen X und Y aufweisen
beide kategorial (nominal bzw. ordinal)
eine kategorial, eine metrisch
beide metrisch (intervall- oder ratio)
wenn X und Y kategoriale Variablen:
Start mit Tabellenanalyse der Kreuztabelle (=Kontingenztabelle)
Kreuztabellen (= Kontigenztabellen)
Definition
Darstellungsform für 2 kategoriale (d.h. nominal o. ordinale) Variablen
„Die Kontingenztabelle ist eine systematische Darstellung der Ausprägungskombinationen zweier Variablen.“ (Diaz-Bone 2019: 70)
Kreuztabelle Beispiel aus Allbus 2018
Wie erkennen wir Zusammenhang in Kreuztabelle?
Wie berechnen wir Zusammenhang in Kreuztabelle?
Prozentsatzdiffernz
Maße für dichotome kategoriale Variablen
nur für Vierfeldertafeln (zwei dichotome Variablen)!
gerichtetes Zusammenhangsmaß (asymetrisch)
Einfluss von X auf Y
ab ordinalem Skalenniveau auch Aussagen über Richtung des Einflusses (wird Y größer oder kleiner in Abhängigkeit von X)
gibt Information über Stärke des Zusammenhangs
Achtung: Unterschied in ProzentPUNKTEN, nicht Prozent
Problem: Größenordnung der Prozentsatzdifferenz nicht immer gut interpretierbar
bei schiefen Verteilungen, d.h. wenn Y nur selten vorkommt!
Prozentsatzdifferenz d%
Odds
Odds Ratio
nur für Vierfeldertafeln!
Odds = (Gewinn)chancen
Verhältnis von Häufigkeit (Wahrscheinlichkeit) eines Ereignisses zur Häufigkeit (Wahrscheinlichkeit) des Gegenereignisses
Odds Beispiele
Bivariate Zusammenhangsmaße Überblick
Zusammenfassung
in den Sozialwissenschaften interessieren uns häufig Zusammenhänge zwischen zwei Variablen X und Y
bivariate Assoziationsmaße sind berechnete Maßzahlen für die Existenz/Stärke und ggf. Richtung des Zusammenhangs zwischen den beiden Variablen
Skalenniveaus entscheiden über geeignetes Assoziationsmaß
für kategoriale (d.h. nominale oder ordinale Variablen)
Start der Analyse über Kontingenztabelle
dichotome Variablen (Prozentsatzdifferenz, Odds Ratio)
Zusammenhangsmaße: WARUM?
Univariat: Beschreibung einer Variable mit Häufigkeitstabellen oder Lage- und Streuungsmaßen
Bivariat: Zusammenhänge zwischen zwei Variablen beschreiben. Wenn zwei Variablen miteinander zusammenhängn heißt das einfach gesagt: Wenn ich etwas über die eine Variable weiß, dann kann uch auch ungefähr schätzen wie die andere ausfällt
Im Alltag verlassen wir uns dauernt auf Zusammenhänge zwischen zwei (und mehreren) Variablen, die wir aus Erfahrung kennen
Richtung und Stärke des Zusammenhangs
Zusammenhangsmaße können die Stärke eines Zusammenhangs und (zumindedst einige von ihnen) auch die Richtung des Zusammenhangs angeben
Die Richtung des Zusammenhangs kann positiv oder negativ sein. Positive Zusammenhänge bedeuten: Mehr von der einen Variable geht tendenziell mit mehr von der anderen Variable einher. Negative Zusammenhänge bedeuten: Mehr von der einen Variable geht tendenziell mit weniger von der anderen Variable einher.
Die Richtung des Zusammenhangs kann mit einem Je/Desto-Satz beschrieben werden, z.B.: Je mehr investierte Lernzeit, desto besser ist das Testergebnis im Deutschtest. Je mehr Stunden Sport pro Woche, desto geringer das Körpergewicht.
Symmetrische und Asymmetrische Zusammenhangsmaße
Bei Symmetrischen Zusammenhangsmaßen ist es für die Berechnung egal, welche Variable als abhängig und welche als unabhängig betrachtet wird, der Wert des Zusammenhangsmaß bleibt der gleiche
Symmetrisch: Chi-Quadrat, Cramérs V, Korrelationskoeffizient
Bei Asymmetrischen Zusammenhangsmaßen ist es für die Berechnung relevant, welche Variable als abhängig und welche als unabhängig betrachtet wird, der Wert des Zusammenhangsmaß verändert sich dadurch
Asymmetrisch: Odds, Odds Ratio, Prozentsatzdifferenz, Regressionskoeffizient
Was sind Kreuztabellen?
Kreuztabellen (auch: Kontigenztabellen) zeigen die gemeinsame Verteilung von zwei Variablen. Um Sie voneinander zu unterscheiden bezeichnet man eine Variable als x (unabhängige Variable, UV) und die andere als y (abhängige Variable, AV). Wir könnten uns zum Beispiel die gemeinsame Häufigkeit der Variablen “Kontakt zu AusländerInnen im Freundeskreis” (y) und Wohnort in Ost- oder Westdeutschland (x) anschauen
Kreuztabellen: Randverteilung
In der letzten Zeile und der letzten Spalte finden Sie die Randverteilung
Spaltenprozente berechnen
Statt absolute Häufigkeiten zu vergleichen, ist es besser relative Häufigkeiten oder Prozente zu berechnen
Randverteilung und bedingte Verteilung vergleichen
Zusammenhang herausfinden
Ein Weg ist es, die bedingte Verteilung und die Randverteilung miteinander zu vergleichen – fokussieren Sie sich dabei auf die Prozente!
Wenn die bedingten Wahrscheinlichkeiten von der Randverteilung abweichen, dann weist das darauf hin, dass ein Zusammenhang vorliegt!
Korrelation ist nicht gleich Kausalität
Sie kennen vielleicht die Aussage “Korrelation ist nicht gleich Kausalität”. Eine Korrelation ist ein spezielles Zusammenhangsmaß für zwei metrische Variablen, der Satz gilt aber genauso für alle anderen Zusammenhangsmaße:
Die Tatsache, dass ein Zusammenhang vorliegt, bedeutet noch nicht, dass zwischen beiden Variablen eine Kausalzusammenhang (eine Ursache-Wirkungs-Beziehung) steht
Zusammenhänge können auch zufällig vorliegen oder durch eine dritte Variable beeinflusst werden – mehr dazu später im Semester
Kreuztabellen: Erwartete Häufigkeiten
Für jede Kreuztabelle lässt sich berechnen, wie die Häufigkeiten aussehen müssten, wenn kein Zusammenhang vorläge. Das nennt man erwartete Häufigkeiten. Die Tabelle, die diese Häufigkeiten zeigt nennt man Indifferenztabelle.
Zuletzt geändertvor einem Jahr