Drittvariablenkontrolle Definition/Begrifflichkeit
Problemstellung
a) Nicht jeder bivarianten empirischen Zusammenhang in der Analyse liegt auch tatsächlich vor
b) Nur weil die Analyse keinen bivarianten empirischen Zusammenhang zeigt, kann dennoch einer vorliegen
a) Störche (X) —>Kinder (Y) (Urbanisierung [Z])
Es scheint zunächst zwischen die Anzahl der Kinder und die Anzahl von Storchen einen Zusammenhang geben. Aber hinter dem steckt eine Drittevariable, welche die Anzahl der Kinder erkärt und zwar die Urbanisierung.
b) für unter 30-Jährige: Bildung (X) —> Heirat (Y) (Geschlecht [Z])
„Mit Hilfe der Drittvariablenkontrolle kann untersucht werden, ob ein bivariat beobachteter Zusammenhang zwischen zwei Variablen bei der gleichzeitigen, simultanen Analyse von drei oder mehr Variablen stabil bleibt, geringer ausfällt, gar nicht vorhanden ist […]“ (Kühnel/Krebs 2012: 386f)
—>Fokus hier: 3 kategoriale Variablen
—>Diagnose mit Kreuztabellen
->hat eine dritte Variable Einfluss auf den Zusammenhang von X & Y und wenn ja, welchen?
—>genaue Analyse (von 3+ Variablen) mit Regressionsmodellen
Drittvariablenkontrolle in Tabellenanalyse: Vorgehen
Kontingenztabelle für bivariaten Zusammenhang X und Y => Marginaltabelle (keine Kontrolle des Einflusses von Z)
für jede Ausprägung von Z: Partialtabellen
in jeder Partialtabelle ist Ausprägung von Z konstant (=> kein Einfluss mehr von Z)
Vergleich der Stärke des Zusammenhangs von X und Y in Marginaltabelle und Partialtabellen
WENN: Zusammenhang von X und Y in allen Tabellen (Marginaltabelle + alle Partialtabellen) gleich => kein Einfluss der Drittvariablen Z auf Zusammenhang X & Y
WENN Unterschiede => Effekt von Z. Aber welcher?
Formen des Drittvariableneinfluss
Der Zusammenhang verschwindet in den Teilgruppen (Scheinkausalität)
Ein ursprünglich nicht vorhandener Zusammenhang wird in den Teilgruppen sichtbar (Suppression)
Die Zusammenhangsstärke unterscheidet sich in den Teilgruppen (Interaktion)
⇒Idealtypen
⇒d.h. in der Praxis häufig Mischformen bzw. weniger eindeutig!
⇒außerdem i.d.R. Zusammenhänge von mehr als drei Variablen
Formen des Drittvariableneinfluss: Scheinkausalität I
Der Zusammenhang zwischen X und Y resultiert aus dem Einfluss der Drittvariablen Z, die auf beide wirkt
Urbanisierung (Z) wirkt negativ auf Anzahl an Kindern (Y) und Anzahl der Störche (X)
Beispiel (fiktiv) Störche (X), Geburten (Y), Urbanität (Z)
Prozentsatzdifferenz d für hohe Geburtenrate zwischen vielen und wenigen Störchen: +25,3PP
mehr Geburten bei mehr Störchen!
Partialtabellen für jede Ausprägung von Z (ländlich, urban)
Prozentsatzdifferenz in beiden Fällen von Z: 0 PP
für jede Partialtabelle gilt: Anzahl Störche hat keinen Einfluss auf Geburten!
aber man sieht in Randverteilung: in ländlichen Gebieten häufig höhere Geburtenrate (70%) als in urbanen Gebieten (20%)
—>Urbanität (Z) sorgt in der Stadt für weniger Störche und weniger Geburten
Formen des Drittvariableneinfluss: Suppression
X und Y scheinen unkorreliert, z.B. weil der negative Zusammenhang zwischen Z und X den eigentlich positiven Zusammenhang zwischen X und Y unterdrückt
Männer und Frauen/divers u30 (X) zeigen gleiche Wahrscheinlichkeit ledig zu sein (Y); kontrolliert man für das Ausbildungsniveau (Z) zeigt sich:
Hohe/niedrige Ausbildung korreliert pos./neg. mit Geschlecht
—>hohe Ausbildung Frauen/divers ledig; Männer verheiratet (und vice versa)
Formen des Drittvariableneinfluss: Interaktion
Stärke des Zusammenhangs zwischen X und Y unterscheiden sich in den Gruppen von Z
Z „moduliert“ die Stärke des Zusammenhangs
es gibt einen positiven Zusammenhang zwischen Einkommen (X) und Schönheitsoperation (Y). Dieser Zusammenhang tritt für Frauen/divers deutlicher hervor als für Männer. Der Einkommenseffekt interagiert mit dem Geschlecht (Z).
Prozentsatzdifferenzen in Partialtabellen unterscheiden sich
Drittvariablenkontrolle Zusammenfassung
Problemstellung: Es gibt eine ganze Reihe von Drittvariableneinflüssen, die einen bivariaten Zusammenhang verzerren können
Scheinkausalität, Suppression, Interaktion
Konsequenz: Der „wahre“ Zusammenhang kann bivariat nicht gemessen werden
Lösung: Theoretische Überlegungen führen zur statistischen Kontrolle auf mögliche verzerrende Einflüsse
im einfachsten Fall (3 kategorialen Variablen) => Tabellenanalyse
sonst: Regressionsanalyse
Lineare Regression Ziel
quantitative Beschreibung des Zusammenhangs von einer abhängigen Variable (AV) sowie
a) einer unabhängigen Variable (UV): bivariate Regression
b) mehreren unabhängigen Variablen (UVs): multivariate R.
Prognose / Vorhersage des Werts von AV (Y) für beliebige Werte der UV (X)
für multivariate Regression: gleichzeitige Betrachtung des Effekts von mehreren unabhängigen Variablen
=> d.h. Kontrolle des Effekts von (mehreren) Drittvariablen
formal: Varianzaufklärung der abhängigen Variablen durch die Verwendung von unabhängigen Variablen
Varianz = Durchschnittliche quadrierte Abweichung der faktischen Merkmalswerte vom arithmetischen Mittel
Lineare Regression Grundidee
Beispiel Lineare Regression: besuchte Vorlesungen und Klausurpunktzahl
Lineare Regression Voraussetzungen
es gibt einen gerichteten (asymetrischen) Zusammenhang
d.h. UV wirkt auf AV
es handelt sich um einen linearen Zusammenhang
der Zusammenhang lässt sich als Gerade darstellen
metrisches Messniveau der abhängigen Variablen
UVs: Metrisches Niveau, dass schließt auch dichotome Variablen ein, wenn als Dummy (0/1) kodiert
(annäherungsweise) Normalverteilung von UV und AV
Normalverteilung (später noch ausführlicher!)
glockenförmige (unimodale) symmetrische Verteilung
soll heißen: es gibt jeweils einen zentralen Wert von X und Y, der besonders häufig vorkommt, während alle anderen Werte relativ seltener vorkommen, und zwar um so seltener, je weiter diese vom zentralen Wert entfernt liegen
=> relativ häufig gegeben
Lineare Regression
Begrifflichkeiten
Namen
Lineare Regression; Kleinste-Quadrat-Regression; Ordinary Least Square Regression; OLS-Regression
Abhängige Variable
Y-Variable; abhängige Variable; AV; Regressand
Unabhängige Variable(n)
X-Variable(n); unabhängige Variable(n); UV(s); Regressor(en); Prädiktor(en)
Unterschiede
Bivariate lineare Regression (UV, AV)
Trivariate lineare Regression (UV, UV, AV)
Multiple bzw. multivariate Regression (n-UV; AV)
Didaktisches Vorgehen
Bivariate lineare Regression
Allg. Geradengleichung
Mathematische Grundlagen
Regressionskoeffizienten und -konstante
Metrische Variablen
Determinationskoeffizient (R²)
Trivariate lineare Regression
Metrische und dichotome Variablen
Standardisierte, unstandardisierte Reg.Koeff. und Konstante
Multivariate lineare Regression (nächste Woche)
Metrische, dichotome und ordinale Variablen
Varianzaufklärung: Determinationskoeffizient (R²)
Bivariate lineare Regression Optional
Wie ist der Effekt von Vorlesungsteilnahme auf Klausurergebnis?
Wie ist der Effekt der Vorlesungsteilnahme auf das Klausurergebnis?
Determinationskoeffizient r² / R²
Beispiel: Determinationskoeffizient / R²
Bivariate lineare Regression Zusammenhänge
Ist die Scheinkausalität so ähnlich wie der ökologische Fehlschluss?
Beide haben eine Gemeinsamkeit: Es gibt zunächst mal einen Zusammenhang der aber nachher vielleicht doch keiner ist
Beim ökologischen Fehlschluss geht man davon aus, dass der Zusammenhang bivariat auf Makroebene vorliegt (z.B.: Anzahl Nobelpreisträger und Schokoladenkonsum pro Jahr), aber man deshalb nicht auf die Individualebene (wenn eine Person viel Schokolade isst, dann hat sie eher einen Nobelpreis) schließen darf.
Bei der Scheinkausalität bleiben wir immer auf der selben Ebene, gehen aber davon aus dass der bivariate Zusammenhang durch eine dritte Variable hervorgerufen wird
Ökologischer Fehlschluss vs. Scheinkausalität
Auf der Makroebene liegt ein Zusammenhang zwischen der Anzahl an Störchen und der Geburtenrate vor. Der ökologische Fehlschluss wäre, nun zu behaupten, dass Störche Kinder bringen.
Auf der Makroebene liegt ein Zusammenhang zwischen der Anzahl an Störchen und der Geburtenrate vor. Eine Scheinkausalität liegt dann vor, wenn der Zusammenhang verschwindet, sobald wir eine dritte Variable z.B.: Urbanität, berücksichtigen.
Drittvariablenkontrolle: Warum?
Mit der Drittvariablenkontrolle können wir überprüfen, ob ein Zusammenhang zwischen zwei Variablen möglicherweise durch eine dritte, unbeobachtete, Variable hervorgerufen wird
Dabei kann es passieren, dass…
…Zusammenhänge verschwinden, sobald die dritte Variable kontrolliert wird (Scheinkausalität)
…Zusammenhänge stärker werden, sobald die dritte Variable kontrolliert wird (Suppression)
…Zusammenhänge in verschiedenen Gruppen unterschiedliche stark ausfallen (Interaktion)
Drittvariablenkontrolle: Übersicht
Die Regressionsgerade
Die beste Gerade ist die, bei der die Summe der quadrierten Abstände der Werte zur Gerade am kleinsten ist
Deswegen nennt man das Verfahren, mit dem man
diese Gerade findet auch: Ordinary Least Squares-Regression oder die Kleinst-Quadrat-Methode
Mit der linearen Regression können wir berechnen wo diese Gerade die Y-Achse schneidet (Konstante) und wie steil sie ist (Steigung), dadurch wissen wir wie sie aussieht und können Schätzwerte berechnen
Die Geradengleichung
Wir können die Gerade also in Form einer Geradengleichung beschreiben, formal sieht das so aus: 𝒃𝟎 + 𝒃𝟏 ∗ 𝒙𝟏
𝒃𝟎 steht für die Konstante, also den Wert, an dem die Gerade die Y-Achse schneidet. Sie beschreibt wie viel der abhängigen Variable ein Befragter hat, der auf der unabhängigen Variable den Wert 0 hat
𝒃𝟏 beschreibt die Steigung der Geraden, also um wie viele Einheiten sich die abhängige Variable verändert, wenn die unabhängige Variable um eine Einheit steigt.
𝒙𝟏 steht für die Ausprägung der unabhängigen Variable, wenn wir einen Schätzwert berechnen wollen (später), setzen wir für 𝑥1 einen Wert der unabhängigen Variable ein
Wie berechnet man Steigung und Konstante?
Der Steigungskoeffizient wird berechnet, indem man die Kovarianz von x und y durch die Varianz von x teilt
𝑏1 = 𝐾𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧 (𝑥, 𝑦)/𝑉𝑎𝑟𝑖𝑎𝑛𝑧 (𝑥) = 𝑐𝑜𝑣𝑥𝑦/ 𝑠x2
Die Konstante erhält man, indem man den Steigungskoeffizienten mit dem Mittelwert der unabhängigen Variable (x) multipliziert und das Ergebnis vom Mittelwert der abhängigen Variable
Was sind Residuen?
Wenn wir nochmal auf die Grafik schauen sehen wir: Die Regressionsgerade trifft zwar einige Punkte genau, aber viele Punkte liegen ja trotzdem “daneben”
Wir haben also bei unseren Schätzwerten auch immer Fehler, da wir mit der Schätzung nur eine Annäherung berechnen können, nicht immer den exakten Wert
Diese Abstände zwischen dem Schätzwert und dem tatsächlichen Ergebnis nennt man: Residuen
Schätzwert vs. tatsächlicher Wert
Dadurch, dass auch bei unserer Schätzung mit der Geradengleichung Fehler passieren,
muss man zwei Dinge auseinander halten
Die Geradengleichung beschreibt einen Schätzwert, diesen bezeichnen wir mit y-Dach, dieser ist nicht immer identisch mit dem tatsächlichen Wert: y dach = 𝑏0 + 𝑏1 ∗ 𝑥1
Wenn wir eine Gleichung für den exakten Wert aufstellen wollen würden, müssen wir die Residue, also unseren Schätzfehler mit in die Gleichung aufnehmen. Den tatsächlichen Wert bezeichnen wir mit 𝑦𝑖 = 𝑏0 + 𝑏1 ∗ 𝑥1 + e
Wie nennt man den Abstand zwischen den Schätzwerten und den tatsächlich gemessenen Werten?
Residuen, Schätzfehler, Fehler
Welchen Wert bezeichnet man mit 𝑦dach ?
Die Schätzwerte der abhängigen Variable (y)
Was wird in der Formel zur Berechnung der Regression minimiert?
Die Summe der quadrierten Abstände zwischen den Schätzwerten und den tatsächlichen Werten
Warum wird die Summe der quadrierten Abstände zwischen Schätzwerten und tatsächlichen Werten minimiert?
Weil die unquadrierten Abstände sich zu 0 ausgleichen würden
Welche Werte müssen Sie kennen, um die Regressionskoeffizienten b1 und b0 ausrechnen zu können?
Für den Steigungskoeffizienten: Die Kovarianz von x und y und die Varianz von x
Für die Konstante: Den Steigungskoeffizienten und die Mittelwerte von x und y
Zuletzt geändertvor einem Jahr