-Zusammenhänge
o zwischen zwei kategorialen Variablen: (häufig) Assoziation
§ Kreuztabellen (Spalten- und Zeilenprozente)
§ Prozentsatzdifferenz
§ Relatives Risiko
§ Odds Ratio (Chancenverhältnis)
§ Chi² und Cramér's V
o zwischen zwei metrischen Variablen: Korrelation
§ Kovarianz
§ Korrelation
-Meist haben wir eine These, was wovon abhängt/bedingt ist
o Abhängige Variable (aV), Y: Die, die wir erklären wollen und von der wir glauben, dass sie von der anderen abhängt/bedingt ist (auch: Outcome-Variable) (im Bsp. die Kinder mit Hochschulabschluss)
o Unabhängige Variable (uV), X: Die Variable, die die andere Variable vorhersagt/beeinflusst (auch: Prädiktor, erklärende Variable) (im Bsp. der Schulabschluss der Eltern)
-Zeilenprozente geben Auskunft über die Zusammensetzung einer Kategorie der Y-Variablen ==> aussagekräftig nur relativ zur Randverteilung!!
-Spaltenprozente geben die konditionale Verteilung der Y-Variablen für unterschiedliche Ausprägungen der X-Variablen an ==> werden zum Vergleich von verschiedenen Gruppen der X-Variablen verwendet
-Bei der Interpretation der Prozentsatzdifferenz muss man die Ausgangswerte berücksichtigen! Beispiel:
-Erhöhung von 3 Prozent auf 6 Prozent
= + 3 Prozentpunkte
= Verdopplung
= Steigerung um 100%
-Erhöhung von 93 Prozent auf 96 Prozent = + 3 Prozentpunkte
= minimaler Zuwachs
= Steigerung um 3,2%
==> Daher: Alternative Maßzahlen
-Ein einfaches Maß zur Beschreibung von Gruppenunterschieden ist die Prozentsatzdifferenz
-Relatives Risiko: Verhältnis zweier interessierender Anteilswerte
o Im Beispiel: Das „Risiko“ von Befragten aus Akademikerfamilien einen Hochschulabschluss zu erreichen ist 47,37% / 20,97% = 2,26 mal so groß (= mehr als doppelt so groß) wie das für Befragte, die nicht aus einer Akademikerfamilie stammen.
-Odds Ratio: Verhältnis des Verhältnis von Anteilswerten
-Beispiel: Verhältnis der "Chancen" von Befragten aus Nicht-Akademikerfamilien keinen Hochschulabschluss zu erreichen zu den "Chancen" von Befragten aus Akademiker- familien keinen Hochschulabschluss zu erwerben
-Die relative Chance von Personen aus Nicht-Akademikerfamilien, keinen Hochschul- abschluss zu erwerben, beträgt das 3,4-fache der Chance der Personen aus Akademiker- familien (um 3,4-fach größer!).
o Umgekehrt haben Sie nur eine 0,32-fache Chance für einen Hochschulabschluss.
==> Nein
Interpretation des Wertebereichs [0 bis +Unendlich]
Bsp.
-Beschreiben Zusammenhang zwischen zwei kategorialen Variablen – Grundidee: Vergleich von Indifferenztabelle (Variablen hängen NICHT zusammen) mit der TATSÄCHLICHEN Tabelle, die wir aufgestellt haben
-Bisherige Maße gut anwendbar bei 2*2 Tabellen – am Besten anwendbar
-Für größere Tabellen: andere Maßzahlen besser, z.B. Chi2 (X2) und X2-basierte Maßzahlen
-Beispiel: Haushaltsnettoeinkommen (X) und Wohnfläche (Y), fiktive Zahlen
-Drei Schritte zur Berechnung von Cramers V – Ausgangspunkt: Statistische Unabhängigkeit
o 1. Erwartete Häufigkeiten: Angenommen, Bildung der Eltern und eigene Bildung wären unabhängig, also: Befragten aus Akademikerfamilien und Nicht-Akademikerfamilien würden gleich häufig einen Hochschulabschluss erwerben, wie würde die Kreuztabelle in diesem Fall aussehen?
==> Aka Indifferenztabelle
o 2. Berechne X2 (Chi2): Sind die tatsächlich beobachteten Häufigkeiten sooo unterschiedlich von den erwarteten Häufigkeiten, dass wir schlussfolgern können, dass ein Zusammenhang besteht? ==> Berechne X2
§ Formel für Chi-Quadrat
o 3. Berechne Cramér's V: "Normiere" x2 in eine Maßzahl zwischen 0 und 1 (Wurzel ziehen)
o Enthält die Tabelle weniger Zeilen als Spalten, bezeichnet k die Anzahl der Zeilen, ansonsten die Anzahl der Spalten.
==> wenn Ergebnis negatives Vorzeichen hat, ist es vermutlich falsch
==> Maßzahl für die Stärke der Assoziation: Je näher Cramer's V an 1 , desto stärker ist der Zusammenhang der beiden Variablen
==> Starke Einflüsse in den Sozialwissenschaften eher selten – im Bsp. ist der Zusammenhang zwar da, aber im Verhältnis schwach, da die Bildung von vielen Faktoren abhängt
-Durchschnittliches Abweichungsprodukt von x und y vom jeweiligen Mittelwert
==> Viele Punkte in I und III ==> positive Produkte ==> eher positive Kovarianz
==> Viele Punkte in II und IV ==> negative Produkte ==> eher negative Kovarianz
==> für kontinuierliche/metrische Variablen geeignet
-Da die Kovarianz von den Einheiten von X und Y abhängt: "Normiere" sXY in eine Maßzahl zwischen -1 (negativer Zusammenhang) und 1 (positiver Zusammenhang)
-Dividiere die Kovarianz durch die Standardabweichungen von X und Y = Pearsons's Korrelationskoeffizient aka Korrelation
-Wertbereich von -1 bis 1 / r beschreibt nur lineare Zusammenhänge
Zuletzt geändertvor 5 Monaten