Wie können wir zwei kategoriale Variablen gemeinsam beschreiben?
Kreuztabelle mit Häufigkeiten
Abbildung
Randverteilung (Total) = Bedingungslose (univariate) Verteilung
Bedimgte Verteilung: Wie sind die Werte einer Variable verteilt, unter der Bedingung, dass der Wert einer anderen Variable k ist?
Kreuztabelle mit Spaltenrozenteb
Abbildung:
Notation für Kreuztabellen
Kreuztabelle bei Stata
tab var1 var 2
—> Y in Zeilen , X in Spalten
Mit Spaltenprozenten: tab var1 var2, col
Mit Zeilenprozenten: tab var1 var2, row
Beides: tab var1 var2, row col
Beides übersichtlicher ohne Häufigkeiten:
tab var1 var2, nofreq row col
Grafische Abbildung
Kreuztabelle mit Zeilenprozenten
Anordnung von Kreuztabellen
Meist haben wir eine These, was wovon abhängt/bedingt ist
•Abhängige Variable (aV) ,Y: Die, die wir erklären wollen und von der wir glauben,dass sie von der anderen abhängt/bedingt ist (auch: Outcome-Variable)
• Unabhängige Variable (uV) ,X: Die,die die andere Variable vorhersagt (auch: Prädiktor, erklärende Variable)
• Konvention:AbhängigeVariablewirdindenZeilenabgetragen
—> Spaltenprozent zum Vergleich der bedingten Verteilungen unter X
Prozentsatzdifferenz
• Ein einfaches Maß zur Beschreibung von Gruppenunterschieden ist die Prozentsatzdifferenz
Abbilfung:
• Besonders gut anwendbar auf 2*2 Tabellen
• Einheit: Prozentpunkte (PP)!
Avvildung:
Interpretation
• Die Bildung der Eltern hat einen Einfluss auf das Erreichen eines Hochschulab- schlusses, denn:
• Haben die Eltern keinen Hochschulabschluss, ist der Anteil der Personen mit Hochschulabschluss 26 Prozentpunkte geringer
Warum wir bei Prozentuierungen und Prozenten aupassen sollten
Interpretation Spalten- und Zeilenprozente
• Zeilenprozente geben Auskunft über die Zusammensetzung einer Kategorie der Y-Variablen
—> aussagekräftig nur relativ zur Randverteilung!!
• Spaltenprozente geben die konditionale Verteilung der Y-Variablen für unterschiedliche Ausprägungen der X-Variablen an
—> werden zum Vergleich von verschiedenen Gruppen der X-Variablen verwendet
Prozentpunkte und Prozente
Bei der Interpretation der Prozentsatzdifferenz muss man die Ausgangswerte berücksichtigen! Beispiel:
• Erhöhung von 3 Prozent auf 6 Prozent
= + 3 Prozentpunkte
= Verdopplung
= Steigerung um 100%
• Erhöhung von 93 Prozent auf 96 Prozent = + 3 Prozentpunkte
= minimaler Zuwachs
= Steigerung um 3,2%
• Daher: Alternative Maßzahlen
WIe könnne wir zwei kategoriale Variablen gemeinsam beschreiben?
Relatives Risiko (in Praxis eher selten=A
• Relatives Risiko: Verhältnis zweier interessierender Anteilswerte
• Im Beispiel: Das „Risiko“ von Befragten aus Akademikerfamilien einen Hochschulabschluss zu erreichen ist 47,37% / 20,97% = 2,26 mal so groß (= mehr als doppelt so groß) wie das für Befragte, die nicht aus einer Akademikerfamilie stammen.
Odds Ratio/ Chancenverhältnis
• Odds Ratio: Verhältnis des Verhältnis von Anteilswerten
• Berechnung des ORs
Odds Ratio
Beispiel: Verhältnis der "Chancen" von Befragten aus Nicht-Akademikerfamilien keinen Hochschulabschluss zu erreichen zu den "Chancen" von Befragten aus Akademiker- familien keinen Hochschulabschluss zu erwerben
Abbildungen:
Die relative Chance von Personen aus Nicht-Akademikerfamilien, keinen Hochschul- abschluss zu erwerben, beträgt das 3,4-fache der Chance der Personen aus Akademiker- familien (um 3,4-fach größer!).
Umgekehrt haben Sie nur eine 0,32-fache Chance für einen Hochschulabschluss.
ONLIEN AUFGABE
ODDS RATIO
Odds ungleich Wahrscheinlichkeit
Odds Ratio: Intepretation des Wertebereichs ( o bis + unendlich)
Chi2 - Cramvers V
• Bisherige Maße gut anwendbar bei 2*2 Tabellen
• Für größere Tabellen: andere Maßzahlen besser, z.B. Chi2 (c2) und c2-basierte Maßzahlen
Drei Schritte zur BErechnung von Cramers V
1. Erwartete Häufigkeiten: Angenommen, Bildung der Eltern und eigene Bildung wären unabhängig, also: Befragten aus Akademikerfamilien und Nicht-Akademikerfamilien würden sich
nicht unterscheiden, wie würde die Kreuztabelle in diesem Fall aussehen? Aka "Indifferenztabelle"
(BErechnung von Chi2)
q2. Berechne c2 (Chi2): Sind die tatsächlich beobachteten Häufigkeiten sooo unterschiedlich von den erwarteten Häufigkeiten, dass wir schlussfolgern können, dass ein Zusammenhang besteht?
—> Berechne X2
(Wie stark weiche beobachtetet Werte von erwarteten ab?)
ABBILDUNG:
Formel Chi2
Abbildung (Formel)
• Chi2 = 0 , wenn es keinen Zusammenhang von X und Y gibt, denn dann ist nij = eij
ONLINE AUFGABE
Berechnung von Chi2
Kleinster Wert (min) & größter Wert (max) von Chi2
• Bei Unabhängigkeit ist Chi2 min= 0
• Bei maximaler Abhängigkeit (perfekter Zusammenhang) ist CHi2 max= n*(k-1)
(Enthält die Tabelle weniger Zeilen als Spalten, bezeichnet k die Anzahl der Zeilen, ansonsten die Anzahl der Spalten.)
—> Chi2 max hängt von der Anzahl der Zeilen bzw. Spalten der Tabelle ab
Cramers V
3. Berechne Cramér's V: "Normiere" c2 in eine Maßzahl zwischen 0 und 1
Cramér's V = Abbildung:
—> Maßzahl für die Stärke der Assoziation: Je näher Cramer's V an 1 , desto stärker ist der Zusammenhang der beiden Variablen
Berechnung von Cramers V
Welche Sapskete eines Zusammenhangs lassen sich in einem Streudiagramm erkennen?
Biepspiel Abbildung:
Welche Aspekete eines Zusammenhangs lassen sich in einem Streudiagramm erkennen?
Richtung, Form. VErteilung, Ausreißer
Vier wesentliche Aspekte zur Beschreibung eines Streudiagramms
• Richtung: positiv/negativ
• Form: linear/nicht-linear
• Verteilung: dicht/weit gestreut
• Ausreißer: ja/nein
Wie kann man die Stärke eines Zusammenhangs zwischen zwei kontinuierlichen Variablen messen?
Kovarianz
Drei Schritte zur Berechnung der Kovarianz sxy aka Cov(Y,X)
1. Berechne die beiden arithmetischen Mittelwerte p𝒙 and p𝒚
2. Berechne die Abweichungen der Beobachtungen vom Mittelwert 𝒙𝒊 − p𝒙 und 𝒚𝒊 − p𝒚
3. Berechne den Mittelwert der Produkte (𝑥< − 𝑥̅)(𝑦< − 𝑦v)
Interpretation der Kovarianz
• Für Punkte in I and III : (𝑥< − 𝑥̅)(𝑦< − 𝑦v) positiv.
• Für Punkte in II and IV: (𝑥< − 𝑥̅)(𝑦< − 𝑦v) negativ.
• Je mehr positiv/negativ das jeweilige Produkt
(𝑥< − 𝑥̅)(𝑦< − 𝑦v) ist , desto mehr trägt der Datenpunkt
(xi,yi) zur Kovarianz bei
• Wenn man die Produkte (𝑥< − 𝑥̅)(𝑦< − 𝑦v)aufsummiert,
sieht man, ob/wie stark die positiven bzw. negativen überwiegen
ABbildung:
beschreibt die Richtung des Zusammenhangs / anhand der Kovarianz erkennt. man Zusammenhang
Abbildung Tutorium:
Korrelation
• Da die Kovarianz von den Einheiten von X und Y abhängt:
"Normiere" sXY in eine Maßzahl zwischen -1 (negativer Zus.hang) und 1 (positiver Zus.hang)
• Dividiere die Kovarianz durch die Standardabweichungen von X und Y —>
Pearsons's Korrelationskoeffizient aka Korrelation
Interpretation der Korraltaion
Korrelation in Stata
correlate var1 var2
Abkürtzung: cor
Spearmen Rangkorrelation??
Was sagt uns eine Korrelation was nicht?
Korrelation nicht sinnvoll für nicht-lineare Zusammenhänge
Abbildungen_
Ökologischer Fußabdruck
“Correlation ain’t causation!”
Anbbildung:
Zuletzt geändertvor 5 Monaten