Nonresponse
Fallzahlen
zwei Typen von Nonresponse:
Unit-Nonresponse: für einen Fall liegen keinerlei Daten vor
z.B. Fragebogen nicht beantwortet wg. Verweigerung
ltem-Nonresponse: für einzelne Variablen eines Falls liegen keine Daten vor
z.B. Fragebogen beantwortet, aber einzelne Fragen ausgelassen
Ausschöpfungsquote
Brutto-Sample
- stichprobenneurtale Ausfälle ->keine aktive Entscheidung der Zielperoson
= Bereinigte Brutto-Stichprobe
- stichprobenneutrale Ausfälle
weitere Ausfälle (zufällige und systematische) ->Unit-Nonresponse
= Netto-Sample
Netto-Sample/Bereinigte Brutto-Stichprobe
Gründe für Item-Nonresponse
Ungültige Fälle in einer Variablen z.B. durch
nicht auswertbare Antwortkategorien
z.B. “weiß nicht“; “trifft nicht zu“
Verweigerung
z.B. zu persönlichen Fragen
Ungültige Angaben
z.B. Geburtsjahr 1788
z.B. Splits (Ankreuzen mehrerer statt einer Antwort)
Codebuch definiert, welche Antwort als gültig zugelassen sind
in der Analyse ggf. anzupassen
Häufigkeitsverteilungen
Verteilungen einer Variablen
Verteilung einer Variable wird gebildet von den einzelnen Ausprägungen einer Variable
z.B. Variable Bildung mit Ausprägungen „hoch“, „mittel“, „niedrig“
Darstellung der Verteilung dieser Ausprägungen
z.B. wie oft kommt Ausprägung „hohe Bildung“ vor
es handelt sich um eine Zusammenfassung der Ausprägungen der einzelnen Merkmalsträger
Individualmerkmale => Kollektivmerkmale
Absolute Häufigkeit
Anzahl der Fälle (n) pro Ausprägung (k) der Variable (X)
Bsp.:
Wie viele Männer sind in dieser Vorlesung?
Variable (X) = Geschlecht
Ausprägung (k) = Mann
Anzahl (n) = 44
Wie viele Personen sind Raucher*innen?
Wie viele der beobachteten Personen tragen eine Brille?
Relative Häufigkeiten
Anteil (p) der Fälle (n) pro Ausprägung (k) der Variable (X) an allen Fällen
Kumulierte Häufigkeiten
—>Wenn z.B. zwei oder mehr Ausprägungen zusammengefasst werden ->niedrige + mittlere Bildung
Häufigkeitstabellen
Häufigkeitstabellen - Prozent vs. Gültige Prozent
Prozent: Bei einer Ausfallanalyse wird immer auf der Grundlage aller Fälle prozentuiert
d.h. in der Häufigkeitstabelle taucht auch die Anzahl bzw. der Anteil ungültiger Fälle mit auf
Gültige Prozent: Bei der inhaltlichen Auswertung wird immer auf der Grundlage gültiger Fälle prozentuiert
d.h. ungültige Fälle werden bei der Häufigkeitsverteilung nicht berücksichtigt
Vgl. „Item-Nonresponse“
Siehe Folie für Beispiel aus der VL
Lagemaße Ausgangsproblem
Viele Variablen haben zu viele Auspräungen
Lösung I
Kategorien bilden, z.B. <160cm; 161 - 180cm; >180cm
Problem: Informationsverlust
Lösung II
Graphische Aufarbeitung
Problem: Keine Maßzahlen
Lösung III
Lage und Streuungsmaße
Lagemaße Grundsätzliches
Lagemaß: Veranschaulicht Zentrum einer Verteilung
Skalenniveau bestimmt zulässige Lagemaße
Modus/Modalwert: mind. Nominalskala
Median: mind. Ordinalskala
Arithmetisches Mittel: mind. Intervallskala
Median ist robuster gegenüber Ausreißern (d.h. Extremwerten) als arithmitsches Mittel, hat jedoch auch geringeren Informationsgehalt, da nur Wert(e) in der Mitte der Verteilung in Berechnung eingehen
Modus (auch: Modalwert)
—>Wert der am häufigsten auftaucht
Quantile (z.B. Median)
Quantil Formel
Beispiel Noten I: Median
Arithetisches Mittel
Beispiel Noten: arithmetisches Mittel
Streuungsmaße Grundsätzliches
Streuungsmaße = Grad der Abweichung vom Zentrum
Gebräuchlichste Streuungsmaße:
Varianz
Standardabweichung
Basieren beide auf dem arithmetischen Mittel
—>mind. Intervallskala nötig
Beispiel Note: Standardabweichung
Standardabweichungen im Histogramm
Beispiel: Standardabweichun und Berufsprestige
Darstellungsmöglichkeiten abhängig von Skalenniveau
kategoriale Variablen
nominal-skaliert
ordinal-skaliert
metrische Variablen
intervall-skaliert oder metrisch-skaliert
—>durch Bildung von Gruppen können metrische Variablen in kategoriale Variablen transformiert werden (Informationsverlust!)
z.B. Einteilung von absolutem Einkommen in 5 Einkommensklassen
Darstellung von Häufigkeitsverteilungen
Kategoriale Variablen I: Balkendiagramm (auch: Stabdiagramm)
Kategoriale Variablen II: segmentiertes Säulendiagramm
Kategoriale Variablen III: Kreis- und Tortendiagramm
Metrische Variablen I: Histogramm
Metrische Variablen III: Boxplot
Zusammenfassung
absolut, relativ, kumuliert
Lagemaße
Modus, Quantil (z.B. Median), arithetisches Mittel
Steuungsmaße
Standardabweichun bzw. dessen Quadrat, die Varianz
kategoriale Variablen: Balken, Säule, Kreis
metrische Variable: Histogramm, Boxplot
Maßzahlen erkennen
Wozu Lage und Streuungsmaße?
Gerade bei Variablen mit vielen Ausprägungen sind Häufigkeitstabellen keine geeignete Beschreibung, da einfach zu viele Informationen vorhanden sind, die wir nicht verarbeiten können (Siehe die Häufigkeitstabelle zu den Mieten)
Lage- und Streuungsmaße kondensieren eine Vielzahl von Informationen in nur einer Zahl, die für uns wieder interpretierbar ist
Mit Lage- und Streuungsmaßen können wir Fragen beantworten wie: Was ist der am häufigsten vorkommende Wert (Modus)? Welcher Wert teilt die Verteilung in 2/4/10 gleich große Teile (Quantile)? Welcher Wert markiert das Zentrum der Verteilung (arithmetisches Mittel)? Wie gleich oder ungleich verteilen sich die Werte der Variable (Standardabweichung)
Lagemaße und Skalenniveaus
Last changeda year ago