Was ist ein Datensatz?
Datensatz = aus dem Erhebungsverfahren generierte Auflistung aller Elemente (alle Merkmale aller Untersuchungseinheiten/Merkmalsträger) mit den zugehörigen numerischen Relativen
i.d.R. Individualdaten, d.h. Daten individueller Untersuchungseinheiten
Wie sind Datensätze aufgebaut?
Datensätze bestehen aus
Datenmatrix
Definitionen von
Variablenformat
Variablenlabel
Wertelabels
fehlenden Werten
alle gängigen Statistikprogramme (z.B. R, SPSS, STATA) folgen demselben Grundprinzip, auch wenn die Darstellung im Detail abweicht
Datenmatrix = Tabelle mit (i.d.R.) folgendem Aufbau
Zeilen: Merkmalsträger (=> Fälle)
befragte Personen (Befragung)
ausgewertete Zeitungsartikel (Inhaltsanalyse)
Kontobuchungen (Verhaltensspuren)
Spalten: Merkmalsausprägungen der jeweiligen Merkmale (=> Variablen)
Name
Länge Zeitungsartikel
gebuchter Betrag
Beispiel: Ansicht Datensatz in SPSS
Datenansicht mit
Spalten
üblicherweise Variablen, d.h. alle empirisch beobachteten Ausprägungen eines untersuchten Merkmals
Zeilen
üblicherweise Merkmalsträger/Fälle, d.h. alle Merkmale einer Untersuchungseinheit
Variablenansicht mit
Variablennamen
Variablenlabels
Kurzinfos der Variablen (bspw. Fehlende Werte und Skalenniveau)
Datensäze haben
Datenansicht
Variablenansicht
Wie wird aus einem Fragebogen ein Datensatz?
Wissenschaftliche Dokumentationspflicht
Man muss den Prozess nachvollziehen können
Dafür ist u.a. “Codebuch“ notwendig
In einem Codebuch werden den empirischen Relativen numerische Ausprägungen/Relative zugeordnet
ALLE statistischen Analyseverfahren verwenden das numerische Relativ
Nur mit Hilfe des Codebuchs kann der/die Forschende den Datensatz korrekt auswerten
Beispiel Schulabschluss:
Codebuch ordnet den Antworten eine Zahl zu
Datenquellen
GESIS Datensatz
Surveydaten
Mikrozensus
Struktur- bzw. Aggregatdaten
Prozessproduzierte Daten über die Behörden (falls frei zugänglich)
Supranationale Einrichtungen (z.B. eurostat)
NGOs
—>Es gilt immer: Quellenkritisch sein!
Datenaufbereitung - Einschränkende Anmerkung
Inhalt
Datenaufbereitung und –bereinigung quantitativer Daten
d.h. vergleichsweise wenige, fast ausschließlich standardisierte Daten zu jedem Fall, dafür aber mit vielen Fällen
Für die „Datenaufbereitung und Datenbereinigung in der qualitativen Sozialforschung“ vgl. Baur & Blasius (2019) – Kapitel 27
in Sitzung 10: Ausgewählte Qualitative Analysemethoden
Datenaufbereitung Definition
Die Datenaufbereitung „… beinhaltet vor allem das [..] Formatieren der Variablen, die Vergabe von Variablen- und von Wertelabels sowie das Definieren von fehlenden Werten.“ (Lück/Landrock 2019: 401)
Ziel: Vorbereitung der späteren Analyse
Datenaufbereitung - Labels für Variablen und Variablenausprägungen
Variablen brauchen einen Namen
Variablen und Variablenausprägungen brauchen eine Beschriftung (sog. „Labels“), damit sie interpretiert werden können
Sonst: Nur numerische Werte/Relative sicht- /interpretierbar
Vielfach nicht sinnvoll
Beispiel: Variablenname „dk05“ (vgl. Folie 21):
Variablenlabel: „Kinder ausser Haus“
Wertelabels: Bspw. -9 „keine Angabe“; 1 „Ja, Kinder ausser H.“ […]
Datenaufbereitung - Definition von fehlenden Werten
Definieren von fehlenden Werten (sog. „Missings“)
Im Beispiel: „-9 Keine Angabe“
andere Beispiele: weiß nicht, trifft nicht zu, Verweigerung
besondere Kennzeichnung, um nicht/separat ausgewertet zu werden
Beispiel: „-9“ sollte bei Häufigkeitsverteilung nicht berücksichtigt werden
Datenaufbereitung - Nachkodierung I: Bildung neuer Variablen
Nachcodieren bestimmter Informationen
z.B. Vereinfachung
verschiedene Bildungsabschlüsse zu Bildungsklassen (ISCED)
z.B. Metrisierung
Beispiel Schulbildung: einer ordinalen Variable (Schulabschluss) wird eine metrische Variable (Jahre Schule) zugeordnet
Bspw. Berufsprestige „socio-economic index of prestige scale“ (SIOPS)“: eine nominale Variablen (Beruf) wird zu metrischer Variable transformiert
—>Konsequenzen für die erlaubten/möglichen Analyseverfahren
z.B. Kombination von Infos aus verschiedenen Variablen
Altersdifferenz Ehepartner
Bildungsdifferenz Kind – Eltern
Migrationsgeschichte aus Geburtsort Befragte sowie Eltern
Datenaufbereitung - Nachcodierung II: Dummys
Dummy-Variablen = Variablen mit 2 Ausprägungen
„0“ oder „1“
„ja“ oder „nein“
nicht alle nominalen/ordinalen Variablen können „metrisiert“ werden
für multivariate Analyseverfahren (vgl. Sitzung 7) müssen nominale/ordinale Variablen in Dummys transformiert („rekodiert“) werden
z.B. Geschlecht (nominal) mit den Ausprägungen: „männlich“, „weiblich“, „divers“ wird in drei einzelne Dummies rekodiert:
männlich: ja/nein
weiblich: ja/nein
divers: ja/nein
Datenaufbereitung - Nachcodierung III: Analyseebene
Wechsel der Analyseebene von Individual- zu Kollektivebene
Erstellung von analytischen/strukturellen Kollektivvariablen (vgl. WS) auf Basis von Individualmerkmalen
z.B. individuelle Abweichung vom durchschnittlichen Einkommen der Stichprobe
Hinzuspielen von globalen Kollektivvariablen (vgl. WS)
z.B. Einwohnergröße, Bruttoinlandsprodukt, …
Zeitreihenanalysen (vom „wide“ ins „long“ Format)
unterschiedliche Erhebungszeitpunkte als Variablen einer Untersuchungseinheit (wide) vs. als einzelne Untersuchungseinheiten (long)
Datenaufbereitung - Nachcodierung IV: Gewichtung und Imputation
Gewichtung der Daten
Bspw.: Bei geschichteten Stichproben (vgl. WS)
Ziel: Ziehungsverhältnisse an die Grundgesamtheit anzupassen
Imputation von Daten
Fehlende Werte werden statistisch geschätzt
Notwendig: Ausreichende Kenntnis über „Randverteilungen“
—>Beide Verfahren sind nicht umstritten
Fehler bei der Datenerhebung und –aufbereitung finden und korrigieren bzw. aus den Analysen ausschließen
Beispiele für Fehler
unmögliche Angaben (z.B. Geburtsjahr 1781)
unwahrscheinliche Angaben (z.B.4 Kinder bei Alter 18 Jahren)
widersprüchlich Angaben (z.B. Kinderlos, aber Angabe zum Alter der Kinder)
Datenbereinigung Fehlerquellen
Erhebungsinstrument fehlerhaft implementiert
z.B. fehlende Kategorien bei Antwort
Reaktivität
z.B. soziale Erwünschtheit, Einflüsse Interviewer*in (vgl. WS)
Irrtümer durch Befragte
bspw. falsch erinnert, Verwechslungen, Filterfrage übersehen
bewusste Falschauskunft
Fälschung durch Interviewer*in
technische Fehler
z.B. falsche Filterführung im Online-Fragebogen
Tippfehler bei digitaler Erfassung
Datenbereinigung Fehlersuche
Start: Häufigkeitsauszählungen aller Variablen im Datensatz
Abgleich:
IDs nur einmal vergeben?
Zu viele fehlende Werte?
Werte innerhalb des gültigen Bereichs?
Alle Ausprägungen haben ein Wertelabel?
Wenn möglich: Korrekturen, sonst Ausschluss des Wertes für diesen Fall durch Definition eines fehlenden Wertes
Zusammenfassung
Datensätze als „Sammlung“ numerischer Relative zwecks statistischer Auswertung
bestehend aus Datenmatrix sowie Definitionen von Variablen
Datenstruktur: Anordnung der numerischen Relative
Datenaufbereitung
aus den Rohdaten werden Analysedaten, insbesondere Vergabe von Labels für Variablen und deren Ausprägungen => Vorbereitung der späteren Analysen
Definition von fehlenden Werten
Datenbereinigung
Fehlerquellen in den Daten suchen/finden
fehlerhafte Informationen ausschließen oder korrigieren
Wozu Werte und Wertelabel?
Alle statistischen Auswertungen beruhen auf Zahlen. Sie können schlicht nicht 𝑔𝑢𝑡+𝑔𝑢𝑡+𝑠𝑒ℎ𝑟 𝑔𝑢𝑡+𝑎𝑢𝑠𝑟𝑒𝑖𝑐ℎ𝑒𝑛𝑑/ 4 = ausrechnen, um eine Durchschnittsnote zu ermitteln
Sie können aber 2+2+1+4/4 = 2,25 ausrechnen und dadurch den Durchschnitt erhalten
Die numerischen Relative sind also für die Berechnung von Maßzahlen erforderlich. Ohne die empirischen Relative, bleibt die Bedeutung der Maßzahlen aber unklar. Sie müssten zum Beispiel Wissen, dass eine 1 eine sehr gute Note und eine 6 eine sehr schlechte Note kennzeichnet, um zu wissen wie eine Durchschnittsnote von 2,25 einzuordnen ist
Es braucht immer beides!
Fehlende Werte vergeben
Einige Werte beschreiben Antwortkategorien, die inhaltlich nicht interessant sind – zum Beispiel “Keine Angabe”, “Weiß nicht”, “Datenfehler”, “Filter” usw.
Für die Berechnung von Maßzahlen sollen diese Ausprägungen nicht berücksichtigt werden, dazu muss man diese Werte als sogenannten fehlende Werte oder missing values markieren
Oft werden für solche Kategorien numerische Werte vergeben die negative sind, zum Beispiel -9 oder -9999. Können Sie sich vorstellen warum man das macht?
Welche Werte eignen sich als “fehlende Werte”?
Theoretisch kann jeder Wert als fehlender Wert festgelegt werden, praktisch ist es aber einen oder nur wenige Werte als fehlende Werte für alle Variablen zu verwenden, z.B.: immer 99999 oder -5 – das spart Arbeit
Sehr hohe und negative Werte fallen bei der näheren Betrachtung von Variablen und beim berechnen von Maßzahlen schnell auf. Normalerweise schaut man sich am Anfang seiner Arbeit das Minimum, Maximum und/oder den Mittelwert seiner Variablen an – wenn das Minimum negativ oder das Maximum sehr hoch ist, fällt einem hier ggf. schon auf, dass man vergessen hat die fehlenden Werte festzulegen
Warum negative Werte?
Man sollte darauf achten wirklich hohe Werte zu verwenden, die bei keiner anderen Variable vorkommen. Wenn Sie sich beispielsweise entscheiden 99 als fehlenden Wert zu nehmen und anschließend in SPSS festlegen, dass die 99 immer als fehlender Wert gilt, dann schließen sie auch Personen die 99 Jahre alt sind oder ein Einkommen von 99 Euro angegeben haben aus - das passiert ihnen bei negativen Zahlen nicht, da negative Werte in der Regel nicht vorkommen
Datenaufbereitung kostet Zeit!
Sie sehen, die Datenaufbereitung (Hinzufügen von Wertelabeln und Variablenlabeln, festlegen von fehlenden Werten, Suche nach Fehlerquellen usw.) kostet viel Zeit – je größer der Datensatz, und vor allem, je mehr Variablen er enthält, desto mehr Zeit verbringen Sie mit dieser Aufgabe
Die Datenaufbereitung ist dazu da, den Datensatz soweit vorzubereiten, dass sie eine Analyse – egal welche – überhaupt durchführen können. Mit anderen Worten: Jede/r ForscherIn der/die den Datensatz verwendet, egal welche Fragestellung analysiert wird, muss diese (für einen Datensatz immer gleichen) Schritte vornehmen.
Einrichtungen wie die GESIS bieten Datensätze entweder bereits aufbereitet zum Download an oder liefert ein Syntaxfile mit, das Sie nur Ausführen und die Aufbereitung wird automatisch durchgeführt – dadurch sparen Sie als ForscherIn massiv Zeit! Danke GESIS <3
Dummy Variablen erstellen
Konfession: 1. Evang. ohne Freikirch, 2. Evang. Freikirch, 3. Roemisch-katoisch, 4. And. Christl. Religion, 5. And. Nicht-christl, 6. Keiner Reigionsgem.
Die Variable zur Konfession der Befragten hat 6
Ausprägungen. Diese Variable können wir in 6
Dummy-Variablen aufteilen
Die Dummy-Variable evang1 erhält den Wert 1, wenn ein Befragter der evangelischen Kirche (ohne Freikirche) angehört, alle anderen erhalten den Wert 0
Die Dummy-Variable evang2 erhält den Wert 1, wenn ein Befragter einer evangelischen Freikirche angehört, alle anderen erhalten den Wert 0
Die Dummy-Variable roeka erhält den Wert 1, wenn ein Befragter der römisch-katholischen Kirche angehört, alle anderen erhalten den Wert 0
….
Wozu braucht man Dummy-Variablen?
Dummy-Variablen sind ein Weg, wie polytome nominale oder ordinale Variablen in Regressionsanalysen verwendet werden können (Später in diesem Semester mehr dazu)
Wechsel der Analyseebene
Bei Befragungsdaten liegen Individualdaten vor, daraus lassen sich Kollektivdaten bilden, wenn man zum Beispiel den Mittelwert als Variable abspeichert
Jeder Befragte gibt sein Nettoeinkommen (Individualebene) an und das Bundesland (Individualebene), in dem er/sie lebt – daraus könnten wir das Durchschnittseinkommen pro Bundesland (Kollektivebene) berechnen
Wir könnten die Arbeitslosenquote pro Bundesland (Kollektivebene) recherchieren und diese als Variable dem Datensatz hinzufügen
Bei Zeitreihenanalysen kann zwischen dem long und wide Format gewechselt werden
Gewichtung und Imputation
Gewichtung: Bei einer Gewichtung werden Ungleichheiten, die bei der Stichprobenziehung entstanden sind mathematisch wieder ausgeglichen, sodass die Stichprobe möglichst genau die Grundgesamtheit abbildet
Bsp.: Für den ALLBUS werden mehr Ostdeutsche interviewt, als es dem Bevölkerungsanteil entspricht – dies wird mathematisch so ausgeglichen, dass Ostdeutsche heruntergewichtet und Westdeutsche hochgewichtet warden
Imputation: Wenn Daten fehlen (Stichwort fehlende Werte) kann man versuchen diese Daten zu schätzen. Wenn das Einkommen nicht angegeben wurde, man aber weiß, dass das Alter, Geschlecht, die Bildung und die Berufserfahrung relevant für das Einkommen sind und man diese Angaben hat – dann kann man auf der Grundlage dieser Merkmale eine Schätzung über das Einkommen anstellen.
Sowohl Gewichtung als auch Imputation sind nicht unumstritten. Gerade bei der Imputation von Daten muss man sich immer vor Augen halten, dass man mit seiner Schätzung ja auch falsch liegen könnte und einen Wert einträgt, der gar nicht der Realität entspricht. Wenn man dieses Verfahren bei einer großen Anzahl von Fällen anwendet, kann es also möglicherweise zu größeren Abweichungen zwischen der Stichprobe und der Grundgesamtheit kommen
Die Gewichtung von Daten ist ein recht übliches Verfahren, aber auch hier gibt es KritikerInnen. Wenn man beispielsweise eine Telefonumfrage unter 1000 Personen durchführt und nur 5 Personen unter 30 interviewt (obwohl es gemessen am Bevölkerungsanteil 50 sein müssten), kann man die Antworten dieser Personen mit dem Faktor 10 gewichten – die Antwort eines unter 30- jährigen zählt dann 10 mal so viel. Aber sind die 5 Personen unter 30 die einen Festnetzanschluss haben überhaupt repräsentativ für die unter 30-jährigen?
Last changeda year ago