5. Quantitative Daten aufbereiten

Buffl

Quantitative Sozialforschung

by Lena F.

Rohdatenmaterial

unbehandelte bzw. noch nicht weiterverarbeitete Daten einer Untersuchung

Bereinigung und Aufbereitung des Rohdatenmaterials

technisch Anspruchsvoll, enthält potenzielle Fehlerquellen
praktische Bedeutung in den letzten Jahren nicht zuletzt aufgrund der Masse an digitalen Daten und internationalen Forschungskooperationen deutlich gestiegen
Rohdatenmaterial enthält oft Inkosistenzen und Lücken, existiert in verschiedenen Formaten, ist, insgesamt schwer zu überblicken
muss sortiert, kommentiert, anonymisiert, bereinigt und transformiert werden
kann zeitintensiver als die tatsächliche Auswertung sein

Wichtigeste Schritte der Datenaufbereitung

(nicht immer trennscharf)

Erstellung der Datensätze
Kommentieren der Datensätze
Anonymisieren der Datensätze
Datenbereinigung
Datentransformation

Wichtigeste Schritte der Datenaufbereitung

Erstellung der Datensätze

Umwandlung des Rohmaterials in strukturierte Datensätze durch

Sortierung,
Zuordnung,
Digitalisierung,
Formatierung

Wichtigeste Schritte der Datenaufbereitung

Kommentieren der Datensätze

Ergänzung um Metainformation wie

Erhebungsdatum
Wellenbezeichnung in einer Trackingstudie,
Vergabe von Variablen- und Wertelabels

Wichtigeste Schritte der Datenaufbereitung

Anonymisierung der Datensätze

nach DSGVO = Verordnung der EU mit der die Regeln zur Verarbeitung personenbezogener Daten durch private Unternehmen und öffentliche Stellen EU-weit vereinheitlicht wurden

-> es müssen alle Informationen, die zur Identifikation von Teilnehmenden dienen könnten, entfernt werden

Wichtigeste Schritte der Datenaufbereitung

Datenbereinigung

Herausfinden und Korrektur fehlerhafter numerischer Angaben, Entfernung von Dubletten, Umgang mit fehlenden Werten

Wichtigeste Schritte der Datenaufbereitung

Datentransformation

Daten zusammenfassen und Rekodieren um bestimmte Auswertungen zu ermöglichen oder auch um die Daten für die Generierung von repräsentativen Ergebnissen zu gewichten

Funktion der Datenaufbereitung

Vermeidung fehlerhafter Ergebnisse und Folgefehler
Vermeidung von Schwierigkeiten und Verzögerungen bei der Datenanalyse
Wiederverwendbarkeit sicherstellen für Reanalyse oder Sekundäranalyse
Ethische Probleme vermeiden

Reanalyse

wiederholte Analyse durch Forscher selbst

Sekundäranalyse

wiederholte Analyse durch andere Forschende

Statistikprogramm

mit Beispielen

Software zur Berechnung von statistischen Kennzahlen und komplexen Auswertungsverfahren, wird genutzt um quantitative Datensätze zu erstellen und zu analysieren.

zum Beispiel:

SPSS (Statistical Package for the Social Siences) von IBM
- Marktführer
- modular aufgebaut, hoher Preis
Stata (Open Source)
PSPP (freier Anbieter)
- freier und kompatibler Ersatz für SPSS
- begrenzter Umfang und begrenzte Optionen -> nur für einfache Grundauswertungen zu empfehlen
R (freier Anbieter)
- orientiert sich an der Programmiersprache S (für statitstische Berechnungen und Grafiken, aus Mitte 70er Jahre)

Vorgehen zum Erstellen von Datensätzen in SPSS

bei Online-Befragung

Ergebnisse können einfach in SPSS Format exportiert werden, man kann mit der Datenbereinigung beginnen

Vorgehen zum Erstellen von Datensätzen in SPSS

bei schriftlicher Befragung

um diese Daten in die Software zu bekommen, braucht es zunächst eine Codierung!

Vorgehen zum Erstellen von Datensätzen in SPSS

Schritt 1: Daten codieren

Codeplan

Zuordnung der Fragen- und Antwortoptionen zu Zahlencodes für die Verwendung von Statistikprogrammen

Fragen bekommen einzelne Variablennamen aus Buchstaben und Ziffern
Variablen können unterschiedliche Merkmalsausprägungen (Antwortmöglichkeiten) besitzen
Fragebogen hat selbst auch eine ID, um die Daten identifizierbar zu machen

Vorgehen zum Erstellen von Datensätzen in SPSS

Schritt 2: Variablen eingeben

wenn man SPSS startet, erhält man einen leeren Variablenmonitor, in den man die Variablen, wie sie im Codeplan definiert wurden, eingibt
Variablen eingeben und die Variablenwerte (Merkmalsausprägungen) dazu eingeben

Vorgehen zum Erstellen von Datensätzen in SPSS

Schritt 3: Eigentliche Codes eingeben

Werden in den Dateneditor eingegeben - wie ein Spreadsheet

-> sind alle Variablen angeleht und alle Fragebögen eingegeben, hat man die Rohdaten in einem strukturierten SPSS Datensatz und kann mit der Bereinigung fortfahren

Datenbereinigung

Ziel

möglichst hohe Datenqualität

Datenbereinigung

Datenqualität kann festgemacht werden an…

Vollständigkeit
Einheitlichkeit (z.B. von Datums- und Währungsangaben)
Ausschluss doppelter Werte/mehrfacher Datenzeilen
Sachgerechte Behandlung von Ausreißerwerten
Plausibilität der Antwortmuster

Datenbereinigung

Schritte

kommentierten und strukturiereten Datensatz erstellen
Überblick über vorhandene Daten verschaffen
Anonymisieren

Datenbereinigung

Schritt 2: Überblick über vorhandene Daten verschaffen

z.B. Häufigkeitsverteilung erstellen

hier fällt auf, wenn unbekannte Werte im Ergebnis sind, die geprüft werden müssen
Fehler können auch entstehen, wenn mehrere Datensätze zusammengefasst werden (z.B. mehrere Wellen (Zeitpunkte) der gleichen Befragung und nicht alle Datensätze gleich kodiert wurden
unvollständige oder nicht ernsthaft ausgefüllte Datensätze sollten ggfs. rausgenommen werden (geringer %satz ist normal)
- bei Online-Befragungen sind nicht erstnsthaft ausgefüllte Bögen eher vermeidbar, weil nur gewisse Werte eingegeben werden können, Geschwindigkeit des Ausfüllens (Ausfülldauer wird erhoben) und stereotype Antwortmuser aussortiert werden können

Datenbereinigung

Schritt 3: Anonymisieren

es darf unter keinen Umständen ersichtlich sein, wer welche Angaben gemacht hat (DSGVO)
es muss überlegt werden, welche Daten eliminiert werden müssen, auch wenn sie relevant sein könnten, oder ob man andere Sicherheitsmechanismen (z.B: verstärkte Rechteverwaltung) sinnvoll sind, wenn sich durch die Dateneingrenzen lässt, um wen es sich handeln könnte
Löschen der IP-Adressen der Rechner, von denen aus auf die Online-Befragung zugegriffen wurde -> sollten eigentlich gar nicht erhoben werden, braucht es aber um festzustellen, ob eine Person den Bogen mehrere Male ausgefüllt hat

Datentransformation

erste Schritte

Nach der Dateneingabe, Codierung und Datenbereinigung den Datensatz speichern und für die Datentransformation mit einer Kopie weiterarbeiten, damit man noch Backup hat, wenn Daten verloren gehen!
Transformationsoption als Befehlssyntax (Befehlssprache in SPSS, liegt jedem Befehl zugrunde während man in SPSS arbeitet) ausgeben lassen, damit der Prozess der Datenaufbereitung transparent ist und von Außenstehenden nachvollzogen werden kann

Datentransformation

bezieht sich auf…

Umgang mit fehlenden Werten
Umcodierung von bestehenden Variablen
Bildung neuer Variablen
Gewichtung von Stichproben

Datentransformation

bezieht sich auf…

Umgang mit fehlenden Werten

wenn Befragte Antwortoptionen übersehen haben, eine Frage überspringen oder eine ungültige Antwort geben
Grund muss rausgefunden werden, um zu entscheiden, wie man mit dem Wert umgeht
fehlende Werte sollten mit eigenständigen Codes gekennzeichnet werden, dann kann auch rausgefunden werden, ob ein Wert wirklich fehlt oder die befragte Person aufgrund der Filerführung die Frage nicht bekommen hat

Datentransformation

bezieht sich auf…

Umcodierung bestehender Variablen

Bei ordinal- sowie intervall- und verhältnisskalierten Variablen sollten die Messwerte so zugeordnet werden, dass stärkere Merkmalsausprägungen auch einen höheren Wert zugeordnet bekommen, das macht die Analyse intuitiver

-> wenn anders herum kodiert wurde, kann die Variable umgepolt werden

Datentransformation

bezieht sich auf…

Bildung neuer Variablen

Wenn Indizes aus bestehenden Variablen berechnet werden müssen (nur wenn alle Variablen vorher richtig kodiert wurden)
wenn stetige/fein abgestufte Variablen in diskrete Variablen mit weniger Abstufungen umgewandelt werden müssen
-> dazu gibts dann neue Variablen- und Wertelabels

Datentransformation

bezieht sich auf…

Gewichtung von Stichproben

Versuch, die Repräsentativität von Populationsstichproben zu erhöhen, indem man die Stichprobe der Zielpopulation in ihrer Verteilung anpasst
mittels Vervielfachung von vorhandenen Daten soll emprirische Realität modelliert werden, also die Verhältnisse der Grundgesamtheit nachgebildet werden
ausreichende Fallzahlen sind nötig, damit nicht eine befragte Person großen Einfluss aufs Gesamtverfahren hat

Join Course

Preview

Author

Lena F.

Information

Last changed
a year ago

Report course