Rohdatenmaterial
unbehandelte bzw. noch nicht weiterverarbeitete Daten einer Untersuchung
Bereinigung und Aufbereitung des Rohdatenmaterials
technisch Anspruchsvoll, enthält potenzielle Fehlerquellen
praktische Bedeutung in den letzten Jahren nicht zuletzt aufgrund der Masse an digitalen Daten und internationalen Forschungskooperationen deutlich gestiegen
Rohdatenmaterial enthält oft Inkosistenzen und Lücken, existiert in verschiedenen Formaten, ist, insgesamt schwer zu überblicken
muss sortiert, kommentiert, anonymisiert, bereinigt und transformiert werden
kann zeitintensiver als die tatsächliche Auswertung sein
Wichtigeste Schritte der Datenaufbereitung
(nicht immer trennscharf)
Erstellung der Datensätze
Kommentieren der Datensätze
Anonymisieren der Datensätze
Datenbereinigung
Datentransformation
Umwandlung des Rohmaterials in strukturierte Datensätze durch
Sortierung,
Zuordnung,
Digitalisierung,
Formatierung
Ergänzung um Metainformation wie
Erhebungsdatum
Wellenbezeichnung in einer Trackingstudie,
Vergabe von Variablen- und Wertelabels
Anonymisierung der Datensätze
nach DSGVO = Verordnung der EU mit der die Regeln zur Verarbeitung personenbezogener Daten durch private Unternehmen und öffentliche Stellen EU-weit vereinheitlicht wurden
-> es müssen alle Informationen, die zur Identifikation von Teilnehmenden dienen könnten, entfernt werden
Herausfinden und Korrektur fehlerhafter numerischer Angaben, Entfernung von Dubletten, Umgang mit fehlenden Werten
Daten zusammenfassen und Rekodieren um bestimmte Auswertungen zu ermöglichen oder auch um die Daten für die Generierung von repräsentativen Ergebnissen zu gewichten
Funktion der Datenaufbereitung
Vermeidung fehlerhafter Ergebnisse und Folgefehler
Vermeidung von Schwierigkeiten und Verzögerungen bei der Datenanalyse
Wiederverwendbarkeit sicherstellen für Reanalyse oder Sekundäranalyse
Ethische Probleme vermeiden
Reanalyse
wiederholte Analyse durch Forscher selbst
Sekundäranalyse
wiederholte Analyse durch andere Forschende
Statistikprogramm
mit Beispielen
Software zur Berechnung von statistischen Kennzahlen und komplexen Auswertungsverfahren, wird genutzt um quantitative Datensätze zu erstellen und zu analysieren.
zum Beispiel:
SPSS (Statistical Package for the Social Siences) von IBM
Marktführer
modular aufgebaut, hoher Preis
Stata (Open Source)
PSPP (freier Anbieter)
freier und kompatibler Ersatz für SPSS
begrenzter Umfang und begrenzte Optionen -> nur für einfache Grundauswertungen zu empfehlen
R (freier Anbieter)
orientiert sich an der Programmiersprache S (für statitstische Berechnungen und Grafiken, aus Mitte 70er Jahre)
Vorgehen zum Erstellen von Datensätzen in SPSS
bei Online-Befragung
Ergebnisse können einfach in SPSS Format exportiert werden, man kann mit der Datenbereinigung beginnen
bei schriftlicher Befragung
um diese Daten in die Software zu bekommen, braucht es zunächst eine Codierung!
Schritt 1: Daten codieren
Codeplan
Zuordnung der Fragen- und Antwortoptionen zu Zahlencodes für die Verwendung von Statistikprogrammen
Fragen bekommen einzelne Variablennamen aus Buchstaben und Ziffern
Variablen können unterschiedliche Merkmalsausprägungen (Antwortmöglichkeiten) besitzen
Fragebogen hat selbst auch eine ID, um die Daten identifizierbar zu machen
Schritt 2: Variablen eingeben
wenn man SPSS startet, erhält man einen leeren Variablenmonitor, in den man die Variablen, wie sie im Codeplan definiert wurden, eingibt
Variablen eingeben und die Variablenwerte (Merkmalsausprägungen) dazu eingeben
Schritt 3: Eigentliche Codes eingeben
Werden in den Dateneditor eingegeben - wie ein Spreadsheet
-> sind alle Variablen angeleht und alle Fragebögen eingegeben, hat man die Rohdaten in einem strukturierten SPSS Datensatz und kann mit der Bereinigung fortfahren
Ziel
möglichst hohe Datenqualität
Datenqualität kann festgemacht werden an…
Vollständigkeit
Einheitlichkeit (z.B. von Datums- und Währungsangaben)
Ausschluss doppelter Werte/mehrfacher Datenzeilen
Sachgerechte Behandlung von Ausreißerwerten
Plausibilität der Antwortmuster
Schritte
kommentierten und strukturiereten Datensatz erstellen
Überblick über vorhandene Daten verschaffen
Anonymisieren
Schritt 2: Überblick über vorhandene Daten verschaffen
z.B. Häufigkeitsverteilung erstellen
hier fällt auf, wenn unbekannte Werte im Ergebnis sind, die geprüft werden müssen
Fehler können auch entstehen, wenn mehrere Datensätze zusammengefasst werden (z.B. mehrere Wellen (Zeitpunkte) der gleichen Befragung und nicht alle Datensätze gleich kodiert wurden
unvollständige oder nicht ernsthaft ausgefüllte Datensätze sollten ggfs. rausgenommen werden (geringer %satz ist normal)
bei Online-Befragungen sind nicht erstnsthaft ausgefüllte Bögen eher vermeidbar, weil nur gewisse Werte eingegeben werden können, Geschwindigkeit des Ausfüllens (Ausfülldauer wird erhoben) und stereotype Antwortmuser aussortiert werden können
Schritt 3: Anonymisieren
es darf unter keinen Umständen ersichtlich sein, wer welche Angaben gemacht hat (DSGVO)
es muss überlegt werden, welche Daten eliminiert werden müssen, auch wenn sie relevant sein könnten, oder ob man andere Sicherheitsmechanismen (z.B: verstärkte Rechteverwaltung) sinnvoll sind, wenn sich durch die Dateneingrenzen lässt, um wen es sich handeln könnte
Löschen der IP-Adressen der Rechner, von denen aus auf die Online-Befragung zugegriffen wurde -> sollten eigentlich gar nicht erhoben werden, braucht es aber um festzustellen, ob eine Person den Bogen mehrere Male ausgefüllt hat
erste Schritte
Nach der Dateneingabe, Codierung und Datenbereinigung den Datensatz speichern und für die Datentransformation mit einer Kopie weiterarbeiten, damit man noch Backup hat, wenn Daten verloren gehen!
Transformationsoption als Befehlssyntax (Befehlssprache in SPSS, liegt jedem Befehl zugrunde während man in SPSS arbeitet) ausgeben lassen, damit der Prozess der Datenaufbereitung transparent ist und von Außenstehenden nachvollzogen werden kann
bezieht sich auf…
Umgang mit fehlenden Werten
Umcodierung von bestehenden Variablen
Bildung neuer Variablen
Gewichtung von Stichproben
wenn Befragte Antwortoptionen übersehen haben, eine Frage überspringen oder eine ungültige Antwort geben
Grund muss rausgefunden werden, um zu entscheiden, wie man mit dem Wert umgeht
fehlende Werte sollten mit eigenständigen Codes gekennzeichnet werden, dann kann auch rausgefunden werden, ob ein Wert wirklich fehlt oder die befragte Person aufgrund der Filerführung die Frage nicht bekommen hat
Umcodierung bestehender Variablen
Bei ordinal- sowie intervall- und verhältnisskalierten Variablen sollten die Messwerte so zugeordnet werden, dass stärkere Merkmalsausprägungen auch einen höheren Wert zugeordnet bekommen, das macht die Analyse intuitiver
-> wenn anders herum kodiert wurde, kann die Variable umgepolt werden
Wenn Indizes aus bestehenden Variablen berechnet werden müssen (nur wenn alle Variablen vorher richtig kodiert wurden)
wenn stetige/fein abgestufte Variablen in diskrete Variablen mit weniger Abstufungen umgewandelt werden müssen
-> dazu gibts dann neue Variablen- und Wertelabels
Versuch, die Repräsentativität von Populationsstichproben zu erhöhen, indem man die Stichprobe der Zielpopulation in ihrer Verteilung anpasst
mittels Vervielfachung von vorhandenen Daten soll emprirische Realität modelliert werden, also die Verhältnisse der Grundgesamtheit nachgebildet werden
ausreichende Fallzahlen sind nötig, damit nicht eine befragte Person großen Einfluss aufs Gesamtverfahren hat
Zuletzt geändertvor 2 Monaten