Quantitative Daten Aufbereiten
5.1 Funtion und Bedeutung der Datenaufbereitung
Datenaufbereitung
sorgfältige und gründliche Bereinigung und Aufbereitung der Daten
Fehler in der Bereinigung und Aufbereitung können dazu führen das alle Ergebnisse verfälscht sind
Sauberer Datensatz ist wichtig
Wichtig Begriff belastbar! Große Firmen müssen sich auf Ergebnisse verlassen können, weil Investitionen oft in Millionen höhe
Rohdatenmaterial
Unbehandelte noch nicht weiterverarbeitete Daten einer Untersuchung bilden das Rohdatenmaterial
Existiert oft in verschiedenen Formen und Formaten
Enthält Lücken und Inkonsistenzen, ist in Gesamtheit schwer zu überblicken
Muss erst sortiert, kommentiert, formatiert, anonymisiert, bereinigt und oft transformiert werden (um systematische Datenanalyse zu ermöglichen)
Wichtigste Schritte der Datenaufbereitung
Erstellung der Datensätze: Umwandlung Rohmaterial - in strukturierte Datensätze durch
Sortierung, Zuordnung, Digitalisierung, Formatierung
Kommentierung der Datensätze: Ergänzung der Datensätze und Metainfos.
zb Erhebungsdatum, Wellenbezeichnung (in Trackingstudie)
Außerdem in quantitativen Datensätzen- Bedeutung der Variablen und vergebenen numerischen Werte festgehalten (Vergabe von Variablen und Wertelabels
Anonymisierung der Datensätze: Datenschutz!
seit DSGVO im Mai 2018 in Kraft getreten ist
Alle Infos die zur Teilneheridentifizierung führen könnten entfernt werden
Datenbereinigung: Herausfinden und Korrektur fehlerhafter numerischer Angaben
Entfernung von Dubletten
Umgang mit fehlenden Werten
Datentransformation: zusammengefasst oder recodiert um bestimmte Auswertungen zu ermöglichen
wichtig um Daten für generierung von repräsentativen Ergbenissen Gewichten zu können
DSGVO
eine Verordnung der Europäischen Union
Regeln zur Verarbeitung personenbezogener Daten durch private Unternehmen und öffentliche Stellen
EU weit vereinheitlicht worden
Datenaufbereitung erfüllt mehrere Funktionen
fehlerhafte Ergebnisse vermeiden: Tippfehler , Doppelungen führen zu Verzerrung des Ergebnisses und falsche Inhaltliche Schlussfolgerungen
Schwierigkeiten und Verzögerungen bei der Daten (re) Analyse vermeiden: Ziel Daten so aufbereiten das sie später durch zb Forschungspartner problemlos genutzt werden können ( zb fü Re oder Sekundäranalyse)
dafür gut kommentierter Datensatz
Ethische Probleme vermeiden: Teilnehmede Personen dürfen nicht identifizierbar sein
ausser schriftliches Einverständnis
wäre sonst Vertoß gegen Datenschutzgesetze
Re oder Sekundäranalyse
ernete Auswerten der Daten von dem gleichen Forscher (Re Analyse)
oder von einem anderen Forscher evtl mit anderer Forschungsfrage (Sekundäranalyse)
5.2 Erstellung quantitativer Datensätze mit Statistiksoftware
Statistikprogramm
eine Software zur Berechnung von statistischen Kennzahlen und komplexen Auswertungsverfahren
SPSS (Statistival Package for the social Sciences von IBM
kann an Bedürnisse angepasst werden , man kauft zb nur die Auswertungsverfahren die man auch braucht
ist aber sehr teuer
kostengüstier ist STATA
freie Anbieter Software R ist eine Programmiersprache für Berechnungen von statistiken
Programmiersprache S
Programmiersprache für statistische Berechungen und Grafiken aus der Mitte der 70er Jahre
ausserdem
PSPP- freier und kompatibler Ersatz für SPSS
deckt aber nur begrenzten Umfang ab
verfügt aber über grafische Benutzeroberfläche
ausserdem möglichkeit der Steuerung über Kommandozeile
nur für einfache Grundauswertungen
online Befragung
Daten aus Befragungssoftware in SPSS Format exportieren
man bekommt fertigen SPSS Datensatz
kann sofort mit bereinigung starten
schriftliche Befragung
zuerst Codierung
dazu bedarf es einen Codeplan (zuordnung der Fragen und Antwortoptionen zu Zahlencodes für Verwendung in Statistikprogrammen
Variablennamen in Statistikprogramm dürfen nur aus Buchstaben, Ziffern und Sonderzeichen bestehen
Erste Zeichen muss immer ein Buchstabe sein
Variablen
Ausprägung eines Merkmals von bezogenen Merkmalsträgern
können unterschiedliche Merkmalsausprägungen besitzen
Variable F1 bestitz zb 2 Merkmalsausprägungen: weiblich, männlich
mit hilfe des Codeplans wird weibilch 1, männlich 2
Zusammenfassung Codeplan
ordnet den einzelnen Fragen eines Fragebogens Variablennamen zu
ordnet den Merkmalsausprägungen einer Variablen Codes zu
Codierschema nach Bühl/Zöfel im Skript Seite 56
ausserdem hat jeder Fragebogen eine ID zur Kontrolle von Unklarheiten.
wenn codeplan vorliegt - Daten in SPSS eingeben
wenn man SPSS startet - erhält man leeren Variableneditor
Variableneditor
abbidlung Skript S. 57
hier kann man Variablen so wie im Codeplan definiert eingeben
im Beispiel numerische Variabel - nur Zahlen und keinen Text
bei offener Frage müsste man Zeichen auswählen
dann F1 anlegen (zb ist numerisch bekommt Beschriftung Geschlecht)
ausserdem Variablenwerte (Value Labels) eingeben
1 für weiblich und 2 für männlich
nun eigtl. Codes in Dateneditor eingeben
Dateneditor
ist ein spreadsheetähnliches Arbeitsmittel
Spreadsheet - ein in Zeilen und Spalten aufgeteiltes Arbeitsblatt
ermöglicht einfache und effiziente Dateneingabe
einzelnen Zeilen entsprechen einzelnen Fällen
zb Umfrage- einzene Zeile : Angaben einer befragten Person
einzelnen Spalten entsprechen einzelnen Variablen
bei Fragebogen speichert eine Variable die Antworten auf eine einzelne Frage
einzelnen Zellen enthalten Werte der jeweiligen Variablen des jeweiligen Falles
jede Zelle speichert einen einzelnen Variablenwert
ist alles eingegeben sind das dann die Rohdaten
5.3 Datenbereinigung
Ziel
möglichst hohe Datenqualität
bei quant. Daten über Reihe von Kriterien:
Vollständigkeit
Einheitlichkeit
Abschluss doppelter Werte /mehrfacher Datenzeilen
sachgerechte Behandlung von fehlenden Werten
Erkennung und Behandlung von Ausreißern
Plausibilität der Antwortmuster
Im 1 Schritt
Überblick über vorhandene Daten verschaffen
dazu Häufigkeitstabelle über alle Variablen (wird mit SPSS einfach erstellt)
man kann daran erkennen ob codes vorhanden sind die nicht definiert wurden
zb bei einem unbekannten Wert
Fragebogen ID
hiermit kann ich herausfinden wie der richtige wert lauten muss
Wellen
wenn eine Befragung zu unterschiedlichen Zeitpunkten wiederholt wird
es kann passieren das nicht alle Datensätze gleich codiert wurden
fällt über Häufigkeitstabelle sofort auf
nächster Schritt
Datensatz anonymisieren
seitens der Marktforschung besondere Sorgfalt
manchmal bei zb Mitarbeiter befragungen gefahr das zb bei Frage einer Behinderung klar ist wer gemeint ist
immer Prüfen ob diese Daten evtl entfernt werden müssen
IP Adresse
ist eine Adresse in Computernetzen
basiert auf Internetprotokoll (IP)
wird Geräten zugewiesen die an das Netz angebunden sind
macht die Geräte adressierbar und erreichbar
elektronische Datenerhebung
für jede einzelne Untersuchungseinheit prüfen ob ausreichende Anzahl an plausiblen werten vorliegt
nur dann können plausible Aussagen über den Fall getroffen werden
wenn nicht muss gesamte Fall ausgeschossen werden
geringer Prozentsatz an unvollständig oder nicht ernsthaft ausgefüllter Fragebogen ist typisch
Online Fragebögen
Teil der Datenbereinigung wird vorweggenommen
zb Einfabe unzulässiger Werte
automatische Plausibiliätschecks
zb Analyse auf stereotype Antwortmuster ( mittelkreuzer die immer mittlere Kategorie ankreuzen)
speeder können identifiziert werden (füllen Fragebogen sehr schnell aus)
Dauer des ausfülles wird erhoben
5.4 Datentransformation
nach Abschluss
Daten speichern
für Datentransformation mit einer Kopie weiterarbeiten
verschiedene Ansätze werden ausrpobiert udn verglichen
können aber auch Fehler passieren - Folge das Daten verloren gehen
es kann aber immer auf den original Datensatz zurück gegriffen werden
Befehlssyntax
ist Befehlssprache in SPSS
jedem Befehl liegt Syntax im Hintergrund zugrunde
läuft während Programmnutzung
Prozess der Datennutzung ist für andere nachvollziehbar und kann beurteilt werden
Datentransformation 4 Themen
Umcodierung von bestehenden Variablen
Bildung neuer Variablen
Gewichtung von Stichproben
missing Data
zb Befragte übersehen Antwortoption
oder Unangenehme Frage wird bewusst übersprungen
oder ungültige Antwort
Datenaufberteitung- herausfinden warum Werte fehlen
Fehende Werte mit eigenständigen Codes (zb -99, -77) kennzeichnen
dann kann man unterscheiden ob jemand Frage bewusst nicht beantwortet hat
Umcodierung
wichtiger Aspekt der Datentransformation
Ordinal sowie Intervall und Verhältnissskalierten Variablen - Messswerte zuordnen
stärkere Merkmalsausprägung bekommen dann höheren Wert zugeordnet
Analyse wird dann intuitiver
sollte falsch herum codiert worden sein , kann man Variabel umpolen
neue Variablen bilden
zb Indizes aus bestehenden Varialben berechnen
oder stetige , sehr fein abgestufte Variablen müssen aus inhaltlich oder forschungstechnischen Gründen in disrkete V umgewandelt werden
SPSS hat große Anzah an Möglichkeiten neue Variablen zu bilden
Gewichtungsverfahren
Versuch Repräsentativität von Populationsstichproben zu erhöhen
man passt Stichprobe der Zielpopulation in ihrer Verteilung an
Zie ist, mittels Vervielfachung von vorhanden Daten, Angleichungen an empirische Realität zu modellieren
zb für Populationsbeschreibenede Studien
Last changed8 months ago