undefined

Buffl

Quantitavie Forschungsmethoden

von Nina G.

Quantitative Daten Aufbereiten

5.1 Funtion und Bedeutung der Datenaufbereitung

Datenaufbereitung

sorgfältige und gründliche Bereinigung und Aufbereitung der Daten
Fehler in der Bereinigung und Aufbereitung können dazu führen das alle Ergebnisse verfälscht sind
Sauberer Datensatz ist wichtig
Wichtig Begriff belastbar! Große Firmen müssen sich auf Ergebnisse verlassen können, weil Investitionen oft in Millionen höhe

Rohdatenmaterial

Unbehandelte noch nicht weiterverarbeitete Daten einer Untersuchung bilden das Rohdatenmaterial
Existiert oft in verschiedenen Formen und Formaten
Enthält Lücken und Inkonsistenzen, ist in Gesamtheit schwer zu überblicken
Muss erst sortiert, kommentiert, formatiert, anonymisiert, bereinigt und oft transformiert werden (um systematische Datenanalyse zu ermöglichen)

Wichtigste Schritte der Datenaufbereitung

Erstellung der Datensätze: Umwandlung Rohmaterial - in strukturierte Datensätze durch
- Sortierung, Zuordnung, Digitalisierung, Formatierung
Kommentierung der Datensätze: Ergänzung der Datensätze und Metainfos.
- zb Erhebungsdatum, Wellenbezeichnung (in Trackingstudie)
- Außerdem in quantitativen Datensätzen- Bedeutung der Variablen und vergebenen numerischen Werte festgehalten (Vergabe von Variablen und Wertelabels
Anonymisierung der Datensätze: Datenschutz!
- seit DSGVO im Mai 2018 in Kraft getreten ist
- Alle Infos die zur Teilneheridentifizierung führen könnten entfernt werden
Datenbereinigung: Herausfinden und Korrektur fehlerhafter numerischer Angaben
- Entfernung von Dubletten
- Umgang mit fehlenden Werten
Datentransformation: zusammengefasst oder recodiert um bestimmte Auswertungen zu ermöglichen
- wichtig um Daten für generierung von repräsentativen Ergbenissen Gewichten zu können

DSGVO

eine Verordnung der Europäischen Union
Regeln zur Verarbeitung personenbezogener Daten durch private Unternehmen und öffentliche Stellen
EU weit vereinheitlicht worden

Datenaufbereitung erfüllt mehrere Funktionen

fehlerhafte Ergebnisse vermeiden: Tippfehler , Doppelungen führen zu Verzerrung des Ergebnisses und falsche Inhaltliche Schlussfolgerungen
Schwierigkeiten und Verzögerungen bei der Daten (re) Analyse vermeiden: Ziel Daten so aufbereiten das sie später durch zb Forschungspartner problemlos genutzt werden können ( zb fü Re oder Sekundäranalyse)
dafür gut kommentierter Datensatz
Ethische Probleme vermeiden: Teilnehmede Personen dürfen nicht identifizierbar sein
ausser schriftliches Einverständnis
wäre sonst Vertoß gegen Datenschutzgesetze

Re oder Sekundäranalyse

ernete Auswerten der Daten von dem gleichen Forscher (Re Analyse)
oder von einem anderen Forscher evtl mit anderer Forschungsfrage (Sekundäranalyse)

5.2 Erstellung quantitativer Datensätze mit Statistiksoftware

Statistikprogramm

eine Software zur Berechnung von statistischen Kennzahlen und komplexen Auswertungsverfahren
SPSS (Statistival Package for the social Sciences von IBM
kann an Bedürnisse angepasst werden , man kauft zb nur die Auswertungsverfahren die man auch braucht
ist aber sehr teuer
kostengüstier ist STATA
freie Anbieter Software R ist eine Programmiersprache für Berechnungen von statistiken

Programmiersprache S

Programmiersprache für statistische Berechungen und Grafiken aus der Mitte der 70er Jahre

ausserdem

PSPP- freier und kompatibler Ersatz für SPSS
deckt aber nur begrenzten Umfang ab
verfügt aber über grafische Benutzeroberfläche
ausserdem möglichkeit der Steuerung über Kommandozeile
nur für einfache Grundauswertungen

online Befragung

Daten aus Befragungssoftware in SPSS Format exportieren
man bekommt fertigen SPSS Datensatz
kann sofort mit bereinigung starten

schriftliche Befragung

zuerst Codierung
dazu bedarf es einen Codeplan (zuordnung der Fragen und Antwortoptionen zu Zahlencodes für Verwendung in Statistikprogrammen
Variablennamen in Statistikprogramm dürfen nur aus Buchstaben, Ziffern und Sonderzeichen bestehen
Erste Zeichen muss immer ein Buchstabe sein

Variablen

Ausprägung eines Merkmals von bezogenen Merkmalsträgern
können unterschiedliche Merkmalsausprägungen besitzen
Variable F1 bestitz zb 2 Merkmalsausprägungen: weiblich, männlich
mit hilfe des Codeplans wird weibilch 1, männlich 2

Zusammenfassung Codeplan

ordnet den einzelnen Fragen eines Fragebogens Variablennamen zu
ordnet den Merkmalsausprägungen einer Variablen Codes zu
Codierschema nach Bühl/Zöfel im Skript Seite 56
ausserdem hat jeder Fragebogen eine ID zur Kontrolle von Unklarheiten.
wenn codeplan vorliegt - Daten in SPSS eingeben
wenn man SPSS startet - erhält man leeren Variableneditor

Variableneditor

abbidlung Skript S. 57
hier kann man Variablen so wie im Codeplan definiert eingeben
im Beispiel numerische Variabel - nur Zahlen und keinen Text
bei offener Frage müsste man Zeichen auswählen
dann F1 anlegen (zb ist numerisch bekommt Beschriftung Geschlecht)
ausserdem Variablenwerte (Value Labels) eingeben
1 für weiblich und 2 für männlich
nun eigtl. Codes in Dateneditor eingeben

Dateneditor

ist ein spreadsheetähnliches Arbeitsmittel
Spreadsheet - ein in Zeilen und Spalten aufgeteiltes Arbeitsblatt
ermöglicht einfache und effiziente Dateneingabe
einzelnen Zeilen entsprechen einzelnen Fällen
zb Umfrage- einzene Zeile : Angaben einer befragten Person
einzelnen Spalten entsprechen einzelnen Variablen
bei Fragebogen speichert eine Variable die Antworten auf eine einzelne Frage
einzelnen Zellen enthalten Werte der jeweiligen Variablen des jeweiligen Falles
jede Zelle speichert einen einzelnen Variablenwert
ist alles eingegeben sind das dann die Rohdaten

5.3 Datenbereinigung

Ziel

möglichst hohe Datenqualität
bei quant. Daten über Reihe von Kriterien:
Vollständigkeit
Einheitlichkeit
Abschluss doppelter Werte /mehrfacher Datenzeilen
sachgerechte Behandlung von fehlenden Werten
Erkennung und Behandlung von Ausreißern
Plausibilität der Antwortmuster

Im 1 Schritt

Überblick über vorhandene Daten verschaffen
dazu Häufigkeitstabelle über alle Variablen (wird mit SPSS einfach erstellt)
man kann daran erkennen ob codes vorhanden sind die nicht definiert wurden
zb bei einem unbekannten Wert

Fragebogen ID

hiermit kann ich herausfinden wie der richtige wert lauten muss

Wellen

wenn eine Befragung zu unterschiedlichen Zeitpunkten wiederholt wird
es kann passieren das nicht alle Datensätze gleich codiert wurden
fällt über Häufigkeitstabelle sofort auf

nächster Schritt

Datensatz anonymisieren
seitens der Marktforschung besondere Sorgfalt
manchmal bei zb Mitarbeiter befragungen gefahr das zb bei Frage einer Behinderung klar ist wer gemeint ist
immer Prüfen ob diese Daten evtl entfernt werden müssen

IP Adresse

ist eine Adresse in Computernetzen
basiert auf Internetprotokoll (IP)
wird Geräten zugewiesen die an das Netz angebunden sind
macht die Geräte adressierbar und erreichbar

elektronische Datenerhebung

für jede einzelne Untersuchungseinheit prüfen ob ausreichende Anzahl an plausiblen werten vorliegt
nur dann können plausible Aussagen über den Fall getroffen werden
wenn nicht muss gesamte Fall ausgeschossen werden
geringer Prozentsatz an unvollständig oder nicht ernsthaft ausgefüllter Fragebogen ist typisch

Online Fragebögen

Teil der Datenbereinigung wird vorweggenommen
zb Einfabe unzulässiger Werte
automatische Plausibiliätschecks
zb Analyse auf stereotype Antwortmuster ( mittelkreuzer die immer mittlere Kategorie ankreuzen)
speeder können identifiziert werden (füllen Fragebogen sehr schnell aus)
Dauer des ausfülles wird erhoben

5.4 Datentransformation

nach Abschluss

Daten speichern
für Datentransformation mit einer Kopie weiterarbeiten
verschiedene Ansätze werden ausrpobiert udn verglichen
können aber auch Fehler passieren - Folge das Daten verloren gehen
es kann aber immer auf den original Datensatz zurück gegriffen werden

Befehlssyntax

ist Befehlssprache in SPSS
jedem Befehl liegt Syntax im Hintergrund zugrunde
läuft während Programmnutzung
Prozess der Datennutzung ist für andere nachvollziehbar und kann beurteilt werden

Datentransformation 4 Themen

Umgang mit fehlenden Werten
Umcodierung von bestehenden Variablen
Bildung neuer Variablen
Gewichtung von Stichproben

missing Data

zb Befragte übersehen Antwortoption
oder Unangenehme Frage wird bewusst übersprungen
oder ungültige Antwort
Datenaufberteitung- herausfinden warum Werte fehlen
Fehende Werte mit eigenständigen Codes (zb -99, -77) kennzeichnen
dann kann man unterscheiden ob jemand Frage bewusst nicht beantwortet hat

Umcodierung

wichtiger Aspekt der Datentransformation
Ordinal sowie Intervall und Verhältnissskalierten Variablen - Messswerte zuordnen
stärkere Merkmalsausprägung bekommen dann höheren Wert zugeordnet
Analyse wird dann intuitiver
sollte falsch herum codiert worden sein , kann man Variabel umpolen

neue Variablen bilden

zb Indizes aus bestehenden Varialben berechnen
oder stetige , sehr fein abgestufte Variablen müssen aus inhaltlich oder forschungstechnischen Gründen in disrkete V umgewandelt werden
SPSS hat große Anzah an Möglichkeiten neue Variablen zu bilden

Gewichtungsverfahren

Versuch Repräsentativität von Populationsstichproben zu erhöhen
man passt Stichprobe der Zielpopulation in ihrer Verteilung an
Zie ist, mittels Vervielfachung von vorhanden Daten, Angleichungen an empirische Realität zu modellieren
zb für Populationsbeschreibenede Studien

Beitreten

Vorschau

Author

Nina G.

Informationen

Zuletzt geändert
vor 2 Jahren

Kurs melden

Lektion 5

Author

Nina G.

Informationen