Rohdatenfile vs Arbeitsdatensatz
Rohdatenfile
Exakte Entsprechung der Fragebögen bzw Interviews
Daran wird nichts verändert
Arbeitsdatensatz
nur damit wird gearbeitet
Codebook
Überblick über Items / Vairablen und Antwortkategorien des Datensatzes
Reihenfolge der Items / Variablen wie im Datensatz
Name, Label, Wert, Label des Werts, Code für fehlende Werte
Skalendokumentation
Aufzeichnung wichtiger Informationen über die verwendeten Messinstrumente
Data Cleaning
Bei Eingabe von Daten passieren immer Fehler
Erkennungsmöglichkeiten
Häufigkeitsverteilungen oder Histogramme
Sind Werte wie erwartet, seltsame Werte, fehlende Werte
Kontingenztabelle / Scatterplots
seltsame Wertkombinationen (Alter 15, Einkommen 30.000)
Dokumentation
Alle Schritte müssen dokumentiert werden
Nachvollziehbarkeit, Wiederholbarkeit, Aufdeckung Fehler
Bsp:
Rekodierung von Items, Bildung von Variablen
Hypothesentests
Vorgehen:
Syntax in der Statistiksoftware
Ideal:
Gesamte Datenanalyse mit einem Klick reproduzierbar
Data Screening
vermittelt Überblick über die Daten
nicht sofort mit Hypothesentests anfangen -> Daten kennenlernen
Voraussetzungen für die Analysen prüfen
Besseres Verständnis und Interpretation von Ergebnissen
Vorgehen: Verschiedene deskriptive Statistiken und graphische Darstellungen
Deskriptive Statistik vs. Induktive Statistik
Univariate Häufigkeitsverteilung
Erster Schritt in der Datenanalyse
Information über Häufigkeit und prozentuele Anteile der verschiedenen Antwortkategorien
Säulendiagramm bei diskreten Variablen -> jeder Wert eigene Säule
Histogramm bei kontinuierlichen Variablen -> aggregierte Bereiche
Boxplot bei kontinuierlichen Variablen
Kennwerte der deskriptiven Statistik
welche beiden Maße gibt es
Lagemaße
Maß der zentralen Tendenz
Welcher Wert repräsentiert die Verteilung der Variable am besten
liefern ein unvollständiges Bild einer Verteilung
Verteilungen mit gleichem Lagemaß können unterschiedlich stark um dieses herum streeuen
Streuungsmaße
Dispersionsmaße
Wie weit liegen die Werte einer Verteilung vom Mittelpunkt entfernt
Lagemaß:
Modalwert
Median
arithmetische Mittel
am häufigsten auftretende Wert (Max wert)
wenig anfällig für Ausreißer
bei jeder Skalenniveau anwendbar
Zentrum der Verteilung
Ordinalskala
Berechnung: Were nach Größe sortieren, Median = mittlerer Wert
Arithmetische Mittel
Durchschnittswert
Anfällig für Ausreißer
Einfache Streuungsmaß:
Min / Max
Spannweite (range)
Perzentile
Interquartilsabstand
geringster / größter Wert
Abstand zwischen Min und Max
Wert einer Variable unter dem x% der anderen Werte liegen
Abstand zwischen erstem und drittem Quartil
Streuungsmaß:
Varianz
Standardabweichung
Streuung der gemessenen Werte um arithmetische Mittel
Warum bei Berechnung quadrieren?
Vermeidet negative Werte, gewichtet starke Abweichung höher
Nachteil
nicht dieselbe Einheit wie die ursprüngliche Werte
erschwerte Interpretierbarkeit -> Lösung Standardabweichung
Standardabweichung (SD)
am häufigsten verwendetes Streuungsmaß -> einfach interpretierbar
Streuung einer Variable um arithmetische Mittel, gemessen in der Einheit der Variable
Standardisierung (exkurs)
Werte so umrechnen, dass sie Abweichungen vom Mittelwert darstellen ( in Standardabweichungen)
Häufiges Vorgehen: Z-Standardisierung
Mittelwert 0, sd = 1
z wert von 2: Wert liegt 2 sd über dem Durchschnitt
hat keinen substantiellen Einfluss auf Hypothesentests
viele setzen Normalverteilung voraus
Erkläre Schiefe und Kurtosis
Schiefe und Kurtosis geben an, inwieweit die Verteilung einer Variable tatsächlich der Normalverteilung entspricht
Schiefe: Ausmaß und Art der Asymmetrie einer Verteilung
Kurtosis: Ausmaß der Steilheit (Spitzigkeit) einer Verteilung
rechtsschief ist, wenn
linksschief ist, wenn
leptokurtosis ist, wenn
platykurtosis ist, wenn
Schiefe / Kurtosis
Was macht man bei starker Abweichung von Normalverteilung
Transformieren
Logarithmieren
Quadratwurzel
Ausreißer
können Analyse verzerren
Identifikation durch Boxplot oder Histogramme
Reaktion
Eingabefehler prüfen
Robuste statistische Verfahren anwenden
Berechnung mit und ohne Ausreißer
Löschen (Gefahr valide Werte zu löschen)
Berechnung von Variablen
Variablen werden durch mehrere Items gemessen (multiple Indikatoren)
Vor Hypothesentest: Zusammenfassung der Items zu einer Variable
Summe der arithmetisches Mittel der items
Reliabilität
Kann man multiple Items zu einer Variable zusamenfassen?
Voraussetzung: Items müssen ein Konstrukt messen
Gebräuchliches Maß: Cronbachs Alpha
Kann wert zwischen 0 und 1 annehmen
Faustregel
Zuletzt geändertvor einem Jahr