undefined

Buffl

Emp. Manag. Forschung

by Felix S.

Rohdatenfile vs Arbeitsdatensatz

Rohdatenfile

Exakte Entsprechung der Fragebögen bzw Interviews
Daran wird nichts verändert

Arbeitsdatensatz

nur damit wird gearbeitet

Codebook

Überblick über Items / Vairablen und Antwortkategorien des Datensatzes
Reihenfolge der Items / Variablen wie im Datensatz
- Name, Label, Wert, Label des Werts, Code für fehlende Werte

Skalendokumentation

Aufzeichnung wichtiger Informationen über die verwendeten Messinstrumente

Data Cleaning

Bei Eingabe von Daten passieren immer Fehler

Erkennungsmöglichkeiten

Häufigkeitsverteilungen oder Histogramme
- Sind Werte wie erwartet, seltsame Werte, fehlende Werte
Kontingenztabelle / Scatterplots
- seltsame Wertkombinationen (Alter 15, Einkommen 30.000)

Dokumentation

Alle Schritte müssen dokumentiert werden

Nachvollziehbarkeit, Wiederholbarkeit, Aufdeckung Fehler

Bsp:

Rekodierung von Items, Bildung von Variablen
Hypothesentests

Vorgehen:

Syntax in der Statistiksoftware

Ideal:

Gesamte Datenanalyse mit einem Klick reproduzierbar

Data Screening

vermittelt Überblick über die Daten
nicht sofort mit Hypothesentests anfangen -> Daten kennenlernen
Voraussetzungen für die Analysen prüfen
Besseres Verständnis und Interpretation von Ergebnissen
Vorgehen: Verschiedene deskriptive Statistiken und graphische Darstellungen

Deskriptive Statistik vs. Induktive Statistik

Univariate Häufigkeitsverteilung

Erster Schritt in der Datenanalyse
Information über Häufigkeit und prozentuele Anteile der verschiedenen Antwortkategorien
Säulendiagramm bei diskreten Variablen -> jeder Wert eigene Säule
Histogramm bei kontinuierlichen Variablen -> aggregierte Bereiche
Boxplot bei kontinuierlichen Variablen

Kennwerte der deskriptiven Statistik

welche beiden Maße gibt es

Lagemaße

Maß der zentralen Tendenz
Welcher Wert repräsentiert die Verteilung der Variable am besten
liefern ein unvollständiges Bild einer Verteilung
- Verteilungen mit gleichem Lagemaß können unterschiedlich stark um dieses herum streeuen

Streuungsmaße

Dispersionsmaße
Wie weit liegen die Werte einer Verteilung vom Mittelpunkt entfernt

Lagemaß:

Modalwert
Median
arithmetische Mittel

Modalwert

am häufigsten auftretende Wert (Max wert)
wenig anfällig für Ausreißer
bei jeder Skalenniveau anwendbar

Median

Zentrum der Verteilung
wenig anfällig für Ausreißer
Ordinalskala
Berechnung: Were nach Größe sortieren, Median = mittlerer Wert

Arithmetische Mittel

Durchschnittswert
Anfällig für Ausreißer

Einfache Streuungsmaß:

Min / Max
Spannweite (range)
Perzentile
Interquartilsabstand

Min / Max
- geringster / größter Wert
Spannweite (range)
- Abstand zwischen Min und Max
Perzentile
- Wert einer Variable unter dem x% der anderen Werte liegen
Interquartilsabstand
- Abstand zwischen erstem und drittem Quartil

Streuungsmaß:

Varianz
Standardabweichung

Varianz
- Streuung der gemessenen Werte um arithmetische Mittel
- Warum bei Berechnung quadrieren?
  - Vermeidet negative Werte, gewichtet starke Abweichung höher
- Nachteil
  - nicht dieselbe Einheit wie die ursprüngliche Werte
    - erschwerte Interpretierbarkeit -> Lösung Standardabweichung
Standardabweichung (SD)
- am häufigsten verwendetes Streuungsmaß -> einfach interpretierbar
- Streuung einer Variable um arithmetische Mittel, gemessen in der Einheit der Variable

Standardisierung (exkurs)

Werte so umrechnen, dass sie Abweichungen vom Mittelwert darstellen ( in Standardabweichungen)

Häufiges Vorgehen: Z-Standardisierung
- Mittelwert 0, sd = 1
- z wert von 2: Wert liegt 2 sd über dem Durchschnitt
hat keinen substantiellen Einfluss auf Hypothesentests

viele setzen Normalverteilung voraus

Erkläre Schiefe und Kurtosis

Schiefe und Kurtosis geben an, inwieweit die Verteilung einer Variable tatsächlich der Normalverteilung entspricht

Schiefe: Ausmaß und Art der Asymmetrie einer Verteilung

Kurtosis: Ausmaß der Steilheit (Spitzigkeit) einer Verteilung

rechtsschief ist, wenn

linksschief ist, wenn

leptokurtosis ist, wenn

platykurtosis ist, wenn

Schiefe / Kurtosis

Was macht man bei starker Abweichung von Normalverteilung

Transformieren

Logarithmieren
Quadratwurzel

Ausreißer

können Analyse verzerren
Identifikation durch Boxplot oder Histogramme
Reaktion
- Eingabefehler prüfen
- Robuste statistische Verfahren anwenden
- Berechnung mit und ohne Ausreißer
- Löschen (Gefahr valide Werte zu löschen)

Berechnung von Variablen

Variablen werden durch mehrere Items gemessen (multiple Indikatoren)
Vor Hypothesentest: Zusammenfassung der Items zu einer Variable
Summe der arithmetisches Mittel der items

Reliabilität

Kann man multiple Items zu einer Variable zusamenfassen?
Voraussetzung: Items müssen ein Konstrukt messen
Gebräuchliches Maß: Cronbachs Alpha
Kann wert zwischen 0 und 1 annehmen
Faustregel

Join Course

Preview

Author

Felix S.

Information

Last changed
3 years ago

Report course

LE9 - Datenanalyse I - Deskriptiv

Author

Felix S.

Information