Was sind die 5 Schritte der Datenaufbereitung?
Erstellung der Datensätze
Kommentierung der Datensätze
Anonymisierung der Datensätze
Datenbereinigung
Datentransformation
Was gehört zur Erstellung der Datensätze?
Sortierung
Zuordnung
Digitalisierung
Formatisierung
Verschriftlichung (Transkription) von Audio- und Videoaufzeichnungen
Was gehört zur Kommentierung der Datensätze?
Bedeutungen der Variablen und der vergebenen numerischen Werte festhalten (sog. Labeling)
Ergänzung der qualitativen und quantitativen Datensätze
Was gehört zur Anonymisierung der Datensätze?
Entfernung/Ersetzung von Informationen, die zur Identifizierung von Untersuchungsteilnehmenden führen könnten
Was gehört zur Datenbereinigung?
Entfernen doppelter Datensätze
für die jeweilige Auswertung unwichtige Details entfernen
Identifikation und Korrektur unplausibler und fehlerhafter numerischer Angaben
“Glättung” von Transkripten um Versprecher, verschluckte Silben, Dialekt
sinnvolle Behandlung von Lücken im Datenmaterial (z.B. Nacherhebung, Kennzeichen fehlender Werte, Ersetzung fehlender Werte durch Schätzwerte gemäß entsprechender statistischer Verfahren)
Was gehört zur Datentransformation?
Umpolung
Zusammenfassung von quantitativen Variablen
Gewichtung von komplexen probabilistischen Stichproben
Was sind die Kriterien hoher Datenqualität?
Vollständigkeit
Einheitlichkeit (z.B. von Datums- und Währungsangaben, Verwendung von Akronymen)
Ausschluss doppelter Werte/mehrfacher Datenzeilen
sachgerechte Behandlung von fehlenden Werten
Erkennung und Behandlung von Ausreißerwerten (oder im Rahmen der Datenanalyse)
Plausibilität der Antwortmuster
Wie sieht der R-Code für einen Graph mit ggplot aus?
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
einzelnes spezifizieren:
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth() +
labs(title = "",
x = "",
y = "") +
theme_minimal()
geom_bar
geom_histogram
geom_smooth
geom_abline
Color = Umrandung
Fill = Füllung
Size = Größe
Alpha = Transparenz
Shape = Form
Bins =
Wenn Farbe außerhalb der Klammer,(aes(x = …, y = ….) class = „blue“), wenn Variable innerhalb der Klammer (aes(x = …, y = …, class = …)
labs(title = „…“, x = „…“, y = „…“)
Was für Darstellungen sind möglich mit ggplot?
Distribution (Histogram), Correlation (Scatter), Ranking (Bar plot), Part of a whole (Pie chart), Evolution (Line plot), Map (Map), Flow (Network)
What is a missing data pattern?
Configuration (Beschaffenheit) of observed and missing values in a data set
What are missing data mechanisms?
Possible relationships between measured variables and the probability of missing data
What kind of missing data patterns are there?
What kind of missing data mechanisms are there?
Was kann man machen, um den MCAR Mechanismus zu testen?
t-Test-Vergleich (Aufteilung in zwei Gruppen missing vs complete bzgl. einer Variable, dann Vergleich Gruppenmittelwerte auf anderen Variablen)
Little´s MCAR Test (Multivariate Erweiterung des t-Test Vergleichs)
Ziel: Potentielle Korrelate von Missingness finden
Was sind die zwei Wege, die man bei Missing Data gehen kann?
Removing the cases with incomplete Data (Löschen): unverzerrt bei MCAR
Filling in the missing values (Füllen): oft verzerrt, selbst wenn MCAR
Was sind mögliche Vorgangsweisen beim Löschen von Fällen mit nicht kompletten Daten?
Listwise deletion
Pairwise deletion
Was sind mögliche Vorgangsweisen beim Füllen von fehlenden Werten?
Single imputation methods - Arithmetic mean imputation
Single imputation methods - Regression imputation
Single imputation methods - Stochastic Regression imputation
Single imputation methods - Hot-deck Imputation
Averaging the available items
Last Observation Carried Forward
Multiple Imputation
Andere (nicht Imputation): Maximum Likelihood estimation
Was ist Listwise Deletion? Was wird gemacht? Vorteile/Nachteile?
Was ist Pairwise Deletion? Was wird gemacht? Vorteile/Nachteile?
Was ist Single imputation methods - Arithmetic mean imputation? Was wird gemacht? Vorteile/Nachteile?
Was ist Single imputation methods - Regression imputation? Was wird gemacht? Vorteile/Nachteile?
Was ist Single imputation methods - Stochastic Regression imputation? Was wird gemacht? Vorteile/Nachteile?
Was ist Single imputation methods - Hot-deck Imputation? Was wird gemacht? Vorteile/Nachteile?
Was ist Averaging the available items? Was wird gemacht? Vorteile/Nachteile?
Was ist Last Observation Carried Forward? Was wird gemacht? Vorteile/Nachteile?
Was ist Multiple Imputation? Was sind die Phasen? Was wird gemacht? Bei welchem Missing Data Mechanism unverzerrte Parameterschätzung?
Argumente für Multiple Imputation: sinnvoller alle Daten zu nutzen, die man hat; durch viele Imputationen bessere Power, funktioniert für MAR, MCAR
3 Phasen: Imputation, Analysis, Pooling Phase
Wie viele Imputationen? 20-100, dass sich NV annähert, mehr immer besser
Imputationsphase: Generieren von vielen Datasets mit verschiedenen Imputationen (20-100 für Annäherung an NV), Analyse: jedes Dataset separat analysieren z.B. Regression, Pooling phase: zusammenführen aller Analysen zu z.B. einem Regressionskoeffizient (Mittelwert aus allen Werten der Analyse), dann Berechnung standard error
Was ist Maximum Likelihood Estimation? Was wird gemacht? Bei welchem Missing Data Mechanism unverzerrte Parameterschätzung?
Für unverzerrte Parameterschätzungen MAR
Schaut vorliegende Daten an, schätzt anhand vorliegender Daten die Parameter, die am wahrscheinlichsten sind (Maximum Likelihood)
Ziel nicht Imputation der Daten, sondern man bekommt direkt Parameter für Beantwortung der Forschungsfrage
ist ein Maximum-Likelihood-basiertes Verfahren zum Umgang mit fehlenden Werten (Missing Data).
Allerdings findet keine Imputation der fehlenden Werte auf Personenebene statt, sondern es werden nur die interessierenden Parameter für die Stichprobe geschätzt (z. B. Mittelwert, Kovarianz, Varianz).
Diese Schätzung erfolgt durch eine Maximierung der Likelihoodfunktion. Es werden jene Werte als Schätzung gewählt, deren Verteilung für die beobachteten Daten am plausibelsten erscheinen.
Last changed4 months ago