undefined

Buffl

Koronare Herzerkrankungen

by Katharina G.

Was sind die 5 Schritte der Datenaufbereitung?

Erstellung der Datensätze
Kommentierung der Datensätze
Anonymisierung der Datensätze
Datenbereinigung
Datentransformation

Was gehört zur Erstellung der Datensätze?

Sortierung
Zuordnung
Digitalisierung
Formatisierung
Verschriftlichung (Transkription) von Audio- und Videoaufzeichnungen

Was gehört zur Kommentierung der Datensätze?

Bedeutungen der Variablen und der vergebenen numerischen Werte festhalten (sog. Labeling)
Ergänzung der qualitativen und quantitativen Datensätze

Was gehört zur Anonymisierung der Datensätze?

Entfernung/Ersetzung von Informationen, die zur Identifizierung von Untersuchungsteilnehmenden führen könnten

Was gehört zur Datenbereinigung?

Entfernen doppelter Datensätze
für die jeweilige Auswertung unwichtige Details entfernen
Identifikation und Korrektur unplausibler und fehlerhafter numerischer Angaben
“Glättung” von Transkripten um Versprecher, verschluckte Silben, Dialekt
sinnvolle Behandlung von Lücken im Datenmaterial (z.B. Nacherhebung, Kennzeichen fehlender Werte, Ersetzung fehlender Werte durch Schätzwerte gemäß entsprechender statistischer Verfahren)

Was gehört zur Datentransformation?

Umpolung
Zusammenfassung von quantitativen Variablen
Gewichtung von komplexen probabilistischen Stichproben

Was sind die Kriterien hoher Datenqualität?

Vollständigkeit
Einheitlichkeit (z.B. von Datums- und Währungsangaben, Verwendung von Akronymen)
Ausschluss doppelter Werte/mehrfacher Datenzeilen
sachgerechte Behandlung von fehlenden Werten
Erkennung und Behandlung von Ausreißerwerten (oder im Rahmen der Datenanalyse)
Plausibilität der Antwortmuster

Wie sieht der R-Code für einen Graph mit ggplot aus?

ggplot(data = <DATA>) +

<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))

einzelnes spezifizieren:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +

geom_point(mapping = aes(color = class)) +

geom_smooth() +

labs(title = "",

x = "",

y = "") +

theme_minimal()

geom_bar

geom_histogram

geom_smooth

geom_abline

Color = Umrandung

Fill = Füllung

Size = Größe

Alpha = Transparenz

Shape = Form

Bins =

Wenn Farbe außerhalb der Klammer,(aes(x = …, y = ….) class = „blue“), wenn Variable innerhalb der Klammer (aes(x = …, y = …, class = …)

labs(title = „…“, x = „…“, y = „…“)

Was für Darstellungen sind möglich mit ggplot?

Distribution (Histogram), Correlation (Scatter), Ranking (Bar plot), Part of a whole (Pie chart), Evolution (Line plot), Map (Map), Flow (Network)

What is a missing data pattern?

Configuration (Beschaffenheit) of observed and missing values in a data set

What are missing data mechanisms?

Possible relationships between measured variables and the probability of missing data

What kind of missing data patterns are there?

What kind of missing data mechanisms are there?

Was kann man machen, um den MCAR Mechanismus zu testen?

t-Test-Vergleich (Aufteilung in zwei Gruppen missing vs complete bzgl. einer Variable, dann Vergleich Gruppenmittelwerte auf anderen Variablen)

Little´s MCAR Test (Multivariate Erweiterung des t-Test Vergleichs)

Ziel: Potentielle Korrelate von Missingness finden

Was sind die zwei Wege, die man bei Missing Data gehen kann?

Removing the cases with incomplete Data (Löschen): unverzerrt bei MCAR
Filling in the missing values (Füllen): oft verzerrt, selbst wenn MCAR

Was sind mögliche Vorgangsweisen beim Löschen von Fällen mit nicht kompletten Daten?

Listwise deletion
Pairwise deletion

Was sind mögliche Vorgangsweisen beim Füllen von fehlenden Werten?

Single imputation methods - Arithmetic mean imputation
Single imputation methods - Regression imputation
Single imputation methods - Stochastic Regression imputation
Single imputation methods - Hot-deck Imputation
Averaging the available items
Last Observation Carried Forward
Multiple Imputation

Andere (nicht Imputation): Maximum Likelihood estimation

Was ist Listwise Deletion? Was wird gemacht? Vorteile/Nachteile?

Was ist Pairwise Deletion? Was wird gemacht? Vorteile/Nachteile?

Was ist Single imputation methods - Arithmetic mean imputation? Was wird gemacht? Vorteile/Nachteile?

Was ist Single imputation methods - Regression imputation? Was wird gemacht? Vorteile/Nachteile?

Was ist Single imputation methods - Stochastic Regression imputation? Was wird gemacht? Vorteile/Nachteile?

Was ist Single imputation methods - Hot-deck Imputation? Was wird gemacht? Vorteile/Nachteile?

Was ist Averaging the available items? Was wird gemacht? Vorteile/Nachteile?

Was ist Last Observation Carried Forward? Was wird gemacht? Vorteile/Nachteile?

Was ist Multiple Imputation? Was sind die Phasen? Was wird gemacht? Bei welchem Missing Data Mechanism unverzerrte Parameterschätzung?

Argumente für Multiple Imputation: sinnvoller alle Daten zu nutzen, die man hat; durch viele Imputationen bessere Power, funktioniert für MAR, MCAR

3 Phasen: Imputation, Analysis, Pooling Phase

Wie viele Imputationen? 20-100, dass sich NV annähert, mehr immer besser

Imputationsphase: Generieren von vielen Datasets mit verschiedenen Imputationen (20-100 für Annäherung an NV), Analyse: jedes Dataset separat analysieren z.B. Regression, Pooling phase: zusammenführen aller Analysen zu z.B. einem Regressionskoeffizient (Mittelwert aus allen Werten der Analyse), dann Berechnung standard error

Was ist Maximum Likelihood Estimation? Was wird gemacht? Bei welchem Missing Data Mechanism unverzerrte Parameterschätzung?

Für unverzerrte Parameterschätzungen MAR

Schaut vorliegende Daten an, schätzt anhand vorliegender Daten die Parameter, die am wahrscheinlichsten sind (Maximum Likelihood)

Ziel nicht Imputation der Daten, sondern man bekommt direkt Parameter für Beantwortung der Forschungsfrage

ist ein Maximum-Likelihood-basiertes Verfahren zum Umgang mit fehlenden Werten (Missing Data).
Allerdings findet keine Imputation der fehlenden Werte auf Personenebene statt, sondern es werden nur die interessierenden Parameter für die Stichprobe geschätzt (z. B. Mittelwert, Kovarianz, Varianz).
Diese Schätzung erfolgt durch eine Maximierung der Likelihoodfunktion. Es werden jene Werte als Schätzung gewählt, deren Verteilung für die beobachteten Daten am plausibelsten erscheinen.

Join Course

Preview

Author

Katharina G.

Information

Last changed
4 months ago

Report course