07 Fehlende Were und Datenerhebung

by isa K.

Fehlende Werte

„Missing Data“ liegt vor, wenn Werte im Datensatz fehlen, obwohl die entsprechenden Merkmalsausprägungen empirisch vorhanden sind.

Problem fehlender Werte

Durch fehlende Werte wird die Effizienz und Power, besonderes bei den multivariaten Verfahren und Analysen im Messwiederholungsdesign, erheblich beeinträchtigt.(Aussagekraft zu gering, Stichprobengröße sinkt)

Bei diesen Verfahren werden im Allgemeinen Fälle mit fehlenden Werten komplett aus den Analysen ausgeschlossen.

Bei einer solchen Reduktion muss mit einer Verzerrung (Bias) der zugrunde liegenden Strukturen gerechnet werden.

Beispielsweise “überleben” nur die Erfolgreichen und somit gehen nur deren Daten in die Auswertung ein. Es sollte beim Lesen einer Studie immer darauf geachtet werden, ob fehlende Werte vorliegen und wie die Autoren der Publikation hiermit umgegangen sind.

Beispiele für Datenquellen

Beobachtung können mit und ohne Videoaufnahmen durchgeführt werden.

Audio- oder Video-Aufzeichnungen können später (mehrmals) ausgewertet und kodiert werden.

Bei Experimenten werden z.B. Reaktionszeiten unter vollständig kontrollierten Untersuchungsbedingungen erhoben.

Log-Daten aus dem Internet

Blickbewegunsmessung via Eyetracker Psychopysiologische Daten mit ambulantem Monitoring

3 Kriterien, die bei der Datenanalyse beobachtet werden, um eine hohe Datenqualität zu gewährleisten

Korrektheit / Verständnis des Probanden

Plausibilität: Sind die eingegeben Werte realistisch?

Bleibt das Geschlecht über mehrere Messzeitpunkte hinweg “konstant”? Sind die Daten überhaupt “möglich”? (IQ von 210?)

Fehleingaben: doppelte Fälle

Outlier

Def: Außreißer und Extremeerte, die vor allem bei kleinen Stichprobenmengen das Ergebnis stark beeinflussen

Problem: schwer zu unterscheiden von falschen Eingaben

Def1: BoxPlot

Def2: in kleinen Stichproben (N < 80) ± 2.5SD vom Mittelwert der Variablen

bei größeren Stichproben ±4SD vom Mittelwert

im Zweifelsfalle untersuchen, ob sich Ausreißer von anderen in bestimmten Variablen unterscheiden

Zb kritische Probanden, die in mehreren Kategorien Ausreißer sind

Immer untersuchen, ob sich Ausreißer von anderen Probanden in bestimmten Variablen bedeutsam unterscheiden.

Winsorisieren

Damit nicht durch einen Ausschluss zu viele Daten von Ausreißern verloren gehen, kann durch Ersetzung der Einfluss eines Ausreißers reduziert werden.

Beim Winsorisieren wird um den Mittelwert einer Stichprobe ein Konfidenzintervall ermittelt, welches 90% aller Werte enthält. Alle Werte außerhalb dieses Intervalls werden als Ausreißer betrachtet und ersetzt.

Hierbei wird folgendermaßen vorgegangen:

Alle Werte unterhalb der 5%-Grenze (unterhalb des Konfidenzintervalls) werden durch den Wert der unteren Grenze des Intervalls ersetzt.

Alle Werte über der 95%-Grenze (oberhalb des Konfidenzintervalls) werden durch den Wert der oberen Grenze des Intervalls ersetzt.

Vor- Nachteil Winsorisieren

Vorteil

Ein Vorteil dieses Verfahrens ist, dass die Stichprobengröße erhalten bleibt, da es nicht zum Ausschluss von Ausreißern kommt.

Nachteil

Als Nachteil muss allerdings gefragt werden, ob bei diesem Vorgehen wirklich eine gute Schätzung des wahren Wertes erreicht wurde. Diese Annahme muss eher kritisch hinterfragt werden, da der durch Winsorisierung ersetzte Wert mit sehr hoher Wahrscheinlichkeit falsch ist.

Welche Vorteile hat eine Datenerhebung über das Internet gegenüber der Paper und Pencil Erhebung

+keine Übertragungsfehler

+Erinnerung der Teilnehmer fehlende Werte anzugeben

+Dauer des Eintragens kann erfasst werden -> höhere Validität

Missing-Data-Diagnose

Wie viele fehlende Werte liegen im Datensatz vor?

Anzhal pro Variable
Anzahl pro Person

Evt Ausschluss bestimmter Personen, Variablen für einen akzeptablen Datensatz

Intensive Diagnos ab 5% fehlender Werte pro Person/Variable

Indexvariable: Unterschiede bei den soziodemografischen Variablen erhoben werden. Sozusagen werden anhand des Merkmals “Variable liegt vor / liegt nicht vor”

Unterscheiden sich beide Gruppen innerhalb des Merkmals, bei welchem die fehlenden Werte aufgetreten sind?
Beispiel
Beispielsweise könnte bei fehlenden Werten zum zweiten Messzeitpunkt analysiert werden, ob sich die beiden Gruppen in diesem Merkmal schon zum ersten Messzeitpunkt unterscheiden. Wenn ja, wäre dies ein Hinweis auf einen systematischen Schwund von Probanden.
Unterscheiden sich beide Gruppe in anderen Merkmalen?
Beispiel
Beispielsweise könnte es in soziodemografischen Variablen systematische Unterschiede geben. So könnten Personen mit höherem Einkommen oder eventuell Männer die Angaben bestimmter Merkmale überproportional häufig verweigern.

3 Typen von fehlender Werte

Missing Completely at Random (MCAR)

Missing at Random (MAR)

Not Missing at Random (NMAR oder non-ignorable)

Missing completly at random MCAR

• Fehlende Werte sind über alle Beobachtungen

hinweg vollkommen zufällig verteilt.

• Versuchspersonen mit fehlenden Werten

unterschieden sich also nicht von jenen ohne fehlende Werte.

• Die Wahrscheinlichkeit des Fehlens eines Wertes

steht nicht im Zusammenhang mit anderen

Variablen (Keine Indexvariable)

Es liegt trotz des unsystematischen Dropouts ein Datensatz vor, welcher sich bezüglich Mittelwertsdifferenzen und Zusammenhängen nicht vom (praktisch leider nicht vorhandenen) Gesamtdatensatz unterscheidet. Es kann von der Teilstichprobe auf alle Probanden geschätzt werden

Missing at random MAR

Drop-Out selektiv, d.h. Personen mit unvollständigen Daten

unterscheiden sich von jenen mit vollständigen Daten

• Das Auftreten eines fehlenden Werts in einer Variablen X kann

aber durch die Ausprägungen in anderen Variablen erklärt

werden.

Das Auftreten des fehlenden Werts in einer Variablen hängt

aber nicht von der Ausprägung der Variablen selbst ab.

Also nicht: Nur Wohlhabende geben keinen Wert beim

Gehalt an

Die Stichprobe zu t2 ist nicht mehr repräsentativ für die ursprüngliche Gesamtstichprobe

→ Bias vorhanden, aber Ersetzungsverfahren möglich (Es kann ein Datensatz mittels statistischer Verfahren erzeugt werden, welcher die Relationen in der Population gut wiedergibt.)

Nonrandom Missing (NRM)

Nonrandom Missing liegt vor, wenn es systematische

Verzerrungen gibt und keine Variablen im Datensatz

vorliegen, die eine Vorhersage/Erklärung des Fehlens

erlauben.

• Das ist der Fall, wenn das Auftreten eines fehlenden

Wertes auf einer Variablen in Zusammenhang mit der

Ausprägung der Person in dieser Variablen selbst steht.

Standartersetzungsalgorithmen

listenweise Ausschluss (komplett aus der Analyse ausgeschlossen) paarweiser Ausschluss (für Teilberechnungen ausgeschlossen) Mittelwertsersetzung (Mittelwert der Variable zur Ersetzung verwendet)

Regressionsimputation (Vorhersage des fehlenden Wertes)

-> alle haben eine große Anzahl fehlender Werte, Verzerrung

Besser: Der Expectation-Maximization-Algorithmus (EM-Algorithmus) kann erfolgreich diesen Verzerrungen entgegenwirken.

Join Course

Preview

Author

isa K.

Information

Last changed
3 years ago

Report course