Fehlende Werte
„Missing Data“ liegt vor, wenn Werte im Datensatz fehlen, obwohl die entsprechenden Merkmalsausprägungen empirisch vorhanden sind.
Problem fehlender Werte
Durch fehlende Werte wird die Effizienz und Power, besonderes bei den multivariaten Verfahren und Analysen im Messwiederholungsdesign, erheblich beeinträchtigt.(Aussagekraft zu gering, Stichprobengröße sinkt)
Bei diesen Verfahren werden im Allgemeinen Fälle mit fehlenden Werten komplett aus den Analysen ausgeschlossen.
Bei einer solchen Reduktion muss mit einer Verzerrung (Bias) der zugrunde liegenden Strukturen gerechnet werden.
Beispielsweise “überleben” nur die Erfolgreichen und somit gehen nur deren Daten in die Auswertung ein. Es sollte beim Lesen einer Studie immer darauf geachtet werden, ob fehlende Werte vorliegen und wie die Autoren der Publikation hiermit umgegangen sind.
Beispiele für Datenquellen
Beobachtung können mit und ohne Videoaufnahmen durchgeführt werden.
Audio- oder Video-Aufzeichnungen können später (mehrmals) ausgewertet und kodiert werden.
Bei Experimenten werden z.B. Reaktionszeiten unter vollständig kontrollierten Untersuchungsbedingungen erhoben.
Log-Daten aus dem Internet
Blickbewegunsmessung via Eyetracker Psychopysiologische Daten mit ambulantem Monitoring
3 Kriterien, die bei der Datenanalyse beobachtet werden, um eine hohe Datenqualität zu gewährleisten
Korrektheit / Verständnis des Probanden
Plausibilität: Sind die eingegeben Werte realistisch?
Bleibt das Geschlecht über mehrere Messzeitpunkte hinweg “konstant”? Sind die Daten überhaupt “möglich”? (IQ von 210?)
Fehleingaben: doppelte Fälle
Outlier
Def: Außreißer und Extremeerte, die vor allem bei kleinen Stichprobenmengen das Ergebnis stark beeinflussen
Problem: schwer zu unterscheiden von falschen Eingaben
Def1: BoxPlot
Def2: in kleinen Stichproben (N < 80) ± 2.5SD vom Mittelwert der Variablen
bei größeren Stichproben ±4SD vom Mittelwert
im Zweifelsfalle untersuchen, ob sich Ausreißer von anderen in bestimmten Variablen unterscheiden
Zb kritische Probanden, die in mehreren Kategorien Ausreißer sind
Immer untersuchen, ob sich Ausreißer von anderen Probanden in bestimmten Variablen bedeutsam unterscheiden.
Winsorisieren
Damit nicht durch einen Ausschluss zu viele Daten von Ausreißern verloren gehen, kann durch Ersetzung der Einfluss eines Ausreißers reduziert werden.
Beim Winsorisieren wird um den Mittelwert einer Stichprobe ein Konfidenzintervall ermittelt, welches 90% aller Werte enthält. Alle Werte außerhalb dieses Intervalls werden als Ausreißer betrachtet und ersetzt.
Hierbei wird folgendermaßen vorgegangen:
Alle Werte unterhalb der 5%-Grenze (unterhalb des Konfidenzintervalls) werden durch den Wert der unteren Grenze des Intervalls ersetzt.
Alle Werte über der 95%-Grenze (oberhalb des Konfidenzintervalls) werden durch den Wert der oberen Grenze des Intervalls ersetzt.
Vor- Nachteil Winsorisieren
Vorteil
Ein Vorteil dieses Verfahrens ist, dass die Stichprobengröße erhalten bleibt, da es nicht zum Ausschluss von Ausreißern kommt.
Nachteil
Als Nachteil muss allerdings gefragt werden, ob bei diesem Vorgehen wirklich eine gute Schätzung des wahren Wertes erreicht wurde. Diese Annahme muss eher kritisch hinterfragt werden, da der durch Winsorisierung ersetzte Wert mit sehr hoher Wahrscheinlichkeit falsch ist.
Welche Vorteile hat eine Datenerhebung über das Internet gegenüber der Paper und Pencil Erhebung
+keine Übertragungsfehler
+Erinnerung der Teilnehmer fehlende Werte anzugeben
+Dauer des Eintragens kann erfasst werden -> höhere Validität
Missing-Data-Diagnose
Wie viele fehlende Werte liegen im Datensatz vor?
Anzhal pro Variable
Anzahl pro Person
Evt Ausschluss bestimmter Personen, Variablen für einen akzeptablen Datensatz
Intensive Diagnos ab 5% fehlender Werte pro Person/Variable
Indexvariable: Unterschiede bei den soziodemografischen Variablen erhoben werden. Sozusagen werden anhand des Merkmals “Variable liegt vor / liegt nicht vor”
Unterscheiden sich beide Gruppen innerhalb des Merkmals, bei welchem die fehlenden Werte aufgetreten sind?
Beispiel
Beispielsweise könnte bei fehlenden Werten zum zweiten Messzeitpunkt analysiert werden, ob sich die beiden Gruppen in diesem Merkmal schon zum ersten Messzeitpunkt unterscheiden. Wenn ja, wäre dies ein Hinweis auf einen systematischen Schwund von Probanden.
Unterscheiden sich beide Gruppe in anderen Merkmalen?
Beispielsweise könnte es in soziodemografischen Variablen systematische Unterschiede geben. So könnten Personen mit höherem Einkommen oder eventuell Männer die Angaben bestimmter Merkmale überproportional häufig verweigern.
3 Typen von fehlender Werte
Missing Completely at Random (MCAR)
Missing at Random (MAR)
Not Missing at Random (NMAR oder non-ignorable)
Missing completly at random MCAR
• Fehlende Werte sind über alle Beobachtungen
hinweg vollkommen zufällig verteilt.
• Versuchspersonen mit fehlenden Werten
unterschieden sich also nicht von jenen ohne fehlende Werte.
• Die Wahrscheinlichkeit des Fehlens eines Wertes
steht nicht im Zusammenhang mit anderen
Variablen (Keine Indexvariable)
Es liegt trotz des unsystematischen Dropouts ein Datensatz vor, welcher sich bezüglich Mittelwertsdifferenzen und Zusammenhängen nicht vom (praktisch leider nicht vorhandenen) Gesamtdatensatz unterscheidet. Es kann von der Teilstichprobe auf alle Probanden geschätzt werden
Missing at random MAR
Drop-Out selektiv, d.h. Personen mit unvollständigen Daten
unterscheiden sich von jenen mit vollständigen Daten
• Das Auftreten eines fehlenden Werts in einer Variablen X kann
aber durch die Ausprägungen in anderen Variablen erklärt
werden.
Das Auftreten des fehlenden Werts in einer Variablen hängt
aber nicht von der Ausprägung der Variablen selbst ab.
Also nicht: Nur Wohlhabende geben keinen Wert beim
Gehalt an
Die Stichprobe zu t2 ist nicht mehr repräsentativ für die ursprüngliche Gesamtstichprobe
→ Bias vorhanden, aber Ersetzungsverfahren möglich (Es kann ein Datensatz mittels statistischer Verfahren erzeugt werden, welcher die Relationen in der Population gut wiedergibt.)
Nonrandom Missing (NRM)
Nonrandom Missing liegt vor, wenn es systematische
Verzerrungen gibt und keine Variablen im Datensatz
vorliegen, die eine Vorhersage/Erklärung des Fehlens
erlauben.
• Das ist der Fall, wenn das Auftreten eines fehlenden
Wertes auf einer Variablen in Zusammenhang mit der
Ausprägung der Person in dieser Variablen selbst steht.
Standartersetzungsalgorithmen
listenweise Ausschluss (komplett aus der Analyse ausgeschlossen) paarweiser Ausschluss (für Teilberechnungen ausgeschlossen) Mittelwertsersetzung (Mittelwert der Variable zur Ersetzung verwendet)
Regressionsimputation (Vorhersage des fehlenden Wertes)
-> alle haben eine große Anzahl fehlender Werte, Verzerrung
Besser: Der Expectation-Maximization-Algorithmus (EM-Algorithmus) kann erfolgreich diesen Verzerrungen entgegenwirken.
Last changeda year ago