Warum sollte man eigentlich ein „Data-Screening“ durchführen?
(1)
Fehler im Datensatz können Ergebnisse substantiell verzerren!
– „Erhöhte Fehlervarianz“
– Ausreißer
– Systematische Verzerrungen
• Wichtig: Geplantes Vorgehen, kein p-hacking!
Genauigkeit d. Daten: Gültigkeit prüfen (3)
Gültigkeit Prüfen
• Für alle Variablen sollte geprüft werden, ob die eingegeben Werte plausibel
sind
• Plausibilitätsprüfungen
– Sind alle Werte im gültigen Bereich?
– Sind Mittelwerte und Standardabweichungen plausibel?
– Sind die Einstellungen für „Fehlende Werte“ korrekt?
• Bei manueller Eingabe:
– Ggf. Fragebogendaten doppelt eingeben auf Konsistenz prüfen
– Bei großen Datensätzen Stichprobenhafte Überprüfung der Genauigkeit
(„Beobachterübereinstimmung“)
Umgang mit Missing Data (1)
Umgang mit Missing Data
• Fehlende Daten sind in fast allen großen Forschungsprojekten ein Problem
(besonders: Längsschnitt)
• Bei geringer Anzahl fehlender Werte (<5%) und zufälliger Verteilung
unproblematisch
• Besonders problematisch: systematische „Lücken“ im Datensatz
– Beispiel 1: Einkommen
• Fehlende Angabe zum Einkommen hat etwas mit politischen
Einstellungen zu tun
• Ausschluss von Vpn ohne Angabe zum Einkommen Verzerrte
Erhebung der politischen Einstellung
– Beispiel 2: Therapieerfolg (follow up)
• Personen, die einen Rückfall haben, nehmen mit geringerer
Wahrscheinlichkeit an einer follow-up Erhebung teil
• Der Therapieerfolg wird überschätzt
Einfluss v. Missing Data prüfen (1)
Prüfung mittels Dummy Variable und Korrelation mit anderen Variablen (cor missing <> andere Var); Vorsicht bei vielen anderen Variablen wg alpha Fehler Kummulierung
Korrelation der Missings mit anderen Merkmalen
Umgang mit „Missing Data“ (2)
Prinzipielle Möglichkeiten
– Löschen von Fällen (Versuchspersonen)
– Löschen von Variablen (Merkmalen)
• Löschen von Fällen
– Dies ist sinnvoll, wenn wenig Daten fehlen und
– wenn es keinen Hinweis auf systematische Verzerrungen gibt
• Löschen von Variablen
– Ist sinnvoll, wenn sich die fehlende Werte auf wenige Variablen
konzentrieren
– und diese Variablen nicht zentral für die Untersuchung sind
– bzw. wenn sie redundant sind (d.h. hoch mit anderen Variablen
korrelieren; z.B. Ausbildung und Einkommen)
Ersetzen von Missing Data - klassisches Vorgehen (3)
1. „Well educated guess“
– Einschätzung des Versuchsleiters
2. Ersetzen durch Mittelwert / Median der Stichprobe
– Konservatives Vorgehen: Der Gesamtmittelwert ändert sich nicht
– Aber: Reduktion der Varianz Reduktion von Korrelationen
3. Vorhersage durch Regression
– Multiple Regression der Variable mit fehlenden Werten auf mehrere
Prädiktoren
– Bessere Schätzung als der Mittelwert über alle Probanden
– Aber: Zusammenhänge im Datensatz werden überschätzt (Der errechnete
Wert passt „besser“ als der wahre Wert)
Ersetzen von Missing Data - neueres Vorgehen "einzig sinnvolle Art d. Ersetzung v. missing data" (1)
4. Multiple Imputation
– Mehrstufiges simulationsbasiertes Verfahren (mehrere „mögliche“ Datensätze werden gebildet)
– Identifikation von Variablen, die mit der unvollständigen Variablen korrelieren (Logistische Regression)
– Ersetzung auf Basis der Verteilungsform der unvollständigen Variablen (Monte Carlo-Bootstrap)
– Vorteil: Keine Annahme über zufällige Verteilung fehlender Daten notwendig
Amerkung.: wird auch emfpohlen für syst. Verzerrungen - warum? wg Bootstrap?
https://www.publichealth.columbia.edu/research/population-health-methods/missing-data-and-multiple-imputation
Missing Data - Strategiewahl (4)
• Ausschluss von Personen, wenn fehlende Werte zufällig über Personen und
Variablen gestreut sind und nur wenige Personen betroffen sind
• Ausschluss von Variablen, wenn fehlende Werte nur wenige Variablen
betreffen und diese nicht zentral für die Hypothesenprüfung sind
• Ersetzung durch den Mittelwert / Median sollte Nur bei sehr geringer Anzahl
fehlender Werte verwendet werden
• Häufig ist die Ersetzung mittels Multiple Imputation optimal
• Wichtig: Vergleich der Ergebnisse mit Ausschluss und Einsetzungsverfahren
Gleiche Ergebnisse deuten auf die Stabilität der Befunde hin!
Missing Data als Information (1)
• Fehlende Werte können als psychologische Information (AV oder UV) genutzt
werden
• Beispiel: Fehlende biographische Angaben sind ein Hinweis auf Einstellungen
zum Datenschutz
• Beispiel: Die Anzahl „übersprungener“ Items in einem Fragebogen sind ein
Hinweis auf geringe Gewissenhaftigkeit
Ausreißer-Typen (2)
• Ausreißer sind Fälle mit extremem Werten, die das Ergebnis einer statistischen Analyse verzerren
• Univariate Ausreißer: Extreme Werte auf einer Variablen
• Multivariate Ausreißer: Ungewöhnliche Kombination von Werten
niemand sonst hat niedrigen Y und hohen x Wert --> Multivariater Ausreißer
Ausreißer-Werte: betroffene Werte (4)
Ausreißer können betreffen
– Univariate und multivariate Analyse
– kontinuierliche und kategoriale Variablen (wenn eine Kategorie sehr gering besetzt ist)
– AVs und UVs
– α- und β-Fehler
Gründe für Ausreißer (4)
– Messfehler / Fehler bei der Dateneingabe
– Fehler bei der Definition fehlender Werte
– Der Ausreißer gehört nicht zur gleichen Population wie der Rest der Stichprobe
– Die Variable ist nicht normalverteilt (mehr extreme Werte)
Univariate Ausreißer: Kategoriale und Kontinuierliche Variablen
Kategoriale Variablen
– Wenn eine Kategorie nur mit wenigen Werten besetzt ist, ist eine Analyse problematisch (Empfehlung ANOVA: 𝑛𝑖 > 20)
– Die Fälle der kleineren Kategorie bekommen eine zu starkes Gewichtung —> ggf. Kategorien zusammenfassen oder Variable ausschließen
Kontinuierliche Variablen
– Strategie 1: Ausschluss von Fällen mit |z|> 3.29 (p<.001)
• Bei sehr großen N: Ggf. liberalere Grenze verwenden!
– Strategie 2: Boxplot (Tukey, 1977)
• Ausreißer: 1.5 IQA über/unter dem 3./1. Quartil
• Extremwerte: 3 IQA über/unter dem 3./1. Quartil
in R:
### Normalverteilte Zufallszahlen
x = rnorm(100)
### Einfügen eines Ausreissers
x[42] = 6
### Strategie 1: z-Werte
z_lim = qnorm(0.999)
z = (x-mean(x)) / sd(x)
which(z > z_lim)
### Strategie 2: Boxplot
boxplot(x, range=3)
> which(z > z_lim)
[1] 42
Umgang mit univariaten Ausreißern (3)
• Entfernung aus dem Datensatz siehe fehlende Werte
• Trimming: Extreme Werte werden auf plausible Wert reduziert
– z.B. Reaktionszeiten > 3000ms werden auf 3000ms gesetzt
• Bei schiefen Verteilungen Transformieren (z.B. Logarithmus)
Multivariate Ausreißer: Identifikation (2)
Multivariate Ausreißer können mit der Mahalanobis-Distanz identifiziert
– Standardisierte Entfernung vom „Zentroid“ der Punktewolke (Schnittpunkt der Mittelwerte)
– Es werden Varianzen und Kovarianzen berücksichtigt
– Die MD kann anhand einer Chi² Tabelle interpretiert werden (df = P(Anzahl d. Variablen in der Verwendung);
Ausreißer bei p<.001)
—>je kleiner, desto typischer ist der Wert für diesen Datensatz; ist Chi2 verteilt
• Alternative Maße:
– Leverage
– Cook‘s Distance
MD in R:
MD = mahalanobis(df, colMeans(df), cov(df))
krit = qchisq(p=0.999, df=3)
boxplot(MD)
abline(h=krit, col="red")
• Alle Daten sind in einem data.frame (df) gespeichert
• mahalanobis(…)erzeugt einen Vektor mit allen MD-Werten
• Alle Werte über dem kritischen Chi² Wert sind auffällig!
Multivariate Ausreißer: Vorgehen (2)
Iteratives Vorgehen:
– Ausreißer können sich hinter Ausreißern „verstecken“
– Mögliches iteratives Vorgehen:
• Suche nach Ausreißern
• Ausschluss aus dem Datensatz
• …
• Bis keine Ausreißer mehr gefunden werden
– Problem: Bei heterogenen Datensätzen werden ggf. viele Daten entfernt!
Multivariate Ausreißer: Identifikation der beteiligten Variablen (3)
Identifikation der beteiligten Variablen
– Berechnung einer Dummy-Variablen (z.B. dummy=1 für Personen mit
auffälligen Werten und dummy=0 für alle anderen)
– Logistische Regression der dummy-Variablen auf alle Variablen
– So werden Variablen identifiziert, auf denen die „Ausreißer“ auffällig sind
• Mögliche Strategien
– Suche nach Eingabe oder Kodierungsfehlern
– Ausschluss der Fälle (wenn diese nicht zur Zielpopulation gehören)
– Transformation (z.B. log) der identifizierten Variablen (Reduktion des
statistischen Einflusses von Ausreißern)
– Ausschluss der identifizierten Variablen (wenn wenige Variablen für die
meisten Ausreißer verantwortlich sind)
Verteilungsannahmen (4)
Die meisten statistischen Verfahren setzen (multivariate) Normalverteilung der
Daten voraus
– Alle Variablen sind normalverteilt
– Alle Linearkombinationen von Variablen sind normalverteilt
• Zusätzliche Annahme: Homoskedastizität
– Die Varianzen einer Variablen sind für alle Ausprägungen einer anderen
Variablen gleich
Verteilungsannahmen: Prüfung Normalverteilung (4)
Normalverteilung
• Eine Verletzung der Normalverteilungsannahme (z.B. t-Test, ANOVA
Korrelation, Regression) kann die Ergebnisse einer Analyse verzerren
• Prüfung der Normalverteilung
– Schiefe
•
3
• 𝑆 > 0: linkssteil / rechtsschief
• 𝑆 < 0 : rechtssteil / linksschief
– Kurtosis
“-3” zentriert die Kurtosis (--> NV hat dann Kurtosis von 0)
• 𝐾 > 0: schmalgipflig
• 𝐾 < 0: breitgipflig
Prüfung in R:
Kann zum Beispiel mit dem Shapiro-Wilks-Test erfolgen
• Bei 𝑝 < .05 liegt eine signifikante Verletzung der NV-Annahme vor
> x = rnorm(20)
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.97794, p-value = 0.9048
> x = rgamma(20, 1, 1)
W = 0.89799, p-value = 0.03782
Normalverteilung: Signifikanztest der Schiefe (3)
• Signifikanztest der Schiefe
## library psych zur Berechnung der
## Schiefe
library(psych)
## Simulation von Ratings mit
## positiver Schiefe (Bodeneffekt)
x = round(rgamma(100,1,1))
## Darstellung der simulierten Daten
table(x)
skew(x)
S = skew(x)
SE = sqrt(6/100)
z = S/SE
p = 1-pnorm(z)
Normalverteilung: Signifikanztest der Kurtosis (3)
kurtosi(x)
K = kurtosi(x)
SE = sqrt(24/100)
z = K/SE
Normalverteilung: Schiefe, Kurtosis & Stichprobengröße (2)
Bei kleinen Stichproben (𝑁 < 100)
– …kann man Schiefe und Kurtosis mit einem konservativen Kriterium
(𝑝 < .01) auf Signifikanz prüfen.
Bei großen Stichproben (𝑁 > 100)
– …werden auch minimale Abweichungen signifikant.
– Lösung: Graphische Analyse (Histogramm)
– Oder feste cut-offs:
• Schiefe: Werte zwischen -2 und 2 sind akzeptabel
• Kurtosis: Werte zwischen -7 und 7 sind akzeptabel
Linearität, Prüfung bi- & multivariat (2)
• Bivariat: Der Zusammenhang von zwei Variablen wird durch eine Gerade beschrieben
• Multivariat: Der Zusammenhang zwischen Linearkombinationen der
Variablen wird durch eine Gerade beschrieben
• Graphische Analyse mittels Scatterplots
Varianzhomogenität und Homoskedastizität (2)
• Verfahren für „gruppierte Daten“ (t-Test, ANOVA, etc.) verlangen oft Varianzhomogenität
• Bei Verfahren für „ungruppierten Daten“ (z.B. Regression) entspricht dies der
• Homoskedastizitätsannahme
– Gleiche Varianzen von y für alle Ausprägungen von x
– Bzw.: Die Varianz der Residuen korreliert nicht mit den Prädiktoren
Heteroskedastizität bspw. Beobachtung der Gehaltsentwicklungen von Berufsanfängern über die Zeit
Varianzhomogenität und Homoskedastizität: Ursachen (2)
Mögliche Ursachen von Heteroskedastizität
– Eine Variable ist nicht normalverteilt
– Logischen Verknüpfung der Variablen
• Beispiel: Personen haben ein ähnliches Einstiegsgehalt. Mit
steigendem Lebensalter manifestieren sich deutliche Unterschiede im
Einkommen Daher steigt die Varianz des Einkommens mit dem
Lebensalter
– Unterschiedliche Messfehler
• Beispiel: Altersklassen unterscheiden sich darin, wie wichtig Ihnen Ihr Gewicht ist Unterschiedliche Genauigkeit der Gewichtsangabe
Fehlende Homoskedastizität schwächt Zusammenhangsanalysen - der Einfluss auf den Signifikanztest ist aber meist nicht gravierend (Symmetrie ist wichtiger)
Homoskedastizität: Transformationen von Variablen (3)
Variablen können transformiert werden, um eine (annähernde)
Normalverteilung zu erreichen
– Schiefe ≈ 0
– Kurtosis ≈ 0 / 3
– Wenig Ausreißer
Transformationen für linkssteile Verteilungen (positive Schiefe)
– Inverse Transformation (sehr stark): 𝑥´ = 1/𝑥 (bzw. 𝑥‘ = 1 − 1/𝑥)
– Logarithmus Transvormation (mittel): 𝑥´ = ln(𝑥) (am häufigsten)
– Wurzel Transformation (schwach): 𝑥´ = √(𝑥)
Bei rechtssteilen Verteilungen (negative Schiefe):
– Reflektion vor der Transformation: 𝑥´ = (max(𝑥) + 1) − 𝑥
Falsch, muss "Reflektiert" heißen
Ab sollte ich das tun? Hilft nur ausprobieren. . .
Verändere ich das Merkmal? Wenn ich die transformierten Daten mit den alten korreliere, wird eine nahezu perfekte Korrelation erreicht --> selbe Information enthalten
Multikollinearität und Singularität (3)
Multikollinearität
– Variablen sind sehr hoch korreliert (r > .90)
– Beispiel: Zwei Intelligenztest sind multitkollinear
Singularität
– Variablen sind perfekt korreliert
– Eine Variable lässt sich als Linearkombination anderer Variablen darstellen
– Beispiel: Das Gesamtergebnis eines Test ist singulär zu den Ergebnisse der
Sub-Tests
Probleme:
– Redundante Information wird aufgenommen
– Statistisches Problem: Die Inverse Matrix ist nicht mehr definiert bzw. ist instabil
—> Lösung: Entfernung einer redundanten Variablen
Checkliste für das Data-Screening
1. Überprüfung der univariaten Deskriptivstatistik
– „Out-of-Range“ Werte
– Plausibilität von Mittelwert und Standardabweichung
– Univariate Ausreißer
2. Analyse von Umfang und Verteilung von fehlenden Werten
3. Überprüfung von paarweisen Scatterplots
– Nonlinearität
– Heteroskedasitizität
4. Überprüfung von Normalverteilung
– Schiefe und Kurtosis
– Ggf. Variablen transformieren
5. Identifikation multivariater Ausreißer
– Welche Variablen sind beteiligt?
6. Ausschluss von Multikollinearität und Singularität
Last changed2 years ago