Einordnung
Aspekte der statistischen Validität
Man unterscheidet drei Aspekte der statistischen Validität:
Hypothesenvalidität: gestört, wenn SH und Testverfahren für ihre Prüfung nicht zur PH passen (Implikation EIH -> SH, Modellannahmen)
Signifikanztestvalidität: gestört durch alle Faktoren, die die Fehlerwahrscheinlichkeiten erhöhen (Stichprobenumfang, Präzision der Schätzer, Modellannahmen)
Entscheidungsvalidität: gestört durch falsche Interpretation statistischer Ergebnisse (Teststärke, Effektgröße, Fehlerkumulierung)
-> Eigene Studie: Statistische Validität maximieren; Max-Kon-Min plus…
Implikation PH -> SH sicherstellen, zutreffendes/robustes Modell verwenden
Beide Fehler-WSnkontrollieren & möglichst klein halten
Ergebnisse (nur) so interpretieren, wie es die verwendete Methodik zulässt
-> Eigene/andere Studien: Gefährdungen erkennen; beeinträchtigen oft mehrere Aspekte der statistischen Validität…
Gefährdung der statistischen Validität
Eine Auswahl möglicher Gefährdungen:
geringe Teststärke (Power)
Verletzung der Voraussetzung der statistischen Verfahren
Messung ist nicht reliabel
restrictionofrange
Treatment nicht reliabelimplementiert
Einfluss von Störvariablen
ungenaue Bestimmung der Effektgrößen
Multiple Tests
Darstellung explorativer Untersuchungen als hypothesentestend
Geringe Teststärke (Power)
1. geringe Teststärke (Power)
Teststärke = Wahrscheinlichkeit dafür, einen Effekt als signifikant zu entdecken, wenn er existiert = 1 –Wahrscheinlichkeit für Beta-Fehler
Analog zu „Auflösung“ eines Mikroskops: je größer, desto kleinere Unterschiede/Effekte können entdeckt werden
Folge geringer Teststärke: hohe Wahrscheinlichkeit für Beta-Fehler, große Konfidenzintervalle
Power erhöhen: Signalstärke rauf (Effekt); Rauschen runter (unsystematische Störvarianz)
Wichtigster Einfluss: Aggregation (Rauschen mittelt sich raus)
Lösungsansätze:
vor der Untersuchung optimalen Stichprobenumfang berechnen
Teststärke versuchsplanerisch maximieren (= MaxKon Min)
Methoden zur Erhöhung der Teststärke (1)
Erhöhung der Stichprobengröße
gleiche Zellenbesetzung
Verbesserung der Messung
mehr Messpunkte pro Person
Reliablere Messintrumente
Vermeidung von rangerestrictions(Boden/Deckeneffekte)
matching, statistische Paarbildung
Variable, die dem matchingzugrunde liegt, muss mit AV korrelieren
Erhebung von Kovariaten
Kovariatemuss mit AV korrelieren, um Power erhöhen zu können
Trade-off zwischen zusätzlicher Kovariateund höherem N
Methoden zur Erhöhung der Teststärke (2)
stärkeres Treatment
Größere Unterschiede in der UV
Diffusion zwischen den Stufen der UV verringern
Treatment reliabelanwenden
mehr Treatmentvariabilität
Mehr Stufen der UV realisieren
Extremstufen überrepräsentieren
Messwiederholungsdesigns
Im Labor am praktikabelsten
Ermüdung, Übung, etc.
Einsatz teststarker statistischer Verfahren
Möglichst hohes Skalenniveau
Regression statt Mediansplit; Transformation zur Normalverteilung
2. Verletzung der Modellannahmen (Voraussetzung der statistischen Verfahren)
wenn Modell nicht zutrifft, sind nominelle Fehlerniveaus u.U. ungültig
Irrtumswahrscheinlichkeiten unbekannt/unkontrolliert
praktisch nicht immer problematisch
z.B. ist t-Test robust gegenüber Verletzungen Normalverteilung, wenn große Stichprobe & gleichgroße Gruppen
z.B. Unabhängigkeit der Stichprobenelemente nicht gegeben
Beispiel: Kinder derselben Schulklasse (Nesteddesigns-> Hierarchische Modelle)
Lösungsmöglichkeiten:
Modell anpassen (z.B. Varianzhomogenitätsannahme)
NonparametrischesVerfahren mit weniger Annahmen wählen (kann Teststärke reduzieren)
3.Messung ist nicht reliabel
3. Messung ist nicht reliabel
AttenuationbivariaterZusammenhängeKorrelationen; Mittelwertsunterschiede
Bei multivariaten Zusammenhängen: Nicht vorhersehbare Effekte
Lösungsansätze: Reliabilität erhöhenmehr Messungen (Aggregation)
mehr Beurteiler, besseres Beurteiler-Training
bessere (reliable & valide) Messinstrumente
latente Merkmalsanalyse (Strukturgleichungsmodellierung)
4.Restriction of range
4. restrictionofrange
Varianzvernichtung durch ungeeignete Datenerhebung (z.B. dichotom: erfolgreich vs. nicht-erfolgreich)
kaum Unterschiede im Treatment (kleine vs. mittlere Medikamentendosis)
Decken-oder Bodeneffekte durch ungeeignete Messung oder Stichprobenauswahl (z.B. nur hochintelligente Studierende)
-> reduziert Primärvarianz (erhöht Irrtums-WS)
Lösungsansätze: Pilottests
5.Treatment nicht reliabel implementiert
5. Treatment nicht reliabel implementiert
z.B. keine kontrollierten Laborbedingungen
Treatment ist abhängig vom Versuchsleiter
kein standardisiertes Vorgehen (z.B. Therapie-Komponenten nach individuellem Bedarf zusammengestellt)
erhöht Fehlervarianz, reduziert Effektgrößen
kann Implikationsbeziehung gefährden
Standardisierung
Situationskontrolle
6.Einfluss von (unsystematischen) Störvariablen
Einfluss von (unsystematischen) Störvariablen
Störung durch Geräusche, Temperaturunterschiede, verschiedene Versuchsleiter, etc.
-> erhöhte Fehlervarianz (erhöhte Irrtumswahrscheinlichkeiten)
Lösungen:
standardisiertes Vorgehen (Kontrolle)
Erhebung möglicher Störquellen und Berücksichtigung bei der Auswertung (z.B. Kovarianzanalyse)
7. ungenaue Schätzung der Effektgrößen
Ungeeignete Datenerhebung und -Aufbereitung
-> z.B. Ausreißerwertenicht eliminieren
Ungeeignete Kennwerte/Prüfgrößen
-> z.B. Messung von Zusammenhängen bei dichotomen Merkmalen mit Effektgrößen für intervallskalierte Merkmale
-> z.B. Gruppenvergleich nach Median-Split (statt Regression)
Prüfung der Sensitivität der Ergebnisse bei Verwendung anderer Datenaufbereitung, anderer Prüfgrößen
8. Multiple Tests
Multiple Tests (1): Mehrere statistische Tests zur Prüfung einer Hypothese
z.B. 3 paarweise t-Tests für H0gleicher Mittelwerte in drei Bedingungen
erfordert Alpha-Korrektur zur Einhaltung des Fehlerniveaus
Problem: Alpha-Fehler-Kumulierung
-> Jede Korrelation/paarweiser Vergleich entspricht einem Test
-> die Fehler mehrerer Tests kumulieren sich
Tatsächliches Alpha bei n Tests:
.05 (n=1)
.14 (n=3)
.64 (n=20)
.92 (n=50)
Allgemein: multiple Tests erhöhen Fehlerniveau
Lösung: Korrektur des Fehlerniveaus (z.B. Bonferroni)
Multiple Tests (2): „Fischen“ nach Signifikanzen
Viele Variablen werden untereinander korreliert
bzw. viele Gruppenmittelwerte werden paarweise verglichen
nur die signifikanten Ergebnisse werden berichtet
Allgemeines Problem: multiple Tests erhöhen Fehlerniveau
Korrektur?
Gefährdung der statistischen Validität:
-> Korrektur? nur möglich, wenn a-priori-Hypothese bekannt ist!
Bericht A: Hypothese „JellyBeanscauseacne“: 20 Tests…
Bericht B: Hypothese „Green JellyBeanscauseacne“? Nur 1 Test!
Transparente Darstellung des Vorgehens entscheidend
als Ergebnis einer hypothesenfreien explorativen Suche nach Zshg.
-> kann vom Leser korrekt als Zufallsbefund interpretiert werden
vs. als Test einer -nachträglich passend aufgestellten-Hypothese
-> legt fälschlicherweise erfolgreiche Prüfung/Bewährung der Hypothese nahe
9. Darstellung explorativer Untersuchung als hypothesentestend
Beispiel: Simmons, Nelson & Simonsohn(2011)
Simmons, Nelson, & Simonsohn(2011) False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science.
Study 1: musical contrast and subjective age
Does listening to a children’s song induce an age contrast, making people feel older?
[Participants were] randomly assigned to listen to either a control song (“Kalimba,” an instrumental song) or a children’s song (“Hot Potato,” performed by The Wiggles).
After listening the song, participants completed an ostensibly unrelated survey:
“How old do you feel right now?” (very young;young;neither young norold;old;very old)
They also reported their father’s age, allowing us to control for variation in baseline age across participants.
An analysis of covariance (ANCOVA) revealed the predicted effect:
People felt older after listening to “Hot Potato” (adjusted M = 2.54 years)
than after listening to the control song (adjusted M = 2.06 years),
F(1, 27) = 5.06, p = .033.
In Study 2, we sought to conceptually replicate and extend Study 1.
Having demonstrated that listening to a children’s song makes people feel older, Study 2 investigated whether listening to a song about older age makes people actually younger.
Study 2: musical contrast and chronologicalrejuvenation
Using the same method as in Study 1, we asked 20 University of Pennsylvania undergraduates to listen to either “When I’m Sixty-Four” by The Beatles or “Kalimba.”
Then, in an ostensibly unrelated task, they indicated their birth date and their father’s age. We used father’s age to control for variation in baseline age across participants.
An ANCOVArevealed the predicted effect: According to their birth dates,
-> people were nearly a year-and-a-half younger after listening to “When I’m Sixty-Four” (adjusted M = 20.1 years)
-> rather than to “Kalimba” (adjusted M = 21.5 years), F(1, 17) = 4.92, p = .040
Problem 1: Alpha-Fehler-Kumulierung
Exkurs: Exploratives Vorgehen als multiples Testen
Problem 2: Korrektur nicht möglich, weil Anzahl Tests unbekannt
Problem 3: Falsche Darstellung als hypothesentestend verbirgt das Problem und verfälscht Interpretation der Ergebnisse
—> hier nicht allesaufgeführt da Exkurs
Exploratives vs. hypothesentestendes Vorgehen
Zusammenfassung
Zuletzt geändertvor 2 Jahren