undefined

Buffl

Versuchsplanung

by Hanna M.

Einordnung

Aspekte der statistischen Validität

Man unterscheidet drei Aspekte der statistischen Validität:

Hypothesenvalidität: gestört, wenn SH und Testverfahren für ihre Prüfung nicht zur PH passen (Implikation EIH -> SH, Modellannahmen)
Signifikanztestvalidität: gestört durch alle Faktoren, die die Fehlerwahrscheinlichkeiten erhöhen (Stichprobenumfang, Präzision der Schätzer, Modellannahmen)
Entscheidungsvalidität: gestört durch falsche Interpretation statistischer Ergebnisse (Teststärke, Effektgröße, Fehlerkumulierung)

-> Eigene Studie: Statistische Validität maximieren; Max-Kon-Min plus…

Implikation PH -> SH sicherstellen, zutreffendes/robustes Modell verwenden
Beide Fehler-WSnkontrollieren & möglichst klein halten
Ergebnisse (nur) so interpretieren, wie es die verwendete Methodik zulässt

-> Eigene/andere Studien: Gefährdungen erkennen; beeinträchtigen oft mehrere Aspekte der statistischen Validität…

Gefährdung der statistischen Validität

Eine Auswahl möglicher Gefährdungen:

geringe Teststärke (Power)
Verletzung der Voraussetzung der statistischen Verfahren
Messung ist nicht reliabel
restrictionofrange
Treatment nicht reliabelimplementiert
Einfluss von Störvariablen
ungenaue Bestimmung der Effektgrößen
Multiple Tests
Darstellung explorativer Untersuchungen als hypothesentestend

Geringe Teststärke (Power)

1. geringe Teststärke (Power)

Teststärke = Wahrscheinlichkeit dafür, einen Effekt als signifikant zu entdecken, wenn er existiert = 1 –Wahrscheinlichkeit für Beta-Fehler
Analog zu „Auflösung“ eines Mikroskops: je größer, desto kleinere Unterschiede/Effekte können entdeckt werden
Folge geringer Teststärke: hohe Wahrscheinlichkeit für Beta-Fehler, große Konfidenzintervalle
Power erhöhen: Signalstärke rauf (Effekt); Rauschen runter (unsystematische Störvarianz)
Wichtigster Einfluss: Aggregation (Rauschen mittelt sich raus)

Lösungsansätze:

vor der Untersuchung optimalen Stichprobenumfang berechnen
Teststärke versuchsplanerisch maximieren (= MaxKon Min)

Methoden zur Erhöhung der Teststärke (1)

Erhöhung der Stichprobengröße
gleiche Zellenbesetzung
Verbesserung der Messung
- mehr Messpunkte pro Person
- Reliablere Messintrumente
- Vermeidung von rangerestrictions(Boden/Deckeneffekte)

matching, statistische Paarbildung

Variable, die dem matchingzugrunde liegt, muss mit AV korrelieren

Erhebung von Kovariaten

Kovariatemuss mit AV korrelieren, um Power erhöhen zu können
Trade-off zwischen zusätzlicher Kovariateund höherem N

Methoden zur Erhöhung der Teststärke (2)

stärkeres Treatment

Größere Unterschiede in der UV
Diffusion zwischen den Stufen der UV verringern
Treatment reliabelanwenden

mehr Treatmentvariabilität

Mehr Stufen der UV realisieren
Extremstufen überrepräsentieren

Messwiederholungsdesigns

Im Labor am praktikabelsten
Ermüdung, Übung, etc.

Einsatz teststarker statistischer Verfahren

Möglichst hohes Skalenniveau
Regression statt Mediansplit; Transformation zur Normalverteilung

2. Verletzung der Modellannahmen (Voraussetzung der statistischen Verfahren)

Gefährdung der statistischen Validität

2. Verletzung der Modellannahmen (Voraussetzung der statistischen Verfahren)

wenn Modell nicht zutrifft, sind nominelle Fehlerniveaus u.U. ungültig

Irrtumswahrscheinlichkeiten unbekannt/unkontrolliert

praktisch nicht immer problematisch
z.B. ist t-Test robust gegenüber Verletzungen Normalverteilung, wenn große Stichprobe & gleichgroße Gruppen

z.B. Unabhängigkeit der Stichprobenelemente nicht gegeben
Beispiel: Kinder derselben Schulklasse (Nesteddesigns-> Hierarchische Modelle)

Lösungsmöglichkeiten:
Modell anpassen (z.B. Varianzhomogenitätsannahme)
NonparametrischesVerfahren mit weniger Annahmen wählen (kann Teststärke reduzieren)

3.Messung ist nicht reliabel

3. Messung ist nicht reliabel

AttenuationbivariaterZusammenhängeKorrelationen; Mittelwertsunterschiede
Bei multivariaten Zusammenhängen: Nicht vorhersehbare Effekte

Lösungsansätze: Reliabilität erhöhenmehr Messungen (Aggregation)
mehr Beurteiler, besseres Beurteiler-Training
bessere (reliable & valide) Messinstrumente
latente Merkmalsanalyse (Strukturgleichungsmodellierung)

4.Restriction of range

4. restrictionofrange

Varianzvernichtung durch ungeeignete Datenerhebung (z.B. dichotom: erfolgreich vs. nicht-erfolgreich)
kaum Unterschiede im Treatment (kleine vs. mittlere Medikamentendosis)
Decken-oder Bodeneffekte durch ungeeignete Messung oder Stichprobenauswahl (z.B. nur hochintelligente Studierende)

-> reduziert Primärvarianz (erhöht Irrtums-WS)

Lösungsansätze: Pilottests

5.Treatment nicht reliabel implementiert

5. Treatment nicht reliabel implementiert

z.B. keine kontrollierten Laborbedingungen
Treatment ist abhängig vom Versuchsleiter
kein standardisiertes Vorgehen (z.B. Therapie-Komponenten nach individuellem Bedarf zusammengestellt)
erhöht Fehlervarianz, reduziert Effektgrößen
kann Implikationsbeziehung gefährden

Lösungsansätze:
Standardisierung
Situationskontrolle

6.Einfluss von (unsystematischen) Störvariablen

Einfluss von (unsystematischen) Störvariablen
- Störung durch Geräusche, Temperaturunterschiede, verschiedene Versuchsleiter, etc.

-> erhöhte Fehlervarianz (erhöhte Irrtumswahrscheinlichkeiten)

Lösungen:

standardisiertes Vorgehen (Kontrolle)
Erhebung möglicher Störquellen und Berücksichtigung bei der Auswertung (z.B. Kovarianzanalyse)

7. ungenaue Schätzung der Effektgrößen

Ungeeignete Datenerhebung und -Aufbereitung
-> z.B. Ausreißerwertenicht eliminieren
Ungeeignete Kennwerte/Prüfgrößen
-> z.B. Messung von Zusammenhängen bei dichotomen Merkmalen mit Effektgrößen für intervallskalierte Merkmale
-> z.B. Gruppenvergleich nach Median-Split (statt Regression)

Lösungsansätze:
Prüfung der Sensitivität der Ergebnisse bei Verwendung anderer Datenaufbereitung, anderer Prüfgrößen

8. Multiple Tests

Multiple Tests (1): Mehrere statistische Tests zur Prüfung einer Hypothese

z.B. 3 paarweise t-Tests für H0gleicher Mittelwerte in drei Bedingungen
erfordert Alpha-Korrektur zur Einhaltung des Fehlerniveaus
Problem: Alpha-Fehler-Kumulierung
-> Jede Korrelation/paarweiser Vergleich entspricht einem Test
-> die Fehler mehrerer Tests kumulieren sich

Tatsächliches Alpha bei n Tests:

.05 (n=1)
.14 (n=3)
.64 (n=20)
.92 (n=50)

Allgemein: multiple Tests erhöhen Fehlerniveau

Lösung: Korrektur des Fehlerniveaus (z.B. Bonferroni)

Multiple Tests (2): „Fischen“ nach Signifikanzen

Viele Variablen werden untereinander korreliert
bzw. viele Gruppenmittelwerte werden paarweise verglichen
nur die signifikanten Ergebnisse werden berichtet
Allgemeines Problem: multiple Tests erhöhen Fehlerniveau

Korrektur?

Gefährdung der statistischen Validität:

8. Multiple Tests

Multiple Tests (2): „Fischen“ nach Signifikanzen

Viele Variablen werden untereinander korreliert
bzw. viele Gruppenmittelwerte werden paarweise verglichen
nur die signifikanten Ergebnisse werden berichtet
Allgemeines Problem: multiple Tests erhöhen Fehlerniveau

-> Korrektur? nur möglich, wenn a-priori-Hypothese bekannt ist!

Bericht A: Hypothese „JellyBeanscauseacne“: 20 Tests…
Bericht B: Hypothese „Green JellyBeanscauseacne“? Nur 1 Test!

Transparente Darstellung des Vorgehens entscheidend

als Ergebnis einer hypothesenfreien explorativen Suche nach Zshg.
-> kann vom Leser korrekt als Zufallsbefund interpretiert werden
vs. als Test einer -nachträglich passend aufgestellten-Hypothese
-> legt fälschlicherweise erfolgreiche Prüfung/Bewährung der Hypothese nahe

9. Darstellung explorativer Untersuchung als hypothesentestend

Beispiel: Simmons, Nelson & Simonsohn(2011)

Simmons, Nelson, & Simonsohn(2011) False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science.

Study 1: musical contrast and subjective age

Does listening to a children’s song induce an age contrast, making people feel older?

[Participants were] randomly assigned to listen to either a control song (“Kalimba,” an instrumental song) or a children’s song (“Hot Potato,” performed by The Wiggles).
After listening the song, participants completed an ostensibly unrelated survey:
“How old do you feel right now?” (very young;young;neither young norold;old;very old)
They also reported their father’s age, allowing us to control for variation in baseline age across participants.

An analysis of covariance (ANCOVA) revealed the predicted effect:

People felt older after listening to “Hot Potato” (adjusted M = 2.54 years)
than after listening to the control song (adjusted M = 2.06 years),
F(1, 27) = 5.06, p = .033.

In Study 2, we sought to conceptually replicate and extend Study 1.
Having demonstrated that listening to a children’s song makes people feel older, Study 2 investigated whether listening to a song about older age makes people actually younger.

Study 2: musical contrast and chronologicalrejuvenation

Using the same method as in Study 1, we asked 20 University of Pennsylvania undergraduates to listen to either “When I’m Sixty-Four” by The Beatles or “Kalimba.”
Then, in an ostensibly unrelated task, they indicated their birth date and their father’s age. We used father’s age to control for variation in baseline age across participants.
An ANCOVArevealed the predicted effect: According to their birth dates,
-> people were nearly a year-and-a-half younger after listening to “When I’m Sixty-Four” (adjusted M = 20.1 years)
-> rather than to “Kalimba” (adjusted M = 21.5 years), F(1, 17) = 4.92, p = .040