Buffl

7. Sitzung - statistsiche Validität

HM
by Hanna M.

Geringe Teststärke (Power)

1. geringe Teststärke (Power)


  • Teststärke = Wahrscheinlichkeit dafür, einen Effekt als signifikant zu entdecken, wenn er existiert = 1 –Wahrscheinlichkeit für Beta-Fehler

  • Analog zu „Auflösung“ eines Mikroskops: je größer, desto kleinere Unterschiede/Effekte können entdeckt werden

  • Folge geringer Teststärke: hohe Wahrscheinlichkeit für Beta-Fehler, große Konfidenzintervalle

  • Power erhöhen: Signalstärke rauf (Effekt); Rauschen runter (unsystematische Störvarianz)

  • Wichtigster Einfluss: Aggregation (Rauschen mittelt sich raus)


Lösungsansätze:

  • vor der Untersuchung optimalen Stichprobenumfang berechnen

  • Teststärke versuchsplanerisch maximieren (= MaxKon Min)


Methoden zur Erhöhung der Teststärke (1)


  • Erhöhung der Stichprobengröße

  • gleiche Zellenbesetzung

  • Verbesserung der Messung

    • mehr Messpunkte pro Person

    • Reliablere Messintrumente

    • Vermeidung von rangerestrictions(Boden/Deckeneffekte)


matching, statistische Paarbildung

  • Variable, die dem matchingzugrunde liegt, muss mit AV korrelieren


Erhebung von Kovariaten

  • Kovariatemuss mit AV korrelieren, um Power erhöhen zu können

  • Trade-off zwischen zusätzlicher Kovariateund höherem N


Methoden zur Erhöhung der Teststärke (2)


stärkeres Treatment

  • Größere Unterschiede in der UV

  • Diffusion zwischen den Stufen der UV verringern

  • Treatment reliabelanwenden


mehr Treatmentvariabilität

  • Mehr Stufen der UV realisieren

  • Extremstufen überrepräsentieren


Messwiederholungsdesigns

  • Im Labor am praktikabelsten

  • Ermüdung, Übung, etc.


Einsatz teststarker statistischer Verfahren

  • Möglichst hohes Skalenniveau

  • Regression statt Mediansplit; Transformation zur Normalverteilung




8. Multiple Tests

8. Multiple Tests


Multiple Tests (1): Mehrere statistische Tests zur Prüfung einer Hypothese

  • z.B. 3 paarweise t-Tests für H0gleicher Mittelwerte in drei Bedingungen

  • erfordert Alpha-Korrektur zur Einhaltung des Fehlerniveaus

  • Problem: Alpha-Fehler-Kumulierung

    -> Jede Korrelation/paarweiser Vergleich entspricht einem Test

    -> die Fehler mehrerer Tests kumulieren sich


Tatsächliches Alpha bei n Tests:

  • .05 (n=1)

  • .14 (n=3)

  • .64 (n=20)

  • .92 (n=50)


Allgemein: multiple Tests erhöhen Fehlerniveau

Lösung: Korrektur des Fehlerniveaus (z.B. Bonferroni)




Multiple Tests (2): „Fischen“ nach Signifikanzen

  • Viele Variablen werden untereinander korreliert

  • bzw. viele Gruppenmittelwerte werden paarweise verglichen

  • nur die signifikanten Ergebnisse werden berichtet

  • Allgemeines Problem: multiple Tests erhöhen Fehlerniveau


Korrektur?






Gefährdung der statistischen Validität:

8. Multiple Tests


Multiple Tests (2): „Fischen“ nach Signifikanzen

  • Viele Variablen werden untereinander korreliert

  • bzw. viele Gruppenmittelwerte werden paarweise verglichen

  • nur die signifikanten Ergebnisse werden berichtet

  • Allgemeines Problem: multiple Tests erhöhen Fehlerniveau



-> Korrektur? nur möglich, wenn a-priori-Hypothese bekannt ist!

  • Bericht A: Hypothese „JellyBeanscauseacne“: 20 Tests…

  • Bericht B: Hypothese „Green JellyBeanscauseacne“? Nur 1 Test!


Transparente Darstellung des Vorgehens entscheidend

  • als Ergebnis einer hypothesenfreien explorativen Suche nach Zshg.

    -> kann vom Leser korrekt als Zufallsbefund interpretiert werden

  • vs. als Test einer -nachträglich passend aufgestellten-Hypothese

    -> legt fälschlicherweise erfolgreiche Prüfung/Bewährung der Hypothese nahe


9. Darstellung explorativer Untersuchung als hypothesentestend

9. Darstellung explorativer Untersuchung als hypothesentestend

  • Beispiel: Simmons, Nelson & Simonsohn(2011)


Simmons, Nelson, & Simonsohn(2011) False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science.


Study 1: musical contrast and subjective age

Does listening to a children’s song induce an age contrast, making people feel older?

  • [Participants were] randomly assigned to listen to either a control song (“Kalimba,” an instrumental song) or a children’s song (“Hot Potato,” performed by The Wiggles).

  • After listening the song, participants completed an ostensibly unrelated survey:

  • “How old do you feel right now?” (very young;young;neither young norold;old;very old)

  • They also reported their father’s age, allowing us to control for variation in baseline age across participants.


An analysis of covariance (ANCOVA) revealed the predicted effect:

  • People felt older after listening to “Hot Potato” (adjusted M = 2.54 years)

  • than after listening to the control song (adjusted M = 2.06 years),

  • F(1, 27) = 5.06, p = .033.


  • In Study 2, we sought to conceptually replicate and extend Study 1.

  • Having demonstrated that listening to a children’s song makes people feel older, Study 2 investigated whether listening to a song about older age makes people actually younger.

Study 2: musical contrast and chronologicalrejuvenation

  • Using the same method as in Study 1, we asked 20 University of Pennsylvania undergraduates to listen to either “When I’m Sixty-Four” by The Beatles or “Kalimba.”

  • Then, in an ostensibly unrelated task, they indicated their birth date and their father’s age. We used father’s age to control for variation in baseline age across participants.

  • An ANCOVArevealed the predicted effect: According to their birth dates,

    -> people were nearly a year-and-a-half younger after listening to “When I’m Sixty-Four” (adjusted M = 20.1 years)

    -> rather than to “Kalimba” (adjusted M = 21.5 years), F(1, 17) = 4.92, p = .040





Problem 1: Alpha-Fehler-Kumulierung






Exkurs: Exploratives Vorgehen als multiples Testen

Problem 2: Korrektur nicht möglich, weil Anzahl Tests unbekannt

Problem 3: Falsche Darstellung als hypothesentestend verbirgt das Problem und verfälscht Interpretation der Ergebnisse


—> hier nicht allesaufgeführt da Exkurs


Exploratives vs. hypothesentestendes Vorgehen




Author

Hanna M.

Information

Last changed