undefined

Buffl

QMI

by Pia-Louisa L.

Einstichproben-t-Test

Voraussetzungen

min. Intervallskalenniveau
Unabhängigkeit der Messwerte
- Vp dürfen sich nicht kennen o. Zwillinge sein
- wird oft verletzt
Normalverteilung der Messwerte in der Population (geht nicht um die Stichprobe)
- Verteilung aber oft unbekannt -> Hypothese auf Normalverteilung muss geprüft werden
- da Daten der Population nicht vorhanden, Verwendung von Stichprobendaten
- Prüfung
  - deskriptiv: z.B. Kennwerte wie Schiefe u. Exzess
  - graphisch: z.B. Histogramm
    - sollte immer gemacht werden
    - erkennt Ausreißer
    - erkennt ob Verteilung nur einen Modus hat -> zwei Modi wären starke Verletzung
  - inferenzstatistisch: z.B. Kolmogorov-Smirnov-Test/ KS-Anpassungstest
    - prüft auf Normalverteilung in dem Hypothesen aufgestellt u. auf Signifikanz geprüft werden -> wollen ein nicht-signifikantes Ergebnis

Kolmogorov-Smirnov-Test

anderer Name: KS-Anpassungstest
Hypothese
- H0: die erwartete Verteilung (Normalverteilung) ist identisch mit der empirischen Verteilungsfunktion -> die empirische ist also auch normalverteilt
- H1: die erwartete und die empirische Verteilugn sind unterschiedlich

Prüfgröße Dmax
- Maximum der Abweichung zwischen der empirischen Verteilungsfunktion und der erwarteten Verteilungsfunktion und der unter der H0 erwarteten Verteilungsfunktion
Ergebnis
- Prüfung auf Signifikanz
- signifikantes Ergebnis:
  - H0 muss abgelehnt werden
  - -> keine Normalverteilung
  - -> dürfen t-Test nicht durchführen
- wir brauchen ein nicht signifikantes Ergebnis um den t-Test durchführen zu dürfen
hat Ähnlichkeit zum Einstichproben-Gauß-Test u. Einstichproben-t-Test
Lilliefors-Korrektur
- KS-Test wird strenger -> Ergebnis wird öfter signifikant
- Anwendung wenn Populationsmittelwert u. -standardabweichung unbekannt sind u. geschätzt werden müssen

Kolmogorov-Smirnov-Test

Probleme

abhängig von der Stichprobengröße
- bei großer Stichprobe:
  - Test wird auch bei minimalen Abweichungen signifikant
  - -> H0 würde verletzt werden
- bei kleiner Stichprobe:
  - hat der Test eine geringe Power u. somit geringere Aussagekraft
deswegen muss man sich die Verteilungen auch immer graphisch anschauen

t-Test für abhängige Stichproben

Voraussetzungen

min. Intervallskalenniveau
Unabhängigkeit der Messwerte
- innerhalb der beiden Messwertreihen
- zwischen den Messwertreihen sind die Werte abhängig
Normalverteilung der Differenzvariablen D in der Population
- nicht die einzelnen Messwertreihen werden auf Normalverteilung geprüft, sondern die Differenz
- müssen von der Stichprobe auf die Population schließen
positiver Zusammenhang der Messwertreihen -> positive Kovarianz
- für eine höhere Power des Tests
- d.h. hohe Messwerte zu Messung A gehen mit hohen Messwerten zu Messung B einher
- man kann den Test trotzdem durchführen (ist keine wirkliche Voraussetzung), aber Test hat geringere Power

Zweistichproben-t-Test

Voraussetzungen

min. Intervallskalenniveau
Unabhängigkeit der Messwerte
- innerhalb der beiden Teilstichproben
- zwischen den beiden Teilstichproben
Normalverteilung der Messwerte in ihren Teilpopulationen
- Überprüfung für beide Stichproben getrennt
Homogenität der Varianzen der beiden Teilpopulationen
- Varianzhomogenität/ Homoskedastizität: Varianzen der Gruppen sind gleich
- Varianzinhomogenität/ Heteroskedastizität: Varianzen der Gruppen sind ungleich
- Überprüfung mit dem Levene-Test
  - ungerichtete Hypothesen
    - H0: Varianzen der Stichproben sind gleich -> Varianzhomogenität
    - H1: Varianzen ungleich -> Varianzinhomogenität
  - wollen nicht signifikantes Ergebnis, also H0 behalten u. H1 verwerfen
  - basiert auf der F-Verteilung
  - manchmal Verwendung eines höheren α-Niveau (z.B. 20 %), um das Risiko für einen β-Fehler zu reduzieren (ist hier der kritischere, denn man würde den t-Test durchführen obwohl die Voraussetzung eigentlich verletzt ist) -> das gleich gilt auch beim KS-Test

Umgang mit Verletzungen von Voraussetzungen

Ausreißer-Analyse
- immer wichtig
- z.B. Histogramm o. Boxplot
Prüfung der Robustheit (durch Simulationsstudien)
- u. dann eventuelles Ignorieren
Erhebung einer größeren Stichprobe
Transformation von Variablen
- z.B. Logarithmieren
Verwendung eines alternativen Testverfahrens
- Welch-Test bei ungleichen Varianzen
- nonparametrische Verfahren
- Resampling-Verfahren
  - Stichprobe wird als Population aufgefasst u. man zieht wiederholt aus der Stichprobe

Prüfung der Robustheit

Definiton
Vorgehen

Definition
- ein Verfahren ist robust, wenn es nicht stark auf Verletzungen von Annahmen reagiert, auf denen es beruht
Vorgehen
- “Monte-Carlo”-Studien: Simulationsstudien
- Bsp: Verletzung der Varianzhomogenität bezogen auf den Zweistichproben-t-Test
  - bei gleichzeitig aber gleich großen Stichproben u. Normalverteilung in den Teilpopulationen ist der Zweistichproben-t-Test ist robust
  - aber bei ungleich große Stichproben und Heteroskedastizität (d.h. bedeutsamen Unterschieden in der Varianz zwischen den Stichproben)
    - Varianz der kleineren Stichprobe > Varianz der größeren Stichprobe: t-Test wird zu liberal (d.h. höhere WK für α-Fehler) -> kritischer
    - Varianz der kleineren Stichprobe < Varianz der größeren Stichprobe: t-Test wird zu konservativ (d.h. WK für α-Fehler geringer als das gesetzte α-Niveau)

Vorgehen bei Simulationsstudien

Generierung von Populationsdaten
- dabei sind die Annahmen systematisch verletzt: keine NV, keine Varianzhomogenität oder sogar beides verletzt)
- auf Basis der H0 oder H1
wiederholtes Ziehen von Stichproben
- für jede Ziehung wird ein Test berechnet
- Überprüfung ob Test signifikant wurde
wenn H0 gilt, sollte Anteil signifikanter Test bei ca. 5% liegen (also der Festlegung des α-Niveaus)
- wenn die H1 gilt, sollte der Anteil signifikanter Tests hoch sein (1- 𝛽)

Erhebung einer größeren Stichprobe

Einfluss der Stichprobengröße kann man auch über Simulationsstudien betrachten
zentraler Grenzwertsatz
- wenn die Messwerte in der Population nicht normalverteil sind, ist die Stichprobenkennwerteverteilung der Mittelwerte bei großen Stichproben dennoch sehr nah an einer Normalverteilung
- d.h. egal welche eigentliche Verteilung, bei genügend großen N nähert sich sich die Stichprobenkennwertverteilung der Normalverteilung an
Simulationsstudie
1. Generierung von Populationsdaten, die einer von 4 Verteilungen folgen
  - Normalverteilung, Gleichverteilung, Log-Normalverteilung, überlagerte Normalverteilung)
2. ziehen von 1000 Stichproben mit Stichprobengrößen n (2,5,30 oder 100)
3. Mittelwerte pro Stichprobe -> Stichprobenkennwerteverteilung

Welch-Test bei ungleichen Varianzen

Anwendung
- bei Heteroskedastizität (ungleichen Varianzen)
- bei der t-Test-Funktion in r wird der Welch-Test standardmäßig berechnet
  - sollte aber rausgenommen werden, da er eine geringere Power hat als der normale t-Test
Vorgehen
- Bestimmung der Prüfgröße
  - keine gemittelten Varianzen (wie bei der Varianzhomogenität), sondern zwei unterschiedliche
- Bestimmung Freiheitsgerade
  - i.d.R. nicht ganzzahlig
  - werden abgerundet, um in der Tabelle nachzuschauen
    - Grund: t-Quantile sind bei kleineren Werten von df größer u. somit ist der Wert konservativer u. somit weniger oft signifikant

Verwendung eines nonparametrischen Verfahrens

parametrischer Test: Test beruht auf den Parametern einer spezifischen Verteilung
- z.B. Einstichproben-Gauß-Test beruht auf Parametern μ und σ der Normalverteilung
nonparametrische bzw. verteilungsfreier Test: Test erfordert keine spezifische Verteilung des Merkmals

Bestimmung der Effektgröße für die t-Tests

neben p-Wert sollte immer ein standardisiertes Maß für die Effektgröße angegeben werden
Cohens 𝛿: Relativierung der Mittelwertsdifferenz an der Standardabweichung

Stichprobenumfangsplanung

optimaler Stichprobenumfang:
- sichere Unterscheidung zwischen H0 und H1
- übliches Ziel: Power= 80%
  - d.h. wenn H1 gilt erhält man bei 4 von 5 Test ein signifikantes Ergebnis
- für jedes mögliche Ergebnis kann eine Entscheidung getroffen werden

Planung
- G-Power: Einstellungen
  - Wahl des Testverfahrens (z.B. über Menüleiste→Tests)
  - Type of power analysis (u.a.):
    - a priori: N wird berechnet aus α, (1−β), Effektgröße
    - post-hoc: (1−β) wird berechnet aus α, N, Effektgröße (welche Power hat man erreicht, wieviel Vp würde man für zukünftige Erhebungen benötigen)
  - Input Parameters (u.a.):
    - Tail(s): ein- oder zweiseitiger Test
    - Effektgröße
    - α
    - Power (1−β)
- R-Paket pwr
- MorePower

Woher kennen wir die Effektgröße vor der Untersuchung?

Literaturrecherche
- ähnliche Fragestellung
- ähnliche Methoden
Pilotstudie
- Effektgröße wird aus Pilotstudie mit kleiner Stichprobe gewonnen
inhaltliche Definition der Mindesteffektgröße aus einer Veränderung, die praktische Relevanz hat
- Beispiel: Entwicklung eines neuen Trainings zur Intelligenzförderung: soll um 5 Punkte besser sein, als das alte Training. Eine Gruppe erhält das neue, eine das alte
- Berechnung der Effektgröße bei unabhängigen Größen

Berichten von Ergebnissen

t-Test

Angabe von
- Freiheitsgrade
- exakter p-Wert (WK einen Wert o. noch extremeren zu erhalten)
- Größe und Richtung des Effektes
- Empfehlung: Konfidenzintervalle
bei allen gleiche Anzahl an Nachkommastellen
- Ausnahme p-Wert:
  - 2 oder 3 Nachkommastellen
  - wenn <.001 als p<.001 angeben und keine exakten Werte
bei Punktschätzungen muss zugehöriges Maß an Variabilität mit Angabe des verwendeten spezifschen Maßes mit angegeben werden
- d.h. bei Stichprobenmittelwerte oder Regressionskoeffizienten muss der Standardfehler mit angegeben werden
Null oder keine Null
- Null vorm Komma: Wert kann >1 werden
- keine Null: Wert kann nur <1 werden
  - Korrelationen, Proportionen, statistische Signifikanzniveaus (p-Wert)
Buchstaben in kursiv
- M, SD, t….

Zusammenfassung

Join Course

Preview

Author

Pia-Louisa L.

Information

Last changed
2 years ago

Report course

V7

Author

Pia-Louisa L.

Information