Einstichproben-t-Test
Voraussetzungen
min. Intervallskalenniveau
Unabhängigkeit der Messwerte
Vp dürfen sich nicht kennen o. Zwillinge sein
wird oft verletzt
Normalverteilung der Messwerte in der Population (geht nicht um die Stichprobe)
Verteilung aber oft unbekannt -> Hypothese auf Normalverteilung muss geprüft werden
da Daten der Population nicht vorhanden, Verwendung von Stichprobendaten
Prüfung
deskriptiv: z.B. Kennwerte wie Schiefe u. Exzess
graphisch: z.B. Histogramm
sollte immer gemacht werden
erkennt Ausreißer
erkennt ob Verteilung nur einen Modus hat -> zwei Modi wären starke Verletzung
inferenzstatistisch: z.B. Kolmogorov-Smirnov-Test/ KS-Anpassungstest
prüft auf Normalverteilung in dem Hypothesen aufgestellt u. auf Signifikanz geprüft werden -> wollen ein nicht-signifikantes Ergebnis
Kolmogorov-Smirnov-Test
anderer Name: KS-Anpassungstest
Hypothese
H0: die erwartete Verteilung (Normalverteilung) ist identisch mit der empirischen Verteilungsfunktion -> die empirische ist also auch normalverteilt
H1: die erwartete und die empirische Verteilugn sind unterschiedlich
Prüfgröße Dmax
Maximum der Abweichung zwischen der empirischen Verteilungsfunktion und der erwarteten Verteilungsfunktion und der unter der H0 erwarteten Verteilungsfunktion
Ergebnis
Prüfung auf Signifikanz
signifikantes Ergebnis:
H0 muss abgelehnt werden
-> keine Normalverteilung
-> dürfen t-Test nicht durchführen
wir brauchen ein nicht signifikantes Ergebnis um den t-Test durchführen zu dürfen
hat Ähnlichkeit zum Einstichproben-Gauß-Test u. Einstichproben-t-Test
Lilliefors-Korrektur
KS-Test wird strenger -> Ergebnis wird öfter signifikant
Anwendung wenn Populationsmittelwert u. -standardabweichung unbekannt sind u. geschätzt werden müssen
Probleme
abhängig von der Stichprobengröße
bei großer Stichprobe:
Test wird auch bei minimalen Abweichungen signifikant
-> H0 würde verletzt werden
bei kleiner Stichprobe:
hat der Test eine geringe Power u. somit geringere Aussagekraft
deswegen muss man sich die Verteilungen auch immer graphisch anschauen
t-Test für abhängige Stichproben
innerhalb der beiden Messwertreihen
zwischen den Messwertreihen sind die Werte abhängig
Normalverteilung der Differenzvariablen D in der Population
nicht die einzelnen Messwertreihen werden auf Normalverteilung geprüft, sondern die Differenz
müssen von der Stichprobe auf die Population schließen
positiver Zusammenhang der Messwertreihen -> positive Kovarianz
für eine höhere Power des Tests
d.h. hohe Messwerte zu Messung A gehen mit hohen Messwerten zu Messung B einher
man kann den Test trotzdem durchführen (ist keine wirkliche Voraussetzung), aber Test hat geringere Power
Zweistichproben-t-Test
innerhalb der beiden Teilstichproben
zwischen den beiden Teilstichproben
Normalverteilung der Messwerte in ihren Teilpopulationen
Überprüfung für beide Stichproben getrennt
Homogenität der Varianzen der beiden Teilpopulationen
Varianzhomogenität/ Homoskedastizität: Varianzen der Gruppen sind gleich
Varianzinhomogenität/ Heteroskedastizität: Varianzen der Gruppen sind ungleich
Überprüfung mit dem Levene-Test
ungerichtete Hypothesen
H0: Varianzen der Stichproben sind gleich -> Varianzhomogenität
H1: Varianzen ungleich -> Varianzinhomogenität
wollen nicht signifikantes Ergebnis, also H0 behalten u. H1 verwerfen
basiert auf der F-Verteilung
manchmal Verwendung eines höheren α-Niveau (z.B. 20 %), um das Risiko für einen β-Fehler zu reduzieren (ist hier der kritischere, denn man würde den t-Test durchführen obwohl die Voraussetzung eigentlich verletzt ist) -> das gleich gilt auch beim KS-Test
Umgang mit Verletzungen von Voraussetzungen
Ausreißer-Analyse
immer wichtig
z.B. Histogramm o. Boxplot
Prüfung der Robustheit (durch Simulationsstudien)
u. dann eventuelles Ignorieren
Erhebung einer größeren Stichprobe
Transformation von Variablen
z.B. Logarithmieren
Verwendung eines alternativen Testverfahrens
Welch-Test bei ungleichen Varianzen
nonparametrische Verfahren
Resampling-Verfahren
Stichprobe wird als Population aufgefasst u. man zieht wiederholt aus der Stichprobe
Prüfung der Robustheit
Definiton
Vorgehen
Definition
ein Verfahren ist robust, wenn es nicht stark auf Verletzungen von Annahmen reagiert, auf denen es beruht
“Monte-Carlo”-Studien: Simulationsstudien
Bsp: Verletzung der Varianzhomogenität bezogen auf den Zweistichproben-t-Test
bei gleichzeitig aber gleich großen Stichproben u. Normalverteilung in den Teilpopulationen ist der Zweistichproben-t-Test ist robust
aber bei ungleich große Stichproben und Heteroskedastizität (d.h. bedeutsamen Unterschieden in der Varianz zwischen den Stichproben)
Varianz der kleineren Stichprobe > Varianz der größeren Stichprobe: t-Test wird zu liberal (d.h. höhere WK für α-Fehler) -> kritischer
Varianz der kleineren Stichprobe < Varianz der größeren Stichprobe: t-Test wird zu konservativ (d.h. WK für α-Fehler geringer als das gesetzte α-Niveau)
Vorgehen bei Simulationsstudien
Generierung von Populationsdaten
dabei sind die Annahmen systematisch verletzt: keine NV, keine Varianzhomogenität oder sogar beides verletzt)
auf Basis der H0 oder H1
wiederholtes Ziehen von Stichproben
für jede Ziehung wird ein Test berechnet
Überprüfung ob Test signifikant wurde
wenn H0 gilt, sollte Anteil signifikanter Test bei ca. 5% liegen (also der Festlegung des α-Niveaus)
wenn die H1 gilt, sollte der Anteil signifikanter Tests hoch sein (1- 𝛽)
Einfluss der Stichprobengröße kann man auch über Simulationsstudien betrachten
zentraler Grenzwertsatz
wenn die Messwerte in der Population nicht normalverteil sind, ist die Stichprobenkennwerteverteilung der Mittelwerte bei großen Stichproben dennoch sehr nah an einer Normalverteilung
d.h. egal welche eigentliche Verteilung, bei genügend großen N nähert sich sich die Stichprobenkennwertverteilung der Normalverteilung an
Simulationsstudie
Generierung von Populationsdaten, die einer von 4 Verteilungen folgen
Normalverteilung, Gleichverteilung, Log-Normalverteilung, überlagerte Normalverteilung)
ziehen von 1000 Stichproben mit Stichprobengrößen n (2,5,30 oder 100)
Mittelwerte pro Stichprobe -> Stichprobenkennwerteverteilung
Anwendung
bei Heteroskedastizität (ungleichen Varianzen)
bei der t-Test-Funktion in r wird der Welch-Test standardmäßig berechnet
sollte aber rausgenommen werden, da er eine geringere Power hat als der normale t-Test
Bestimmung der Prüfgröße
keine gemittelten Varianzen (wie bei der Varianzhomogenität), sondern zwei unterschiedliche
Bestimmung Freiheitsgerade
i.d.R. nicht ganzzahlig
werden abgerundet, um in der Tabelle nachzuschauen
Grund: t-Quantile sind bei kleineren Werten von df größer u. somit ist der Wert konservativer u. somit weniger oft signifikant
Verwendung eines nonparametrischen Verfahrens
parametrischer Test: Test beruht auf den Parametern einer spezifischen Verteilung
z.B. Einstichproben-Gauß-Test beruht auf Parametern μ und σ der Normalverteilung
nonparametrische bzw. verteilungsfreier Test: Test erfordert keine spezifische Verteilung des Merkmals
Bestimmung der Effektgröße für die t-Tests
neben p-Wert sollte immer ein standardisiertes Maß für die Effektgröße angegeben werden
Cohens 𝛿: Relativierung der Mittelwertsdifferenz an der Standardabweichung
Stichprobenumfangsplanung
optimaler Stichprobenumfang:
sichere Unterscheidung zwischen H0 und H1
übliches Ziel: Power= 80%
d.h. wenn H1 gilt erhält man bei 4 von 5 Test ein signifikantes Ergebnis
für jedes mögliche Ergebnis kann eine Entscheidung getroffen werden
Planung
G-Power: Einstellungen
Wahl des Testverfahrens (z.B. über Menüleiste→Tests)
Type of power analysis (u.a.):
a priori: N wird berechnet aus α, (1−β), Effektgröße
post-hoc: (1−β) wird berechnet aus α, N, Effektgröße (welche Power hat man erreicht, wieviel Vp würde man für zukünftige Erhebungen benötigen)
Input Parameters (u.a.):
Tail(s): ein- oder zweiseitiger Test
Effektgröße
α
Power (1−β)
R-Paket pwr
MorePower
Woher kennen wir die Effektgröße vor der Untersuchung?
Literaturrecherche
ähnliche Fragestellung
ähnliche Methoden
Pilotstudie
Effektgröße wird aus Pilotstudie mit kleiner Stichprobe gewonnen
inhaltliche Definition der Mindesteffektgröße aus einer Veränderung, die praktische Relevanz hat
Beispiel: Entwicklung eines neuen Trainings zur Intelligenzförderung: soll um 5 Punkte besser sein, als das alte Training. Eine Gruppe erhält das neue, eine das alte
Berechnung der Effektgröße bei unabhängigen Größen
Berichten von Ergebnissen
t-Test
Angabe von
Freiheitsgrade
exakter p-Wert (WK einen Wert o. noch extremeren zu erhalten)
Größe und Richtung des Effektes
Empfehlung: Konfidenzintervalle
bei allen gleiche Anzahl an Nachkommastellen
Ausnahme p-Wert:
2 oder 3 Nachkommastellen
wenn <.001 als p<.001 angeben und keine exakten Werte
bei Punktschätzungen muss zugehöriges Maß an Variabilität mit Angabe des verwendeten spezifschen Maßes mit angegeben werden
d.h. bei Stichprobenmittelwerte oder Regressionskoeffizienten muss der Standardfehler mit angegeben werden
Null oder keine Null
Null vorm Komma: Wert kann >1 werden
keine Null: Wert kann nur <1 werden
Korrelationen, Proportionen, statistische Signifikanzniveaus (p-Wert)
Buchstaben in kursiv
M, SD, t….
Zusammenfassung
Zuletzt geändertvor einem Jahr