Was ist die ANOVA grundlegend?
-> die Varaianzanalyse (ANOVA) prüft ob statistosch signifikante Unterschiede zwischen mehr als 2 Gruppen vorliegen
(t-Test erweitert auf mehr als 2 UVs)
Abhängige Variable
-> durch AV will man wissen, welche durchschnittlichen Ergebnisse bei (z.B. unterschl. Lernmethoden) erzeilt werden
-> Intresse an mittelwert
Voraussetzung:
muss intervallskaliert sein
die Werte der AV sollen innerhalb der jeweiligen Gruppe normalverteilt sein (betrifft theoretisch die Population der Gruppe, steht nicht zur verfügung, deshalb Evaluierung der Gruppe)
Unabhängige Variable
(auch Gruppenvariable)
-> dient Unterschiede und/ oder Zusammenhänge zwischen den jeweiligen Stufen der Variable zu analysieren
-> Fakrtoreb mit mehr als 2 Stufen
Wann spricht man von einem balancierten Versuchsplan?
Wenn für jede Faktorstufe eines enfaktoriellen Versuchsplans die gleiche Anzahl von Beobachtungen erhoben wird.
Multiples Testen - Nullhypothese
Multriples Testen = Durchführen von zusammenhängenden Hypothesentests
Man testet folgende Hypothesen:
Globalhypothese (alle Mittelwerte sind gleich):
Beim Testen einer Hypothese gehen wir davon aus, dass die H0 richtig/falsch ist.
Beim Testen einer Hypothese gehen wir davon aus, dass die H0 richtig ist.
Was ist die Fehlerinflation (α’)?
Und wie wird sie noch genannt?
-> Auch genannt: family-wise-error-rate oder experiment-
wise-error-rate
= Üblicherweise wird α auf 5% gesetzt, bedeutet 5%ige Chance die Nullhypothese fälschlicherweise abzulehnen (Fehler 1. Art). Wenn mehrere Tests durchgeführt werden, steigt das Risko diesen Fehler zu begehen (bei m = 3tests fast um das 3- fache)
Welche Methode kann man anwenden, um die Gesamtwahrscheinlichkeit des Fehlers 1. Art, auf dem festgelegten Signifikanzniveau zu halten gibt es folgende Möglichkeit:
Bonferroni-Korrektur
Formel:
α’ = α/m
-> Korrektur fällt eher konservativ (streng) aus
Welches Problem bringt die Überprüfung der H0 bei mehr als 2 Stufen des Gruppenfaktors mit sich?
Was ist Alternativ möglich?
-> multiples Testen
-> Alternative:
H0 besagt, dass alle Mittelwerteder strufen des Gruppenfaktors gleich sind
H1v besagt, dass mind ein Mittelwert der 3 Gruppen nicht gleich den anderen Mittelwerten ist
Was macht die einfaktorielle ANOVA
testen ob generell ein Unterschied zischen Mittelwerten der Stufen eines Faktors vorliegt
lieftert signifikantes Ergebnis genau dann, wenn mindestens ein Mittelwert statistischbedeutsam von den anderen abweicht
gibt keine Auskunft welche Mittelwerte sich voneinander unterscheiden
Was ist die ausgeschrieben Form des Begriffs ANOVA
Analysis of Variance
Wie bezeichnet man die ANOVA noch und warum?
-> Omnibustest
-> Da generell auf Unterschied getestet wird (keine Auskunft
welche Mittelwerte sich unterscheiden)
Hypothesen der einfacktoriellen ANOVA
H0: M̅1 = M̅2 = M̅3
H1: M̅i ≠ M̅j mit i≠j
Annahmen der ANOVA (Voraussetzungen)
Unterschiedliche Treatmentsnwirken sich auf Mittelwert der jeweiligen Gruppe aus
Verteilung der abhängigen Variablen in jeder Gruppe folgt einer Normalverteilung
Varianz innerhalb der Gruppen sind gleich
alle Beobachtungen (Mesungen) unabhängig voneinander
Fallunterschiede (am Beispiel wirken einer Lehrmethode)
Wenn unterschl. Lernmethoden keine Wirkung zeigen, unterscheiden sie sich auch nicht von herkömmlicher Lehrmethode
Ändert sich Leistung untersch. Lehr methoden nicht, dann sind unterschl. hohe Mittelwerte bedingt durch zufällige Stichprobenzusammensetzung unterschiedlicher Personen
Wirkt Lehrmethode, sollten Gruppen versch. Populationen angehöhren -> die auf grund unterschl Lehrmethoden entstsnden sind
Was ist der Gruppen-/ Treatmenteffekt
man vermutet das die Lernemthode (Treatment) Auswirkung auf die Leistung hat
Personen innerhalb einer gruppe ________________ (erzielen/erzielen nicht) alle denselben Messwert.
Personen innerhalb einer Gruppe erzielen nicht alle denselben Messwert.
Was ist die Fehlervarianz?
Die Varianz innerhalb der Gruppen
Quellen für die Abweichungen vom Populationsmittelwert
Treatmenteffekt
Fehlervarianz
totale Qudratsumme (QSTotal)
-> total sum of squares (SSToT)
-> geht auf Unterschiede zwischen und innerhalb der Gruppe zurück
Treatmentquadratsumme (QSTreat)
-> Quadratsumme zwischen
-> Einzelne Messwerte ausschließlich von verschiedenen Instruktionen beeinflusst, Messwerte innerhalb der Gruppen dürfen sich nicht unterscheiden
Fehlerquadratsumme (QSFehler)
-> Quadratsumme innerhalb
-> Restliche varianz die nicht durch Treatment erklärt werden kann, wenn Personen die denseleben Test ausgeführt haben in ihren Testwerten unterscheiden
Mittlere Quadratsumme
-> wenn man Quadratsumme durch Freiheitsgrade dividiert
-> Enstpricht der bekannten Varianzschätzung
Teststatistik F
-> Verhältnis der Treatmentvarianz zu Fehlervarianz
-> Je größer der F-Wert desto stärker der Effekt des Treatments
-> In Abhängigkeit von den Freiheitsgraden, ein Treatmenteffekt ab ca. einem F-Wert von 4 (der unter Annahme H0 nur selten zu beobachten ist)
-> signifikanter Effekt des Treatment Faktors
Effekt (η^2)
= Verhältnis der Treatmentquadratsumme zur Totalen Quadratsumme -> entspricht der Varianzaufklärung
-> Würden die Unterschiede in den Mittelwerten sehr hoch sein, wäre auch die Totale Quadratsumme hoch
-> Im Extremfall: Daten genauso hoch wie gesamte Variabilität also QSTotal
Warum gibt es ein Problem mit R^2/ η^2?
-> verwendet “nur” die Quadratsumme der Stichprobe -> überschätzt somit den Effekt der Population
w^2
passt durh Korrektur die Schätzung an die Population an
Was ist Effekt (η^2part)
-> bezieht sich auf die Varianzaufklärung eines Faktors
-> für einfaktorielle ANOVA ohne Messwiederholungen sind η^2 & η^2part gleich
Effektgrößen nach Cohen für: f
.10 - klein
.25 - mittel
.40 - groß
Voraussetzungen ANOV
Uabhängigkeit der Fehlerkomponenten zwischen den Stichproben
Normalverteilung der Daten innerhslb der jeweiligen Gruppe
Homogenität der Varianz zwischen den Gruppen
Außerdem:
-> ca. gleich große Gruppengrößen
-> ähnliche Streuung zwischen den Gruppen
Kann die ANOVA ald robustes Verfahren bezeichnet werden?
Ja
Was ist die Unabhängigkeit der Fehlerkomponennte & wann ist sie gegebn?
= Beeinflussung eines Messwerts durch Fehlereffekte, muss unabhängig, von der Störvaraiblenbeeinflussung anderer Messwerte sein
Gegeben wenn:
Untersuchungseinheiten wurden Treatmentstufen zufällig zugeordnet
Wenn unter Treatmentstufen verschiedene Stichproben untersucht werden
Tests zur prüfung der Normalverteilung:
(Hauptest und seine Alternativen)
Kolmogorow-Smirnow-Test
Allternativen:
Lillifors-Test
Shapiro-WilL-Test
Anderson-Darling-Test
Was überprüft der Kolmogorow-Smirnow-Test (Ks-Test)?
Und was ist seine schwäche?
-> Test zur Prüfung der Normalverteilung innerhalb von Gruppen
= Ob eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt
Schwäche:
allgemein geringe Teststärke
Vor allem bei kleinen Stichproben entscheidet er meist zugunsten der H0 (daten sind Normalverteilt) & bei großen Stichproben gegen die H0
Was sollte man bei der Normalverteilung neben der Teststatistik erheben?
Kennwete der deskriptiven Satistik (Schiefe, Kurtosis, Median, Mittelwert etc.)
graphische Analyse (Histogramm, Q-Q-Plot, Box-Plot)
-> Transformation der Date bieten in vielen Fällen die Möglichkeit, die Voraussetzungen der Normalverteilung zu erfüllen
Was ist die Homoskedastizität?
= Fehlerkomponente in versch. Treatmentbedingungen dürfen keine systematischen Größenunterschiede zeigen
-> Verletzt wenn: Störgrößen einer Treatmentbedingung überdurchschnittlich klein oder groß, denn Varaianzheterogenität, entsteht häufig nicht zufällig, sondern als Folge Treatmentbedingung
Welcher Test wird am häufigsten zur überprüfung der Varianzhomogenität verwendet und was macht er?
-> Levene Test
-> einfache ANOVA, welche die absolute Differenz der Messwerte zum jeweiligen Mittelwert dee Gruppe analysiert
-> Signifikantes Ergebnis weist auf eine Heterogenität der Varianz zwischen den Gruppen hin
Welche Vefahren kann man bei vorliegender Heteroskedastizität (vor allem bei ungleichen Stichproben) alternativ zum F-Test durchführen?
Brown-Forsythe F
Welch’s F
(beide Verfahren kontrollieren Fehler 1.Art WelchbProzedur bessere Teststärke, sofern keine extremen Mittelwerte mit großer Varianz vorliegen)
Zusammenfassung
Abhängige Fehlerkomponenten ko ̈ nnen den F -Test hinsichtlich des Fehlers 1. Art und des Fehlers 2. Art entscheidend beeinflussen.
Abweichungen von der Normalität sind zu vernachlässigen, wenn die Populationsverteilungen schief sind. Bei extrem schmalgipfligen Verteilungen neigt der F-Test zu konservativen Entscheidungen. Bei breitgipfeligen Verteilungen ist die tatsa ̈chliche Wahrscheinlichkeit eines Fehlers 1. Art etwas ho ̈her als das nominelle α.
Heterogene Varianzen beeinflussen den F-Test nur unerheblich, wenn die untersuchten Stichproben gleich groß sind.
Bei ungleich großen Stichproben und heterogenen Varianzen ist die Gu ̈ltigkeit des F-Tests vor allem bei kleineren Stichprobenumfa ̈ ngen erheblich gefa ̈ hrdet
ANOVA APA-Bericht (Bsp.)
Beim Vergleich der unterschiedlichen Lehrmethoden wurde im Abschlusstest bei der Methode 1 ein durchschnittliches Ergebnis von M̅1 = 68.79, sd1 = 3.09, bei Methode 2
M̅2 = 65.08, sd2 = 3.28 und bei Methode 3 M̅3 = 78.90, sd3 = 3.61 erreicht.
Die Lehrmethoden unterscheiden sich signifikant, F (2,357) = 1287.51, p < .001, η2 = .88.
ANOVA-Folgenanalyse - Einzelvergleiche
-> Führt einfaktorielle Varianzanalyse zu signifikantem F-Wert, können wir daraus schließen, dass sich die p Mittelwerte in irgendeiner Weise signifikant unterscheiden
Möglichkeiten zum Herausfinden, welche Mitelwerte sich unterscheiden:
Kontraste -> hypothesengeleitetes Vorgehen
Post-hoc-Test -> exploratives Vorgehen
=> Einzelvergleiche sind paarweise Vergleiche zwischen den Treatmentstufen. Dadurch findet man raus welche einzelnen Treatmentstufen signifikante Unterschiede aufweisen
Planung von Kontrasten
Kontraste (_) werden über eine _______________________ definiert.
Kontraste (D) werden übere eine Gewichtung der Mittelwerte der jeweiligen Faktorstufen definiert.
Welchen Regeln folgt die Gewichtung der Kontraste?
Will man Stufe in paarweise Vergleich einschließen wählt man Gewicht ≠ 0
Will man eine Stufe aus einem paarweise Vergleich ausschließen, wählt man Gewicht = 0
Will man Stufe mit mehreren anderen Stufen vergleichen, fasst man die letzteren durch geschickte Gewichtung zu einer Stufe zusammen
Was muss man bei Formel für Kontrast(D) beachten?
Bedingung = 0 muss gelten
-> ist das nicht der Falle werden bestimmte Mittelwerte unterschiedlich gewichtet
Was sind die Voraussetzungen einer Kontrastanalyse?
Entsprechen denen der t-Tests unabhängiger Variablen:
Daten müssen intervallskalenniveau aufweisen
Es muss Normalverteilung der Werte in Gruppenpopulation vorliegen
Varianzhomogenität muss gegebe sein
Post-Hoc-Tests
-> geben Auskunft welche Mittelwerte sich voneinader unterscheiden
-> Es werden alle möglichen, paarweisen Mittelwertsdifferenzen auf signifikante Unterschiede getestet
-> es geht mit dem Problem der α-Fehlerkumulierung einher
Worin unterscheiden sich die verschiedenen Post-Hoc-Tests
-> in ihren Kriterien:
wie:
balancierter Fall: Stichprobenumfänge in allen Gruppen sind gleich
unbalancierter Fall: Stichprobenumfänge in allen Gruppen sind nicht gleich
Varainzhomogenität: Varianz in allen Gruppen gleich
Varianzheterogenität: Varianz nicht in allen Gruppen gleich
Wahl des Verfahren hängt von was ab?
Und welche Empfehlungen gibt es bei den jeweiligen Voraussetzungen?
Einerseits von Stichprobenumfang, Varianzhomogenität & Design (balanciert vs.unbalanciert), andererseits von der gewünschte Kontrolle des α- bzw. ß-Fehlers
Empfehlungen bei folgenden Voraussetzungen:
Voraussetzungen erfüllt: REGWQ oder Tukkey HSD
konservativ: Bonferroni
Ungleiche Stichprobengößen: Gabriel (bei kleinem n)
Ungleiche Stichprobengrößen: Hochberg’s GT2 (bei großem n)
Ungleiche Varianzen: Games-Howell, Dunnett’s T3
Wie teilt man die Verahren im bezug auf Teststärke ein?
Konservativ
Bonferroni -> Duncan -> Scheffe -> Tukey, Tewman-Keuls -> Least significant difference
nicht konservativ
was sind Ziele & Voraussetzungen einer Trendanalyse?
Analyse eines systematischen Verlaufs (linear, quadratisch höher polynomisch) der AV über die verschiedenen Stufen eines Faktors hinweg.
Die AV muss dabei stetig (intervallskaliert) sein.
Die Trendanalyse ist nur dann sinnvoll, wenn der untersuchte Faktor in der ANOVA als signifikant getestet worden ist.
Polynomiale Kontraste
Last changed6 months ago