Einfaktorielle ANOVA

Buffl

Methodenlehre & Statistik 1

by louisa O.

Was ist die ANOVA grundlegend?

-> die Varaianzanalyse (ANOVA) prüft ob statistosch signifikante Unterschiede zwischen mehr als 2 Gruppen vorliegen

(t-Test erweitert auf mehr als 2 UVs)

Abhängige Variable

-> durch AV will man wissen, welche durchschnittlichen Ergebnisse bei (z.B. unterschl. Lernmethoden) erzeilt werden

-> Intresse an mittelwert

Voraussetzung:

muss intervallskaliert sein
die Werte der AV sollen innerhalb der jeweiligen Gruppe normalverteilt sein (betrifft theoretisch die Population der Gruppe, steht nicht zur verfügung, deshalb Evaluierung der Gruppe)

Unabhängige Variable

(auch Gruppenvariable)

-> dient Unterschiede und/ oder Zusammenhänge zwischen den jeweiligen Stufen der Variable zu analysieren

-> Fakrtoreb mit mehr als 2 Stufen

Wann spricht man von einem balancierten Versuchsplan?

Wenn für jede Faktorstufe eines enfaktoriellen Versuchsplans die gleiche Anzahl von Beobachtungen erhoben wird.

Multiples Testen - Nullhypothese

Multriples Testen = Durchführen von zusammenhängenden Hypothesentests

Man testet folgende Hypothesen:

Globalhypothese (alle Mittelwerte sind gleich):

Beim Testen einer Hypothese gehen wir davon aus, dass die H0 richtig/falsch ist.

Beim Testen einer Hypothese gehen wir davon aus, dass die H0 richtig ist.

Was ist die Fehlerinflation (α’)?

Und wie wird sie noch genannt?

-> Auch genannt: family-wise-error-rate oder experiment-

wise-error-rate

= Üblicherweise wird α auf 5% gesetzt, bedeutet 5%ige Chance die Nullhypothese fälschlicherweise abzulehnen (Fehler 1. Art). Wenn mehrere Tests durchgeführt werden, steigt das Risko diesen Fehler zu begehen (bei m = 3tests fast um das 3- fache)

Welche Methode kann man anwenden, um die Gesamtwahrscheinlichkeit des Fehlers 1. Art, auf dem festgelegten Signifikanzniveau zu halten gibt es folgende Möglichkeit:

Bonferroni-Korrektur
Formel:
α’ = α/m

-> Korrektur fällt eher konservativ (streng) aus

Welches Problem bringt die Überprüfung der H0 bei mehr als 2 Stufen des Gruppenfaktors mit sich?

Was ist Alternativ möglich?

-> multiples Testen

-> Alternative:

H0 besagt, dass alle Mittelwerteder strufen des Gruppenfaktors gleich sind
H1v besagt, dass mind ein Mittelwert der 3 Gruppen nicht gleich den anderen Mittelwerten ist

Was macht die einfaktorielle ANOVA

testen ob generell ein Unterschied zischen Mittelwerten der Stufen eines Faktors vorliegt
lieftert signifikantes Ergebnis genau dann, wenn mindestens ein Mittelwert statistischbedeutsam von den anderen abweicht
gibt keine Auskunft welche Mittelwerte sich voneinander unterscheiden

Was ist die ausgeschrieben Form des Begriffs ANOVA

Analysis of Variance

Wie bezeichnet man die ANOVA noch und warum?

-> Omnibustest

-> Da generell auf Unterschied getestet wird (keine Auskunft

welche Mittelwerte sich unterscheiden)

Hypothesen der einfacktoriellen ANOVA

H0: M̅1 = M̅2 = M̅3

H1: M̅i ≠ M̅j mit i≠j

Annahmen der ANOVA (Voraussetzungen)

Unterschiedliche Treatmentsnwirken sich auf Mittelwert der jeweiligen Gruppe aus
Verteilung der abhängigen Variablen in jeder Gruppe folgt einer Normalverteilung
Varianz innerhalb der Gruppen sind gleich
alle Beobachtungen (Mesungen) unabhängig voneinander

Fallunterschiede (am Beispiel wirken einer Lehrmethode)

Wenn unterschl. Lernmethoden keine Wirkung zeigen, unterscheiden sie sich auch nicht von herkömmlicher Lehrmethode
Ändert sich Leistung untersch. Lehr methoden nicht, dann sind unterschl. hohe Mittelwerte bedingt durch zufällige Stichprobenzusammensetzung unterschiedlicher Personen
Wirkt Lehrmethode, sollten Gruppen versch. Populationen angehöhren -> die auf grund unterschl Lehrmethoden entstsnden sind

Was ist der Gruppen-/ Treatmenteffekt

man vermutet das die Lernemthode (Treatment) Auswirkung auf die Leistung hat

Personen innerhalb einer gruppe ________________ (erzielen/erzielen nicht) alle denselben Messwert.

Personen innerhalb einer Gruppe erzielen nicht alle denselben Messwert.

Was ist die Fehlervarianz?

Die Varianz innerhalb der Gruppen

Quellen für die Abweichungen vom Populationsmittelwert

Treatmenteffekt
Fehlervarianz

totale Qudratsumme (QSTotal)

-> total sum of squares (SSToT)

-> geht auf Unterschiede zwischen und innerhalb der Gruppe zurück

Treatmentquadratsumme (QSTreat)

-> Quadratsumme zwischen

-> Einzelne Messwerte ausschließlich von verschiedenen Instruktionen beeinflusst, Messwerte innerhalb der Gruppen dürfen sich nicht unterscheiden

Fehlerquadratsumme (QSFehler)

-> Quadratsumme innerhalb

-> Restliche varianz die nicht durch Treatment erklärt werden kann, wenn Personen die denseleben Test ausgeführt haben in ihren Testwerten unterscheiden

Mittlere Quadratsumme

-> wenn man Quadratsumme durch Freiheitsgrade dividiert

-> Enstpricht der bekannten Varianzschätzung

Teststatistik F

-> Verhältnis der Treatmentvarianz zu Fehlervarianz

-> Je größer der F-Wert desto stärker der Effekt des Treatments

-> In Abhängigkeit von den Freiheitsgraden, ein Treatmenteffekt ab ca. einem F-Wert von 4 (der unter Annahme H0 nur selten zu beobachten ist)

-> signifikanter Effekt des Treatment Faktors

Effekt (η^2)

= Verhältnis der Treatmentquadratsumme zur Totalen Quadratsumme -> entspricht der Varianzaufklärung

-> Würden die Unterschiede in den Mittelwerten sehr hoch sein, wäre auch die Totale Quadratsumme hoch

-> Im Extremfall: Daten genauso hoch wie gesamte Variabilität also QSTotal

Warum gibt es ein Problem mit R^2/ η^2?

-> verwendet “nur” die Quadratsumme der Stichprobe -> überschätzt somit den Effekt der Population

-> Alternative:

w^2
passt durh Korrektur die Schätzung an die Population an

Was ist Effekt (η^2part)

-> bezieht sich auf die Varianzaufklärung eines Faktors

-> für einfaktorielle ANOVA ohne Messwiederholungen sind η^2 & η^2part gleich

Effektgrößen nach Cohen für: f

.10 - klein

.25 - mittel

.40 - groß

Voraussetzungen ANOV

Uabhängigkeit der Fehlerkomponenten zwischen den Stichproben
Normalverteilung der Daten innerhslb der jeweiligen Gruppe
Homogenität der Varianz zwischen den Gruppen

Außerdem:

-> ca. gleich große Gruppengrößen

-> ähnliche Streuung zwischen den Gruppen

Kann die ANOVA ald robustes Verfahren bezeichnet werden?

Was ist die Unabhängigkeit der Fehlerkomponennte & wann ist sie gegebn?

= Beeinflussung eines Messwerts durch Fehlereffekte, muss unabhängig, von der Störvaraiblenbeeinflussung anderer Messwerte sein

Gegeben wenn:

Untersuchungseinheiten wurden Treatmentstufen zufällig zugeordnet
Wenn unter Treatmentstufen verschiedene Stichproben untersucht werden

Tests zur prüfung der Normalverteilung:

(Hauptest und seine Alternativen)

Kolmogorow-Smirnow-Test

Allternativen:

Lillifors-Test
Shapiro-WilL-Test
Anderson-Darling-Test

Was überprüft der Kolmogorow-Smirnow-Test (Ks-Test)?

Und was ist seine schwäche?

-> Test zur Prüfung der Normalverteilung innerhalb von Gruppen

= Ob eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt

Schwäche:

allgemein geringe Teststärke
Vor allem bei kleinen Stichproben entscheidet er meist zugunsten der H0 (daten sind Normalverteilt) & bei großen Stichproben gegen die H0

Was sollte man bei der Normalverteilung neben der Teststatistik erheben?

Kennwete der deskriptiven Satistik (Schiefe, Kurtosis, Median, Mittelwert etc.)
graphische Analyse (Histogramm, Q-Q-Plot, Box-Plot)

-> Transformation der Date bieten in vielen Fällen die Möglichkeit, die Voraussetzungen der Normalverteilung zu erfüllen

Was ist die Homoskedastizität?

= Fehlerkomponente in versch. Treatmentbedingungen dürfen keine systematischen Größenunterschiede zeigen

-> Verletzt wenn: Störgrößen einer Treatmentbedingung überdurchschnittlich klein oder groß, denn Varaianzheterogenität, entsteht häufig nicht zufällig, sondern als Folge Treatmentbedingung

Welcher Test wird am häufigsten zur überprüfung der Varianzhomogenität verwendet und was macht er?

-> Levene Test

-> einfache ANOVA, welche die absolute Differenz der Messwerte zum jeweiligen Mittelwert dee Gruppe analysiert

-> Signifikantes Ergebnis weist auf eine Heterogenität der Varianz zwischen den Gruppen hin

Welche Vefahren kann man bei vorliegender Heteroskedastizität (vor allem bei ungleichen Stichproben) alternativ zum F-Test durchführen?

Brown-Forsythe F
Welch’s F

(beide Verfahren kontrollieren Fehler 1.Art WelchbProzedur bessere Teststärke, sofern keine extremen Mittelwerte mit großer Varianz vorliegen)

Zusammenfassung

Abhängige Fehlerkomponenten ko ̈ nnen den F -Test hinsichtlich des Fehlers 1. Art und des Fehlers 2. Art entscheidend beeinflussen.

Abweichungen von der Normalität sind zu vernachlässigen, wenn die Populationsverteilungen schief sind. Bei extrem schmalgipfligen Verteilungen neigt der F-Test zu konservativen Entscheidungen. Bei breitgipfeligen Verteilungen ist die tatsa ̈chliche Wahrscheinlichkeit eines Fehlers 1. Art etwas ho ̈her als das nominelle α.

Heterogene Varianzen beeinflussen den F-Test nur unerheblich, wenn die untersuchten Stichproben gleich groß sind.
Bei ungleich großen Stichproben und heterogenen Varianzen ist die Gu ̈ltigkeit des F-Tests vor allem bei kleineren Stichprobenumfa ̈ ngen erheblich gefa ̈ hrdet

ANOVA APA-Bericht (Bsp.)

Beim Vergleich der unterschiedlichen Lehrmethoden wurde im Abschlusstest bei der Methode 1 ein durchschnittliches Ergebnis von M̅1 = 68.79, sd1 = 3.09, bei Methode 2

M̅2 = 65.08, sd2 = 3.28 und bei Methode 3 M̅3 = 78.90, sd3 = 3.61 erreicht.

Die Lehrmethoden unterscheiden sich signifikant, F (2,357) = 1287.51, p < .001, η2 = .88.

ANOVA-Folgenanalyse - Einzelvergleiche

-> Führt einfaktorielle Varianzanalyse zu signifikantem F-Wert, können wir daraus schließen, dass sich die p Mittelwerte in irgendeiner Weise signifikant unterscheiden

Möglichkeiten zum Herausfinden, welche Mitelwerte sich unterscheiden:

Kontraste -> hypothesengeleitetes Vorgehen
Post-hoc-Test -> exploratives Vorgehen

=> Einzelvergleiche sind paarweise Vergleiche zwischen den Treatmentstufen. Dadurch findet man raus welche einzelnen Treatmentstufen signifikante Unterschiede aufweisen

Planung von Kontrasten

Kontraste (_) werden über eine _______________________ definiert.

Kontraste (D) werden übere eine Gewichtung der Mittelwerte der jeweiligen Faktorstufen definiert.

Welchen Regeln folgt die Gewichtung der Kontraste?

Will man Stufe in paarweise Vergleich einschließen wählt man Gewicht ≠ 0
Will man eine Stufe aus einem paarweise Vergleich ausschließen, wählt man Gewicht = 0
Will man Stufe mit mehreren anderen Stufen vergleichen, fasst man die letzteren durch geschickte Gewichtung zu einer Stufe zusammen

Was muss man bei Formel für Kontrast(D) beachten?

Bedingung = 0 muss gelten

-> ist das nicht der Falle werden bestimmte Mittelwerte unterschiedlich gewichtet

Was sind die Voraussetzungen einer Kontrastanalyse?

Entsprechen denen der t-Tests unabhängiger Variablen:

Daten müssen intervallskalenniveau aufweisen
Es muss Normalverteilung der Werte in Gruppenpopulation vorliegen
Varianzhomogenität muss gegebe sein

Post-Hoc-Tests

-> geben Auskunft welche Mittelwerte sich voneinader unterscheiden

-> Es werden alle möglichen, paarweisen Mittelwertsdifferenzen auf signifikante Unterschiede getestet

-> es geht mit dem Problem der α-Fehlerkumulierung einher

Worin unterscheiden sich die verschiedenen Post-Hoc-Tests

-> in ihren Kriterien:

wie:

balancierter Fall: Stichprobenumfänge in allen Gruppen sind gleich
unbalancierter Fall: Stichprobenumfänge in allen Gruppen sind nicht gleich
Varainzhomogenität: Varianz in allen Gruppen gleich
Varianzheterogenität: Varianz nicht in allen Gruppen gleich

Wahl des Verfahren hängt von was ab?

Und welche Empfehlungen gibt es bei den jeweiligen Voraussetzungen?

Einerseits von Stichprobenumfang, Varianzhomogenität & Design (balanciert vs.unbalanciert), andererseits von der gewünschte Kontrolle des α- bzw. ß-Fehlers

Empfehlungen bei folgenden Voraussetzungen:

Voraussetzungen erfüllt: REGWQ oder Tukkey HSD
konservativ: Bonferroni
Ungleiche Stichprobengößen: Gabriel (bei kleinem n)
Ungleiche Stichprobengrößen: Hochberg’s GT2 (bei großem n)
Ungleiche Varianzen: Games-Howell, Dunnett’s T3

Wie teilt man die Verahren im bezug auf Teststärke ein?

Konservativ

Bonferroni -> Duncan -> Scheffe -> Tukey, Tewman-Keuls -> Least significant difference

nicht konservativ

was sind Ziele & Voraussetzungen einer Trendanalyse?

Analyse eines systematischen Verlaufs (linear, quadratisch höher polynomisch) der AV über die verschiedenen Stufen eines Faktors hinweg.
Die AV muss dabei stetig (intervallskaliert) sein.
Die Trendanalyse ist nur dann sinnvoll, wenn der untersuchte Faktor in der ANOVA als signifikant getestet worden ist.

Polynomiale Kontraste

Join Course

Preview

Author

louisa O.

Information

Last changed
2 years ago

Report course