1. Multigruppen CFA
VGL. von relevanten Gruppen
mögliche frage und voraussetzungen
- Sind Frauen kompetenter als Männer?
Voraussetzungen zur Beantwortung
Konstrukte werden in jeweiligen Gruppen vergleichbar gemessen:
Keine Unterschiede in Gewichtung der Items
Keine Unterschiede in Item Schwierigkeiten
Keine Unterschiede in Messfehlern
Messinvarianz als Aspekt von Testfairness
Testfairness: Definition nach Dorsch
Relevanz für Messmodelle
Ausmaß, in dem die resultierenden Werte von einem Test zu keiner systematischen Benachteiligung best.
Messeigenschaften eines Tests sollten sich nicht zwischen relevanten Gruppen unterscheiden
Dabei könnte es zwar theoretisch echte Unterschiede zwischen Gruppen (z.b. Mittelwert) geben
Wichtig: dass die Messung in allen Gruppen vergleichbar ist, sodass sichergestellt werden kann, dass sich mögliche Unterschiede nicht als Artefakt der Messungen ergeben
Sind die Messeigenschaften eines Tests über Gruppen vergleichbar?
Wiederholung: Messmodelle
1. Stufen der Invarianz
Invarianz Beispiel Mental Speed
Es geht um absichern: Substantielle Unterschiede oder Sampling error
Messmodelle in Matrixnotation
Können wir das was wir beobachten, voraussagen durch die Modelle?
Die nü’s (v) sind die intercepte
Lambda (𝜆) ist die Ladungsmatrix
Phi (Φ) gibt an wie die Varianz ist
Abweichungen sind erklären durch die Delta (ξ) werte
Messinvarianz über Gruppen?
Gleichungen
Kann man in Gleichungen visualisieren
Parallel: gleiche Ladungen und gleiche Intercepte
Parallel aber parallel verschoben: gleiche Ladungen aber unterschiedliche Intercepte
Gleicher Startpunkt, unterschiedliche Gerade: unterschiedliche Ladungen, gleiche Intercepte
Alles unterschiedlich: unterschiedliche Ladungen und Intercepte
Hätten wir Punktewolken, könnte man noch Aussagen über Fehler Anteil treffen
Generelles Vorgehen bei der Invarianzüberprüfung
Datensatz wird hinsichtlich einer relevanten Gruppenvariablen gesplittet
Werden simultan CFAs für Gruppen gerechnet und dabei sukzessiv immer mehr Parameter über Gruppen gleichgesetzt
Gleichsetzen verschlechtert Fit, führt aber zu (erwünschten) Sparsamkeit des Modells
Wenn Gleichsetzung über Gruppen den Fit nicht signifiaknt verschlechter, relativ zum direkt vorausgehend getesteten Modell wird sie angenommen
Annehmen der Nullhypothese spricht für Invarianz über Gruppen
Da Modelle durch sukzessives Gleichsetzen jeweils aus dem weniger restriktiven Modell hervorgehen, sind sie in diesem genestet
Können Χ2-Differenztests berechnet werden
(Kann ich gleichsetzen ohne dass es zu einer Verschlechterung kommt)
Stufen der Invarianzüberprüfung
Stufen der Invarianz und Schlussfolgerungen
1. Test der Invarianz
Formaler Vergleich der Gruppen
Unique Elemente
Varianzen und Kovarianzen
Parameter
Df
Bei n Gruppen und p Variablen:
Entspricht also bei n Gruppen einfach n mal der Information in der empirischen Varianz-Kovarianzmatrix
Zusätzlich kommen noch n*p Mittelwerte (einer pro Variable und Gruppe) hinzu
Beim konfiguralen Modell ist Anzahl der zu schätzenden Parameter bei n Gruppen gleich n mal die Anzahl der Parameter (einer Gruppe)
Freiheitsgrade
Df= unique Elemente minus schätzenden Parameter
Chi-quadrat
Beispiel: Speed-Tests bei jeweils 100 Frauen und Männern
X2 als Maß für Misfit des Modells (je größer desto schlechter)
X2 (df)
Frauen (n=100): X2 (df) = 6.522 (8)
Männer (n=100): X2 (df) = 9.357 (8)
Konfigurales Modell (N=200; beide Gruppen zusammen): X2 (df) = 15.879 (16)
X2 Werte addieren sich zum Gesamt-X2 Wert (jeweils mit zugehörigen df)
Zu beachten
Relative Größe der Teilgruppen fungiert als Gewichtungsfaktor
X2 Statistik ist generell sensitiv für N der Stichprobe: Je größer, desto eher weicht ein Modell „signifikant“ von Daten ab
Delta CFI
Vergleich genesteter Modelle
Da X2 Wert sensitiv für N der Stichprobe ist, ist bei großen Stichproben die Power hoch, dass ein kleiner, unbedeutender Effekt signifikant ist
Striktere (eig erwünschte) Modell würde dann oft abgelehnt
Empfehlung
Besser, die Veränderung im CFI zu betrachten: Wrnn sparsame Modell nicht mehr als einen Punkt im CFI schlechter ist (ΔCFI<0.01), dann sollte das sparsamere Modell angenommen werden
Stufen der Invarianz Testung
Modelle werden von oben nach unten immer strikter
Unteren Modelle sind in oberen genestet (daher X2-Diff-Test möglich)
Generell nimmt Passung von oben nach unten ab (steigender X2-Wert)
Sparsamkeit nimmt zu (steigende df).
Strikte Modell (M5; gleiche Fehlervarianzen) nicht haltbar, weder nach X2-Diff-Test noch nach ΔCFI.
Wird aber ohnehin oft als unrealistisch erachtet
Abbruchkriterium bei Invarianz Messung
ΔX2 (mit Δdf): Modell wird jeweils mit dem vorangehenden Modell verglichen, in dem es genestet ist, z.b. metrisch (M3) vs. Konfigural (M2); skalar (M4) vs. Metrisch (M3)
Strikte Invarianzstufe (M5) kann weder nach ΔX2(**) noch nach ΔCFI (>.01) angenommen werden
Somit gilt skalare Invariant (M4)
Folgenden, noch strikteren Stufen werden somit auch abgelehnt
Partielle Invarianz
Oft scheitert Gleichsetzen über Gruppen nur an einem (oder wenigen) Parametern auf einer Stufe
In dem Fall kann man diese/n Parameter von der Gleichsetzung ausnehmen
Können unter Ausnahme einiger Parameter die anderen über die Gruppen gleichgesetzt werden, spricht man von partieller Invarianz auf der entsprechenden Stufe
Wenn es sich um sehr wenige Parameter handelt, können entsprechenden Interpretationen der Invarianzstufen auch bei partieller Invarianz beibehalten werden
Z.B.:
Bei 20 Indikatoren: eins nicht vergleichbar
Messvarianz wahrscheinlich nicht so unterschiedlich für Gesamt Skala
Ist es möglich Invarianz aufzuzeigen mit Gleichsetzung für jeweiligen Parameter?
Beispiel
Stufe strikter Invarianz (M5) ist gescheitert: Nicht alle Fehlervarianzen konnten über Gruppen gleichgesetzt werden
Näherer Blick auf frei geschätzten (M4; skalar) Varianzen der Fehler zeigt, dass Varianz der figuralen Ersetzaufgabe (Substionfigural; SBF) größer bei Männern ist als bei Frauen
Modell soll nun bezüglich dieser einen Gleichsetzung relaxiert werden: Varianz von SBF darf sich nun zwischen Gruppen unterscheiden
Anschließend soll überprüft werden ob partiell strikte Invarianz haltbar ist
(Partielle) Messinvarianz
Beispiel fortsetzung
- Diesmal sind alle getesteten Stufen der Messinvarianz (sowie der Populationshomogenität) haltbar
1. Longitudinale Invarianz
Stabilität von Merkmalen über Zeit
Zusätzlich zu Multigruppen Designs kann Invarianz auch an einer Gruppe über die Zeit untersucht werden
Dabei gilt zu unterscheiden
Invarianz des Messmodells (korrespondierende Parameter zu jeweiligen Messzeitpunkten λ, α, δ)
Stabilität des Merkmals (Relation zwischen den Faktoren; Φ1,2)
Auto-Korrelation der Fehler
Echter Messfehler sollte zufällig fluktuieren -> sollte nicht zu Korrelationen zwischen korrespondierenden Fehlertermen beitragen
Hingegen sollte (reliable) Spezifität der Items (Item Inhalt oder – Formulierung) zu Korrelationen zwischen korrespondierenden Items beitragen
Handelt sich um inkrementelle Anteile, die nicht schon durch die Relation zwischen den Konstrukten (Faktoren) erklärt wird
Item Faktoren bei multiplen Messzeitpunkten
- Item-Faktoren (X1-X3) werden i.d.R. selbst nicht interpretiert, erlauben aber die Modellierung von Auto-Korrelationen
1. Invarianz Tests bei kontinuierlichen Moderatoren
Überprüfung der Invarianz bei nicht-natürlich nominalen Gruppen
Ansätze
Klassischer Ansatz
Künstliche Grenzen ziehen, wenn theoretisch begründbar:
Alterskategorien: Jugendliche, Erwachsene, Senioren
Schulstufen: Primar- vs. Sekundarstufenklassen
Einkommensklassen: Gering-, Durchschnitts-, Großverdiener
Neuere Ansätze
Untersuchung kontinuierlicher Moderatorvariablen
Beispiel LSEM: Lokal-gewichtetes Strukturgleichungsmodell
De facto auch Bilden von Fokalpunkten (letztlich sowas wie „Stufen“ des Moderatos, allerdings gibt es viele Fokalpunkte und kontinuierliche Übergänge aufgrund der Gewichtung)
Prinzipiell auch Kombinationen mehrerer Moderatoren möglich
Local Structural Equation Modeling (LSEM)
Vorgehen
Aus einer kontinuierlichen Moderatorvariablen wurden mittels eines Gauß-Kernels Substichproben gezogen
Für diese werden jeweils Strukturmodelle geschätzt
(Verfahren setzt große Stichproben voraus)
Test auf Differenzierung mittels LSEM
Honesty-Humility (HH) ist kontinuierlicher Moderator
Wurden 12 Focalpunkte berechnet
Für diese wurde Varianzstärke eines Egoismus Faktors geschätzt
Befund und Interpretation
Je höher Ausprägung von HH, desto weniger Varianz hat Egoismus-Faktor
Mit zunehmendem HH sinkt Erklärungsmacht von Egoismus
Last changed5 months ago