VL7: CFA-2: Modellpassung, Itemselektion

Buffl

Testen und Entscheiden

by Greta R.

1. Modellidentifikation

Voraussetzungen der Modellschätzung: Skalierung und Identifikation

Skalierung:

Skalierung der latenten Variablen (formale Voraussetzung)

Identifikation:

Identifikation des Modells (hat formale und empirische Voraussetzungen)

Skalieren von latenten Variablen

Latente Variablen: keine eigene Metrik -> müssen skaliert werden damit das Modell identifiziert ist
Drei unterschiedliche Methoden dafür:
- Unit-Varianz Methode
  - Varianz des latenten Faktors wird auf eins gesetzt (oder beliebige andere Zahl)
  - Geht nur in CFA, nicht bei endogenen Variablen in SEM, da hier auch Varianzen geschätzt werden
- Referenz-Indikator Methode
  - Unstandardisierte Ladung eines Indikators wird auf eins gesetzt (i.d.r. Indikator mit höchster Ladung): Dann hat latenter Faktor die Metrik des Referenz-Indikators
- Effects-Coding Methode
  - Mittlere Ladung aller Indikatoren wird auf eins gesetzt:

Grundidee der Parameterschätzung

- Vorgehen bei Parameterschätzung

Aus Modellgleichungen folgt implizierte Varianz-Kovarianzmatrix
In Strukturgleichungen werden von einem Estimator Zahlenwerte als Parameter eingesetzt, bis modell-implizierte Matrix nur noch minimal von beobachteten Matrix abweicht

Modell und Modellgleichungen

Zu schätzende Modellparameter

13 zu schätzende Parameter:
- 4 Ladungen
- 2 Faktorvarianzen
- 1 Faktor-Kovarianz
- 6 Fehlervarianzen
- 0 Fehlerkovarianzen

Anmerkung
- Beispiel gilt für Referenz-Indikatormethode
- Bei Wahl der Unit-Varianzmethode wären Faktorvarianzen=1 gesetzt worden, die Relation wäre dann (standardisierte) Korrelation, es hätten dafür 2 mehr Ladungen geschätzt werden müssen
Somit wären gleiche Anzahl von Parametern zu schätzen

Unique empirische Elemente

Bei p Variablen gibt es (p*(p+1))/2 unabhängige empirische Informationen, die in Modellgleichungen eingesetzt werden können.
Hier gibt es p=6 Variablen, demnach: (6*(7))/2=21 unique Elemente:
6 Varianzen und 15 Kovarianzen

Empirische Information, Parameter und Freiheitsgrade

Unique empirische Elemente

Aus empirischer Kovarianzmatrix von p unabhängigen Variablen lassen sich (p*(p+1))/2 unabhängige Informationen für Gleichungen nutzen

Modell-Parameter

Anzahl der Parameter, die unabhängig voneinander geschätzt werden müssen
Durch Fixieren (z.b. Null-Setzen) oder restringieren (z.b. Gleich-Setzen) müssen weniger Parameter geschätzt werden

Freiheitsgrade

Differenz der empirischen Informationen und der unabhängig zu schätzenden Parameter

Beispiel

Unique Elemente – parameter =df
Hier: 21 – 13 = 8

Identifikation eines Modells

Definition Identifikation

Modell Parameter sind identifiziert, wenn es keine 2 (oder mehr) Schätzungen von Parametern gibt, bei denen die theoretischen Varianz-Kovarianzmatrizen übereinstimmen

Voraussetzungen

1. Modell hat null oder mehr Freiheitsgrade (df>0)

2. Alle latenten Faktoren sind skaliert

Ferner:

1. Empirischen Daten sind informativ (keine Kollinearität, keine Nullvarianzen; beides reduziert unique Informationen)

2. Gibt auch lokal keine redundanten Relationen (z.b. Regression und Korrelation zwischen gleichen Variablen)

Unter-, gerade- und überidentifizierte Modelle

Unteridentifiziertes Modell (df<0)
- Gibt keine eindeutige Lösung: Stattdessen unendlich viele „gleichgute“ Schätzungen, die Daten erklären können -> nicht brauchbar!
Gerade identifiziertes (=saturiertes) Modell (df=0)
- Gibt genau eine Lösung für die Parameter, die Daten perfekt erklärt
- Modell-Passung kann aber nicht überprüft werden
Überidentifiziertes Modell (df>0)
- Gleichungssystem kann nicht mehr exakt gelöst werden
- Anliegen: Parameterschätzer finden, der Overall am betsen passt
- kommt i.d.r. zu Abweichung der empirischen und modell-implizierten Kovarianz-Matrix -> erlaubt Test auf Modellpassung
- Beispiel:
- Gibt 2 Gleichungen aber nur einen zu schätzenden Parameter:
  - 2+X=6 (-> x=4)
  - 3+X=8 (-> x=5)
Am ehesten passt X=4.5 Allerdings passt X in beiden Gleichungen nur „in etwa“

Fixieren und Restringieren von Parametern

Fixieren von Parametern

Null-Setzen von Ladungen
Null-Setzen Fehlerkovarianzen
Eins-Setzen von Relationen zwischen Faktoren (=Identität)

- …..

Restringieren von Parametern

Ladungen gleichsetzen
Fehlervarianzen gleichsetzen
…
(Beim Gleichsetzen werden alle Parameter geschätzt, nur nicht unabhängig voneinander!)

Standard CFA-Modelle

Alle Indikatoren sind kontinuierlich und haben 2 Quellen: jeweils einen gemeinsamen Faktor und einen Fehler
Fehler sind untereinander unabhängig und unabhängig vom Faktor
Alle Relationen sind linear und Faktor kovariieren
Non-Standard-CFA Modelle sind komplexer: non-lineare Relationen, Sekundärladungen auf mehrere Faktoren, korrelierte Fehler etc.

Identifikation von Standard CFA-Modellen

Daumenregel

Daumenregeln

Wenn es einen Faktor gibt, benötigt er 3 Indikatoren
Wenn es ≥ 2 Faktoren gibt, benötigt jeder Faktor 2 oder mehr Indikatoren

Drei-Bein-Regel (Zusammenfassung beider Daumenregeln)

Faktor benötigt 3 Beine, um stabil zu stehen: 3 Indikatoren oder 2 Indikatoren und eine Relation (|r|>0)

2. Modellpassung und Modellvergleich

Modell-implizierte Kovarianzmatrix

Varianzen (Diagonale)
- Quadrat der Ladung mal Faktorvarianz plus Fehler
  - 𝜎1,1 = 𝜆1,1𝜓1,1𝜆1,1+𝜃𝜀1,1
Kovarianzen für Indikatoren desselben Faktors (blau)
- Produkt der Ladungen und Varianz des Faktors
  - 𝜎2,1 = 𝜆2,1𝜓1,1𝜆1,1
Kovarianzen für Indikatoren unterschiedlicher Faktorenn (gelb)
- Produkt der Ladungen und Kovarianz der Faktoren
  - 𝜎4,1 = 𝜆4,2𝜓1,2𝜆1,1

Empirische und modellimplizierte Kovarianzmatrix

(Abbildung)

Minimieren der Diskrepanzfunktion (Fitten)

Häufige Diskrepanzfunktionen

Parameter so wählen, dass Abweichungen zwischen empirischer (S) und modell-implizierter Kovarianzmatrix (𝛴(𝜃)) minimal werden: 𝐹𝑚𝑖𝑛 = 𝑆 −𝛴(𝜃)

Häufige Diskrepanzfunktionen

Maximum Likelihood Diskrepanzfunktion
Unweighted Least Squares Diskrepanzfunktion
Generalized Least Squares Diskrepanzfunktion

- Anmerkungen

o Fmin= Minimum der Fit-Funktion (minimale Diskrepanz zwischen empirischen und modellimplizierten Werte

Übersicht Modellfit- Indizes

Absolute Fit-Indizes

- Basierend auf Minimum der Fit-Funktion: Chi-Quadrat, RMSEA

- Basierend auf Residuen: SRMR

Inkrementelle Fitindizes (Fit relativ zu Baseline-Modellen)

- CFI, TLI

Informationsindizes (für Vergleich von Modellen)

- AIC, BIC

Chiquadrat-Test

Es wird Minimum der Diskrepanz Funktion bestimmt, also Differenz zwischen modell-basierter und emprisicher Kovarianzmatrix:
Teststatistik ist approximativ χ2 verteilt und Test wird entsprechend oft als „Chiquadrat-Test der Modellpassung“ bezeichnet
- 𝑇 = 𝑁 − 1 𝐹𝑚𝑖𝑛
Wunschhypothese ist ein nicht-signifikanter χ2 Wert, da dieser anzeigt, dass das Modell die Daten gut beschreibt
Test ist allerdings sensitiv für das N der Stichprobe und wird bei großen N oft schon bei geringen Abweichungen signifikant

Root Mean Square Error of Approximation (RMSEA)

- Probleme des Fmin: Bevorzugung von komplexen Modellen mit vielen Parametern

- Abhilfe: Relativierung des Fmin an Freiheitsgraden

- Interpretation des RMSEA als durchschnittliche Diskrepanz pro Freiheitsgrad

- Bewertung: RMSEA <.05 gut; <.08 akzeptabel; >.10 schlechtes Modell (neuere empfehlen eher <.07 als akzeptabel)

- Anmerkung: RMSEA hängt auch von df ab: Bei einfachen Modellen (wenige df), liegen Werte insgesamt höher

Standardized Root Mean Square Residual (SRMR)

Abweichungs-Matrix wird genutzt: Standardisierten und quadrierten Residuen werden gemittelt, dann Wurzel daraus gezogen
Interpretation: Mittlere Abweichung zu Daten einer Korrelationsmetrik
SRMR <.06 gut; um .08 okay; >.10 schlechtes Modell

Inkrementelle Indizes (1)

Konzeptuelle Idee ist anzugeben, wo theoretisches Modell auf einem Kontinuum zwischen Independence-Modell und saturierten Modell steht
Werte nah an 0 zeigt an, dass es nicht besser als Independence Modell ist, ein Wert nah 1 zeigt, dass es vergleichbar gut fittet wie das satuierte Modell
Independence Modell: Werden keine Relationen zwischen beobachtbaren Variablen angenommen (=Modell erklärt nichts, ist aber sparsam)
Saturiertes Modell: Werden Relationen zwischen allen beobachtbaren Variablen angenommen (= Modell eklärt alle Kovarianzen, ist aber nicht sparsam)
Theoretisches Modell: Theoriebasiert werden einige Relationen angenommen. (=Erklärung-und gegenläufig Sparsamkeit- liegen irgendwo zwischen Independence Modell und dem Saturierten Modell)

Inkrementelle Indizes (2)

Comparative Fit Index (CFI)

Werte >0.95 gut; >0.9 akzeptabel

Tucker Lewis Index (TLI) bzw. Non-Normed Fit Index (NNFI)

Werte >0.95 gut; >0.9 akzeptabel

- Anmerkung: CFI/TLI hängen von Korrelation der Indikatoren ab. Wenn Indikatoren insgesamt hoch korreliert sind, ist Independence-Modell sehr schlecht (hat hohen Diskrepanzwert der Fit-Funktion), sodass Bruch klein wird und CFI/TLI hoch

Modellvergleich

Vergleich genesteter Modelle

Wenn Modell durch Parameter Restriktionen aus anderen Modell hervorgeht, kann Chi-Quadrat Differenztest berechnet werden mit Differenz der X2 Werte und Differenz der df der Modelle

Vergleich nicht-genesteter Modelle

Wenn Modelle zwar auf gleichen Variablen beruhen, aber ungleich in ihrer Struktur sind, können Informationsindizes berechnet werden, die jeweils den Fit und Sparsamkeit ins Verhältnis setzen

Akaike Informationskriterium (AIC)

𝐴𝐼𝐶 = −2𝑙𝑛𝐿 𝜃 𝑦, 𝑀 + 2𝑘

Bayesiansches Inforamtionskriterium (BIC)

𝐵𝐼𝐶 = −2𝑙𝑛𝐿 𝜃 𝑦, 𝑀 + 𝑘 ∙ 𝑙𝑛𝑁

Wird das Modell mit dem kleinsten Index bevorzugt, da gute Modelle sowohl geringe Abweichung als auch geringe Komplexität haben sollten. Dabei können Indizes prinzipiell auch negativ werden
Daumenregel: Differenz von 2,4,6 bzw. 10 Punkten spricht mit kleiner, mittlerer, hoher bzw. sehr hoher Sicherheit für das Modell mit geringerem Index. Kommt aber auch immer auf Kontext an

1. Modell-Parameter, Modifikations-Indizes und Item-Selektion

Checks der Modellparameter

Plausible Größe und Richtung
- Ist Parameterschätzer plausibel?
Größe der Standardfehler
- Wird Parameter mit hinreichender Präzision geschätzt (=kleiner Standardfehler)?
Signifikanz
- Ist Paarmeter-Schätzer signifikant von 0 verschieden
- Critical Ratio= Parameter Schätzer/Standardfehler (Teststatistik ist z-verteilt)

Post-Hoc Analysen

Meisten Programme geben „Modifikations-Indizes“ aus
Beschreiben, um wie viel sich Chi-Quadrat-Wert verbessern würde, wenn man bestimmte Relation zulassen würde, bspw.:
- Sekundärladungen
- Fehlerkorrelationen

Caveat Modell-Modifikation

Modifikations-Indizes können helfen, besseren Fit zu bekommen
Achtung: Vorschläge rein datengetrieben
Plausibilität sollte bewertet werden
Gefahr von Stichprobenabhängigkeit der Verbesserungen bzw. Overfitting (=Anpassen des Modells an Fehler)
Handelt sich bei post-hoc Modell-Modifikationen um exploratorisches Vorgehen (=hypothesen-generierend)
Generalisierung sollte an unabhängigen Datensatz überprüft werden

Unidimensionalität aus der CFA-Perspektive

Unidimensionalität

Wenn Relationen aller Variablen einzig auf gemeinsamen Faktor zurückgehen, spricht es dafür, dass nur ein Konstrukt hinter den Relationen steht
Spezifische Relationen zw. Indikatoren?
- Wenn einzelne Variablen höher korreliert sind als durch allgemeinen Faktor erklärbar, empfehlen die Modifikations-Indizes (MI) eine Fehlerkorrelation
- Fehlerkovarianzen können auch als Wirkung eines weiteren (Methoden-) Faktors interpretiert werden
- In diesem Fall ist Skala nicht unidimensional

Item-Selektion

Anliegen
- Items können nach MI so ausgewählt werden, dass Skala unidimensional wird (Achtung: ist ein datengetriebenes, hypothesengenerierendes Vorgehen)
Vorgehen bei „Step-Wise Item Selection“
- Berechnen einer CFA und Ausgeben der MI
- Wenn hoher MI zwischen 2 Items eine Fehlerkorrelation empfiehlt, wird eines der Items ausgeschlossen
- Anschließend wird erneut CFA berechnet usw
- Wenn es keinen hohen MI mehr gibt, kann von Unidimensionalität der verbleibenden Indikatoren ausgegangen werden
Andere Optimierungskriterien
- Prinzipiell können Items auch so ausgeschlossen werden, dass andere Fit-Indizes optimiert werden, z.b. RMSEA (erniedrigt) oder CFI (erhöht)

Join Course

Preview

Author

Greta R.

Information

Last changed
a year ago

Report course