Vertiefung Testtheorie

by Marie R.

Gütekriterien

Validität: Test misst tatsächlich das Merkmal, das gemessen werden soll

Reliabilität: Test misst Merkmal exakt und ohne Messfehler

Objektivität: Test kann unabhängig von Ort, Zeit, Testleiter und Auswerter durchgeführt werden, weil alles festgelegt ist

Kategorial vs. Kontinuierlich

Kategorial: wenige Ausprägungen

Kontinuierlich: unendliche Ausprägungen möglich

Psychometrische Modelle der CFA (Latent Trait Modelle)

Latent-State-Trait-Modelle

Modelle der Variabilität = Bestimmung der Messgelegenheitsspezifität einer Messung, welcher Anteil der Varianz geht auf stabile interindividuelle Unterschiede zurück

Latent Change Modelle

Modelle der Veränderung im engeren Sinne = Analyse der intraindividuellen Veränderung zwischen zwei Messpunkten

Latent Growth Curve Modelle

Modelle der Veränderung im engeren Sinne = Analyse der intraindividuellen Veränderung über mehr als 2 Messpunkte

Latent Class Analyse

Bestimmung der Anzahl an latenten Klassen, die nötig sind, um Unterschiede in den beobachteten Antwortmustern zufriedenstellend und inhaltlich bedeutsam zu erklären

2 Modellparameter geschätzt: bedingte Antwortwahrscheinlichkeiten für Items (beobachtete Variablen, Pi i g), relative Klassengrößen (Pi g)
Ableitung aus beiden Modellparametern: bedingte Klassenzuordnungswahrscheinlichkeiten für Antwortmuster
—> Benötigt: unbedingte und bedingte Wahrscheinlichkeiten für Antwortmuster

Annahmen (LCA)

Konstante Antwortwahrscheinlichkeiten innerhalb einer Klasse
Jede Person gehört einer Klasse an und jede Person gehört nur einer Klasse an (Klassengrößen summieren sich zu 1 auf)
Wahrscheinlichkeit bei zwei oder mehr Items einen Wert von 1 zu erhalten, hängt nur davon ab, welcher Klasse g eine Person angehört (lokale stochastische Unabhängigkeit)

Formeln Antwortwahrscheinlichkeiten (LCA)

Formel relative Klassengröße (LCA)

R-Output (LCA)

Bedingte Wahrscheinlichkeit Antwortmuster (LCA)

Bedingte Klassenzuordungswahrscheinlichkeit (LCA)

Mittlere Klassenzuordnungswahrscheinlichkeit (LCA)

Durchschnittliche Höhe der höchsten bedingten Klassenzuordnungswahrscheinlichkeit über alle in der Stichprobe vorkommenden Antwortmuster hinweg (Maß der Zuverlässigkeit)

Modelltestung (LCA)

Parameterschätzung: Maximum Likelihood Verfahren (iteratives Verfahren)

Optimierungskriterium: Likelihood L (Produkt der unbedingten Wahrscheinlichkeiten für Antwortmuster)

Lokale Maxima: wenn bei lokalem Maximum endet, dann ungute Schätzung

Verwendet viele zufällige Startwerte

Bedingungen Identifikation LCA

Anzahl an Modellparametern muss größer sein als Anzahl theoretischer Antwortmuster minus 1

Nicht identifiziert: alle Modelle mit nur 2 dichotomen Items, 3 dichotome Items (2 oder mehr latente Klassen), 4 dichotome Items (3 oder mehr latente Klassen)
Mindestens 5 dichotome Items verwenden

Absoluter Fit? (LCA)

Durchführung mehrerer LCA mit unterschiedlicher Klassenanzahl

Beurteilung des absoluten Modellfits problematisch, deshalb Beurteilung des relativen Modellfits

Likelihood Ratio Test (LCA)

Vergleich der Häufigkeiten der beobachteten Antwortmuster mit den vom Modell vorhergesagten erwarteten Häufigkeiten

in R Zeile G^2, P-Wert anschauen

Relativer Modellfit (LCA)

Berücksichtigen Güte Anpassung Modell und Modellsparsamkeit

Wichtigste Maße: AIC und BIC
Niedrigerer Wert = besserer Fit

Wenn BIC mit steigender Klassenanzahl sinkt: anschauen, wie stark BIC von Modell zu Modell sinkt (Sprung immer kleiner, dann der Punkt ab dem wenig Unterschied)

Zusammenhang mit Kovariaten (LCA)

Adjusted Three Step:

Klassenzuordnung und -wahrscheinlichkeit für jede Person abspeichern, Klassifikationsfehler schätzen, Analyse Zusammenhang latente Klassenvariable und Kovariate unter Berücksichtigung des Klassifikationsfehlers

LCA bei kategorialen Items mit mehr als 2 Kategorien

Pro latente Klasse eine Abbildung: bedingte Antwortwahrscheinlichkeit je Kategorie und je Item und je Klasse

Multigruppen-LCA

Gruppen von Personen können verglichen werden

Hinsichtlich Anzahl latenter Klassen und der bedingten Antwortwahrscheinlichkeiten und der Klassengrößen

Modelle der CFA

Prüfung Dimensionalität, Eigenschaften des Messinstruments, Schätzung Reliabilität

Klassische Testtheorie als Messfehlertheorie (Wahrer Wert = beobachteter + Messfehler)
Varianz = Varianz der beobachteten Werte + Varianz der Messfehler

Reliabilität (CFA)

Bestimmung der Reliabilität (CFA)

Mehrere beobachtbare Variablen notwendig

Annahmen der CFA: beobachtete Variable aus True-Score und Fehler zusammengesetzt, alle True-Score perfekt miteinander korreliert, alle Fehler unkorreliert
Eindimensionalität: Fehler unkorreliert + True Score perfekt korreliert

Modelle der CFA

Tau-Kongenerität

Restriktionen: keine außer Eindimensionalität (keine Korrelation der Fehlervarianzen)

Itemcharakteristiken unterscheiden sich in unterschiedlichen Steigungen
Normierung: Eta = 0, Lambda = 1 (erste Ladung auf 1, Rest frei)
3 Variablen: 9 zu bestimmende Parameter (2 Ladungen, 3 Achsenabschnitte, 1 Varianz, 3 Fehlervarianzen), 9 Informationen (6 Varianzen, 3 MW der beobachteten Variablen) —> Modell ist identifiziert
4 Variablen: 12 zu bestimmende Parameter, 14 Infos —> Modell überidentifiziert

Reliabilitätsschätzer: McDonalds Omega

—> Ladung des jeweiligen Indikators im Zähler multiplikativ ins Quadrat

Essenzielle Tau-Kongenerität

Indikatoren haben gleiche Diskriminationsfähigkeit (gleiche Ladungen) —> Unterscheiden sich nur in Leichtigkeitsparameter

3 beobachtete Variablen: zu bestimmende Modellparameter = 3 Achsenabschnitte, 1 Varianz und 3 Fehlervarianzen
Vorhandene Infos: Varianzen/Kovarianzen der beobachteten Variablen = 6 (p*(p+1)/2), Mittelwerte der Variablen = 3
Bei 2 Variablen: 5 zu bestimmende Parameter (2 Achsenabschnitte, 1 Varianz und 2 Fehlervarianzen), 5 vorhandene Infos (3 Varianzen, 2 Mittelwerte)
Restriktionen: gleiche Ladungen + Kovarianzen
Reliabilitätsschätzer: McDonalds Omega und Cronbachs Alpha

Tau-Äquivalenz

Restriktionen: gleiche Ladungen UND gleiche Intercepts

Gleiche Kovarianzen, gleiche Mittelwerte

Reliabilitätsschätzer: McDonalds Omega und Cronbachs Alpha

Essenzielle Tau-Parallelität

Restriktionen: gleiche Ladungen, gleiche Fehlervarianzen, KEINE gleichen Intercepts

Gleiche Kovarianzen, gleiche Varianzen
Schon bei 2 Variablen überidentifiziert

Reliabilitätsschätzer: McDonalds Omega, Cronbachs Alpha und Korrelation Variablen

—> Durch Annahme gleicher Fehlervarianzen, Reliabilität aller beobachteter Variablen gleich groß

Nur hier zulässig Korrelation 2er Testvariablen als Reliabilität zu interpretieren

Multigruppen CFA

Vergleich Gruppen hinsichtlich mittlerer Ausprägung auf latentem Merkmal

Vergleich Gruppen hinsichtlich Zusammenhänge eines latenten Merkmals mit anderen Merkmalen

Item-Bias (MCFA)

Personen unterschiedlicher Gruppen mit gleicher Ausprägung auf latentem Konstrukt unterscheiden sich in Wahrscheinlichkeit eine bestimmte Ausprägung auf einer beobachteten Variable zu erhalten (Verletzung Messinvarianz)

Unterschiede können an Diskriminationsfähigkeit und Schwierigkeit eines Indikators liegen

Wann welche Modelle anwenden?

Dichotome Indikatoren: Modelle der Item Response Theorie

Metrische Indikatoren: Multigruppen-Modelle der konfirmatorischen Faktorenanalyse für metrische Variablen

Ordinale Indikatoren: Multigruppen-Modelle der CFA für metrische Variablen

Messinvarianz (MCFA)

Konfigurale Invarianz (MCFA)

2 Indikatoren pro Faktor genügen, wenn Faktor mit anderem Faktor korreliert ist

Modell mit 3 Indikatoren auch dann identifiziert, wenn Faktor nicht mit anderem Faktor korreliert

Normierung: in jeder Gruppe muss Ladung des ersten Indikators auf latenter Variable auf 1 fixiert werden, MW latenter Variable in jeder Gruppe auf 0 fixiert

Gruppen unterscheiden sich in Ladungen (Diskriminationsfähigkeit, Steigungen) und in Schwierigkeiten (Achsenabschnitten)

Schwache Messinvarianz (MCFA)

Ladungen derselben Indikatoren über Gruppen gleichgesetzt

Innerhalb Gruppen dürfen sich die Ladungen verschiedener Indikatoren voneinander unterscheiden
Indikator 1 und Indikator 2 einer Gruppe dürfen sich unterscheiden, aber Indikator 1 und Indikator 2 von Gruppe 1 müssen gleiche Ladung haben wie Indikator 1 und Indikator 2 von Gruppe 2
Achsenabschnitte werden frei geschätzt und dürfen sich zwischen Gruppen unterscheiden (Diskriminationsfähigkeit ist gleich)

Starke Messinvarianz (MCFA)

Ladungen UND Achsenabschnitte derselben Indikatoren über Gruppen gleichgesetzt

Innerhalb Gruppen dürfen sich die Achsenabschnitte verschiedener Indikatoren voneinander unterscheiden
Gleiche Diskriminationsfähigkeit, gleiche Schwierigkeit —> 1 Gerade in Graphen

Strikte Messinvarianz (MCFA)

Ladungen UND Achsenabschnitte UND Fehlervarianzen derselben Indikatoren über Gruppen gleichgesetzt

Vorgehen Prüfen Messinvarianz (MCFA)

Separate Modelle für jede Gruppe, Multi-Gruppen Modelle mit zunehmenden Restriktionen testen (konfigurale —> schwache —> starke —> strikte), Auswahl des restriktivsten Modells

Schaut sich absoluten Modellfit an, aber dadurch, dass Modelle geschachtelt sind, kann man auch Chi^2 Test rechnen

Chi^2-Differenzentest (MCFA)

Vergleich 2 ineinander geschachtelter Modelle (signifikantes Ergebnis = restriktiveres Modell passt schlechter als das weniger restriktive Modell)

Zeigt ähnliche Eigenschaften wie normaler Chi^2 Modelltest
Bei großem N werden auch minimale Unterschiede direkt signifikant
Bei nicht-signifikantem Ergebnis gibt es eine unbekannte Beta-Fehler Wahrscheinlichkeit, bzw. unbekannte Power 1-Beta

Alternative: Änderung im Comparative Fit Index (Delta CFI) —> Cut-Off = CFI nicht mehr als .01 (oder .002) schlechter im restriktiveren Modell, zudem DeltaRMSEA oder DeltaSRMR

Partielle Messinvarianz (MCFA)

Messinvarianz für mindestens 2 Indikatoren eines Faktors

Interpretation Multigruppen-CFA

Zeigt Verfahren starke Messinvarianz über 2 Gruppen hinweg, so bleibt offen, ob dasselbe Verfahren beim Vergleich anderer Gruppen ebenfalls starke Messinvarianz aufweist

Messinvarianz keine globale Eigenschaft des diagnostischen Verfahrens an sich, sondern eine Eigenschaft des Verfahrens in Bezug auf bestimmte Populationen/Gruppen

Einschränkungen (MCFA)

Methode bei vielen Gruppen suboptimal, Gruppierungsvariable muss kategorial sein

Für große Gruppen: Alignment Method
Für kontinuierliche Gruppierungsvariable: Moderated nonlinear factor analysis

Latent-State-Modelle

Modelle für längsschnittliche Daten der CFA

Indikatorspezifität (LS)

Dieselben Indikatoren werden zu jedem Messzeitpunkt eingesetzt

Indikatoren sollen homogen, eindimensional sein und selbes Konstrukt erfassen
Jeder Indikator dennoch aber spezifische Anteile (Uniqueness)
Indikatoren können mit sich selbst über Zeit hinweg korrelieren als mit anderen Indikatoren des Konstrukts (Verletzung Annahme unkorrelierte Fehlervariablen)

Modell passt nicht auf Daten? (LS)

Stichprobe sehr groß?

Chi^2 reagiert sensitiv auf großen Daten —> dann Fehlerkovarianzen zulassen, aber selbst dann noch schlechter Fit
Indikatorspezifischer Faktor einführen: latente Variable, die uniqueness der Indikatoren einfängt (einen weniger als Indikatoren vorhanden sind, also nur 1 indikatorspezifischen Indikator einführen)
Referenzindikator auswählen = Y1, nicht-referenzindikator = Y2
Y2 lädt bei jedem Messzeitpunkt auf gemeinsamen indikatorspezifischen Faktor
Indikatorspezifischer Faktor = Residualfaktor (repräsentiert Teil der wahren Varianz in Nicht-Referenzindikatoren, welcher nicht durch wahre Varianz im Referenzindikator erklärt werden kann)

Latent-State-Trait-Modell

Fragestellung: meist Personeneinflüsse UND messgelegenheitsspezifische Einflüsse

Wie groß Anteil Variabilität in wiederholt gemessenem Merkmal, der auf stabile interindividuelle Unterschiede zurückzuführen ist

Konstruktvalidierung (LST)

Erfassungsinstrument, das Eigenschaft erfassen soll, soll hohe Konsistenz aufweisen

Erfassungsinstrument, das Zustand erfassen soll, soll hohe Messgelegenheitsspezifität aufweisen

Annahmen (LST)

Wahrer Wert als latente Statevariable (als bedingte Erwartungswerte von Personen auf einer Variablen zu einer Messgelegenheit)

Hängt von habituellem Merkmalswert der Person und von messgelegenheitsspezifischen Einflüssen ab

Modell (LST)

Ähnlichkeit zu LSM, mit zusätzlichem Faktor 2. Ordnung
- Modell mit Mittelwertstruktur: Alpha (Achsenabschnitt) + Lambda (Ladung) * latente Statevariable + Messfehlervariable
- Latente States = Xi + Residuum

Einflüsse von Xi, Zeta und Epsilon unkorreliert

Varianzzerlegung (LST)

Anteil Gesamtvarianz von Yit, der auf stabile interindividuelle Unterschiede zurückgeführt wird

Anteil Gesamtvarianz von Yit, der auf messgelegenheitsspezifische Einflüsse zurückgeführt wird

Reliabilität: Anteil der Gesamtvarianz, der auf wahre Unterschiede zurückgeführt wird (aus Konsistenz und Messgelegenheitsspezifität)

Ablauf LST

Beginn mit LSM, zum Klären ob indikatorspezifischer Faktor notwendig ist

Dann: mindestens starke Messinvarianz gegeben?
Dann Latent State Trait Modell, Bestimmung Realiabilität, Konsistenz und Messgelegenheitsspezifität

Wenn LSM in LSTM: nur noch Traitfaktor 2. Ordnung einführen (Xi) + Kovarianz aus Xi und indikatorspezifischem Faktor 0 setzen

Ab 4 Messzeitpunkten ist LSTM restriktiver als LSM

Zusätzliche Quelle der wahren Varianz (LST)

Mit indikatorispezifischem Faktor gibt es zusätzliche Quelle der „wahren Varianz“ bei Nicht-Referenzindikatoren: indikatorspezifische Einflüsse

Anteil der Gesamtvarianz von Yit, der auf indikatorspezifische Effekte zurückgeführt wird

Latent-Change-Modelle

Wie stark Veränderung in einem Merkmal über 2 Messzeitpunkte hinweg?

Gibt es interindividuelle Unterschiede?
Modellierung interindividueller Unterschiede in der intraindividuellen Differenz zwischen 2 Zeitpunkten auf latenter (messfehlerbereinigter) Ebene

Relevante Parameter: mittlere Veränderung (über alle Personen hinweg), interindividuelle Unterschiede in der intraindividuellen Veränderung

Als Berechnung Tau2 – Tau1 rechnen
Latente Statevariable muss zerlegt werden zu Zeitpunkt 2: in Ausgangswert + Differenz

Modell (LC)

Erweiterung LC-Modell

Aufnahme weiterer Merkmale als Prädiktoren, Aufnahme weiterer Merkmale als Outcomes

Vorhersage des latenten Ausgangszustandes und der latenten Differenz durch manifeste Variable X (z.B. Gruppenzugehörigkeit, Kontroll vs. Interventionsgruppe)

Mehr als 2 Zeitpunkte: Baseline-Change Variante (Differenz zum 1. Messzeitpunkt wird jeweils modelliert —> Kovarianzen zwischen 2 und 3 müssen 0 sein, Kovarianz zwischen 2 und 3-1 muss 0 sein, Kovarianz zwischen3 und 2-1 muss 0 sein —> in lavaan so spezifiziert), Neighbor Change Variante (Differenz zum direkt davorliegenden Messzeitpunkt wird modelliert, Unterschied zwischen 2 und 3 —> Modellfit wie baseline Modell)
Simultane Modellierung der Veränderung mehrerer Merkmale: Multiconstruct Latent Change (stärkere Veränderung in Merkmal A mit stärkerer Veränderung in Merkmal B einher)
Multigruppen-SEM Modell: Testung Gruppenunterschied in der mittleren intraindividuellen Veränderung (Pro Gruppe ein SEM simultan schätzen)

Regression mit dichotomer Prädiktorvariable

Einfache Regression mit dummykodierter Prädiktorvariablen

Y = b0 + b1 * X + E
X: 0 = Referenzgruppe, 1 = Nicht-Referenzgruppe

Achsenabschnitt: b0 = erwarteter Y-Wert wenn X = 0, MW in Referenzgruppe

Steigung: b1 = erwartete Änderung Y wenn X um eine Einheit erhöht, MWdifferenz zwischen den Gruppen (Nichtreferenz – Referenz)

Sobald Prädiktorvariable mit dabei: Intercepts sind jetzt Achsenabschnitte der Regressionsgleichung und nicht mehr Mittelwert

Ergebnisse LC-Modell mit Prädiktor X

Latent-Growth-Curve-Modell

Wie stark verändern sich Personen in einem Merkmal über Zeit hinweg und gibt es interindividuelle Unterschiede?

Verwendet bei mehr als 2 Messzeitpunkten (LCM nur genau 2 Zeitpunkte)

Annahmen über Form der Veränderung: lineares LGC Modell (linearer Veränderungstrend), kurvilineares LGC (quadratischer Veränderungstrend —> Zeit quadriert als 2. Prädiktor)

b0 = Achsenabschnitt (erwarteter Ausgangszustand), b1 = Steigung (erwarteter Anstieg, wenn Zeit + 1)

Anforderungen LGC

Simultane Modellierung der Daten aller Personen, Zulassen Unterschiede im Achsenabschnitt und im linearen Veränderungstrend aller Personen

Lösung = Strukturgleichungsmodell

Beobachtete Variablen laden auf Intercept und Slope: Ladungen auf Intercept immer 1, Ladungen auf Slope nach Zeitpunkt (1. Zeitpunkt = 0, 2. Zeitpunkt = 1)

Nur 1 Indikator pro Messzeitpunkt = Modell 1. Ordnung
Normierung = Alle Achsenabschnitte = 0 (MW latenter Variable schätzbar

R-Output (LGC)

Nachteile (LGC)

Unterschätzung der Reliabilität: Fehlervariablen umfassen auch „wahren“ messzeitpunktspezifische Abweichungen vom linearen Veränderungstrend enthalten, Überprüfung der Messinvarianz kann nicht überprüft werden

Lösung: Modell 2. Ordnung

LGC 2. Ordnung

Beobachtete Variablen laden auf Intercept und SLope: Ladungen auf Intercept immer 1, Ladungen auf Slope nach Zeitpunkt (1. Zeitpunkt = 0, 2. Zeitpunkt = 1)

Interpretation: Interceptfaktor = messfehlerbereinigte interindividuelle Unterschiede zu T1, latenter Slopefaktor = messfehlerbereinigte interindividuelle Unterschiede in linearer Veränderung pro Zeiteinheit

Quadratische Veränderung LGC

Ladungen auf Quadratischem Slope-Faktor = Ladung von Prädiktor auf linearem Slope ins Quadrat nehmen
Ladung von Tau 3 auf linearem Slope = 2, dann Ladung von Tau 3 auf quadratischen Slope = 2^2, also 4

Join Course

Preview

Author

Marie R.

Information

Last changed
3 years ago

Report course