Verknüpfungsfunktion
Für Modelle mit latenten Variablen:
Beziehung zwischen beobachteten Indikatoren und latenten Variablen wird mit mathematischer Verknüpfungsfunktion definiert
wenn kontinuierliche Indikatoren: Lineare Funktion
Annahmen IRT:
DImensionalität
Die Antwortdaten sind eine Manifestation einer oder mehrerer latenter Merkmalsdimensionen
IC-Funktion Raschmodell verschiedene Items
Funktionale Form aller Items identisch
parallele IC-Funktionen
Zusammenhang zwischen Merkmal und Lösungswahrscheinlichkeit für alle Items gleich stark
Unterschied Raschmodell und 1PL
Unterschiedliche philosophische Traditionen
1 PL —> statistischer ANsatz zur Beschreibung von Daten -> flexibler, model fit
Rasch Modell -> Messtheoretischer Ansatz um ein Konstrukt zu konstruieren -> striktes Modell mit messtheoretischen Anforderungen
Likelihoodfunktion
log-likelihoodfunktion
weil durch das Multiplizieren bei der likelihoodfunktion die Werte immer kleiner werden —> schwer mit computer
Reliabilität in der IRT
Annahme gleicher Messfehler verletzt (SD pro Person ja anders)
TIC ersetzt den Reliabilitätskoeffizienten bei IRT basierten Tests
Praxis: z.T. noch Reliabilitätskoeffizienten für IRT-basierte Tests berichtet —> aber eigentlich unpassend, da TIC aussagekräftiger und man ja weiß, dass Rel auf Annahmen beruht, die verletzt sind
Festlegen von a beim 2PL
Schätzung aus emp. Daten
Diskrimination = 0 —> Merkmal wird nicht erfasst
Diskrimination = negativ —> höheres Theta führt zu geringerer Wkt für symptomatische Antwort
2PL Schätzung Merkmalsausprägungen
auch nach ML
Antworten werden in Abhängigkeit der Itemdiskrimination gewichtet
hohe Diskrimination in Schätzung stärker berücksichtigt
Antworten mit a=0 —> nicht in Merkmalsschätzung miteinbezogen
Menge positiv beantworteter Items —> keine suffiziente Statistik mehr
mitberücksichtigung, welche Items gelöst wurden
Stabile Schätzungen —> Stichproben ab 500 Personen
3PL WARUM ?
Raschmodell, 1Pl und 2PL —> durch Raten bei MC Items in der Leistungsdiagnostik —> richtig beantworten, obwohl nicht durch gemessenes Merkmal
Wkt von richtiger Antwort würde also nicht gegen null gehen
Pseudo Rateparameter —> Wkt, dass Item unabhängig von Theta mit 1 beantwortet wird
Schätzung c bei 3pl
empirisch schwer —> verschiedenste Konfigurationen können zu sehr ähnlichen IC-FUnctionen führen
Klassische Testtheorie Annahmen
Merkmal ist kontinuierlich
Testergebnis setzt sich zusammen aus wahrem Wert + Messfehler
Klassische Testtheorie Reliabilität
= Anteil der “wahren Varianz” an der beobachteten Varianz
Basis von CAT
Item Response Theory
3PL Modell
CCS
Continuous Calibration strategy
Weglassen von initialer Kalibrierungsstudie (wie in konventionellen Testungen) .-> weniger Arbeit
von Beginn an kleiner item pool
Skalenwerte bleiben stabil, da laufend aktualisiert
kontinuierliche Verbesserung der geschätzten Parameter
Identifizieren problematischer Items
Kontrollieren von Item-Position effects & Carry-over effects
2pl Model MSE bei CAT
mit mehreren Testzyklen reduziert sich der MSE
bei Stichprobe mit n=50 noch relativ hoher upper bound
bei n=100 auch upper bound niedrig, bei n=300 upper bound nicht mehr groß abweichend vom MSE
Item-Bias
Vorliegender DIF bei einem Item, der zusätzlich auf Charakteristika d. Items oder der zugrundeliegenden Testsituation zurückzuführen ist
Modelle für mehrstufige ORDINALE Antworten
Graded Response Model GRM —> Verallgemeinerung des 2PL
Partial Credit Model PCM —> Verallgemeinerung des Raschmodells
Generalisierte PCM
Gibt es eine ICC Funktion bei mehrstufigen Modellen?
Wahrscheinlichkeitsfunktionen für eine Antwort auf ein Item
auch genannt: Option Response Function ORF
Category Response Function CRF
Parameter für jedes Item bei mehrstufigen Modellen
Schwierigkeitsparameter
mehrere Schwellenparameter (meist ein Parameter weniger als Antwortkategorien)
Diskriminationsparameter (nur einen oder keinen wie zb Raschmodell)
Schwellenparameter grm
Punkt, an dem die Wkt mindestens kat k zu antworten beträgt 50%
Schwellenparameter PCM
die Punkte, an denen sich die Funktionen von benachbarten Antwortkategorien schneiden -> wann eine andere Antwort wahrscheinlicher wird
Schwellen müssen nicht notwendigerweise geordnet sein (ANDERS ALS IM GRM)
Wann nimmt man welches Modell? Bei polytomen Antwortformaten
PCM -> streng aber Summenscore als suffiziente Statistik, spezifische Objektivität (alle Items sind personenunabhängig gleich schwer)
wenn variierende Itemparameter zugelassen werden sollen —> GRM und PCM gleichermaßen gut bei ordinalskaliert
Generalized PCM
Potenzielle Probleme von Forschungssynthesen
Äpfel-Birnen-Problem —> Konstrukte werden unterschiedl. operationalisiert -> muss gut begründet werden welche Studien man ein- und ausschließt
Garbage-in-garbage-out —> schlechte Qualität der Einzelstudien —> muss Gewichtung der Studien anhand methodischer Qualität geben
Problem abhängiger Untersuchungsereignisse -> eine Studie in mehreren Publikationen berichtet/stichprobe in mehreren Publikationen genutzt -> spezielle statistische Methoden
Missing-Data Problem -> Effekte werden nicht angemessen berichtet und können nicht in einheitliche Effektstärkemaße transformiert werden —> Autorinnen anfragen
Trim and Fill-Methode
Identifikation und Gegenmaßnahme für Publication Bias
Bestimmt Anzahl fehlender nicht-publizierter Effektgrößen durch iteratives Verfahren
immer wieder nach Ausschluss einzelner Studien die überrepräsentiert sind (Trimming) den Funnel-plot auf Symmetrie prüft
Imputationsverfahren durch spiegeln der extremsten getrimmten Effekte an mittlerem Effektwert wird die Datenlage Aufgefüllt (Fill)
Liefert eine bereinigte Effektgröße
Identifikation von Publication Bias
Funnel-Plot mit Effektgröße gegen Standardfehler oder n
sollte: symmetrisch sein
Zentraler Grenzwertsatz: wenn SE kleiner bzw. Stichprobe größer —> näher an wahrem Wert und damit näher zusammen
FEM Annahmen
Alle Studieneffekte Yi erfassen einen Populationseffekt (homogene Populationseffekte)
Die Studien unterscheiden sich reinzufällig um ein unsystematisches Residuum E mit Mittelwert 0 und Residualvarianz 𝜎 2
Residuen werden meist als normalverteilt angenommen
FIxed effects model
Wann sollten Random-Effects Models verwendet werden?
Homogenitätsanalysen der Effektgrößen
Fixed Effects modell: alle Studien replizieren denselben Populationseffekt
Streuungen in Effektgrößen sollten weitgehend durch Stichprobenfehler erklären lassen
Es kann statistisch geprüft werden ob die Streuung der Effektgrößen > als die stichprobenbedingte Zufallsstreuung
Dann sollte für Auswerung Random-Effects Modell verwendet werden
Metaanalysen: Moderatoranalysen
Wenn Effektgrößen heterogen sind -> kann versucht werden, diese durch Unterschiede zw. Studien zu erklären
Teilenmendengruppen/VAriationen im Treatment/Messinstrumente anders
Studieneigenschaften: Prädiktor für Effektgröße verwenden
Studieneigenschaften als Moderatorvariablen , die mit der Wirkung auf AV interagieren —> dadurch können neue Fragen untersucht werden
Gewichteter Gesamteffekt Formel
IC FUnktion Mehrdimensionales 3PL
Between Item Mehrdimensionalität
jedes Item misst nur eine Dimension
Einfachstruktur
Within-Item-Mehrdimensionalität
Items werden als Indikatoren mehrerer Dimensionen modelliert
Last changed2 months ago