1. Schätz- Methoden und Modellpassung
Eigenschaften von Schätzern
Erwartungstreue
Schätzer ist erwartungstreu, wenn sein Erwartungswert dem zu schätzenden Parameter entspricht
D.h. bei vielfacher Stichprobenziehung im Mittel den Parameter richtig schätzt
Als „Bias“ (Verzerrtheit) bezeichnet man die Abweichung des Schätzers vom zu schätzenden Parameter
Konsistenz
Schätzer ist Konsistent wenn er bei wachsender Stichprobengröße immer weniger vom wahren Wert abweicht
Schätzer konvergiert bei wachsendem N gegen den Parameter der Grundgesamheit
Effizienz
Derjenige von 2 Schätzern, der eine geringere Varianz besitzt, ist der effizientere (wirksamere) Schätzer
Suffizienz
Schätzer ist suffizient (erschöpfend) wenn er die maximal mögliche Information der Stichprobe ausnutzt
Im Rasch-Modell sind die jeweiligen Randsummen suffizient für die Schätzung von σ und θ!
Maximum Likelihood Schätzmethoden
Joint-Maximum-Likelihood (JML; auch Uncoditional Maximum Likelihood)
Schätzt σ und θ gemeinsam: σ unter Verwendung von θ und θ unter Verwendung von σ
Schätzt nicht erwartungstreu und nur dann konsistent wenn Item- und Personenanzahl gegen ∞ gehen
Wird heute (unter Verwendung von Korrekturformeln) nur noch in komplexen Modellen, v.a. mehrdimensionalen IRT-Modellen und Mixed-IRT- Modellen verwendet
Conditional Maximum-Likelihood (CML)
Nutzt Eigenschaft des Rohsummenwertes als suffiziente Statistik; die Likelihood beinhaltet nur σi als unbekannten Parameter
Kann daher nur in Modellen der Rasch-Familie geschätzt werden
Schätzt konsistent, sowie asymptotisch erwartungstreu, effizient und normalverteilt
Schätzmethoden mit bayesiansichen Anteil
Marginal Maximum-Likelihood (MML)
Unterstellt (im bayesianischen Sinne) eine a-priori-Verteilung für θ
Schätzt konsistent, sowiue asymptomisch erwartungstreu, effizient und normalverteilt
Aber nur bei Angemessenheit der a-priori-Verteilung
Ist schnell und flexibel einsetzbar: Standard für mehrparametrische IRT-Modelle
Bayes-Ansätze
Markov-Chain-Monte-Carlo (MCMC)
Werden insbesondere bei komplexen Modellen, z.b. Mehrebenen-IRT, eingesetzt
Sind rechenintesiv und machen teilweise Vorannahmen notwendig
Passung von IRT-Modellen: Klassische Indizes
Traditionell: globale Passung von IRT-Modelle über 𝜒2 (Chi-Quadrat) und 𝐺2(Likelihood-Ratio, 𝐿𝑅) getestet
Setzt große Datenmengen voraus (im Large-Scale Assessment Bereich gegeben)
Dabei werden für ein Set von Items das Muster empirischer mit den vorhergesagten (Modellimplizierten) Antworthäufigkeiten verglichen
Pearson- 𝜒2-Statistik:
Globaler Likelihood-Quotienten-Test (Likelihood-Ratio-Test, LR oder 𝐺2):
Die Indizes werden allerdings bei großen Fallzahlen fast immer signifikant (indizieren Misfit), auch wenn die Abweichungen nicht erheblich sind
Passung von IRT-Modellen: Neue Indizes
Heute werden für Beurteilung der globalen Modellpassung zunehmend neue Indizes verwendet, die sich nach Simulationen als robust erwiesen haben und in der Lage sind zwischen Modellen (1,2,3, PL) zu unterscheiden
Für IRT-Modelle mit binären Antwortoptionen insbesondere:
Fit einzelner Items (z.b. bei Testkonstruktion/Itemselektion) wird mit anderen Indizes (INFIT, OUTFIT) berechnet (siehe Itemfit-Statistiken)
2. Personenparameter
ML-Schätzer von Personenparametern
Maximum-Likelihood-Schätzer (MLE)
Ist stark verzerrt, aber asymptotisch erwartungstreu und asymptotisch normalverteilt
Ermöglicht keine Schätzungen für den 0- und den 1-Vektor
Gewichteter Maximum-Likelihood-Schätzer (WLE)
Ermöglicht Schätzungen für den 0- und den 1-Vektor
Ist asymptotisch erwartungstreu und asymptotisch normalverteilt
Besitzt den kleinsten Bias
Ist offenbar der bisher geeignetste Punktschätzer im Rasch-Modell
Bayes-Schätzer von Personenparametern
Model-a-posteriori/ Mayes Modal (MAP/BME)
Stellt den Modus (“maximum”) der posterioren Verteilung θ dar
Besitzt deutlichen „shrinkage“ Effekt
Expected-a-Posteriori (EAP)
Ist Erwartungswert („expected“) der posterioren Verteilung von θ
- Besitzt einen „shrinkage“-Effekt, der korrigiert werden kann
- Ist eher nicht erwartungstreu, besitzt aber den geringsten mittleren quadratischen Fehler
Plausible Values (PV)
- Sind zufällige Ziehungen aus posterioren Verteilung
- Sind als Punktschätzer für θ ungeeignet, schätzen aber Populationsvarianz nahezu konsistent
Reliabilität von Personenschätzern
3. Itemparameter: Grafische Inspektion
Kriterien für günstige Items
Homogene ICCs, damit model-implizierter Trait (θ) Schätzer nicht verzerrt ist
Am besten Rasch-homogen (Spezifische Objektivität)
Hohe Trennschärfen (steiler Anstieg der ICCs)
Item-Schwierigkeiten in der Range, in der Personen-Schätzer diagnostiziert werden sollen
Äquidistante Item Schwierigkeiten, damit Test über die relevante Range vergleichbar informativ ist (TIF sollte keine Einbrüche haben)
Auswahl nach grafischer Inspektion der ICCs
ICC, IIC und TIF: Abdeckung der für die Diagnostik relevanten Trait-Range
4. Itemfit-Statistiken
Item-Statistiken: Passt das Item zum Modell?
In welchem Maß weichen Personen oder Items von den Modellvoraussagen ab?
Und ggf: wo treten diese Abweichungen auf?
Die aktuell wichtigsten Item-Fit-Indizes sind Infit und Outfit
Infit und Outfit
Outfit
Abweichungen werden quadriert und summiert (approximative χ² verteilt) und dann durch die df geteilt (=mittlere Abweichung pro df)
Kleinere Erwartungswert des Modells ist 1.00; kleinere Werte indizieren Overfitting; größere Werte Abweichungen (z.b. 1.20 bedeutet 20% mehr Exzess im Rauschen als erwartet, da standardisiert)
Outfit ist sensitiv für Abweichungen im Extrembereich (also sehr fähige Person löst sehr einfaches Item nicht/ vice versa)
Infit
Konzeptuell analog wie beim Outfit, mit Unterschied, dass die Abweichungen an der Information gewichtet sind
Somit fallen Abweichungen von den Extremen mit niedriger Varianz nicht so stark ins Gewicht
Stattdessen werden Abweichungen in der Mitte, um die Itemschwierigkeit herum, stärker gewichtet
Größe und Muster der Abweichungen
Gute Passung
Kleine, unsystematische Abweichungen
Infit und Outfit ≈ 1 (etwas Abweichung wird erwartet)
Item ist trennschärfer als vorausgesagt
Empirische Funktion ist steiler als durch Modell vorausgesagt (hat aber sonst einen fast perfekten sigmoidalen Verlauf)
Infit und Outfit <1
Item diskriminiert gut, aber es führt zu Abweichung beim Modellfit und beeinträchtigt ggf. modell-basierten Trait-Schätzer
Item ist unreliabel bzw. nicht modellkonform
Große, unsystematische Abweichungen
Infit und Outfit >>1
Item passt nicht zum Modell und ist auch für Diagnostik nicht geeignet
Interpretation von Infit und Outfit
Typische Infit und Outfit Grenzen
Empfehlungen für Item Selektion: Indizes in den Grenzen 0.5-1.5
Aber auch Unterschiede je nach Response Format und Erhebungskontext/Stichprobenumfang (insb. Engere Grenzen bei Large Scale Assessment)
5. Item-Selektion nach Fähigkeitspassung
Wright Map: Passung der Personen-Fähigkeiten und Itemschwierigkeiten?
Paralleltests: Rasch-Homogenität und Konstrukt Abdeckung (Wright Map)
Selektion von Items für Paralleltests
Wenn die Items Rasch-homogen sind, sollten sie sich nur in der Schwierigkeit unterschieden
Daher reicht es, 2 Parcels vergleichbar schwieriger Items zusammenzustellen
Überprüfen, ob beide Tests vergleichbare TIFs haben?
Beide Paralleltests weisen Test-Information über eine gewisse Range auf
Allerdings misst der Test 1 etwas symmetrischer über die Range, während Test 2 v.a. für hohe Trait-Ausprägungen informativ ist
Ggf. könnte man noch einzeln Items austauschen, um beide TIFs vergleichbarer zu machen
Zuletzt geändertvor 5 Monaten