VL12: Item-Fit und Itemselektion

Buffl

Testen und Entscheiden

by Greta R.

1. Schätz- Methoden und Modellpassung

Eigenschaften von Schätzern

Erwartungstreue
- Schätzer ist erwartungstreu, wenn sein Erwartungswert dem zu schätzenden Parameter entspricht
- D.h. bei vielfacher Stichprobenziehung im Mittel den Parameter richtig schätzt
- Als „Bias“ (Verzerrtheit) bezeichnet man die Abweichung des Schätzers vom zu schätzenden Parameter
Konsistenz
- Schätzer ist Konsistent wenn er bei wachsender Stichprobengröße immer weniger vom wahren Wert abweicht
- Schätzer konvergiert bei wachsendem N gegen den Parameter der Grundgesamheit
Effizienz
- Derjenige von 2 Schätzern, der eine geringere Varianz besitzt, ist der effizientere (wirksamere) Schätzer
Suffizienz
- Schätzer ist suffizient (erschöpfend) wenn er die maximal mögliche Information der Stichprobe ausnutzt
- Im Rasch-Modell sind die jeweiligen Randsummen suffizient für die Schätzung von σ und θ!

Maximum Likelihood Schätzmethoden

Joint-Maximum-Likelihood (JML; auch Uncoditional Maximum Likelihood)
- Schätzt σ und θ gemeinsam: σ unter Verwendung von θ und θ unter Verwendung von σ
- Schätzt nicht erwartungstreu und nur dann konsistent wenn Item- und Personenanzahl gegen ∞ gehen
- Wird heute (unter Verwendung von Korrekturformeln) nur noch in komplexen Modellen, v.a. mehrdimensionalen IRT-Modellen und Mixed-IRT- Modellen verwendet
Conditional Maximum-Likelihood (CML)
- Nutzt Eigenschaft des Rohsummenwertes als suffiziente Statistik; die Likelihood beinhaltet nur σi als unbekannten Parameter
- Kann daher nur in Modellen der Rasch-Familie geschätzt werden
- Schätzt konsistent, sowie asymptotisch erwartungstreu, effizient und normalverteilt

Schätzmethoden mit bayesiansichen Anteil

Marginal Maximum-Likelihood (MML)

Unterstellt (im bayesianischen Sinne) eine a-priori-Verteilung für θ
Schätzt konsistent, sowiue asymptomisch erwartungstreu, effizient und normalverteilt
Aber nur bei Angemessenheit der a-priori-Verteilung
Ist schnell und flexibel einsetzbar: Standard für mehrparametrische IRT-Modelle

Bayes-Ansätze

Markov-Chain-Monte-Carlo (MCMC)
Werden insbesondere bei komplexen Modellen, z.b. Mehrebenen-IRT, eingesetzt
Sind rechenintesiv und machen teilweise Vorannahmen notwendig

Passung von IRT-Modellen: Klassische Indizes

Traditionell: globale Passung von IRT-Modelle über 𝜒2 (Chi-Quadrat) und 𝐺2(Likelihood-Ratio, 𝐿𝑅) getestet
Setzt große Datenmengen voraus (im Large-Scale Assessment Bereich gegeben)
Dabei werden für ein Set von Items das Muster empirischer mit den vorhergesagten (Modellimplizierten) Antworthäufigkeiten verglichen
Pearson- 𝜒2-Statistik:

Globaler Likelihood-Quotienten-Test (Likelihood-Ratio-Test, LR oder 𝐺2):
Die Indizes werden allerdings bei großen Fallzahlen fast immer signifikant (indizieren Misfit), auch wenn die Abweichungen nicht erheblich sind

Passung von IRT-Modellen: Neue Indizes

Heute werden für Beurteilung der globalen Modellpassung zunehmend neue Indizes verwendet, die sich nach Simulationen als robust erwiesen haben und in der Lage sind zwischen Modellen (1,2,3, PL) zu unterscheiden
Für IRT-Modelle mit binären Antwortoptionen insbesondere:

Fit einzelner Items (z.b. bei Testkonstruktion/Itemselektion) wird mit anderen Indizes (INFIT, OUTFIT) berechnet (siehe Itemfit-Statistiken)

2. Personenparameter

ML-Schätzer von Personenparametern

Maximum-Likelihood-Schätzer (MLE)

Ist stark verzerrt, aber asymptotisch erwartungstreu und asymptotisch normalverteilt
Ermöglicht keine Schätzungen für den 0- und den 1-Vektor

Gewichteter Maximum-Likelihood-Schätzer (WLE)

Ermöglicht Schätzungen für den 0- und den 1-Vektor
Ist asymptotisch erwartungstreu und asymptotisch normalverteilt
Besitzt den kleinsten Bias
Ist offenbar der bisher geeignetste Punktschätzer im Rasch-Modell

Bayes-Schätzer von Personenparametern

Model-a-posteriori/ Mayes Modal (MAP/BME)

Stellt den Modus (“maximum”) der posterioren Verteilung θ dar
Besitzt deutlichen „shrinkage“ Effekt

Expected-a-Posteriori (EAP)

Ist Erwartungswert („expected“) der posterioren Verteilung von θ

- Besitzt einen „shrinkage“-Effekt, der korrigiert werden kann

- Ist eher nicht erwartungstreu, besitzt aber den geringsten mittleren quadratischen Fehler

Plausible Values (PV)

- Sind zufällige Ziehungen aus posterioren Verteilung

- Sind als Punktschätzer für θ ungeeignet, schätzen aber Populationsvarianz nahezu konsistent

Reliabilität von Personenschätzern

3. Itemparameter: Grafische Inspektion

Kriterien für günstige Items

Homogene ICCs, damit model-implizierter Trait (θ) Schätzer nicht verzerrt ist
Am besten Rasch-homogen (Spezifische Objektivität)
Hohe Trennschärfen (steiler Anstieg der ICCs)
Item-Schwierigkeiten in der Range, in der Personen-Schätzer diagnostiziert werden sollen
Äquidistante Item Schwierigkeiten, damit Test über die relevante Range vergleichbar informativ ist (TIF sollte keine Einbrüche haben)

Auswahl nach grafischer Inspektion der ICCs

ICC, IIC und TIF: Abdeckung der für die Diagnostik relevanten Trait-Range

4. Itemfit-Statistiken

Item-Statistiken: Passt das Item zum Modell?

In welchem Maß weichen Personen oder Items von den Modellvoraussagen ab?
Und ggf: wo treten diese Abweichungen auf?
Die aktuell wichtigsten Item-Fit-Indizes sind Infit und Outfit

Infit und Outfit

Outfit

Abweichungen werden quadriert und summiert (approximative χ² verteilt) und dann durch die df geteilt (=mittlere Abweichung pro df)
Kleinere Erwartungswert des Modells ist 1.00; kleinere Werte indizieren Overfitting; größere Werte Abweichungen (z.b. 1.20 bedeutet 20% mehr Exzess im Rauschen als erwartet, da standardisiert)
Outfit ist sensitiv für Abweichungen im Extrembereich (also sehr fähige Person löst sehr einfaches Item nicht/ vice versa)

Infit

Konzeptuell analog wie beim Outfit, mit Unterschied, dass die Abweichungen an der Information gewichtet sind
Somit fallen Abweichungen von den Extremen mit niedriger Varianz nicht so stark ins Gewicht
- Stattdessen werden Abweichungen in der Mitte, um die Itemschwierigkeit herum, stärker gewichtet

Größe und Muster der Abweichungen

Gute Passung

Kleine, unsystematische Abweichungen
Infit und Outfit ≈ 1 (etwas Abweichung wird erwartet)

Item ist trennschärfer als vorausgesagt

Empirische Funktion ist steiler als durch Modell vorausgesagt (hat aber sonst einen fast perfekten sigmoidalen Verlauf)
Infit und Outfit <1
Item diskriminiert gut, aber es führt zu Abweichung beim Modellfit und beeinträchtigt ggf. modell-basierten Trait-Schätzer

Item ist unreliabel bzw. nicht modellkonform

Große, unsystematische Abweichungen
Infit und Outfit >>1
Item passt nicht zum Modell und ist auch für Diagnostik nicht geeignet

Interpretation von Infit und Outfit

Typische Infit und Outfit Grenzen

Empfehlungen für Item Selektion: Indizes in den Grenzen 0.5-1.5
Aber auch Unterschiede je nach Response Format und Erhebungskontext/Stichprobenumfang (insb. Engere Grenzen bei Large Scale Assessment)

5. Item-Selektion nach Fähigkeitspassung

Wright Map: Passung der Personen-Fähigkeiten und Itemschwierigkeiten?

Paralleltests: Rasch-Homogenität und Konstrukt Abdeckung (Wright Map)

Selektion von Items für Paralleltests

Wenn die Items Rasch-homogen sind, sollten sie sich nur in der Schwierigkeit unterschieden
Daher reicht es, 2 Parcels vergleichbar schwieriger Items zusammenzustellen

Überprüfen, ob beide Tests vergleichbare TIFs haben?

Beide Paralleltests weisen Test-Information über eine gewisse Range auf
Allerdings misst der Test 1 etwas symmetrischer über die Range, während Test 2 v.a. für hohe Trait-Ausprägungen informativ ist
Ggf. könnte man noch einzeln Items austauschen, um beide TIFs vergleichbarer zu machen

Join Course

Preview

Author

Greta R.

Information

Last changed
2 years ago

Report course