VL 14- IRT-4: Differential Item Functioning Multimatrix Designs

Buffl

Testen und Entscheiden

by Greta R.

I. Differential Item Functioning

Messinvarianz bei IRT-Modellen?

Für Rasch-homogene Modelle gilt spezifische Objektivität:
- Eigentlich sollten sie populationsunabhängig sein
- In Praxis werden Items selektiert, die in der gegebenen Stichprobe Rasch-homogen sind (ggf. mit Resampling)
Aber gilt Invarianz der Messung wirklich auch für andere Populationen?
- Ist Test fair im Sinne vergleichbarer Messeigenschaften (Geschlechts-, Alters-, Bidlguns-, kultureller Gruppen, usw.)?
Bei intendiertem Vergleich zwischen Gruppen kann dies zumindest für gegebene Gruppen überprüft werden, auch für komplexere Modelle (nicht nur 1PL)
- Items deren Parameter über Gruppen abweichen, weisen Differential Item Functioning (DIF) auf
DIF ist schlecht da Eigenschaften unterschiedlich sind -> wollen wir nicht haben, testverfahren sind in unterschiedlichen Gruppen unterschiedlich
Falls DIF vorliegt, bedroht diese Testfairness und Validität (z.b. Gruppenvergleiche von Mittelwerten und Relationen)

Überblick DIF-Methoden

Ansätze der Identifizierung von DIF

Vgl. der Itemparameter (a,b,c,), grafisch oder statistisch
Grafischer Abgleich der Itemcharakteristischen Kurven (ICCs)
Vergleich des Gesamtscores (latente Parameter oder beobachtete Werte)

DIF-Methoden

Item Response Theory (IRT)
Analysis of Variance (ANOVA)
Transformed Item Difficulty / Korrelationsmethode
Partial-Correlation Index
Chi-Square (χ2)
Standardization P-DIF Method
Logistische Regression
Mantel-Haenszel Methode
Simultaneous Item Bias (SIBTEST)
Means And Covariance Structure (MACS)
Multiple Indicators Multiple Causes (MIMIC)
Latent Class Analyses (dritte Generation)

Vergleich der ICCs

Uniform:
- Günstig, da Items in beiden Gruppen vergleichbar messen. Am besten sollten auch Item- Schwierigkeiten (σ) vergleichbar sein.
Crossing:
- Ungünstigste Form der DIF, da Items je nach Personenparameter. (θ) unterschiedliche Rangreihen haben und vice versa.
Directional nonuniform:
- Zumindest über einen Großteil der θ-Range ordinal vergleichbare Rückschlüsse.

Graphische Inspektion nach Raju

Grundlegende Idee

DIF ist dort (in der θ-Range) problematisch, wo viele Personen sind (festgemacht an Dichte der Verteilung). Damit sind Abweichungen bei mittlerer Ausprägung von θ am problematischsten.

Grafischer Vergleich der Parameter

Separates Anpassen von IRT Modellen in referenz- und Fokalgruppe
Wenn Rasch-homogen, sollten sich nur Schwierigkeiten (σ) zwischen Items unterschieden
(Bei komplexeren Modellen ist ein grafischer Abgleich nicht trivial, im Zweifelsfall aber über alle frei geschätzten Parameter notwendig).
Vergleich der unabhängig geschätzten Parameter über die Gruppen: idealerweise sollten diese auf einer Linie liegen
Abweichungen von Linie indiziert DIF: Entweder sind Items leichter in der einen oder anderen Gruppe (beides ungünstig)
- (Fokalgruppe: Hauptgruppe -> vs. Referenzgruppe)

Statistischer Vergleich der Parameter

Wald Test (oder z-Test)

Technisch wird Gruppe als Moderator ins Modell aufgenommen und ein Interaktionseffekt (Gruppe*Item) geschätzt
Wald-Test: Für Interaktionseffekt (mit seinem SE) lässt sich die Signifikant bestimmen:
- 𝑧𝑖 =𝛾𝑖/𝑆𝐸𝛾𝑖
- An effektstärke festmachen wie stark Parameter abweicht
- Effektstärken für 𝛾𝑖 nach Paek & Wilson (2011):
  - schwach: |𝛾𝑖| ≤ 0.426 oder 𝑧𝑖 n. s.
  - moderat: 0.426 < |𝛾𝑖| < 0.638 und 𝑧𝑖 sig.
  - stark: |𝛾𝑖| ≥ 0.638 und 𝑧𝑖 sig.
LR-Test
- Alternativ lässt sich mit einem Likelihood-Ratio Test absichern, ob die Itemparameter über Gruppen gleichgesetzt werden können oder nicht.

Statistische Tests Parameter-DIF

Mantel-Haenszel-Verfahren

Basiert nicht auf den Parametern des IRT-Modells (daher auch „non-parametrisch“ genannt)
Stattdessen werden vorausgesagte Häufigkeiten korrekter Antworten zwischen Gruppen für jedes einzelne Item verglichen (Analog χ2-Unabhängigkeitstest)
Bestimmen der Odds Ratios (α𝑀𝐻) der Lösungswahrscheinlichkeiten zwischen den Gruppen.
Im Beispiel (rechts) ist insbesondere Item 6 auffällig.

Vergleich der besprochenen Methoden

Grafischer Modelltest

Gibt ersten Überblick, ermöglicht Beurteilung durch Konfidenzregionen (sehr sensitiv!), aber keine Aussage zu Effektstärken

Wald-Test

Ist sehr sensitiv, oft auch geringere Effektstärken bereits signifikant

Mantel-Haenszel-Verfahren

Ist konservativer, dadurch oft auch moderate Effektstärken noch nicht signifikant. Außerdem Transformation der Effektstärken nicht immer adäquat.

Bewertung / Empfehlung

Es gibt keinen Goldstandard
Beurteilen, wie schädlich DIF für die Analyse wäre.
Ggf. mehrere Verfahren durchführen und vergleichen.

Mix-Rasch Modelle bei unbekannten Gruppen

Annahme

Die Population besteht aus Subpopulationen (latenten Klassen), innerhalb derer das Rasch-Modell gilt. Allerdings können sich die Itemparameter zwischen Subpopulationen unterscheiden (Rost, 2004).

Analyse-Methode

Mischung aus Rasch-Modell und Latent-Class-Analyse
Konfirmatorische Analyse: Anzahl der Klassen wird aufgrund theoretischer Überlegungen a priori festgelegt
Exploratorische Analyse: Beginnend mit einer Ein-Klassenlösung werden sukzessive so lange weitere Klassen hinzugenommen wie sich der Modellfit verbessert

Interpretation

Lassen sich latente Klassen finden, unterscheiden sich die Itemparameter als zwischen Gruppen von Personen. Demnach gilt nicht die Populationsunabhängigkeit.

Umgang mit DIF

DIF erklären

Betroffene Items inhaltlich untersuchen: Mögliche Ursachen erkennbar?
Kann zu neuen Fragestellungen führen

Items revidieren oder eliminieren

Items für zukünftige Erhebungen überarbeiten oder aus dem Test entfernen
Insbesondere bei der Testkonstruktion kann dies das Anliegen sein.

Skalierung separat für Gruppen

Für Analysen oder spätere Anwendungen des Tests für beide Gruppen getrennt skalieren.
Nur überzeugend, wenn es insgesamt wenige Items mit starken DIF-Effektengibt. Ansonsten wäre es nicht derselbe Test.

II. Multi-Matrix Designs

Präzision vs. Testzeit

Herausforderung im Large Scale Assessement

Viele Items für bestmögliche Erfassung des Konstrukts vs.
Möglichst wenig Zeit der Probanden beanspruchen

Lösung

Unvollständige Designs („Multi-Matrix-Designs“)
Nicht jeder Proband bekommt alle Items, sondern jeder nur einen Teil
Nicht bearbeitete Items (planned missing) fließen nicht in Schätzung der Personenfähigkeiten mit ein – weder positiv noch negativ
Überlappende Items („Anker-Items“) für ein Linking der Datensätze, die die gemeinsame IRT-Skalierung (=selben Maßstab) gewährleisten. Dies ist bei IRT möglich (Vorteil gegenüber KTT).
Nicht bearbeitete Items (planned missing) fließen nicht in Schätzung der Personenfähigkeiten mit ein – weder positiv noch negativ

Unvollständige Designs

Unvollständiges Design

am Beispiel PISA

▪ Jedes Testheft (Booklet)

enthält 4 Tests

▪ Inhalt rotierend: Jede

Test-Kombination kommt

nur einmal vor

▪ Alle 13 Tests (M1-P2)

gleich oft verwendet

▪ Dadurch 13 unterschied-

liche, aber überlappende

Teil-Datensätze erzeugt

Verschränkte Designs (Linked Samples)

- Linking/Verankerung ermöglicht Vergleich unterschiedlicher Datensätze

Mögliche Verfahren

▪ Gemeinsam skalieren mit System Missings bei nicht überlappenden Items Automatische Verankerung überlappender Items

▪ Getrennt skalieren, aber Schwierigkeiten überlappender Items fixieren Manuelle Verankerung überlappender Items

Verschränkte Designs: Mögliche Biases

Differential Item Functioning (DIF)

▪ Items verhalten sich unter-

schiedlich (meist: Schwierigkeit)

in den erhobenen Gruppen

(links)

Item Parameter Drift

▪ Itemparameter verändern sich

innerhalb der erhobenen

Stichprobe über die Zeit (meist

im Längsschnitt)

(rechts)

Gemeinsam Skalieren: Voraussetzungen

1. Prüfung auf DIF bei überlappenden Items

2. Kombinierten Datensatz wie gewohnt skalieren

Item Schwierigkeiten mit geeignetem Modell (Rasch, mehrparametrisch, mehrdimensional, Partial Credit…) bestimmen
Modellgüte bestimmen
Personenfähigkeiten bestimmen

3. Personenfähigkeiten zwischen den ursprünglichen Datensätzen/Gruppen vergleichen

Kein großer Unterschied im Vorgehen zu DIF-kontrolliertem Modell mit vollständig identischen Tests/Items

Getrennt Skalieren: Voraussetzungen

Getrennt skalieren, aber Schwierigkeiten überlappender Items fixieren

Flexibler einsetzbar als gemeinsame Skalierung

Benötigt nur Item Parameter aus Referenzdatensatz, nicht vollständige Rohdaten
Ermöglicht robustere Schätzung von Personenparametern bei kleinen Stichproben, weil Item Parameter aus größerer Stichprobe (Referenz) bestimmt wurden
Kann nur via Itemfit auf Unterschiede der Itemparameter zwischen Gruppen (DIF) oder Messzeitpunkten (Drift) prüfen

Einzusetzen, wenn gemeinsame Skalierung nicht möglich/nicht sinnvoll

Vergleich mit Normstichprobe (z.b. aus testmanual)
Vergleich mit Referenz-Messzeitpunkt oder -Gruppe in eigenen Daten (z.b. bei Längsschnitt)

Voraussetzung

Referenzdaten sind repräsentativ (z.B. Normstichprobe)
Itemparameter aus Referenzdatensatz vorhanden
Daumenregel: 5 Items pder 1/3 des Tests, sonst Verankerung nicht besonders robust
Kein (oder kontrolliertes) DIF/Drift in überlappenden Items zwischen den Datensätzen
Datensatz hat ausreichend viele DIF-/Drift-freie überlappende Items mit Referenzdaten

Getrennt Skalieren: Vorgehen

1. Itemparameter überlappender Items aus Referenzdaten extrahieren

Nummerierung an neu erhobene Daten anpassen

2. Passendes IRT-Modell für neue Daten schätzen

Festzusetzende Itemparameter im Funktionsaufruf übergeben

3. Modellgüte bestimmen

Weitestgehend wie gewohnt
Besonderheit: Wenn Itemfit bei fixierten Items nicht gut, spricht das für Item-Bias (DIF; Parameter Drift)
Items mit Drift von Fixierung ausnehmen und Modell neu schätzen (iterativ, beginnend mit stärkstem Misfit)

4. Personenfähigkeiten bestimmen und ggf. mit Normstichprobe vergleichen:

Regressionskoeffizient des Modells (=øEAP):
- >0 -> besser als Referenz
- <0 -> schlechter als Referenz
Mittelwert der bestimmten WLEs

III. Plausible Values

Posteriore Wahrscheinlichkeitsdichtefunktion

Posteriore Wahrscheinlichkeitsdichtefunktionen der (angenommenen) wahren Werte
Als Grundlage für Expected A-Posteriori (EAP) Measures und Plausible Values (PV)
Maximum ist der Maximum Likelihood (ML) Schätzer

EAPs und plausible Values

Expected A-Posteriori (EAP) Measures

EAPs sind die Erwartungswerte der posterioren Verteilungen
Personen mit demselben EAP können dieselben wahren Werte haben (ist aber probabilistische Aussage)

Plausible Values (PV)

Sind zufällige Ziehungen aus der posterioren Verteilung
Können unterschiedlich viele PVs (5,10,20,…) aus dieser Verteilung gezogen werden
Jeder PV ist als Punktschätzer für θ ungeeignet, aber die Gesamtheit aller PVs schätzt die Populationsvarianz nahezu konsistent
Analysen werden dann für alle Sets von PVs zuerst separat gerechnet und anschließend gemittelt (Vorgehen analog wie bei multipler Imputation)

Plausible Values (PV) als „Missing Data”

Grundidee

Ausprägung der latenten Variable (θ) wird als Missing Data aufgefasst, welche aufgrund der manifesten Variablen (Testitems) geschätzt werden kann
Bei dieser Schätzung werden zudem Kovariaten berücksichtigt (Hintergrundmodell): Verlinkung von Mess- und Analysemodell
Schätzungen stellen Imputationen für die (fehlenden) Ausprägungen von θ dar.

Plausible Values (PV): Vorgehen

Vorgehen

1. Einfaches IRT-Modell aus Daten schätzen, um an Itemparameter zu kommen

2. IRT-Modell mit Kovariaten (Hintergrundmodell) und Itemparametern aus 1. schätzen

3. Plausible Values aus dem in 2. Erstellten Modell bestimmen und als separate Datensätze speichern

4. Analysen mit den separaten Plausible Value-Datensätzen rechnen und Ergebnisse zusammenfassen

IV Kompetenz-Niveaus

Ausgangslage: Dimensionale Schätzer

Ergebnis einer IRT-Analyse ist eine dimensionale Schätzung der Parameter (ξ für Personen; σ für Items).
Der Nullpunkt wird in der Mitte festgelegt; die Metrik ist abhängig vom gewählten IRT-Modell und ist somit in Bezug auf externe Kriterien schwer zu interpretieren.

Festlegen von (kategorialen) Kompetenzniveaus

Für Kommunikation mit größeren Öffentlichkeit (Politiker, Bildungswesen) werden oft kategoriale Kompetenzniveaus berechnet („X% der Schüler haben Stufe 3 erreicht“)
Schwellen sind oft nicht rational begründet

1. Daten wurden mit Rasch-Modell ausgewertet (θ sind dimensional)

2. Normierung der Rohwerte sodass der internationale Mittelwert bei 500 Punkten und Standardabweichung bei 100 Punkte liegt

3. Festlegen von 4 Schwellen, die 5 Kompetenzniveaus trennen

M-1SD: 400 Punkte
M: 500 Punkte
M+1SD: 600 Punkte
M+2SD: 700 Punkte

Definition von Schwellen mit Hilfe von Items

Um Schwellen zu definieren werden Items gewählt die von Schwierigkeiten genau bei (bzw. direkt unter) Schwellen liegen
Personen die Item lösen, müssen somit Fähigkeit über Schwelle haben -> somit (min.) das nächst-höhere Kompetenzniveau erreicht
Um sicherzugehen, dass Items Personen auf der nächsthöheren Stufe von Personen auf der tieferen Stufe trennen werden oft folgende Kriterien angelegt:
- Lösewahrscheinlichkeit an Schwelle von 65%*
- Lösewahrscheinlichkeit an der nächst-tieferen Schwelle (<50%)
Anmerkung:
- *Psychoemetrisch ist Itemschwierigkeit bei Rasch-homogenen Items über 50% Lösewahrscheinlichkeit definiert. Trotzdem wird im Large-Scale Assessement oft mir 65% ein vorsichtigeres Kriterium gewählt

Unterteilen der Skala θ (ξ,σ) in Abschnitte

Theoretische Aufgabenmerkmale rechtfertigen Kompetenzniveaus

Falls aus theoretischer Perspektive Merkmale existieren die Kompetenzniveaus rechtfertigen, können diese verwendet werden (z.b. relevante kognitive Prozesse bzw. Löseschritte), um Items Kompetenzniveaus zuzuordnen
Zuordnung der Items zu Kompetenzstufen sollte aber empirisch trotzdem noch einmal überprüft werden: Idealerweise korrespondiert Muster von korrekten Lösungen (1;0) mit dem Muster von Anforderungsmerkmalen (0;1) über Niveaus

Kompetenzniveaus als Funktion von (erschwerenden) Aufgabenmerkmalen

Wenn Kompetenzniveaus am Lösen von spezifischen Aufgabenanforderungen festgemacht werden können, sind Kompetenzniveaus zufriedenstellender definiert
Dieser Ansatz wurde in der DESI-Studie eingesetzt

Join Course

Preview

Author

Greta R.

Information

Last changed
2 years ago

Report course