I. Differential Item Functioning
Messinvarianz bei IRT-Modellen?
Für Rasch-homogene Modelle gilt spezifische Objektivität:
Eigentlich sollten sie populationsunabhängig sein
In Praxis werden Items selektiert, die in der gegebenen Stichprobe Rasch-homogen sind (ggf. mit Resampling)
Aber gilt Invarianz der Messung wirklich auch für andere Populationen?
Ist Test fair im Sinne vergleichbarer Messeigenschaften (Geschlechts-, Alters-, Bidlguns-, kultureller Gruppen, usw.)?
Bei intendiertem Vergleich zwischen Gruppen kann dies zumindest für gegebene Gruppen überprüft werden, auch für komplexere Modelle (nicht nur 1PL)
Items deren Parameter über Gruppen abweichen, weisen Differential Item Functioning (DIF) auf
DIF ist schlecht da Eigenschaften unterschiedlich sind -> wollen wir nicht haben, testverfahren sind in unterschiedlichen Gruppen unterschiedlich
Falls DIF vorliegt, bedroht diese Testfairness und Validität (z.b. Gruppenvergleiche von Mittelwerten und Relationen)
Überblick DIF-Methoden
Ansätze der Identifizierung von DIF
Vgl. der Itemparameter (a,b,c,), grafisch oder statistisch
Grafischer Abgleich der Itemcharakteristischen Kurven (ICCs)
Vergleich des Gesamtscores (latente Parameter oder beobachtete Werte)
DIF-Methoden
Item Response Theory (IRT)
Analysis of Variance (ANOVA)
Transformed Item Difficulty / Korrelationsmethode
Partial-Correlation Index
Chi-Square (χ2)
Standardization P-DIF Method
Logistische Regression
Mantel-Haenszel Methode
Simultaneous Item Bias (SIBTEST)
Means And Covariance Structure (MACS)
Multiple Indicators Multiple Causes (MIMIC)
Latent Class Analyses (dritte Generation)
Vergleich der ICCs
Uniform:
Günstig, da Items in beiden Gruppen vergleichbar messen. Am besten sollten auch Item- Schwierigkeiten (σ) vergleichbar sein.
Crossing:
Ungünstigste Form der DIF, da Items je nach Personenparameter. (θ) unterschiedliche Rangreihen haben und vice versa.
Directional nonuniform:
Zumindest über einen Großteil der θ-Range ordinal vergleichbare Rückschlüsse.
Graphische Inspektion nach Raju
Grundlegende Idee
DIF ist dort (in der θ-Range) problematisch, wo viele Personen sind (festgemacht an Dichte der Verteilung). Damit sind Abweichungen bei mittlerer Ausprägung von θ am problematischsten.
Grafischer Vergleich der Parameter
Separates Anpassen von IRT Modellen in referenz- und Fokalgruppe
Wenn Rasch-homogen, sollten sich nur Schwierigkeiten (σ) zwischen Items unterschieden
(Bei komplexeren Modellen ist ein grafischer Abgleich nicht trivial, im Zweifelsfall aber über alle frei geschätzten Parameter notwendig).
Vergleich der unabhängig geschätzten Parameter über die Gruppen: idealerweise sollten diese auf einer Linie liegen
Abweichungen von Linie indiziert DIF: Entweder sind Items leichter in der einen oder anderen Gruppe (beides ungünstig)
(Fokalgruppe: Hauptgruppe -> vs. Referenzgruppe)
Statistischer Vergleich der Parameter
Wald Test (oder z-Test)
Technisch wird Gruppe als Moderator ins Modell aufgenommen und ein Interaktionseffekt (Gruppe*Item) geschätzt
Wald-Test: Für Interaktionseffekt (mit seinem SE) lässt sich die Signifikant bestimmen:
𝑧𝑖 =𝛾𝑖/𝑆𝐸𝛾𝑖
An effektstärke festmachen wie stark Parameter abweicht
Effektstärken für 𝛾𝑖 nach Paek & Wilson (2011):
schwach: |𝛾𝑖| ≤ 0.426 oder 𝑧𝑖 n. s.
moderat: 0.426 < |𝛾𝑖| < 0.638 und 𝑧𝑖 sig.
stark: |𝛾𝑖| ≥ 0.638 und 𝑧𝑖 sig.
LR-Test
Alternativ lässt sich mit einem Likelihood-Ratio Test absichern, ob die Itemparameter über Gruppen gleichgesetzt werden können oder nicht.
Statistische Tests Parameter-DIF
Mantel-Haenszel-Verfahren
Basiert nicht auf den Parametern des IRT-Modells (daher auch „non-parametrisch“ genannt)
Stattdessen werden vorausgesagte Häufigkeiten korrekter Antworten zwischen Gruppen für jedes einzelne Item verglichen (Analog χ2-Unabhängigkeitstest)
Bestimmen der Odds Ratios (α𝑀𝐻) der Lösungswahrscheinlichkeiten zwischen den Gruppen.
Im Beispiel (rechts) ist insbesondere Item 6 auffällig.
Vergleich der besprochenen Methoden
Grafischer Modelltest
Gibt ersten Überblick, ermöglicht Beurteilung durch Konfidenzregionen (sehr sensitiv!), aber keine Aussage zu Effektstärken
Wald-Test
Ist sehr sensitiv, oft auch geringere Effektstärken bereits signifikant
Ist konservativer, dadurch oft auch moderate Effektstärken noch nicht signifikant. Außerdem Transformation der Effektstärken nicht immer adäquat.
Bewertung / Empfehlung
Es gibt keinen Goldstandard
Beurteilen, wie schädlich DIF für die Analyse wäre.
Ggf. mehrere Verfahren durchführen und vergleichen.
Mix-Rasch Modelle bei unbekannten Gruppen
Annahme
Die Population besteht aus Subpopulationen (latenten Klassen), innerhalb derer das Rasch-Modell gilt. Allerdings können sich die Itemparameter zwischen Subpopulationen unterscheiden (Rost, 2004).
Analyse-Methode
Mischung aus Rasch-Modell und Latent-Class-Analyse
Konfirmatorische Analyse: Anzahl der Klassen wird aufgrund theoretischer Überlegungen a priori festgelegt
Exploratorische Analyse: Beginnend mit einer Ein-Klassenlösung werden sukzessive so lange weitere Klassen hinzugenommen wie sich der Modellfit verbessert
Interpretation
Lassen sich latente Klassen finden, unterscheiden sich die Itemparameter als zwischen Gruppen von Personen. Demnach gilt nicht die Populationsunabhängigkeit.
Umgang mit DIF
DIF erklären
Betroffene Items inhaltlich untersuchen: Mögliche Ursachen erkennbar?
Kann zu neuen Fragestellungen führen
Items revidieren oder eliminieren
Items für zukünftige Erhebungen überarbeiten oder aus dem Test entfernen
Insbesondere bei der Testkonstruktion kann dies das Anliegen sein.
Skalierung separat für Gruppen
Für Analysen oder spätere Anwendungen des Tests für beide Gruppen getrennt skalieren.
Nur überzeugend, wenn es insgesamt wenige Items mit starken DIF-Effektengibt. Ansonsten wäre es nicht derselbe Test.
II. Multi-Matrix Designs
Präzision vs. Testzeit
Herausforderung im Large Scale Assessement
Viele Items für bestmögliche Erfassung des Konstrukts vs.
Möglichst wenig Zeit der Probanden beanspruchen
Lösung
Unvollständige Designs („Multi-Matrix-Designs“)
Nicht jeder Proband bekommt alle Items, sondern jeder nur einen Teil
Nicht bearbeitete Items (planned missing) fließen nicht in Schätzung der Personenfähigkeiten mit ein – weder positiv noch negativ
Überlappende Items („Anker-Items“) für ein Linking der Datensätze, die die gemeinsame IRT-Skalierung (=selben Maßstab) gewährleisten. Dies ist bei IRT möglich (Vorteil gegenüber KTT).
Unvollständige Designs
Unvollständiges Design
am Beispiel PISA
▪ Jedes Testheft (Booklet)
enthält 4 Tests
▪ Inhalt rotierend: Jede
Test-Kombination kommt
nur einmal vor
▪ Alle 13 Tests (M1-P2)
gleich oft verwendet
▪ Dadurch 13 unterschied-
liche, aber überlappende
Teil-Datensätze erzeugt
Verschränkte Designs (Linked Samples)
- Linking/Verankerung ermöglicht Vergleich unterschiedlicher Datensätze
Mögliche Verfahren
▪ Gemeinsam skalieren mit System Missings bei nicht überlappenden Items Automatische Verankerung überlappender Items
▪ Getrennt skalieren, aber Schwierigkeiten überlappender Items fixieren Manuelle Verankerung überlappender Items
Verschränkte Designs: Mögliche Biases
Differential Item Functioning (DIF)
▪ Items verhalten sich unter-
schiedlich (meist: Schwierigkeit)
in den erhobenen Gruppen
(links)
Item Parameter Drift
▪ Itemparameter verändern sich
innerhalb der erhobenen
Stichprobe über die Zeit (meist
im Längsschnitt)
(rechts)
Gemeinsam Skalieren: Voraussetzungen
1. Prüfung auf DIF bei überlappenden Items
2. Kombinierten Datensatz wie gewohnt skalieren
Item Schwierigkeiten mit geeignetem Modell (Rasch, mehrparametrisch, mehrdimensional, Partial Credit…) bestimmen
Modellgüte bestimmen
Personenfähigkeiten bestimmen
3. Personenfähigkeiten zwischen den ursprünglichen Datensätzen/Gruppen vergleichen
Kein großer Unterschied im Vorgehen zu DIF-kontrolliertem Modell mit vollständig identischen Tests/Items
Getrennt Skalieren: Voraussetzungen
Getrennt skalieren, aber Schwierigkeiten überlappender Items fixieren
Flexibler einsetzbar als gemeinsame Skalierung
Benötigt nur Item Parameter aus Referenzdatensatz, nicht vollständige Rohdaten
Ermöglicht robustere Schätzung von Personenparametern bei kleinen Stichproben, weil Item Parameter aus größerer Stichprobe (Referenz) bestimmt wurden
Kann nur via Itemfit auf Unterschiede der Itemparameter zwischen Gruppen (DIF) oder Messzeitpunkten (Drift) prüfen
Einzusetzen, wenn gemeinsame Skalierung nicht möglich/nicht sinnvoll
Vergleich mit Normstichprobe (z.b. aus testmanual)
Vergleich mit Referenz-Messzeitpunkt oder -Gruppe in eigenen Daten (z.b. bei Längsschnitt)
Voraussetzung
Referenzdaten sind repräsentativ (z.B. Normstichprobe)
Itemparameter aus Referenzdatensatz vorhanden
Daumenregel: 5 Items pder 1/3 des Tests, sonst Verankerung nicht besonders robust
Kein (oder kontrolliertes) DIF/Drift in überlappenden Items zwischen den Datensätzen
Datensatz hat ausreichend viele DIF-/Drift-freie überlappende Items mit Referenzdaten
Getrennt Skalieren: Vorgehen
1. Itemparameter überlappender Items aus Referenzdaten extrahieren
Nummerierung an neu erhobene Daten anpassen
2. Passendes IRT-Modell für neue Daten schätzen
Festzusetzende Itemparameter im Funktionsaufruf übergeben
3. Modellgüte bestimmen
Weitestgehend wie gewohnt
Besonderheit: Wenn Itemfit bei fixierten Items nicht gut, spricht das für Item-Bias (DIF; Parameter Drift)
Items mit Drift von Fixierung ausnehmen und Modell neu schätzen (iterativ, beginnend mit stärkstem Misfit)
4. Personenfähigkeiten bestimmen und ggf. mit Normstichprobe vergleichen:
Regressionskoeffizient des Modells (=øEAP):
>0 -> besser als Referenz
<0 -> schlechter als Referenz
Mittelwert der bestimmten WLEs
III. Plausible Values
Posteriore Wahrscheinlichkeitsdichtefunktion
Posteriore Wahrscheinlichkeitsdichtefunktionen der (angenommenen) wahren Werte
Als Grundlage für Expected A-Posteriori (EAP) Measures und Plausible Values (PV)
Maximum ist der Maximum Likelihood (ML) Schätzer
EAPs und plausible Values
Expected A-Posteriori (EAP) Measures
EAPs sind die Erwartungswerte der posterioren Verteilungen
Personen mit demselben EAP können dieselben wahren Werte haben (ist aber probabilistische Aussage)
Plausible Values (PV)
Sind zufällige Ziehungen aus der posterioren Verteilung
Können unterschiedlich viele PVs (5,10,20,…) aus dieser Verteilung gezogen werden
Jeder PV ist als Punktschätzer für θ ungeeignet, aber die Gesamtheit aller PVs schätzt die Populationsvarianz nahezu konsistent
Analysen werden dann für alle Sets von PVs zuerst separat gerechnet und anschließend gemittelt (Vorgehen analog wie bei multipler Imputation)
Plausible Values (PV) als „Missing Data”
Grundidee
Ausprägung der latenten Variable (θ) wird als Missing Data aufgefasst, welche aufgrund der manifesten Variablen (Testitems) geschätzt werden kann
Bei dieser Schätzung werden zudem Kovariaten berücksichtigt (Hintergrundmodell): Verlinkung von Mess- und Analysemodell
Schätzungen stellen Imputationen für die (fehlenden) Ausprägungen von θ dar.
Plausible Values (PV): Vorgehen
Vorgehen
1. Einfaches IRT-Modell aus Daten schätzen, um an Itemparameter zu kommen
2. IRT-Modell mit Kovariaten (Hintergrundmodell) und Itemparametern aus 1. schätzen
3. Plausible Values aus dem in 2. Erstellten Modell bestimmen und als separate Datensätze speichern
4. Analysen mit den separaten Plausible Value-Datensätzen rechnen und Ergebnisse zusammenfassen
IV Kompetenz-Niveaus
Ausgangslage: Dimensionale Schätzer
Ergebnis einer IRT-Analyse ist eine dimensionale Schätzung der Parameter (ξ für Personen; σ für Items).
Der Nullpunkt wird in der Mitte festgelegt; die Metrik ist abhängig vom gewählten IRT-Modell und ist somit in Bezug auf externe Kriterien schwer zu interpretieren.
Festlegen von (kategorialen) Kompetenzniveaus
Für Kommunikation mit größeren Öffentlichkeit (Politiker, Bildungswesen) werden oft kategoriale Kompetenzniveaus berechnet („X% der Schüler haben Stufe 3 erreicht“)
Schwellen sind oft nicht rational begründet
1. Daten wurden mit Rasch-Modell ausgewertet (θ sind dimensional)
2. Normierung der Rohwerte sodass der internationale Mittelwert bei 500 Punkten und Standardabweichung bei 100 Punkte liegt
3. Festlegen von 4 Schwellen, die 5 Kompetenzniveaus trennen
M-1SD: 400 Punkte
M: 500 Punkte
M+1SD: 600 Punkte
M+2SD: 700 Punkte
Definition von Schwellen mit Hilfe von Items
Um Schwellen zu definieren werden Items gewählt die von Schwierigkeiten genau bei (bzw. direkt unter) Schwellen liegen
Personen die Item lösen, müssen somit Fähigkeit über Schwelle haben -> somit (min.) das nächst-höhere Kompetenzniveau erreicht
Um sicherzugehen, dass Items Personen auf der nächsthöheren Stufe von Personen auf der tieferen Stufe trennen werden oft folgende Kriterien angelegt:
Lösewahrscheinlichkeit an Schwelle von 65%*
Lösewahrscheinlichkeit an der nächst-tieferen Schwelle (<50%)
Anmerkung:
*Psychoemetrisch ist Itemschwierigkeit bei Rasch-homogenen Items über 50% Lösewahrscheinlichkeit definiert. Trotzdem wird im Large-Scale Assessement oft mir 65% ein vorsichtigeres Kriterium gewählt
Unterteilen der Skala θ (ξ,σ) in Abschnitte
Theoretische Aufgabenmerkmale rechtfertigen Kompetenzniveaus
Falls aus theoretischer Perspektive Merkmale existieren die Kompetenzniveaus rechtfertigen, können diese verwendet werden (z.b. relevante kognitive Prozesse bzw. Löseschritte), um Items Kompetenzniveaus zuzuordnen
Zuordnung der Items zu Kompetenzstufen sollte aber empirisch trotzdem noch einmal überprüft werden: Idealerweise korrespondiert Muster von korrekten Lösungen (1;0) mit dem Muster von Anforderungsmerkmalen (0;1) über Niveaus
Kompetenzniveaus als Funktion von (erschwerenden) Aufgabenmerkmalen
Wenn Kompetenzniveaus am Lösen von spezifischen Aufgabenanforderungen festgemacht werden können, sind Kompetenzniveaus zufriedenstellender definiert
Dieser Ansatz wurde in der DESI-Studie eingesetzt
Zuletzt geändertvor 5 Monaten