Item-Response-Theorie
Zusammenhänge zwischen interessierendem Merkmal und beobachteten Antworten
Vorteile IRT
IRT-Skalierung —>
Merkmalskontinuum kann durch Vergleiche von Personen mit Items inhaltlich beschrieben werden
Personen, die unterschiedliche Teilmengen von Items beantwortet haben, können Messergebnisse auf derselben Skala abgebildet & verglichen werden
nicht alle Personen müssen alle Items bearbeiten
Durch Anpassen von Items ist computerbasiertes adaptives Testen möglich
Verknüpfungsfunktion
Für Modelle mit latenten Variablen:
Beziehung zwischen beobachteten Indikatoren und latenten Variablen wird mit mathematischer Verknüpfungsfunktion definiert
wenn kontinuierliche Indikatoren: Lineare Funktion
ICC
= Itemcharakteristische Funktion
für alle Items innerhalb eines Modells dieselbe Funktion
Parameter der Funktionsgleichung können sich für verschiedene Items unterscheiden
Annahmen IRT
DImensionalität
Lokale stochastische Unabhängigkeit
Funktionale Form
Annahmen IRT:
Die Antwortdaten sind eine Manifestation einer oder mehrerer latenter Merkmalsdimensionen
DIe ANtworten auf ein Item eines Tests sind unabhängig davon wie andere Items desselben Tests beantwortet wurden
Zusammenhänge zwischen den Items kommen durch gemessenes Merkmal zustande
Wenn Einfluss der latenten Variable auf manifeste Variablen kontrolliert —> Korrelationen zwischen beobachteten Variablen sollten verschwinden
wenn nur eine latente Variable —> EINDIMENSIONALIÄT DER ANTWORTDATEN
Annahmen IRT: Funktionale Form
Die Antwortdaten folgen der durch das Modell vorgegebenen Funktion
Unterschiedliche IRT Modelle
Verschiedene Modelle hinsichtl. IC-Funktion
Anzahl Parameter, die zwischen Items unterscheiden können —> ein-, zwei- oder dreiparametriges Modell
Welche mathematische Funktion? —> logistische Modelle, Probit-Modelle
Indikatoren dichotom oder mehrstufig? —> Modelle für dichotome / polytome ANtwortformate
Wieviele Dimensionen (latente Variablen) enthält das Modell —> Eindimensionale oder mehrdimensionale Modelle
logistische Modelle für dichotome Daten
Raschmodell = einparametrige logistische Modell 1PL—> jedes Item nur mit einem Parameter beschrieben
zweiparametriges logistisches Modell 2PL
dreiparametriges logistisches Modell 3PL
Raschmodell
dichotomes Modell
Grundidee: Individuelle Merkmalsausprägungen (latente Variablen) und Itemschwierigkeiten b liegen auf einer gemeinsamen Skala
—> dadurch kann man eine vergleichende AUssage treffen, wie eine Person auf ein Item reagieren könnte
—> Testwerte können kriteriumsorientiert interpretiert werden (nicht mit Normstichprobe)
IC-Funktion Raschmodell
1 Parameter
Wkt, dass Person j mit Fähigkeit 0 die Aufgabe i mit Schwierigkeit b richtig beantwortet
Itemschwierigkeit b = Punkt, an dem Lösungswahrscheinlichkeit 50% beträgt
Logistische IC-FUnktion Raschmodell
Antwortwahrscheinlichkeit wird mit log. Funktion von 0 bis 1 auf Wertebereich von unendlich negativ bis unendlich positiv projiziert
IC-Funktion Raschmodell verschiedene Items
Funktionale Form aller Items identisch
parallele IC-Funktionen
Zusammenhang zwischen Merkmal und Lösungswahrscheinlichkeit für alle Items gleich stark
Unterschied Raschmodell und 1PL
Unterschiedliche philosophische Traditionen
1 PL —> statistischer ANsatz zur Beschreibung von Daten -> flexibler, model fit
Rasch Modell -> Messtheoretischer Ansatz um ein Konstrukt zu konstruieren -> striktes Modell mit messtheoretischen Anforderungen
1PL
einparametriges logistisches Modell
teilweise als gleichbedeutend mit Raschmodell dargestellt
trotz mathematischer Äquivalenz der beiden Modelle exisiteren Unterschiede
1PL= a ist konstant für alle i E I
Rasch-Modell = a = 1 für alle i E I
Skalenidentifikation —> Nullpunkt
Die Antwortwkt ist identifiziert —> Differenz Theta - b
Theta-Schwierigkeitsskala ist nicht identifiziert—> Ursprung ist beliebig
Zwei Möglichkeiten zu Verankerung der Skala
Zwei Möglichkeiten Veränderung der Theta Skala
Personenzentrierung -> Mittelwert der individuellen Merkmalsausprägungen wird auf Null gesetzt
Itemzentrierung —> Durchschnittliche Itemschwierigkeit wird auf null fixiert
Skalenidentifikation —> Maßeinheit
muss durch Restriktionen identifiziert werden
Raschmodell: FIxierung der Steigungsparameter auf 1
1PL: wenn ein Steigungsparameter geschätzt werden soll —> Varianz der Theta-SKala auf 1 oder anderen Wert fixieren
Parameterschätzung welche Methoden
a) ML
b) Bayesianische Schätzung
Schritte ML Schätzung von Theta
Bestimmen der Wkt der einzelnen Itemantworten für einen Theta Wert
Bestimmen Wkt des Antwortmusters
Durchführen der Punkte 1 und 2 für eine Reihe von Theta-Werten
Plot und IDentifikation des Maximums der Kurve —> Dort ist der Wahrscheinlichste Theta wert
Likelihoodfunktion
log-likelihoodfunktion
weil durch das Multiplizieren bei der likelihoodfunktion die Werte immer kleiner werden —> schwer mit computer
Welcher Wert wird am Ende genommen? Log-Likelihood-Funktion
der Wert, der die Log-likelihood maximiert
verschiedene Antwortmuster in der Log-Likelihood-Funktion
unterschiedlich wahrscheinlich (z.B. leichte Fragen schaffen, schwere Fragen nicht ist wahrscheinlicher)
was passiert bei der gleichen Anzahl korrekter Items mit der Log-Likelihood-Funktion
Lage der Log-Likelihood-Funktion unterscheidet sich zwischen Antwortmustern
unterscheidet sich nicht im Maximum!
Personen, die gleich viele Items gelöst haben bekommen dieselbe Schätzung (wegen des Multiplizierens)
Was ist eine Suffiziente Statistik
eine Statistik, die alle Informationen über einen Parameter enthält, die in den Daten stecken
Wenn man diese Statistik kennt, braucht man keine weiteren Informationen aus den Rohdaten, um den Parameter optimal zu schätzen.
Summenscore bei Raschmodell & 1PL ist eine suffiziente Statistik —> erschöpfende Statistik
Invariante Antwortmuster
Antwortmuster mit nur 0 oder 1 —> kein Maximum der Log-Likelihood-Funktion
Theta strebt hier gegen minus oder plus unendlich
gibt in der Praxis Tricks um diese theta werte zu bestimmen
Iteminformation
= Beitrag einer einzelnen Itemantwort zur Reduktion des Standardfehlers & Steigerung der Messgenauigkeit
Iteminformationsfunktion Raschmodell
= 1. Ableitung der IC-Funktion
für alle Items hat die Funktion dieselbe Form
Bei Raschmodell und 1PL:
für alle Personen, die dieses Item gelöst haben
Maximum = Schwierigkeit des Items
höchste Messgenauigkeit bei Items, deren Schwierigkeit der Merkmalsausprägung entspricht
jedes Item misst am besten dort, wo es auf Skala verortet ist
Testinformation Raschmodell
= Summe aller Iteminformationen
Ergebnis ist Test Information Curve
gibt Messgenauigkeit der Merkmalsschätzung in Abhängigkeit von Theta an
Standardfehler Testinformation
Individuelle Messgenauigkeit bestimmen IRT
hängt von Merkmalsausprägung und bearbeiteten Items ab
kann individuell bestimmt werden
kann daher auch individuell optimiert werden!
Das ist Stärke von IRT gegenüber KTT (hier wird die Reliabilität / Messgenauigkeit nur auf Stichprobenebene geschätzt)
Reliabilität in der IRT
Annahme gleicher Messfehler verletzt (SD pro Person ja anders)
TIC ersetzt den Reliabilitätskoeffizienten bei IRT basierten Tests
Praxis: z.T. noch Reliabilitätskoeffizienten für IRT-basierte Tests berichtet —> aber eigentlich unpassend, da TIC aussagekräftiger und man ja weiß, dass Rel auf Annahmen beruht, die verletzt sind
einfache Modelle
jedes Item nur durch 1 Parameter beschrieben
Zusammenhang zw. Item und latenter Variable muss für alle Items gleich sein
—> strenges Modell
mehrparametrige Modelle
enthalten zusätzliche Itemparameter
größere UNterschiede zw. IC-Funktionen bei versch. Items möglich
gute Modellpassung hier leichter
2PL
IGLU, TIMSS, PISA
1 Personenparameter (Theta)
zwei Itemparameter (a und b)
s. Funktion für 1PL (dort war a konstant)
ICC beim 2PL
a= Diskriminationsparameter
bestimmt Steigung der Funktion am Wendepunkt
größeres a: steilere Steigung am Wendepunkt
Festlegen von a beim 2PL
Schätzung aus emp. Daten
Diskrimination = 0 —> Merkmal wird nicht erfasst
Diskrimination = negativ —> höheres Theta führt zu geringerer Wkt für symptomatische Antwort
Schneidende ICCs beim 2PL
versch. a —> IC-Funktionen schneiden sich
Folge: je nach Theta der Person ist die Rangfolge der Itemschwierigkeiten unterschiedlich
schwerwiegender Nachteil —> Interpretation der Skala bzgl. Iteminhalte ist erschwert
Iteminformation 2PL
hier wird durch Hinzufügen des a in die Iteminformation anders als bei 1PL Items mit höherer Diskrimination gewichtet
Schätzung Merkmalsausprägungen 2PL
auch nach ML
Last changed20 hours ago