Was ist die Grundidee hinter dem Rasch Modell
· Sind Tests und Fragebögen mit den Rasch-Modellannahmen konform, dann gelten sie als fair sind und über verschiedene Gruppen vergleichbar sind, weil sie nur 1 Konstrukt messen und auf die gleiche Art und Weise in verschiedenen Gruppen
· Test- und Fragebogenkonstruktion:
o Items sollen nur eine Fähigkeit oder Eigenschaft abbilden, nicht mehrere
o Diese Eigenschaft eines Tests wird sich positiv auf die Testfairness aus
Was sind die Vorteile des Rasch Modell
o Modell ist gut überprüfbar
o Sehr strenge Annahmen an Tests/Fragebögen, die mit Raschmodell skaliert werden
o Ermöglicht die Evaluation von Tests und Fragebögen
o Gibt Hinweise für die Testmodifikation
o Mit dem Modell kann man sicherstellen, dass ein Test fair ist und verschiedene Gruppen nicht systematisch benachteiligt werden
Was ist Voraussetzung für die Anwendung eines Rasch Modell?
Dichotome Items: Items, die mit richtig oder falsch kodiert werden können
z.B. Matheaufgaben
Items mit einem binären Antwortformat
Zum Beispiel: Ich bin gerne unter Menschen: Ja/Nein
Notation Rasch Modell
Was ist die Idee des Raschmodells?
ð Idee des Rasch-Modells: Aufgabe in latenten Fähigkeitsparameter und latenten Aufgabenparameter zerlegen (Leistung/Antwort ist demnach von der Fähigkeit und der Aufgabe abhängig)
Was beschreibt die Modellgleichung des Rasch Modells?
=beschreibt Wahrscheinlichkeit, dass eine Person mit einer bestimmten Fähigkeit eine Aufgabe mit einer bestimmten Schwierigkeit richtig beantwortet
· Mit jedem Item misst man also die Fähigkeit der Person und die Schwierigkeit der Aufgabe selbst:
o Die Fähigkeit θi der Person i
o Die Schwierigkeit βi der Aufgabe j
· Je fähiger die Person, desto höher sollte ihre Lösungswahrscheinlichkeit sein
o die Modellgleichung soll eine Funktion sein, die mit der Personen-Fähigkeit ansteigt
· Da es sich um eine Wahrscheinlichkeit handelt, muss die Modellgleichung numerisch zwischen den Grenzen 0 und 1 bleiben (0= Person kann Item nicht lösen, 1= Person kann Item lösen)
Wie sieht die Formel des Rasch Modells aus?
Was kommt raus wenn die Person fähiger ist als die Aufgabe (oder die Aufgabe schwerer als die Person fähig)
o Ist die Person fähiger als die Aufgabe schwer ist (θi > βi ), ergibt sich θi – βi > 0
§ Fähigkeit > Schwierigkeit
o Ist die Aufgabe schwerer als die Person fähig ist (θi < βi ), ergibt sich θi – βi < 0
§ Fähigkeit < Schwierigkeit
Was ist die Item Charackteristik Kurve?
= Der Verlauf der Lösungswahrscheinlichkeiten eines Items für verschiedene Personenparameter θi wird als Item-Charakteristik-Kurve (ICC) bezeichnet
ist eine logistische Funktion
Wie ist die Lösungswahrscheinlichkeit wenn die Person genauso fähig ist wie die Aufgabe schwer ist?
Wenn die Person genauso fähig ist, wie die Aufgabe schwer ist (d.h. θi = βi ), beträgt die Lösungswahrscheinlichkeit 50 %
Liegt die Fähigkeit darunter, besteht eine geringe Wahrscheinlichkeit, dass Person die Aufgabe löst. Liegt sie darüber, ist die Wahrscheinlichkeit sehr hoch.
Wie verlaufen die Item Charackteristik Kurven?
ICCs verschiedener Items des gleichen Tests verlaufen parallel
· geringe Aufgabenschwierigkeit links Verschiebung
· hohe Aufgabenschwierigkeit rechts Verschiebung
· Die Steigung und Form der Kurve ist für alle Items identisch
· Alle Items eines Tests haben die gleiche Trennschärfe
Welche Rolle spielt die Trennschärfe im Rasch Modell?
· Trennschärfe: wie gut kann das Item zwischen verschiedenen Gruppen differenzieren?
· Trennschärfe (wird im Rasch Modell anders verwendet)= Steigung im mittleren Bereich der Funktion
· Je höher die Trennschärfe einer Aufgabe (also je steiler), desto genauer kann zwischen Personen unterschiedlicher Fähigkeiten unterschieden werden –
· Annahme des Rasch-Modells: alle Items haben die gleiche Trennschärfe haben (bei echten Tests oft nicht haltbar)
o Da angenommen wird, dass die Tests parallel verlaufen, haben sie auch die gleiche Steigung, und daher auch die gleiche Trennschärfe)
Was sind zentrale Annahmen und Eigenschaften des Rasch Modell?
Suffiziente Statistiken
Lokale stochastiche Unabhängigkeit
Spezifische Objektivität
Eindimensionalität
Messniveau
Stichprobeninvarianz
Was sind suffiziente Statistiken?
Eine suffiziente Statistik enthält die gesamte relevante Information über einen Parameter
· Für jede Person i enthält die Zeilenrandsumme ri (alle Einträge der Zeile wurde addiert)die gesamte Information für den Personenparameter
· Für jede Aufgabe j enthält die Spaltenrandsumme sj (alle Einträge in den Spalten wurden addiert) die gesamte Information (=suffizient) für den Aufgabenparameter
· Daraus ergibt sich, dass es nicht wichtig ist zu wissen, welche Aufgaben eine Person gelöst hat, sondern nur wie viele
o Annahme: Personen mit höherer Fähigkeit lösen im Mittel mehr Aufgaben als Personen mit niedriger Fähigkeit
o Konsequenz: Items zu gewichten ist daher unsinnig, jedes Item enthält gleichviel wichtige Informationen für die Aufgabenparameter
Was versteht man unter lokaler stochasticher Unabhängigkeit?
· Einzelne Ereignisse sind unabhängig voneinander; d.h. das Eintreten eines vorherigen Ereignisses sagt nicht das Eintreten eines darauf folgenden Ereignisses vorher
o Wenn eine Münze „fair“ ist, wird bei jedem Wurf mit 50% Wahrscheinlichkeit Kopf und mit 50% Wahrscheinlichkeit Zahl geworfen, unabhängig vom Ergebnis vorheriger Würfe
· Ereignisse sind voneinander stochastisch unabhängig => es lässt sich die gemeinsame Wahrscheinlichkeit des Auftretens dieser Ereignisse einfach durch Multiplikation berechnen
o Wahrscheinlichkeit, zweimal hintereinander Kopf zu werfen, beträgt 0.50 * 0.50 = 0.25
Was bedeutet die stochastische Unabhängigkeit für das Rasch Modell?
· Es lässt sich aus der Lösungswahrscheinlichkeit einer Person für jede einzelne Aufgabe die gemeinsame Lösungswahrscheinlichkeit aller Aufgaben ausrechnen
o Die Wahrscheinlichkeit, dass Person i alle Aufgaben m löst, ergibt sich als Produkt aller Lösungswahrscheinlichkeiten
· Die Lösungswahrscheinlichkeit einer Aufgabe ändert sich nicht durch das Lösen anderer Aufgaben oder beeinflusst die Lösungswahrscheinlichkeit von anderen Aufgaben
o „Lokal“: Annahme gilt nur für eine Person/ mehrere Personen mit der gleichen Fähigkeit
o Innerhalb einer Person ändert sich dies nicht (die Lösungswahrscheinlichkeit ist also abhängig von der Fähigkeit einer Person), zwischen Personen kann es sich ändern
o Lösungen der Aufgaben müssen daher auch unabhängig voneinander sein)
Wodurch kann die Annahme der lokalen stochastischen Unabhängigkeit verletzt sein?
· Lokale stochastische Unabhängigkeit kann verletzt sein durch:
o Aufeinander aufbauende Items (Lösung der zweiten Aufgabe setzt Lösung der ersten Aufgabe voraus)
o Reihenfolge- oder Übungseffekte
o Testlets (mehrere Aufgaben, die sich auf einen Aufgabenstamm beziehen, z.B. einen Aufgabentext) => Kann durch spezielle Testlet-Modell modelliert werden
Was versteht man unter spezifischer Objektivität?
· Vergleiche zwischen Personen sollten nicht von den Items abhängen, die beantwortet wurden
o Person b (θ = 1) hat immer eine höhere Wahrscheinlichkeit, ein Items zu lösen, als Person a (θ = -1), da die Item-Charakteristik-Kurven immer parallel verlaufen
o Man kann daher Tests auch kürzen und sollte auf das gleiche Ergebnis kommen
-· Vergleiche zwischen Items sollten nicht von den Personen abhängen, die getestet wurden
o Die Aufgabe mit der roten Linie ist für beide Personen einfacher zu lösen als die Aufgabe mit der blauen Linie
· Schneiden sich ICCs, liegt keine spezifische Objektivität vor
o sonst sich die Vergleiche zwischen Personen nicht mehr unabhängig
Was ist wichtig zu beachten bei der Berechnung der spezifischen Objektivität?
Spezifische Objektivität muss bei der Anwendung eines Tests auf jede neue Gruppe von Personen neu überprüft werden
Was versteht man unter Stichprobeninvarianz?
· Stichprobeninvarianz leitet als weitere Eigenschaft des Rasch-Modells ab:
· Modell gilt in der Population => Modell gilt auch in jeder Teilstichprobe der Population
i. Stichprobeninvarianz liegt vor
ii. Aufgabe ist für verschiedene Gruppen gleich schwer (und damit fair)
Was versteht man unter Differantial Item Functioning?
· Stellt sich eine Aufgabe für unterschiedliche Personen-Gruppen bei gleicher Fähigkeit als unterschiedlich schwer heraus, spricht man von Differential Item Functioning (DIF)
i. Beispiel: Aufgabe erfordert Mathematische Kenntnisse und Lesekompetenzen, wenn die Aufgabe nun Muttersprachler und Keine Muttersprachler bearbeiten, dann ist die Aufgabe bei gleicher Fähigkeit unterschiedlich schwer für versch. Gruppen
ii. Verletzung der Stichprobeninvarianz
Was versteht man unter Eindimensionalität?
· Eindimensionalität ist eine zentrale Annahme des Rasch-Modells
o Muss mittels Tests auf Eindimensionalität und DIF überprüft werden
o DIF weist darauf hin, dass keine Eindimensionalität vorliegt
· Die Personen- und Aufgabenparameter liegen auf einer latenten Dimension
· Eindimensionalität = Annahme, dass ein Test immer nur ein Konstrukt erfasst
Wieso ist die Voraussetzung Messniveau beim Rasch Modell wichtig?
· Personen- und Item-Parameter des Rasch-Modells haben mindestens Intervallskalenniveau
o Daher können mit den Messwerten weitere Berechnungen anstellt werden (Differenzen- und Mittelwertbildung, Gruppenvergleiche)
Was ist das Maximum Likelihood Prinzip
· Personen- und Aufgabenparameter auf Basis der erhobenen empirischen Daten geschätzt
· Iteratives Verfahren: schrittweise werden die Aufgaben- und Personenparameter angepasst, um eine möglichst gute Passung zu den empirischen Daten zu erzielen
· Die Passung wird für eine Person i und eine Aufgabe j mit der Likelihood Funktion der Modellgleichung beschrieben:
· Häufige Anwendung der Schätzansätze ist die Likelihood für eine Person i und alle Aufgaben j
Warum verwendet man die gemeinsame Maximum Likelihood Schätzung nicht? (alle Personen und alle Aufgaben)
· Warum verwendet man gemeinsame Maximum-Likelihood-Schätzung nicht? Problem:
o Idealfall: Schätzer sind konsistent, d.h. je größer die Stichprobe wird, desto geringer wird ihre Varianz, damit ist der Schätzer akkurater und weniger durch Ausreißer verzerrt
o Gemeinsame Maximum-Likelihood-Schätzung: Mit einer größeren Stichprobe steigt die Zahl der zu schätzenden Parameter => dies zu einer größeren Varianz und zu nicht zu konsistenten Schätzern
Welche zwei Arten gibt es um die Maximum Likelihood zu schätzen?
1) Die bedinge Maximum Likelihood Schätzung
2) Die marginale Likelihood Schätzung
Ablauf der bedingten Maximum Likelihood Schätzung und was ist das Ergebnis?
1. Schritt: Schätzung des Aufgabenparameters + Ausblendung des Personenparameters
2. Schritt: Faktorisieren der Likelihood
-> Funktion wird in 2 Teile geteilt: in Teil h und in Teil g
3. Schritt: Berechnung der bedingten Likelihood
Es kommt heraus: =>nur noch abhängig von Randsummen und Aufgabenparameter ß und noch von Personenparameter
4) · Aus dem Produkt für die gesamte Datenmatrix werden die Aufgabenparameter geschätzt, indem das Maximum der bedingten Likelihood bestimmt wird. Dies geschieht in einem iterativen Schätzverfahren, da Ausdruck nicht einfach nach den Aufgabenparametern aufgelöst werden kann
5) · Letzter Schritt: Schätzung der Personenparameter, indem die Aufgabenparameter in die gemeinsame Likelihood eingesetzt werden
Welche Schritte muss man befolgen um das Maximum der Maximum Likelihood Funktion zu bestimmen?
(1) Logarithmieren der bedingten Likelihood (vereinfacht die Ableitung)
(Maximum der Funktion -also Parameterwert, bei dem die höchste Likelihood liegt - wird nicht durch das Logarithmieren verändert)
(2) Ableitung nach 𝛽𝑗
(3) Gleich Null setzen (um Werte zu finden, die höchstes Maximum der Likelihood haben)
Wieso normiert man die Aufgabenparamter und welche Möglichkeiten gibt es dafür`?
· Da der Nullpunkt der Skala im Rasch-Modell frei verschiebbar ist, ergibt sich keine eindeutige Schätzung der Modellparameter
· Daher muss eine Restriktion eingeführt werden, indem ein Aufgabenparameter durch willkürliche Normierung auf einen Wert festgelegt wird. Es gibt folgende Möglichkeiten dafür:
· Durch die Normierung werden der Nullpunkt sowie die Einheit der latenten Skala festgelegt
Nachteile der bedingten Maximum Likelihood Schätzung
· Unterschätzung der Schätzunsicherheit + Breite der Konfidenzintervalle
o Schrittweises Vorgehen nimmt wahre Werte an und ignoriert die Schätzunsicherheit, mit der die Aufgabenparameter geschätzt wurden
· Für Personen, die keine oder alle Aufgaben richtig beantwortet haben, können keine Personenparameter geschätzt werden
diese Personen könnten schlechter bzw. besser sein, als die Items abbilden können
Zusammenfassung Bedingte ML
· Schätzung der Modellparameter mittels bedingter Maximum-Likelihood-Schätzung schätzt zunächst nur die Aufgabenparameter und blendet die Personenparameter aus
o In dem Ausdruck für die bedingte Likelihood werden die Personenparameter durch die Randsummen als suffiziente Statistik ersetzt
o Parameterschätzung erfolgt in einem iterativen Verfahren
o Zur Schätzung muss eine Normierungsbedingung festgelegt werden, anhand derer Nullpunkt und Einheit der Skala festgelegt werden
· Im letzten Schritt erfolgt die Schätzung der Personenparameter, indem die Aufgabenparameter in die gemeinsame Likelihood eingesetzt werden
Ablauf marginale Maximum Likelihood Schätzung
· Die Schätzung der Modellparameter mittels marginaler Maximum-Likelihood-Schätzung schätzt zunächst nur die Aufgabenparameter ( integriert die Personenparameter aus Likelihood raus)
o Annahme: marginale Verteilung f(θ) („Randverteilung“) der Personenparameter (meist eine Standardnormalverteilung)
o Parameterschätzung durch iteratives Verfahren
im Gegensatz zur bedingten Maximum Likehood Schätzung wird hier der Nullpunkt nicht durch Normierung festgelegt. Der Nullpunkt und die Einheit der latenten Skala wird durch Wahl der Verteilungsparameter festgelegt (Z.B. Normalverteilung MW:0 SD: 1)
· Im letzten Schritt: Schätzung der Personenparameter, indem die Aufgabenparameter in die gemeinsame Likelihood eingesetzt werden
Nachteil marginale Likelihoodschätzung
o Schrittweises Vorgehen ignoriert die Schätzunsicherheit der Aufgabenparameter (Breite der Konfidenzintervalle wird daher unterschätzt)
o Beschreibt die Normalverteilung die Verteilung der Personenparameter nicht zutreffend, kann die Schätzung der Personenparameter verzerrt sein
Was versteht man unter der “Informationsfunktion”
Da die Information einer Aufgabe in ihrer Steigung steckt (Trennschärfe = Steigung im mittleren Bereich der Funktion, wie gut differenziert ein Item zwischen Personen), kann man die Information im Rasch -Modell einfach als Ableitung der Modellgleichung berechnen (=Informationsfunktion)
Die Information aller Aufgaben eines Tests ergibt sich durch das Aufsummieren
Item-Charakteristik-Kurve bei einem Aufgabenparameter von 0
Informationsfunktion: zeigt Verlauf der Iteminformationen
Hier differenziert ein Item in einem Fähigkeitsbereich von -2 bis+2 gut, dadrüber/ dadrunter weniger gut, weil es weniger Informationen enthält
Kofidenzintervall Rasch Modell
Konfidenzintervall für Personenparameter berechnen
· Viel Informationen einer Aufgabe = die Fähigkeit liegt im mittleren Bereich der Aufgabe
o Hohe Genauigkeit der Schätzung des Personenparameters => Aufgaben mit mittleren Bereichen haben eine hohe Trennschärfe
-> z.B. wenn man Hochbegabte mit einem normalen Intelligenztest testet, wird dieser nicht viel über Intelligenz aussagen, da ihre Fähigkeiten im oberen Bereich der Aufgabe liegen. Macht man aber einen Hochbegabten INtelligenz Test mit ihnen, wo ihre Fähigkeiten im mittleren Bereich liegen ist der Test aussagekräftig
Die Genauigkeit der Schätzung wird durch Konfidenzintervalle (KI) angegeben
o KI wird um den geschätzten Personenparameter so konstruiert, dass es den wahren Wert des Personenparameter mit einer bestimmten Wahrscheinlichkeit (z.B. 95 %) überdeckt
(Varianz d. Parameters wird umso kleiner, je mehr Informationen im Item enthalten sind)
Formel Konfidenzintervall Rasch Modell
Das in der Wurzel ist der Varianzparameter. Dieser wird umso kleiner, je mehr Information im Item enthalten ist
Welche Tests gibt es um die Modellannahmen des Rasch Modells zu überprüfen?
· Unterteilung der Stichprobe in zwei oder mehr Teilstichproben („gilt es in Stichprobe, gilt es auch in Teilstichproben“)
· Grafische oder statistische Tests prüfen, ob sich die Aufgabenparameter zwischen den Gruppen unterscheiden
· Verletzung dieser Annahme => gilt als „Differential Item Functioning“ (DIF)
Tests:
Grafischer Modelltest
Der Likelihood Quotienten Test
Aufgabenspezifischer Wald Test
Globaler Wald Test
Erkläre den grafischen Modelltest
· Aufgabenparameter in beiden Gruppen identisch = Schätzwerte liegen auf der Winkelhalbierenden
o Geschätzte Aufgabenparameter von Gruppe 1 werden auf x-Achse geplottet
o Geschätzte Aufgabenparameter von Gruppe 2 werden auf y-Achse geplottet
· Wie systematisch diese Abweichung ist, wird anhand von Konfidenzintervallen beurteilt
o Schneides das Konfidenzintervall die Winkelhalbierende, dann liegt der Wert auf der Winkelhalbierende noch im Konfidenzintervalls des Aufgabenparameters
o Schneides das Konfidenzintervall die Winkelhalbierende nicht, dann liegt der Wert auf der Winkelhalbierende nicht im Konfidenzintervalls des Aufgabenparameters
Erkläre den Likelihood Quotienten Test
· Zum Vergleich beliebig vieler Gruppen
· Grundidee:
o (1) Schätzung der Aufgabenparameter in der Gesamtstichprobe
o (2) Aufteilung der Personen in K Gruppen und Schätzung der Aufgabenparameter für Gesamtstichprobe (gemeinsam) und separat für jede Gruppe (getrennt)
o (3) Bei Schätzungen für Gesamtstichprobe + für Gruppen werden jeweils die optimalen Modellparameter gefunden, da die bedingte Likelihood der Daten maximiert wird
o 1. Fall: Rasch-Modell gilt und die Aufgabenparameter sind in allen Gruppen identisch: (Getrennte Schätzung ist genauso gut, LQ =1. T=0)
o 2. Fall: Rasch-Modell ist verletzt (Aufgabenparameter sind nicht identisch in allen Gruppen): die für die Gesamtstichprobe geschätzten Aufgabenparameter sollten schlechter zu den Daten passen, als wenn die Aufgabenparameter separat für mehrere Teilstichproben geschätzt werden (Getrennte Schätzung ist besser)
§ Nenner des Bruches wird größer als der Zähler = Likelihood der getrennten Schätzung ist höher als Likelihood der gemeinsamen Schätzung = LQ (<1) und T größer 0
Erkläre den aufgabenspezifischen Wald Test
· Zum Vergleich einer Aufgabe zwischen zwei Gruppen
o Direkter Vergleich der Schätzungen der Aufgabenparameter zwischen beiden Gruppen
o Wie? Es wird die Differenz zwischen dem Schätzwert der ersten Gruppe β 𝑗,1 und dem Schätzwert der zweiten Gruppe β 𝑗,2 gebildet
· Teststatistik T ist asymptotisch standardnormalverteilt
o T nimmt besonders kleine oder große Werte => Ablehnung der Nullhypothese (Rasch-Modell gilt), weil sich der Parameter der j-ten Aufgabe in beiden Gruppen unterscheidet
Was ist das Problem beim aufgabenspezifischen Wald Test?
· Problem: Nullpunkt der Skala muss beim Rasch-Modell durch Restriktion der Aufgabenparameter festgelegt werden, z.B. indem man den Parameter für die erste Aufgabe β 1 = 0 setzt
o Verwendung der gleichen (z.B. die erste) Aufgabe als Ankeraufgabe für beide Gruppen
o Schwierigkeit der Ankeraufgabe sollte in beiden Gruppen gleich hoch sein
§ In der Praxis oftmals schwer festzustellen
o Nutzt man eine Aufgabe als Anker, die Differential Item Functioning aufweist, sieht es (durch Einführung der künstlichen Restriktion, dass diese Aufgabe zwischen beiden Gruppen gleich ist) so aus, als hätten alle anderen Aufgaben Differential Item Functioning
Wie kann man das Probkem beim aufgabenspezifischen Wald Test lösen?
· Vorgehen bei diesem Problem (wobei das Problem nicht gelöst wird, eher umgangen):
o 1. Die am stärksten von DIF betroffene Aufgabe ausschließen
o 2. Erneute Schätzung des Rasch-Modells
o 3. Erneute Prüfung auf DIF
Erkläre den globalen Wald Test
· Zum Vergleich aller Aufgaben zwischen zwei Gruppen
o Die Differenzen der Schätzwerte (jetzt als Vektoren β1und β 2) aus beiden Gruppen werden zur Varianz der Schätzung (jetzt als Varianz-Kovarianz-Matrizen Σ 1und Σ 2) in Beziehung gesetzt
o Formel beschreibt (in Matrix-Notation) wieder die Summe der quadrierten Differenzen im Verhältnis zur Summe der Varianzen
· Die Teststatistik T ist asymptotisch χ²-verteilt
o T nimmt besonders kleine oder große Werte => Ablehnung der Nullhypothese (Rasch-Modell gilt)
o Gloaler Wald-Test ist in großen Stichproben äquivalent zum Likelihood-Quotienten-Test
Ablauf bedingte Likehood Schäätzung
1) Ausbleden der Personenparamater
-> Randsummen werden als suffiziente Statistiken ergänzt
2) Schätzung der Aufgabenparameter
-> Logamithrieren, Ableiten, gleich null setzen
Maximum der Likelihood finden, wird durch iterative Verfahren gemacht
3) Normierung
-> Gibt keinen natürlichen Nullpunkt der Skala, deshalb muss einer festgelegt werden, entweder:
ersten Aufgabenparameter gleich null setzen
Summe aller Aufgabenparameter gleich null setzen
4) Schätzen der Personenparameter
Zuletzt geändertvor einem Jahr