Informationen über Testverfahren finden
Testmanuale
Psyndex
Seiten von Verlagen
Seiten von Fachzeitschriften
Lehrbücher
Rezensionen
Wesentliche Schritte der Testkonstruktion (+ Leitfrage)
Was hätte man idealerweise getan, wenn man das Verfahren selbst entwickelt hätte?
ABC of Test Construction
A: Welches Konstrukt?
B: Welche Anwendungszwecke?
C: Welche Zielgruppe(n)?
Definition des Messgegenstandes
Wichtig: Umfängliche Konstruktdefinition inkl. Einbettung in ein nomologisches Netz
Work-related curiosity
curiosity in its epistemic form
seeking information
knowledge acquisition
learning
thinking
Itemgenerierung (Fragen)
Auswahl von Reizvorlagen und Reaktionsbedingungen geeignet (um aus Reaktion Rückschluss auf Konstrukt vorzunehmen)?
Begründung
andere Items?
Auswahl von Reizvorlage und Reaktionsbedingungen für Anwendungskontext und Zielgruppe angemessen?
Begründung?
Evidenz?
Eigene Beurteilung der Angemessenheit?
Itemgenerierung (Regeln)
leicht verständlich
Missverständnisse vermeiden
nicht mehrdeutig
klare und kurze Aussagen
keine doppelten Verneinungen oder mehrere Aussagen in einem Item
keine Suggestivfragen
Itemanalyse
Itemschwierigkeit bzw. -leichtigkeit
Verteilung der Antworten
Varianz
Trennschärfe (klassische Testtheorie)
Analyse des Testentwurfs
bei Multiple-Choice Antworten in Leistungstest: Distraktortrennschärfe
Faktorladungen
Trennschärfe und Iteminformation (probabilistische Testtheorie)
Item-Fit-Maße (probabilistische Testtheorie)
Analyse des Testinhalts durch Beurteiler:innen
Trennschärfe (Klassische Testtheorie)
Die Trennschärfe (r it) eines Items (i) drückt aus, wie groß der korrelative Zusammenhang der Itemwerte (x vi) mit den Testwerten (x v) ist, die aus sämtlichen Items des Tests oder aus sämtlichen anderen Items des Tests gebildet werden (part-whole-korrigierte Trennschärfe).
nimmt ein Item raus -> berechnet Korrelation zu allen anderen Items (Korrelation = Trennschärfe)
Distraktortrennschärfe
= Zusammenhang eines Items, bei dem ein Distraktor als richtig gewertet wird, mit dem Rest des (Sub)Tests (bei dem richtige Antworten als solche gewertet werden)
= Prüfung, ob Personen mit höheren Werten im (Sub)Test in einem Item eher falsch Antworten wählen
-> Hinweis auf missverständliche Formulierung und ggf. andere Interpretation als die intendierte
-> Trennschärfe sollte höher sein und Distraktortrennschärfe nach Möglichkeit negativ (dann Item behalten)
-> Distraktortrennschärfe positiv oder gleich der Itemtrennschärfe -> Item rauswerfen
Itemanalysen können auf Basis von Faktorladungen gemacht werden
schlecht:
keine Ladung
Mehrfachladungen
Trennschärfe (Probabilistische Testtheorien)
Iteminformationsfunktion
Items liefern an bestimmten Stellen viele Informationen für Personen mit bestimmter Merkmalsausprägung, an anderen weniger, das zeigt die Itemsinformationsfunktion
Person tritt sozusagen mit ihrer merkmalsausprägung gegen das Item an
Testinformationsfunktion
= beschreibt die Bereiche auf dem Merkmalskontinuum, für die die im Test enthaltene Itemmenge besonders “informativ” ist
-> Addition der Iteminformation über alle Items hinweg = Testinformation
-> Entsteht über viele Items hinweg Informationsgewinn?
Antwortwahrscheinlichkeiten im Partial-Credit-Modell
-> In geringem Merkmalsbereich sollte Wahrscheinlichkeit Kategorie 0 zu wählen am höchsten sein, je höher Merkmalsausprägung desto geringer Wahrscheinlichkeit für Kategorie 0 bis zu einem Schwellenwert, wo es wahrscheinlicher ist Kategorie 1 zu wählen usw. …
Darstellung für ein Item
Darstellung für mehrere Items:
—> Ordnung sollte über Items hinweg erhalten bleiben
—> wenn Ordnung nicht erhalten bleibt in Item, sollte dieses rausgenommen werden
Person-Item-Map
= gemeinsame Darstellung der Verteilung der Personenparameter (blaue Balken) und Itemparameter
-> Ist die Verteilung der Personen passend zu den Bereichen in denen die Items differenzieren?
nicht ausgefüllte Punkte: Schwellenparameter
schwarze Punkte: Schwierigkeit des Items
Item-Fit-Maß: Q-Index
-> Item passt dann gut zu probabilistischen Modellannahmen, wenn gilt: schwierige Items werden vornehmlich von “guten” Testpersonen gelöst, mittleschwere Items vornehmlich von “guten” und “mittelguten”, leichte Items von “nicht so guten” Testpersonen
—> Prüfung, ob das Antwortmuster eines Items vor dem Hintergrund seiner Schwierigkeit wahrscheinlich ist
Q-Index:
variiert theoretisch von 0-1 (in der Praxis von 0.1-0.3
auffällige Items mit z > 1.96 = Item-Underfit
auffällige Items mit z < -1.96 = Item-Overfit
Item-Underfit
z-Wert > 1.96
zu geringer Zusammenhang zwischen Itemantwort und Personenfähigkeit
relevanterer Fall
Item-Overfit
z-wert < -1.96
“zu wenig Probabilistik in den Daten”
Itemselektion anhand des grafischen Modelltests
= Prüfung der Annahmen, dass mit den Items fpr alle Personen die gleiche Eigenschaft gemessen wird (=Personenhomogenität)
-> manche Items verletzen ggf. diese Annahme (differential item functioning)
Itemselektion durch Beurteiler:innen
Definitional correspondence
definitional distinctiveness
= Zugehörigkeit zu Zielkonstrukt und verwandten Konstrukten wird durch Beurteilende eingeschätzt
für dichotome Zuordnung gilt folgendes:
Itemanalyse und Analyse des Testentwurfs: Revision des Itempools und Erstellung eines Testentwurfs
Prüfung der Struktur des Tests (Faktorenladungen)
Reliabilitätsschätzung
Validierung
Prüfung der Struktur des Testentwurfs
vergleichende Prüfung theoretisch sinnvoller Strukturannahmen
Replikation in unabhängiger
Welches Modell passt am besten zu den Daten und ist zu präferieren?
wir wollen Messinvarianz zwischen verschiedenen Gruppen
Validierung eines Testentwurfs
nomologisches Netz überprüfen
Passt Empirie zu den vorab spezifizierten Annahmen
Continuous Norming
= Regressionsanalytische Schätzung der erwarteten Testrohwerte unter Einbezug einer oder mehrerer relevanter Variablen
Statt: Bildung von Kategorien und Ermittlung der Normwerte anhand der jeweiligen Mittelwerte und SDs im Testrohwert
-> feiner abgestufte Normierung
-> macht Individualdiagnostik genauer
-> keine Sprünge zwischen Kategorien
Distraktor
= plausibel erscheinende, aber nicht zutreffende Antwortalternativen bei Multiple Choice Aufgaben
Zuletzt geändertvor 2 Jahren