(4) Verfahren gestalten und bewerten (2)

Buffl

Diagnostik Master

by Sarah P.

Informationen über Testverfahren finden

Testmanuale
Psyndex
Seiten von Verlagen
Seiten von Fachzeitschriften
Lehrbücher
Rezensionen

Wesentliche Schritte der Testkonstruktion (+ Leitfrage)

Was hätte man idealerweise getan, wenn man das Verfahren selbst entwickelt hätte?

ABC of Test Construction

A: Welches Konstrukt?

B: Welche Anwendungszwecke?

C: Welche Zielgruppe(n)?

Definition des Messgegenstandes

Wichtig: Umfängliche Konstruktdefinition inkl. Einbettung in ein nomologisches Netz

Work-related curiosity

curiosity in its epistemic form
seeking information
knowledge acquisition
learning
thinking

Itemgenerierung (Fragen)

Auswahl von Reizvorlagen und Reaktionsbedingungen geeignet (um aus Reaktion Rückschluss auf Konstrukt vorzunehmen)?
- Begründung
- andere Items?
Auswahl von Reizvorlage und Reaktionsbedingungen für Anwendungskontext und Zielgruppe angemessen?
- Begründung?
- Evidenz?
- Eigene Beurteilung der Angemessenheit?

Itemgenerierung (Regeln)

leicht verständlich
Missverständnisse vermeiden
nicht mehrdeutig
klare und kurze Aussagen
keine doppelten Verneinungen oder mehrere Aussagen in einem Item
keine Suggestivfragen

Itemanalyse

Itemschwierigkeit bzw. -leichtigkeit
Verteilung der Antworten
Varianz
Trennschärfe (klassische Testtheorie)

Analyse des Testentwurfs

bei Multiple-Choice Antworten in Leistungstest: Distraktortrennschärfe
Faktorladungen
Trennschärfe und Iteminformation (probabilistische Testtheorie)
Item-Fit-Maße (probabilistische Testtheorie)
Analyse des Testinhalts durch Beurteiler:innen

Trennschärfe (Klassische Testtheorie)

Die Trennschärfe (r it) eines Items (i) drückt aus, wie groß der korrelative Zusammenhang der Itemwerte (x vi) mit den Testwerten (x v) ist, die aus sämtlichen Items des Tests oder aus sämtlichen anderen Items des Tests gebildet werden (part-whole-korrigierte Trennschärfe).

nimmt ein Item raus -> berechnet Korrelation zu allen anderen Items (Korrelation = Trennschärfe)

Distraktortrennschärfe

= Zusammenhang eines Items, bei dem ein Distraktor als richtig gewertet wird, mit dem Rest des (Sub)Tests (bei dem richtige Antworten als solche gewertet werden)

= Prüfung, ob Personen mit höheren Werten im (Sub)Test in einem Item eher falsch Antworten wählen

-> Hinweis auf missverständliche Formulierung und ggf. andere Interpretation als die intendierte

-> Trennschärfe sollte höher sein und Distraktortrennschärfe nach Möglichkeit negativ (dann Item behalten)

-> Distraktortrennschärfe positiv oder gleich der Itemtrennschärfe -> Item rauswerfen

Faktorladungen

Itemanalysen können auf Basis von Faktorladungen gemacht werden

schlecht:

keine Ladung
Mehrfachladungen

Trennschärfe (Probabilistische Testtheorien)

Iteminformationsfunktion

Items liefern an bestimmten Stellen viele Informationen für Personen mit bestimmter Merkmalsausprägung, an anderen weniger, das zeigt die Itemsinformationsfunktion
Person tritt sozusagen mit ihrer merkmalsausprägung gegen das Item an

Testinformationsfunktion

= beschreibt die Bereiche auf dem Merkmalskontinuum, für die die im Test enthaltene Itemmenge besonders “informativ” ist

-> Addition der Iteminformation über alle Items hinweg = Testinformation

-> Entsteht über viele Items hinweg Informationsgewinn?

Antwortwahrscheinlichkeiten im Partial-Credit-Modell

-> In geringem Merkmalsbereich sollte Wahrscheinlichkeit Kategorie 0 zu wählen am höchsten sein, je höher Merkmalsausprägung desto geringer Wahrscheinlichkeit für Kategorie 0 bis zu einem Schwellenwert, wo es wahrscheinlicher ist Kategorie 1 zu wählen usw. …

Darstellung für ein Item

Darstellung für mehrere Items:

—> Ordnung sollte über Items hinweg erhalten bleiben

—> wenn Ordnung nicht erhalten bleibt in Item, sollte dieses rausgenommen werden

Person-Item-Map

= gemeinsame Darstellung der Verteilung der Personenparameter (blaue Balken) und Itemparameter

-> Ist die Verteilung der Personen passend zu den Bereichen in denen die Items differenzieren?

nicht ausgefüllte Punkte: Schwellenparameter

schwarze Punkte: Schwierigkeit des Items

Item-Fit-Maß: Q-Index

-> Item passt dann gut zu probabilistischen Modellannahmen, wenn gilt: schwierige Items werden vornehmlich von “guten” Testpersonen gelöst, mittleschwere Items vornehmlich von “guten” und “mittelguten”, leichte Items von “nicht so guten” Testpersonen

—> Prüfung, ob das Antwortmuster eines Items vor dem Hintergrund seiner Schwierigkeit wahrscheinlich ist

Q-Index:

variiert theoretisch von 0-1 (in der Praxis von 0.1-0.3
auffällige Items mit z > 1.96 = Item-Underfit
auffällige Items mit z < -1.96 = Item-Overfit

Item-Underfit

z-Wert > 1.96
zu geringer Zusammenhang zwischen Itemantwort und Personenfähigkeit
relevanterer Fall

Item-Overfit

z-wert < -1.96
“zu wenig Probabilistik in den Daten”

Itemselektion anhand des grafischen Modelltests

= Prüfung der Annahmen, dass mit den Items fpr alle Personen die gleiche Eigenschaft gemessen wird (=Personenhomogenität)

-> manche Items verletzen ggf. diese Annahme (differential item functioning)

Itemselektion durch Beurteiler:innen

Definitional correspondence
definitional distinctiveness
= Zugehörigkeit zu Zielkonstrukt und verwandten Konstrukten wird durch Beurteilende eingeschätzt
für dichotome Zuordnung gilt folgendes:

Itemanalyse und Analyse des Testentwurfs: Revision des Itempools und Erstellung eines Testentwurfs

Prüfung der Struktur des Tests (Faktorenladungen)
Reliabilitätsschätzung
Validierung

Prüfung der Struktur des Testentwurfs

vergleichende Prüfung theoretisch sinnvoller Strukturannahmen
Replikation in unabhängiger
Welches Modell passt am besten zu den Daten und ist zu präferieren?
wir wollen Messinvarianz zwischen verschiedenen Gruppen

Validierung eines Testentwurfs

nomologisches Netz überprüfen
Passt Empirie zu den vorab spezifizierten Annahmen

Continuous Norming

= Regressionsanalytische Schätzung der erwarteten Testrohwerte unter Einbezug einer oder mehrerer relevanter Variablen

Statt: Bildung von Kategorien und Ermittlung der Normwerte anhand der jeweiligen Mittelwerte und SDs im Testrohwert

-> feiner abgestufte Normierung

-> macht Individualdiagnostik genauer

-> keine Sprünge zwischen Kategorien

Distraktor

= plausibel erscheinende, aber nicht zutreffende Antwortalternativen bei Multiple Choice Aufgaben

Join Course

Preview

Author

Sarah P.

Information

Last changed
3 years ago

Report course