Testtheorie 04-7

Buffl

Testtheorie

by Desi T.

Antwortformate

Aufgaben mit freiem Antwortformat

keine Antwortalternativen vorgegeben
Qualität der Kodierung beeinflusst Auswertungsobjektivität
Kurzaufsatzaufgaben: Antworten in Form von Kurzsätzen, Wörter begrenzen sinnvoll
—> Vorteile: selbst erzeugte Antwort entsteht
—> Nachteil: hoher Aufwand bei Durchführung, Auswertung + Objektivitätsmangel
Ergänzungsaufgaben (Completion Tests, C-Tests) —> Vorteil: geringe Ratewahrscheinlichkeit —> Nachteil: erfassen nicht intendierte Inhalte

Aufgaben mit gebundenem Antwortformat

Testperson mit aus vorgegebenen Antwortalternativen wählen
Vorteile: Antworterfassung ökonomisch und eindeutig
Nachteile: Alternativen zu knapp, eng empfunden
Ordnungsaufgaben
Auswhalaufgaben
Disjunktion der Antwortalternativen

Aufgaben mit gebundenem Antwortformat

Ordnungsaufgaben

—> Zuordnungsaufgaben: Zuordnen von Elementen
—> Vorteile: geringe Ratewahscheinlichkeit, wenn mehrere Distraktoren vorhanden
—> Nachteile: Wiedererkennungsleistung erforderlich
—> Umordnungsaufgaben: erfordern Auffinden sinnvolle Reihung
—> Postkorbaufgaben: Umordnungsaufgabe, ungeordnete Schriftstücke in Reihenfolge bringen (Dringlichkeit)
—> Vorteile: geringe Abhängigkeit von Lesefähigkeit, Nachteil: Materialverbrauch

Aufgaben mit gebundenem Antwortformat

Auswahlaufgaben

—> Distraktoren sollen unwissende Testperson auf falsche Fährte fügen
—> gute Distraktoren bewirken niedrige Ratewahrscheinlichkeit
—> Wichtigkeit der Distraktorenanalyse
—> minderwertige Distraktoren: sprachlich wenig sorgfältig ausgearbeitet, grammatikalisch nicht zum Aufgabenstamm passend, Muster/ Formen verwenden die nicht vorkommen

Aufgaben mit gebundenem Antwortformat

Disjunktion der Antwortalternativen

—> Eindeutigkeit der Richtigantwort muss gegeben sein
—> Persönlichkeitstests: Exhaustivität der Antwortalternativen wichtig
—> Leistungstests: Exhaustivität der Antwortalternativen nicht notwendig
—> sinnvolle Begrenzung der Alternativen

Aufgaben mit gebundenem Antwortformat

Disjunktion der Antwortalternativen
dichotom

2 Alternativen (z.B. stimmt/ stimmt nicht)
—> Vorteil: einfach, ökonomisch in Instruktion, Durchführung, Auswertung
—> Nachteil: Ratewahrscheinlichkeit 50%

Aufgaben mit gebundenem Antwortformat

Disjunktion der Antwortalternativen
Mehrfachauswahl

(Multiple-Choice) = mit einer vs. mehreren richtigen Antworten
—> mehrere richtig Nachteil: Kodierung Richtigantworten schwieriger

Aufgaben mit gebundenem Antwortformat

Disjunktion der Antwortalternativen
Forced-Choice-Formatl

= am ehesten zutreffende Antwort wählen, nichts passt genau
—> Vorteil: geringe Ratewahrscheinlichkeit
—> Nachteil: Mangel bei Distraktorkonstruktion verursachen Verzerrungen

Beurteilungsaufgaben

kontinuierliche Beurteilungsskalen
diskrete Beurteilungsskalen: Likert Skala
Stufenantwortaufgbe = Ratingskala mit > 2 abgestuften Beurteilungskategorein
Analogskale = ohne Abstufung, diskret
visuelle Analogskala für Beurteilungskontinuum
konkrete Angaben zur Abstufung = diskret gestufte oder geordnet kategoriale Ratingskala
kein Informationsgewinn bei extrem vielen Skalenpunkten
optimal = 5-7 Skalenstufen

unipolare vs. bipolare Antwortskalen

bipolar = geht auch ins negativ
unipolar = beginnt bei 0

Bezeichnung der Skalenpunkte

—> Ratingskala mit numerischen Skalenpunkten (z.B. -5 bis +5)
—> Ratingskala mit verbalen Skalenpunkten (Abb.)
—> optische Skala/ Symbolskalen

Beurteilungsaufgaben Vor- und Nachteile

Vorteile Beurteilungsaufgaben —> leicht handhabbar, ökonomisch, Bearbeitungszeit kurz, kein umdenken nötig
Nachteile Beurteilungsaufgaben —> bei Zahlen nur ordinalskaliert,

Aufgaben mit atypischem Antwortformat

z.B. Zahlen-Verbindungs-Test, WISC-IV, Design a Matrix-Advanced

Computerbasiertes Assessment: Definition und Übersicht

gezieltes Sammeln von empirischen Infos mit Computer für Schlussfolgerungen
PISA auf computerbasiertes Assessment umgestellt
Assessment mit Big-Data
—> Big Data = große Mengen an Daten für Assessmentzwecke
—> Aktivitäten in sozialen Netzwerken als Datenbasis für Assessment
Assessmentzyklus (s. Abb.)

Testentwicklung: Testzusammenstellung und -sequenzierung

Sequenzierung computerisierter Fragebogen

—> Sprungregeln = Verzweigung, um unpassende Fragen zu vermeiden
—> Filterregeln = automatisch azsgeschlossen —
> branching = Verzweigung in unterschiedlichen Abschnitten computerisiertes Instrument

Testadministration - PC basiert

Aktivitätsauswahl —> automatische Itemgenerierung
Präsentation: offline vs. online
Evidenzidentifikaton: Antwortbewertung (Evidenz) z.B. automatisch vorgenommen
Evidenzakkumulation: Aggregation der Bewertungen auf Itemebene, einfache Aufsummierung

Datenmatrix

Datenmatrix = kodierte Antworten (Itemwerte y) von n Testpersonen auf m Items
einfache Kodierung: bei Leistungstests 0 = falsche Lösung, 1 = richtige Lösung

Schwierigkeitsindex P

… eines Items I = Quotient aus tatsächlich erreichter Punktsumme aller n Testpersonen und max. erreichter Punktsumme aller n Testperson
inhaltliche Interpretation des Schwierigkeitsindex
—> SI umso größer je mehr Testpersonen ein Item lösen konnten
—> P = somit Leichtigkeit des Item i, nicht Schwierigkeit

Schwierigkeitsbestimmung bei Leistungstests

richtig beantwortet (R-Antworten), falsch (F-Antworten), unbearbeitet (U-Antworten), übersprungen (A-Antworten)

Itemvarianz

= Maß für Differenzierungsfähigkeit eines Items i in Stichprobe

niedrige Varianz = p = 9/10 (Lösungswahrscheinlichkeit)
hohe Varianz = p = 5/10
mittlere Varianz = p = 2/10
keine Varianz = p = 0/10

Trennschärfe

= Trennschärfe (rit) eines Items i = wie groß Korrelation zwischen Variablen Itemwerte yi der Testperson und Testwertvariablen Y

deskriptive Trennschärfe = als Korrelation berechnet und zwischen -1 und 1

Trennschärfe - Interpretation

Trennschärfe hoch positiv: Item i von Testperson mit hohem Testwert (hohe Merkmalsausprägung) gelöst, von Personen mit niedrigem Testwert nicht —> messgenau, gut valide
Trennschärfe nahe null: mit Item erzielte Differenzierung = keinen Zusammenhang mit Differenzierung durch Gesamttest —> Item ungeeignet zwischen hoher/ niedriger Merkmalsausprägung zu unterscheiden
Trennschärfe hoch negativ: Item i wird von Testperson mit niedriger Merkmalsausprägung gelöst, von Personen mit hoher MA nicht —> z.B. Mangel bei Instruktion, Itemformulierung

Itemselektion auf Basis von Itemschwierigkeit, Itemvarianz

Selektion nach Itemschwiergikeit
—> am besten P = 50, Schwierigkeiten mit 0 und 100 aussortieren
Selektion nach Itemvarianz und Trennschärfe
—> hohe Trennschärfe durch hohe Itemvarianz begünstigt
—> hohe Itemvarianz alleine nicht gleich hohe Trennschärfe —
> niedrige Trennschärfen können aus Mehrdimensionalität hinweisen

Modus/ Modalwert

bei nominalskalierten Daten lässt sich nur prüfen, ob 2 Werte gleich sind oder nicht
Modus = am häufigsten vorkommender Wert
—> 1 Modalwert = unimodale, 2 = bimodale, mehrere = multimodale Verteilung

Median

ab Ordinalskalenniveau
Wert der von Hälfte der Testperson unterschritten, anderer Hälfte überschritten wird

Mittelwert

Y Strich

= arithmetisches Mittel, ab intervallskaliert

Zentrale Tendenz der Testverteilung - nennen

Modus
Median
Mittelwert

Streuung

Spannweite/ Range = Differenz aus höchstem Testwert (Ymax) und niedrigstem (Ymin)
Interquartilabstand (IQR(Y))
—> bei Ordnialskalen, Differenz Testwert der von 25% der Personen überschritten wird und der von 25% unterschritten wird
—> IQR = indem man von 75% Quantil (Q75) das 25% Quantil (Q25) abzieht
Testwertvarianz = bei intervallskalierten Testwerten
—> Y Strich = Mittelwert
—> Standardabweichung SD(Y) = Quadratwurzel aus Varianz

Schiefe

Schiefe/ Exzess = ob Form Testverteilung von Normalverteilung abweicht
Berechnung Schiefe
linksschief/ rechtssteil (Werte größer als MW) vs. rechtsschief/ linkssteil
logarithmische Testwerttransformation zur Reduzierung der Schiefe
—> Exzess (Y) = 0 = Gaußsche Glockenkurve (mesokurtische Verteilung)
—> (Y) > 0 = schmale, spitze Verteilung (leprokurtisch, supergaußsche)
—> (Y) < 0 = flache Verteilung (platykurtisch, subgaußisch)

Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung

Konstruktionsmängel = Aufgaben zu leicht oder zu schwer, zu wenig Varianz
heterogene Stichproben = Stichprobe weicht von Normalverteilung ab
nicht normalverteilte Merkmale

Disjunction der antwortalternativen

dichotom
Mehrfachsuswahl
Forced-choice

Join Course

Preview

Author

Desi T.

Information

Last changed
2 years ago

Report course