Antwortformate
Aufgaben mit freiem Antwortformat
keine Antwortalternativen vorgegeben
Qualität der Kodierung beeinflusst Auswertungsobjektivität
Kurzaufsatzaufgaben: Antworten in Form von Kurzsätzen, Wörter begrenzen sinnvoll
—> Vorteile: selbst erzeugte Antwort entsteht
—> Nachteil: hoher Aufwand bei Durchführung, Auswertung + Objektivitätsmangel
Ergänzungsaufgaben (Completion Tests, C-Tests) —> Vorteil: geringe Ratewahrscheinlichkeit —> Nachteil: erfassen nicht intendierte Inhalte
Aufgaben mit gebundenem Antwortformat
Testperson mit aus vorgegebenen Antwortalternativen wählen
Vorteile: Antworterfassung ökonomisch und eindeutig
Nachteile: Alternativen zu knapp, eng empfunden
Ordnungsaufgaben
Auswhalaufgaben
Disjunktion der Antwortalternativen
—> Zuordnungsaufgaben: Zuordnen von Elementen
—> Vorteile: geringe Ratewahscheinlichkeit, wenn mehrere Distraktoren vorhanden
—> Nachteile: Wiedererkennungsleistung erforderlich
—> Umordnungsaufgaben: erfordern Auffinden sinnvolle Reihung
—> Postkorbaufgaben: Umordnungsaufgabe, ungeordnete Schriftstücke in Reihenfolge bringen (Dringlichkeit)
—> Vorteile: geringe Abhängigkeit von Lesefähigkeit, Nachteil: Materialverbrauch
Auswahlaufgaben
—> Distraktoren sollen unwissende Testperson auf falsche Fährte fügen
—> gute Distraktoren bewirken niedrige Ratewahrscheinlichkeit
—> Wichtigkeit der Distraktorenanalyse
—> minderwertige Distraktoren: sprachlich wenig sorgfältig ausgearbeitet, grammatikalisch nicht zum Aufgabenstamm passend, Muster/ Formen verwenden die nicht vorkommen
—> Eindeutigkeit der Richtigantwort muss gegeben sein
—> Persönlichkeitstests: Exhaustivität der Antwortalternativen wichtig
—> Leistungstests: Exhaustivität der Antwortalternativen nicht notwendig
—> sinnvolle Begrenzung der Alternativen
dichotom
2 Alternativen (z.B. stimmt/ stimmt nicht)
—> Vorteil: einfach, ökonomisch in Instruktion, Durchführung, Auswertung
—> Nachteil: Ratewahrscheinlichkeit 50%
Mehrfachauswahl
(Multiple-Choice) = mit einer vs. mehreren richtigen Antworten
—> mehrere richtig Nachteil: Kodierung Richtigantworten schwieriger
Forced-Choice-Formatl
= am ehesten zutreffende Antwort wählen, nichts passt genau
—> Vorteil: geringe Ratewahrscheinlichkeit
—> Nachteil: Mangel bei Distraktorkonstruktion verursachen Verzerrungen
Beurteilungsaufgaben
kontinuierliche Beurteilungsskalen
diskrete Beurteilungsskalen: Likert Skala
Stufenantwortaufgbe = Ratingskala mit > 2 abgestuften Beurteilungskategorein
Analogskale = ohne Abstufung, diskret
visuelle Analogskala für Beurteilungskontinuum
konkrete Angaben zur Abstufung = diskret gestufte oder geordnet kategoriale Ratingskala
kein Informationsgewinn bei extrem vielen Skalenpunkten
optimal = 5-7 Skalenstufen
unipolare vs. bipolare Antwortskalen
bipolar = geht auch ins negativ
unipolar = beginnt bei 0
Bezeichnung der Skalenpunkte
—> Ratingskala mit numerischen Skalenpunkten (z.B. -5 bis +5)
—> Ratingskala mit verbalen Skalenpunkten (Abb.)
—> optische Skala/ Symbolskalen
Beurteilungsaufgaben Vor- und Nachteile
Vorteile Beurteilungsaufgaben —> leicht handhabbar, ökonomisch, Bearbeitungszeit kurz, kein umdenken nötig
Nachteile Beurteilungsaufgaben —> bei Zahlen nur ordinalskaliert,
Aufgaben mit atypischem Antwortformat
z.B. Zahlen-Verbindungs-Test, WISC-IV, Design a Matrix-Advanced
Computerbasiertes Assessment: Definition und Übersicht
gezieltes Sammeln von empirischen Infos mit Computer für Schlussfolgerungen
PISA auf computerbasiertes Assessment umgestellt
Assessment mit Big-Data
—> Big Data = große Mengen an Daten für Assessmentzwecke
—> Aktivitäten in sozialen Netzwerken als Datenbasis für Assessment
Assessmentzyklus (s. Abb.)
Testentwicklung: Testzusammenstellung und -sequenzierung
Sequenzierung computerisierter Fragebogen
—> Sprungregeln = Verzweigung, um unpassende Fragen zu vermeiden
—> Filterregeln = automatisch azsgeschlossen —
> branching = Verzweigung in unterschiedlichen Abschnitten computerisiertes Instrument
Testadministration - PC basiert
Aktivitätsauswahl —> automatische Itemgenerierung
Präsentation: offline vs. online
Evidenzidentifikaton: Antwortbewertung (Evidenz) z.B. automatisch vorgenommen
Evidenzakkumulation: Aggregation der Bewertungen auf Itemebene, einfache Aufsummierung
Datenmatrix
Datenmatrix = kodierte Antworten (Itemwerte y) von n Testpersonen auf m Items
einfache Kodierung: bei Leistungstests 0 = falsche Lösung, 1 = richtige Lösung
Schwierigkeitsindex P
… eines Items I = Quotient aus tatsächlich erreichter Punktsumme aller n Testpersonen und max. erreichter Punktsumme aller n Testperson
inhaltliche Interpretation des Schwierigkeitsindex
—> SI umso größer je mehr Testpersonen ein Item lösen konnten
—> P = somit Leichtigkeit des Item i, nicht Schwierigkeit
Schwierigkeitsbestimmung bei Leistungstests
richtig beantwortet (R-Antworten), falsch (F-Antworten), unbearbeitet (U-Antworten), übersprungen (A-Antworten)
Itemvarianz
= Maß für Differenzierungsfähigkeit eines Items i in Stichprobe
niedrige Varianz = p = 9/10 (Lösungswahrscheinlichkeit)
hohe Varianz = p = 5/10
mittlere Varianz = p = 2/10
keine Varianz = p = 0/10
Trennschärfe
= Trennschärfe (rit) eines Items i = wie groß Korrelation zwischen Variablen Itemwerte yi der Testperson und Testwertvariablen Y
deskriptive Trennschärfe = als Korrelation berechnet und zwischen -1 und 1
Trennschärfe - Interpretation
Trennschärfe hoch positiv: Item i von Testperson mit hohem Testwert (hohe Merkmalsausprägung) gelöst, von Personen mit niedrigem Testwert nicht —> messgenau, gut valide
Trennschärfe nahe null: mit Item erzielte Differenzierung = keinen Zusammenhang mit Differenzierung durch Gesamttest —> Item ungeeignet zwischen hoher/ niedriger Merkmalsausprägung zu unterscheiden
Trennschärfe hoch negativ: Item i wird von Testperson mit niedriger Merkmalsausprägung gelöst, von Personen mit hoher MA nicht —> z.B. Mangel bei Instruktion, Itemformulierung
Itemselektion auf Basis von Itemschwierigkeit, Itemvarianz
Selektion nach Itemschwiergikeit
—> am besten P = 50, Schwierigkeiten mit 0 und 100 aussortieren
Selektion nach Itemvarianz und Trennschärfe
—> hohe Trennschärfe durch hohe Itemvarianz begünstigt
—> hohe Itemvarianz alleine nicht gleich hohe Trennschärfe —
> niedrige Trennschärfen können aus Mehrdimensionalität hinweisen
Modus/ Modalwert
bei nominalskalierten Daten lässt sich nur prüfen, ob 2 Werte gleich sind oder nicht
Modus = am häufigsten vorkommender Wert
—> 1 Modalwert = unimodale, 2 = bimodale, mehrere = multimodale Verteilung
Median
ab Ordinalskalenniveau
Wert der von Hälfte der Testperson unterschritten, anderer Hälfte überschritten wird
Mittelwert
Y Strich
= arithmetisches Mittel, ab intervallskaliert
Zentrale Tendenz der Testverteilung - nennen
Modus
Streuung
Spannweite/ Range = Differenz aus höchstem Testwert (Ymax) und niedrigstem (Ymin)
Interquartilabstand (IQR(Y))
—> bei Ordnialskalen, Differenz Testwert der von 25% der Personen überschritten wird und der von 25% unterschritten wird
—> IQR = indem man von 75% Quantil (Q75) das 25% Quantil (Q25) abzieht
Testwertvarianz = bei intervallskalierten Testwerten
—> Y Strich = Mittelwert
—> Standardabweichung SD(Y) = Quadratwurzel aus Varianz
Schiefe
Schiefe/ Exzess = ob Form Testverteilung von Normalverteilung abweicht
Berechnung Schiefe
linksschief/ rechtssteil (Werte größer als MW) vs. rechtsschief/ linkssteil
logarithmische Testwerttransformation zur Reduzierung der Schiefe
—> Exzess (Y) = 0 = Gaußsche Glockenkurve (mesokurtische Verteilung)
—> (Y) > 0 = schmale, spitze Verteilung (leprokurtisch, supergaußsche)
—> (Y) < 0 = flache Verteilung (platykurtisch, subgaußisch)
Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung
Konstruktionsmängel = Aufgaben zu leicht oder zu schwer, zu wenig Varianz
heterogene Stichproben = Stichprobe weicht von Normalverteilung ab
nicht normalverteilte Merkmale
Disjunction der antwortalternativen
Mehrfachsuswahl
Forced-choice
Last changed2 years ago