Buffl

03 Itementwicklung und Testentwurf

ND
von Nipu D.

3. Itementwicklung und Testentwurf

3.7. Itemformat: Validität in Abhängigkeit der Antwortkategorien


Während Reliabilitätsschätzer(!) mit der Anzahl der Itemkategrien anstiegen, gilt das nicht für die Kriteriumsvalidität!


eine kleinere Anzahl von Antwortoptionen führt, trotz geringerer

psychometrische Genauigkeit, nicht zu einer geringeren Validität, wie es von der klassischen Testtheorie erwartet warden würde(z.B.

Gulliksen, 1950; Crocker & Algina, 1986; McDonald, 1999)

Was bedeutet das?

Realibilität steigt mit mehr Antwortkategorien, aber das bedeutet nicht automatisch, dass auch die Kriteriumsvalidität besser wird.


Eine Kleinere Anzahl von Antwortoptionen führt zwar zu einer weniger präzisen Messung (geringere psychometrische Genauigkeit) aber nicht zu einer geringeren Validität.


Die klassische Testtheorie hätte erwartet, dass eine geringere Anzahl von Antwortmöglichkeiten auch zu einer niedrigeren Validität führt, das ist aber laut moderner Forschung nicht unbedingt der Fall.


ALSO: Mehr Antwortkategorien verbessern die Reliabilität, aber nicht unbedingt die Validität eines Tests.


(Kriteriumsvalidität: Gibt an, wie gut ein Test ein bestimmtes Kriterium vorhersagen kann, zb ob ein Intelligenztest den späteren Berufserfolg vorhersagt.


(Psychometrische Genauigkeit: Beschreibt, wie präzise ein Test misst, also wie fein Unterschiede zwischen Personen erfasst werden. Sie hängt oft mit der Anzahl der Antwortkategorien zusammen.


(Reliabilität= Die Reliabilität ist die Zuverlässigkeit eines Tests, also wie genau und konsistent er misst. Ein Test mit hoher Reliabilität liefert bei wiederholter Messung ähnliche Ergebnisse. )

3. Itementwicklung und Testentwurf

3.7. Itemformat: Reliabilität in Abhängigkeit der Antwortkategorien


Die Änderung der Anzahl der Antwortmöglichkeiten…


Welche Auswirkungen hat die Anzahl der Antwortmöglichkeiten auf:

die Skalennormen?

die Messgenauigkeit?



Die Änderung der Anzahl der Antwortmöglichkeiten…

… hat Auswirkungen auf die Skalennormen

• größere Unterschiede bei Skalen mit weniger Optionen

• Eine einfache Anpassung veröffentlichter Normen zur Berücksichtigung von Änderungen in den Antwortoptionen ist problematisch.


…hat Einfluss auf die Messgenauigkeit:

• Besonders bei Skalen mit 2-3 Antwortmöglichkeiten (und in geringerem Maße

4-5 Optionen)

• Ausgleich durch Einsatz von mehr Items à Kompromiss zwischen Einfachheit und Messgenauigkeit


… Auf über 6 Möglichkeiten führt zu keinen Verbesserungen der

Messgenauigkeit à nutzlos

• Ursache wohl kognitive Faktoren, d.h. die Fähigkeit der Teilnehmenden, bei mehr Antwortmöglichkeiten feine Unterscheidungen zu treffen


Verständlich zusammengefasst:

Mehr oder weniger Antwortmöglichkeiten beefinlussen die Testergebnisse: Weniger Antwortoptionen führen zu größeren Unterschieden zwischen den Skalenwerten.

Daher ist es schwierig, bestehende Normen einfach anzupassenm wenn sich die Antwortmöglichkeiten ändern.


Wenige Antwortmöglichkeiten zb 2-3 verschlechtern die Messgenauigkeit: ein test mit nur wenigen antwortoptionen ist weniger präzise. Das kann durch mehr items ausgeglichen werden, aber das macht den Test länger


Mehr als 6 Antwortoptionen bringen keine zusätzliche Verbesserrung: Ab einer bestimmten Anzahl (über 6) können Menschen feine Unterschiede nicht mehr gut erfassen.

Daher ist es NUTZLOS , noch mehr Abstufungen zu verwenden.


Hauptaussage: Die Anzahl der Antwortmöglichkeiten sollte gut überlegt sein, zu wenige machen den Test ungenau, zu viele bringen keinen Vorteil.


3. Itementwicklung und Testentwurf

3.7 Itemformat

Problem der Ratewahrscheinlichkeit bei Mehrfach-Wahlaufgaben

Ratewahrscheinlichkeit= Wahrscheinlichkeit, zufällig die richtige(n) antwort(en) zu wählen.

Je mehr Antwortmöglichkeiten es gibt, desto niedriger ist die Ratewahrscheinlichkeit.

Bei einer richtigen Antwort:

1 aus 3—>Es gibt 3 3 Antwortmöglichkeiten, aber nur eine ist richtig —>Ratewahrscheinlichkeit = 33% (1/3)

1 aus 4 —> Es gibt 4 Antwortmöglichkeiten, aber nur eine ist richtig —>Ratewahrscheinlichkeit = 25% (1/4)

1 aus 5 —> Es gibt 5 Antwortmöglichkeiten , aber nur eine ist richtig—>Ratewahrscheinlichkeit = 20% (1/5)

Ratewahrscheinlichkeit bei x richtigen Antworten:

2 aus 4 —> Es gibt 4 Antwortmöglichkeiten , aber 2 sind richtig —>Ratewahrscheinlichkeit = 16.6%

2 aus 5 —>Es gibt 5 Antwortmöglichkeiten aber 2 sind richtig

—>Ratewahrscheinlichkeit= 10%

• Eine Erhöhung der Anzahl der richtigen Lösungen von 1 auf 2 bei selber

Distraktorenanzahl senkt die Ratewahrscheinlichkeit!

(Wenn die anzahl der richtigen Antworten steigt, sinkt die Ratewahrscheinlichkeit noch weiter.

Beispiel: Eine Aufgabe mit zwei richtigen Lösungen aus 5 Antwortmöglichkeiten hat nur eine Ratewahrscheinlichkeit von 10%.

Fazit: Mehr antwortmöglichkeiten= geringere chance, zufällig richtig zu raten.

Mehrere richtige antworten = noch geringere ratewahrscheinlichkeit , da es mehr kombinationen gibt.

durch eine clevere gestaltung von Mehrfach-wahlaufgaben kann die Ratewahrscheinlichkeit verringert und die Testqualität verbessert werden).

3. Itementwicklung und Testentwurf

3.7 Itemformat

Reihenfolgeeffekte und logisch abhängige Items

Was sind Reihenfolgeeffekte und logisch abhänginge Items?

  • • Abhängig von der Position kann die Antwort auf ein Item zwischen Versuchspersonen variieren

  • (Reihenfolgeeffekte bedeuten, dass die Position eines Items die antworten der versuchspersonen beeinflussen kann)

    • Eine vorausgegangene Aufgabe darf keine Lösungshinweise für die darauffolgende Aufgabe geben

    • Bei Persönlichkeitstests können Pufferitems Reihenfolgeeffekte reduzieren

(Erklärung mit Beispiel aus der Folie):

Reihenfolgeeffekte bedeuten, dass die Position eines items innerhalb eines tests die antworten beeinflussen kann. dh wenn eine frage früher oder später im test erscheint, könnte sie anders beantwortet werden.

Warum passiert das? = Menschen neigen dazu, vorherige Fragen unbewusst in ihre Antworten einfließen zu lassen. Wenn eine Frage vorher schon ein bestimmtes thema aufgreift, kann das beeinflussen ,wie eine spätere frage beantwortet wird.

Zb wenn eine frage zu optimismus kommt “ich erwarte das beste” könnte das beeinflussen, wie man eine spätere frage zu sorgen oder ängsten beantwortet.

was kann man dagegen tunß

Tests sollten so gestaltet sein, dass vorherige fragen keine lösungshinweise für spätere frageb geben.

in persönlichkeitstests kann man PUFFERITEMS (also zusätzliche neutrale fragen) einsetzen, um diesen Effekt zu reduzieren.

Fazit: Die reihenfolge der fragen ist in einem Test wichtig, weil sie unbewusst das antwortverhalten beeinflussen kann.

beispiel aus der folie: das zweite item könnte bewusst dazwischen eingefügt sein, um reihenfolgeeffekte zu reduzieren, also könnte es ein Pufferitem sein

3. Itementwicklung und Testentwurf

3.8 Itemauswahl

was zeigt das beispiel?

das hatte der in der Klausur gelbes Beispiel mit der Discobox

das beispiel zeigt das rpoblem von “modern Talkin items” also inhaltsgleichen items die alle fast das gleiche messen und dadurch den test verzerren können.

Linke Seite: Problematische itemauswahl

Alle 5 items beziehen sich nämlich darauf , abends auszugehen.

Problem: Diese items messen alle nur einen Kleinen teilaspekt von Extraversion (nämich abends ausgehen)

wenn eine person diesem aspekt zustimmt, bekommt sie automatisch einen hohen extraversionstestwert , auch wenn sie andere merkmale von extraversion zb durchsetzungsfähigkeit gar nicht besitzt.

das schränkt die inhaltsvalidität ein, weil extraversion viel mehr umfasst als nur das ausgehverhalten.

rechte seite:

bessere itemauswahl

weil hier sind die items vielfältiger und messen unterschiedliche facetten von extraversion.

diese auswahl ist besser, weil sie verschiedene aspekte von extraversion abdeckt , nicht nur das ausgehverhalten.

dadurch ist der testwert repräsentativer für das gesamte konstrukt extraversion.

Fazit: schlechte tests enthalten viele inhaltsgleiche fragen —> eine einzelne eigenschfat (zb ausgehen) bestimmt das gesamtergebnis.

gute tests enthalten eine breite mischung an items, um das gesamte konstrukts abzubilden.

Folge von Modern Talking Items= der test misst nicht wirklich , was er vorgibt zu messen, weil er zu einseitig ist.

(das gelbe item “ich tanze gerne auf der discobox”) unten ist in beiden skalen enthalten, aber in unterschiedlichem Kontext:

Links: (problematische skala mit modern talking items): das item “ich tanze gerne auf der disco box “ gehört zur gruppe der abends ausgehen- items. es verstärkt das problem, dass die skala zu einseitig ist und fast nur das ausgehverhalten misst.

rechts: bessere skala mit vielfältigen items)

das gleiche item ist hier ein teil eines breiteren spektrums von extraversion. weil die anderen items verschiedene aspkete von extraversion messen ( zb durchsetzungsfähigkeit, geselligkeit, risikofreude ) ist es nicht mehr problematisch.

fazit: das item an sich ist nicht falsch, aber wenn es in einer unausgewogenen skala mit zu ähnlichen items steht, trägt es zur verzerrung bei. in einer vielfältigen skala hingegen ergänzt es andere aspekte sinnvoll.

Author

Nipu D.

Informationen

Zuletzt geändert