Itementwicklung und Testentwurf
Übersicht
3.1 Einführung
3.2 Testziel
3.3 Konstruktionsstrategie
3.4 Zielgruppe
3.5 Art des Tests bzw. der Indikatoren
3.6 Itemformulierung
3.7 Itemformat
3.8 Itemauswahl
3.9 Synposis
Lernziel: Kenntnisse über grundlegende Entscheidungen und deren Auswirkungen vor dem Beginn einer Testkonstruktion
3. Itementwicklung und Testentwurf
Was ist der Nächste Schritt nach dem Erstellen der Arbeitsdefinition ?
Einfluss auf Form und Inhalt eines Tests haben:
Nächster Schritt nach dem Erstellen der Arbeitsdefinition ist die
Entwicklung eines Testentwurfs
Einfluss auf Form und Inhalt eines Test haben:
• Testziel
• Konstruktionsstrategie
• Zielgruppe
• Art des Tests bzw. der Indikatoren
• Itemformulierung
• Itemformat
• Itemauswahl
Wie erfolgt die Bestimmung der Merkmalsausprägung?
• Latentes Konstrukt soll anhand von Indikatoren gemessen werden (reflexive Messung)
• Normorientiertes Testen („...den relativen Grad der individuellen Merkmalsausprägung“)
• Haupt- und Nebengütekriterien von besonderer Relevanz
Wie erfolgt die Gruppentrennung?
• Bsp. Behandlungsbedürftige vs. Gesunde (Blut-Spritzen-Verletzungsphobie)
• Annahme einer latenten Eigenschaft weniger wichtig
• Wichtig herauszufinden, worin genau sich die Gruppen unterscheiden
• Kriteriumsorientierte Tests: Vergleich mit einem zu erreichenden Kriteriumswert
• Formative Messung (Index)
• Manche Gütekriterien nicht anwendbar
Sonderfall Wissenstest
• Sowohl reflexive als auch formative Indikatoren möglich
• Inhaltsvalidität im Vordergrund
Was ist die rationale (deduktive ) Testkonstruktion?
Voraussetzung: gut ausgearbeitete Theorie über das zu untersuchende Konstrukt
Items werden aus der Theorie abgeleitet (zb. aus dem nomologischen Netz und der Arbeitsdefinition)
Deduktiv, weil vom Allgemeinen = “Höheren” (Theorie) zum Spezifischen = “Tieferen” (Items) hingeführt wird.
Beispiel: IST 2000 R (Liepmann, Beauducel, Brocke & Amthauer, 2007): fluide und
kristalline Intelligenz, verschiedene Facetten
Was ist die Externale (kriteriumsorientierte) Testkonstruktion?
Fokus : Gruppentrennung —>Suche nach Items, die am besten differenzieren
Keine Theorie als Grundlage der Itementwicklung
Meist liegt die Arbeitsdefinition und nomologisches Netz vor —>spezifieren, durch welche Eigenschaften und Verhaltensweisen sich die Gruppe unterscheiden.
Items gehören oft verschiedenen Konstrukten an—>Keine Eindemensionalität
Bsp. Minnesota Multiphasic Personality Inventory (MMPI)
- Mein Sexualleben ist zufrieden stellend (Psychopathieskala)
- Ich lese gerne Zeitungsartikel über Gerichts- und Kriminalfälle (Hysterieskala)
Was ist die induktive Testkonstruktion?
Bei Konstruktionsbeginn liegt meist keine ausgearbeitete Theorie vor
Induktiv, weil vom Spezifischen (Items) auf das Allgemeine (Faktor) geschlossen wird.
Vorgabe einer großen Itemmenge zu einem Konstruktbereich an eine Stichprobe
Exploration der latenten Struktur mittels Faktorenanalyse (“blindanalytische” Itemgruppierung) —> Anzahl und Inhalt der Konstrukte
Arbeitsdefinition und nomologisches Netz entstehen als Ergebniss der Analyse
Ziel: Finden von Dimensionen (Faktoren), die den Itemantworten zugrunde liegen
Entwicklug eines theoretischen Modells
Beispiel: Big 5 (➜ Sedimentationshypothese)
Was ist der Prototypenansatz der Testkonstruktion?
Menschen haben prototypische Vorstellungen davon, durch welche Verhaltensweisen sich bestimmte Persönlichkeitseigenschaften manifestieren.
Ausgangspunkt: Arbeitsdefinition oder nomologisches Netz
Personen werden gebeten, ihre prototypischen Vorstellungen zu äußern —> Grundlage der Testitems
Verfahren hauptsächlich für Persönlichkeitsfragebögen geeignet
Act-Frequency-Approach (Buss & Craik, 1983):
—>Zufällige Auswahl von Personen aus der Zielpopulation des Tests
Aufgabe: An bestimmte Personen denken, welche sehr oder wenig prototypisch für die Eigenschaft ist (Beispiel Narzissmus)
Beschreibung der Verhaltensweisen
—>Itementwicklung
Wie lassen sich die verschiedenen Testkonstruktionsstrategien vergleichen?
Keine der Strategien hat einen Vorteil bezüglich der Validität des späteren Tests
Oft sinnvoll, verschiedene Methoden zu kombinieren zum Beispiel:
Rationale + induktive Strategie
Prototypenansatz + rationale oder induktive Strategie
Laut Burisch (1984) ist die rationale Strategie die ökonomischste
Sonderstatus für die externale Methode, da Gruppentrennung im Vordergrund steht und nicht die inhaltsvalide Erfassung eines bestimmten Konstrukts
Warum ist die Zielgruppe für einen Test wichtig ?
bzw. Welche Zielgruppe soll den Test später bearbeiten?
Das C im ABC der Testkonstruktion
Znetrale Frage: Welche Merkmale der Zielgruppe sind für die Testbearbeitung relevant?
Format, Itemschwierigkeit und itemformulierung des Tests sollten an folgende Faktoren angepasst sein:
Alter
Bildungsstand
Spektrum der Merkmalsausprägung
Niveau der Sprachbeherrschung
Erlebens- und Verhaltensspektrum der Zielgruppe
Anpassung an Sprachkompetenz der Zielgruppe
Erfolgt dies nicht —>Werden Items nicht oder falsch verstanden —>Reduktion der Validität
Einsatz von kognitiven Interviewtechniken
Die Items und der Test solten für die gesamte Zielgruppe fair sein
Überprüfung mittels Rasch-Modell möglich
Wie erfolgt die Festlegung der Art der Indikatoren?
Soll der Test das Konstrukt anhand objektiver oder subjektiver Indikatoren erfassen? (Cattell, 1958)
Testantworten sind eindeutig richtig / falsch —>T-Daten (zb Intelligenz, Schulleistung, Konzentration etc)
—>Objektive Indikatoren
Daten aus Fragebögen —> Q-Daten (zb Persönlichkeit)
—>Subjektive Indikatoren
Richtlinien zur Itemformulierung
Waorauf ist bei der Itemformulierung zu achten?
Itemformulierung auf Grundlage von Arbeitsdefinition und nomologischem Netz
Anpassung der Items an Merkmale der Zielgruppe:
Erfahrungshintergrund
Bildung (!!!!)
Itempolung (positiv vs. negativ)
Doppelte Verneinungen vermeiden! („Ich würde mich nicht als jemanden bezeichnen, der nicht traurig ist.“)
Verständnisschwierigkeiten vermeiden —> Seltene Wörter und Fremdwörter vermeiden
Welche zusätzlichen Aspekte sind bei der Messung von Verhaltenshäufigkeiten wichtig?
Genaue Definition des Ereignisses, damit die Frage richtig interpretiert wird
—>Was bedeutet “depressive Stimmung”?
Referenzzeitrahmen passend zum Ereignis wählen
Lange Zeiträume (“… innerhalb der letzten 12 Monate”)
—>Personen gehen davon aus, dass eher seltene oder wichtige Ereignisse abgefragt werden
Kurze Zeiträume —> Alltagsereignisse werden erinnert
Wahl des passenden Antwortformats
—>Was bedeutet “selten” oder “häufig” ?
Welche zusätzlichen Richtlinien gelten für die Itemformulierung ?
Items mit unterschiedlichen Schwierigkeiten verwenden!
Das B und C des ABC beachten
Keine Items verwenden, die nicht zwischen Personen differenzieren!
Bei jedem Item prüfen, wie es ins nomologosche Netzt passt !
Das itemformat sollte an das Ziel des Tests angepasst sein:
dh: Einfache Ziele —> Einfache Items
Speedtest —>Leicht verständliche Items
Intelligenztest —>Breites Spektrum an Schwierigkeiten
➜ So sollten die Items in einem Speedtest möglichst einfach gestaltet sein, wohingegen die Aufgaben eines Intelligenztests ein breites Spektrum an Schwierigkeiten abdecken sollten, um das komplexe Konstrukt der Intelligenz adäquat in allen Fähigkeitsbereichen zu erfassen.
Gebundenes Format: Ratingskalen
Was zeichnet das gebundene Itemformat “Ratingskala” aus?
Verschiedene Abstufungen der Häufigkeit, Itensität etc. als Antwortkategorie
Ermöglichen quantitative Beurteilung der Eigenschaftsausprägung einer Person
Meist ordinalskaliert
Bsp: Es ist mir wichtig, nicht nervös zu erscheinen.
Antwortmöglichkeiten: Stimme völlig zu, stimme ziemlich zu, stimme teils teils zu, stimme wenig zu, stimme gar nicht zu
Welche Vor- und Nachteile haben Ratingskalen?
Vorteile:
-Durchführung und Auswertung sind ökonomisch
-Liefert differenzierte Informationen über den Ausprägungsgrad eines Merkmals
-Anpassbar an Untersuchungszweck und Differenzierungsfähigkeit der Testpersonen
Nachteile:
-Abstufungen werden subjektiv unterschiedlich aufgefasst
(—>wie oft ist “oft”? )
-Höhere Antwortkategorie bedeutet nicht immer höhere Merkmalsausprägung
-Anworttendenzen beeinflussen Ratings
Welche Entscheidungen sind bei der Konstruktion des Testentwurfs zu beachten?
Differenziertheitsgrad
Zahl der Antwortkategorien
Verwendung einer Mittelkategorie
Polarität
Bennung der Antwortalternativen
Anpassung der Itemschwierigkeit an die Zielgruppe
Wie beeinflusst der Differenziertheitsgrad der Items die Konstruktion eines Tests?
Wie viele Abstufungen sollen die Antwortmöglichkeiten haben?
Dreistufig? Vierstufig? Fünfstufig?
Je mehr Stufen (Antwortkategorien), desto besser die Differenzierung, aber nur, wenn die Abstufungen eindeutig sind und subjektiv nicht zu nahe beieinander liegen (Bsp. „manchmal“ und „gelegentlich“)
Validität und Reliabilität sind bei vier bis sieben Stufen deutlich besser als bei zwei oder drei Antwprtkategorien
Probleme durch Mittel- und Extremkreuzer sowie die Mittelkategorie.
3.itementwicklung und Testentwurf
Welche Sprachlichen Fehler sollten in Items vermieden werden?
3.6 Itemforumulierung
Welche formalen Aspekte sind bei der Itemformulierung wichtig ?
Welche Itemformate genauer: Antwortformate gibt es ?
Linkes Diagramm:
Das Diagramm zeigt den Cronbachs Alpha Wert (Alpha) in Abhängigkeit von der Anzahl der Antwortkategorien (x-Achse).
Mehr Antwortalternativen führen zu einer höheren Reliabilität (Cronbachs Alpha steigt)
Bei etwa 6-7 Antwortkategorien stabilisiert sich alpha und zeigt kaum noch Verbesserungen.
Die verschiedenen Linien (50,100,200,500 Fälle) zeigen, dass der Effekt unabhänigig von der Stichprobengröße auftritt.
Rechtes Diagramm:
Es zeigt wie viel Varianz (also Unterschiede in den Antworten) durch den ersten Hauptfaktor erklärt wird.
Je mehr Antwortkategorien es gibt, desto mehr Varianz wird erklärt, dh die Skala kann das zugrundeliegende Merkmal genauer messen.
Wichtig: Der Anstieg ist besonders stark zwischen 2 und 5 Antwortkategorien, danach flacht er ab.
Ab ca 6-7 Kategorien gibt es kaum noch verbesserungen, dh noch mehr kategorien bringen keinen großen vorteil.
Fazit: Mehr Antwortkategorien verbessern die Reliabilität und die erklärte Varianz - aber nur bis zu einem gewissen Punkt (ca 6-7 Kategorien)
zu wenige Antwortkategorien (zb 2-3) führen zu geringerer Reliabilität und weniger erklärter varianz.
Zu viele Antwortkategorien (zb größer 7 ) bringen kaum weitere verbesserungen.
Die Diagramme zeigen, wie verschiedene psychometrische Werte (Reliabilität, Validität., Korrelationen) von der Anzahl der Antwortkategorien (x-achse: 6 bis 2 Kategorien) beeinflusst werden.
Weniger Antwortkategorien verschlechtern psychometrische Eigenschaften.
Reliabilität (Cronbachs Alpha, IRT Reliability) nimmt mit weniger Antwortkategorien ab.
Validität und Inter-Item-korrelationen sinken ebenfalls bei weniger Kategorien.
Fazit: Mehr Antwortkategorien (4-6) sind besser für die Testgüte als nur 2-3 Kategorien!
Die Studie untersucht, warum Personen die Mittelkategorie in Likert Skalen wählen.
Was ist eine Mittelkategorie= Eine Mittelkategorie bedeutet einfach eine Antwortoption in der Mitte einer skala ,aber sie kann unterschiedliche Bedeutungen haben: zb weder zu stimmen noch ablehnen, unentschieden, weiß nicht, manchmal, gelegentlich, teilweise oder mittelwert, weder noch
Die wahl der mittelkategorie liegt häufiger am item selbst als an den eigenschaften der person.
menschen wählen die mittelkategorie oft, wenn das item unklar, zu komplex oder kontextabhängig ist.
Fazit: Die mittelkategorie kann Antwortverzerrungen verursachen, besonders wenn items mehrdeutig oder unklar formuliert sind.
Das Diagramm zeigt die Reaktionszeit (y-achse, in Milisekunden) für verschiedene Antwortkategorien einer Likert skala (X-achse)
Ergebnisse: Die längste Reaktionszeit tritt bei der Mittelkategorie (neither agree nor disagree) auf.
das bedeutet, dass sich Personen länger überlegen, ob sie die Mittelkategorie wählen.
Extremantworten (strongly agree, strongly disagree) haben kürzere Reaktionszeiten weil die Entscheidung klarer ist.
Fazit: Die Mittelkategorie könnte eine Unsicherheitsoption sein und nicht immer echte Neutralität widerspiegeln.
Die Tabelle zeigt eine hierarchische Regressionsanalyse, die untersucht, welche Faktoren die Reaktionszeit (Antwortlatenz) beeinflussen, wenn Personen eine Antwort auf einer Skala wählen.
(Antwortlatenz= Zeit, die jemand benötigt, um eine Entscheidung zu treffen und eine antwort auszuwählen.
wichtige ergebnisse: Anzahl der Zeichen im Item
—>Je länger das Item (mehr zeichen) desto länger die Antwortzeit. Sehr hoher effekt (beta=.75, p<.05) also ein starker einfluss.
Einfluss von Itemeigenschaften
—>Klarheit des Items beeinflusst die Antwortzeit signifikant (beta= -0.32, p <.05)
Unklare Items führen zu längerer Antwortzeit, weil Testpersonen länger überlegen müssen.
Einfluss der Anwtortkategorien
—>Die Mittelkategorie (neither agree or disagree) hat einen signifikanten Einfluss auf die Antwortzeit (beta= 0.25, p <.05).
Das bedeutet: Personen brauchen länger, wenn sie sich für die Mittelkategorie entscheiden, möglicherweise weil sie unsicher sind.
Fazit: Lange und unklare items führen zu längeren Antwortzeiten.
Die wahl der mittelkategorie dauert länger als andere Antworten, weil sie oft Unsicherheit widerspiegelt.
Untersucht den Einfluss der Anzahl Antwortkategorien (2,4,6,8) auf die Verteilung der Antworten in einer Ratingskala ohne Mittelkategorie.
Histogramme zeigen die Häufigkeitsverteilung der Antworten:
Bei wenigen Antwortkategorien ( 2 oder 4): werden extreme kategorien häufiger gewählt.
bei mehr antwortkategorien (6 oder 8) = wird die verteilung feiner abgestuft und es gibt mehr mittlere antworten.
fazit: wenige kategorien zwingen personen zu einer entscheidung zwischen extremen.
mehr kategorien ermöglichen differenziertere antworten, was oft realistischere ergebnisse liefert.
Die folie vergleicht zwei verschiedene Item-Skalen:
Unipolare Skala (oben)
=Beginnt bei Null und steigert sich nur in eine richtung.
Beispiel: Häufigkeitsskala (nie bis sehr oft)
wird verwendet wenn kein gegenpol existiert, sondern nur eine abstufung eines merkmals.
Kein Gegenpol bedeutet, dass es nur eine Richtung der Ausprägung gibt. Beispiel: Häufigkeit einer Handlung. Frage: wie oft fühlst du dich gestresst?
Antwortmöglichkeiten (unipolar): nie, selten, manchmal, oft, sehr oft
—>Hier gibt es keine “negative” version von stress sondern nur eine steigerung des merkmals.
Bipolare Skala (unten)
Hat zwei extreme (zb starke ablehnung, starke zustimmung)
Nullpunkt in der mitte = neutrale position
Beispiel: Zustimmungsskala (stimme überhaupt nicht zu bis stimme voll zu)
wird verwendet wenn zwei gegensätzliche pole eines merkmals erfasst werden sollen.
Gegensätzliche pole bedeutet, dass es zwei entgegengesetzte extreme gibt.
Beispiel: ich mag mathe.
Antwortmöglichkeiten: bipolar: stimme überhaupt nicht zu, stimme nicht zu, neutral, stimme zu, stimme voll zu
Hier gibt es zwei gegensätzliche extreme (stimme nicht zu vs stimme zu) und eine neutrale mitte.
Diese Folie zeigt verschiedene Arten von Antwortskalen , die je nach Fragestellung verwendet werden können:
Häufigkeitsskalen
—>Antworten geben an, wie oft etwas passiert.
Beispiele: Nie, selten, gelegentlich, oft, immer
sehr selten, selten, gelegentlich, oft, sehr oft
Intensitätsskala
Misst die stärke einer eigenschaft oder eines gefühls.
beispiel: gar nicht, wenig, mittelmäßig, überwiegend, völlig
Wahrscheinlichkeitsskala
Gibt an, wie wahrscheinlich ein ereignis ist.
Beispiel: Keinesfalls, wahrscheinlich nicht, vielleicht, ziemlich, wahrscheinlich , ganz sicher
Bewertungsskala: wird oft in Einstellungs- oder Meinungsfragen verwendet.
Beispiel: Trifft gar nicht zu, trifft wenig zu, trifft teilweise zu, trifft ziemlich zu, trifft völlig zu
Fazit: Die wahl der richtigen Antwortskala ist wichtig, weil sie beeinflusst, wie genau und zuverlässig ein merkmal gemessen wird.
Je nach Fragestellung wird eine andere skala benötigt (zb häufigkeit vs intensität vs wahrscheinlichkeit).
3.7 Itemformat: Verwendung von kontinuierlichen Analogskalen
Kontinuerliche Analgogskalen erlauben es, Antworten nicht in feste Kategorien zu geben, sondern auf einer durchgehenden Skala zu erfassen.
Die Abbildung zeigt eine Verteilung von 500 Teilnehmerantworten auf zwei Items.
Die Punkte repräsentieren die kontunierlichen latenten anworten.
Die Schwellenwerte (t11 bis t22) bestimmen, wie die kontinuerlichen Antworten in diskrete Kategorien (stimme stark zu = SA, neutral=N, stimme stark nicht zu= SD ) umgewandelt werden.
Vorteil: Genauere Erfassung individueller Unterschiede.
Kontinuerliche Analogskalen können feinere Abstufungen der Merkmalsausprägungen erfassen als herkömmliche diskrete Antwortfornate.
Adjustierung der Itemschwierigkeit
Wie kann die Itemschwierigkeit angepasst werden?
Betrifft B und C beim ABC der Testkonstruktion
Beispiel:
Was bedeuten folgende Begriffe?
Gebundenes Format
Ratingskala
Mittelkategorie
Mittel-und Extremkreuzer
Dichtotomes Antwortformat
Reliabilität
Gebundenes Format= Ein Antwortformat mit festen Antwortmöglichkeiten, zb Multiple-choice oder ja/nein Fragen
Ratingskala: Eine Skala mit abgestuften Antwortmöglichkeiten, zb von “stimme gar nicht zu “ bis “stimme voll zu”
Mittelkategorie= Eine neutrale Antwortoption in einer Skala, zb “weder noch” oder “neutral”
Mittel - und Extremkreuzer= Mittelkreuzer= Personen, die oft die neutrale Mittelkategorie wählen.
Extremkreuzer: Personen, die bevorzugt extreme Antwortkategorien ankreuzen.
Dichotomes Antwortfromat: Eine Frage mit nur zwei Antwortmöglichkeiten , zb “ja oder “nein”.
Reliabilität: Die Zuverlässigkeit eines Tests, also wie genau und konsistent er misst.
Ziel: Die Reliabilität einer Skala soll maximiert werden.
Was ist die Lösung? Was ist ein Nachteil davon?
Lösung: 4-7 stufiges Antwortformat.
Nachteil: Unterschiedliche Verwendung des Antwortformats und Nutzung der Mittelkategorie, schnellere Modellablehnung.
Ziel: Die Mittelkategorie soll von allen gleich aufgefasst werden.
Was ist die Lösung?
Welche Nachteile gibt es?
Lösung:
Mittelkategorie streichen und
eine vier- o. sechsstufige Skala
ohne Mittelkategorie
verwenden.
Neutrale Eigenschafts–
ausprägung kann nicht
angegeben werden.
Aber...
Ziel: Mittel- und Extremkreuzer sollen vermieden werden.
Dichotomes Antwortformat
Nachteil: Geringerer Differenzierungsgrad der Items.
3.7. Itemformat: Validität in Abhängigkeit der Antwortkategorien
Während Reliabilitätsschätzer(!) mit der Anzahl der Itemkategrien anstiegen, gilt das nicht für die Kriteriumsvalidität!
eine kleinere Anzahl von Antwortoptionen führt, trotz geringerer
psychometrische Genauigkeit, nicht zu einer geringeren Validität, wie es von der klassischen Testtheorie erwartet warden würde(z.B.
Gulliksen, 1950; Crocker & Algina, 1986; McDonald, 1999)
Was bedeutet das?
Realibilität steigt mit mehr Antwortkategorien, aber das bedeutet nicht automatisch, dass auch die Kriteriumsvalidität besser wird.
Eine Kleinere Anzahl von Antwortoptionen führt zwar zu einer weniger präzisen Messung (geringere psychometrische Genauigkeit) aber nicht zu einer geringeren Validität.
Die klassische Testtheorie hätte erwartet, dass eine geringere Anzahl von Antwortmöglichkeiten auch zu einer niedrigeren Validität führt, das ist aber laut moderner Forschung nicht unbedingt der Fall.
ALSO: Mehr Antwortkategorien verbessern die Reliabilität, aber nicht unbedingt die Validität eines Tests.
(Kriteriumsvalidität: Gibt an, wie gut ein Test ein bestimmtes Kriterium vorhersagen kann, zb ob ein Intelligenztest den späteren Berufserfolg vorhersagt.
(Psychometrische Genauigkeit: Beschreibt, wie präzise ein Test misst, also wie fein Unterschiede zwischen Personen erfasst werden. Sie hängt oft mit der Anzahl der Antwortkategorien zusammen.
(Reliabilität= Die Reliabilität ist die Zuverlässigkeit eines Tests, also wie genau und konsistent er misst. Ein Test mit hoher Reliabilität liefert bei wiederholter Messung ähnliche Ergebnisse. )
3.7. Itemformat: Reliabilität in Abhängigkeit der Antwortkategorien
Die Änderung der Anzahl der Antwortmöglichkeiten…
Welche Auswirkungen hat die Anzahl der Antwortmöglichkeiten auf:
die Skalennormen?
die Messgenauigkeit?
… hat Auswirkungen auf die Skalennormen
• größere Unterschiede bei Skalen mit weniger Optionen
• Eine einfache Anpassung veröffentlichter Normen zur Berücksichtigung von Änderungen in den Antwortoptionen ist problematisch.
…hat Einfluss auf die Messgenauigkeit:
• Besonders bei Skalen mit 2-3 Antwortmöglichkeiten (und in geringerem Maße
4-5 Optionen)
• Ausgleich durch Einsatz von mehr Items à Kompromiss zwischen Einfachheit und Messgenauigkeit
… Auf über 6 Möglichkeiten führt zu keinen Verbesserungen der
Messgenauigkeit à nutzlos
• Ursache wohl kognitive Faktoren, d.h. die Fähigkeit der Teilnehmenden, bei mehr Antwortmöglichkeiten feine Unterscheidungen zu treffen
Verständlich zusammengefasst:
Mehr oder weniger Antwortmöglichkeiten beefinlussen die Testergebnisse: Weniger Antwortoptionen führen zu größeren Unterschieden zwischen den Skalenwerten.
Daher ist es schwierig, bestehende Normen einfach anzupassenm wenn sich die Antwortmöglichkeiten ändern.
Wenige Antwortmöglichkeiten zb 2-3 verschlechtern die Messgenauigkeit: ein test mit nur wenigen antwortoptionen ist weniger präzise. Das kann durch mehr items ausgeglichen werden, aber das macht den Test länger
Mehr als 6 Antwortoptionen bringen keine zusätzliche Verbesserrung: Ab einer bestimmten Anzahl (über 6) können Menschen feine Unterschiede nicht mehr gut erfassen.
Daher ist es NUTZLOS , noch mehr Abstufungen zu verwenden.
Hauptaussage: Die Anzahl der Antwortmöglichkeiten sollte gut überlegt sein, zu wenige machen den Test ungenau, zu viele bringen keinen Vorteil.
Gebundenes Format: Richtig - Falsch Aufgaben
Was sind Richtig-Falsch Aufgaben und wie werden Sie genutzt?
Richtig-Falsch Aufgaben haben nur zwei Antwortkategorien: “Richtig oder “Falsch” bzw “ja ider “nein”.
Sie werden sowohl in Leistungs- als auch in Persönlichkeitstests eingesetzt.
Beispiele:
- Ankreuzen (z. B. FPI-R, Fahrenberg et al., 2002)
- Durchstreichen (z. B. Revisions-Test, Marschner, 1972)
- Item abhaken (z. B. Revisions-Test, Marschner, 1972)
ich gehe abends gerne aus. stimmt / stimmt nicht
Additionsaufgaben: Falsche Ergebnisse werden durchgestrichen und richtige Ergebnisse mit einem hacken makiert.
Gebundenes Format: Richtig-Falsch Aufgaben
Was sind Vor- und Nachteile von Richtig-Falsch Aufgaben?
• Kurze Bearbeitungs-, Auswertungs- und Lösungszeit
• Leicht verständliche Testinstruktion
• Hoher Prozentsatz an Zufallslösungen ➜ „50:50-Chance“➜ problematisch bei
Leistungstests ➜ Entgegenwirken mit Minuspunkten bei falscher Antwort
• Ja-Nein Items müssen eindeutig beantwortbar sein
• Erhöhter Einfluss der „Ja-Sage-Tendenz“
• Wenig differenzierte Informationen
• Schwierigkeiten bei statistischen Analysen: Schwierigkeit-, Trennschärfe- und
Faktorenanalyse
• Messeigenschaften der Items nur mit Rasch-Modellen sinnvoll prüfbar
Gebundenes Format: Einfach-/Mehrfach-Wahlaufgabe
Was sind Einfach- und Mehrfach- Wahlaufgaben?
Mehrfach-Wahlaufgaben haben mehr als zwei Antwortalternativen, wovon entweder nur eine Antwort richtig ist (Single choice SC), oder mehrere bis alle Antworten richtig sind (multiple choice, MC).
Falsche Antwortmöglichkeiten, die von der richtigen Lösung ablenken nennt man Distraktoren. Distraktoren sollten plausible Alternativen zur richtigen Lösung sein.
• MC und SC werden vor allem zur Erfassung von Wissen eingesetzt!
• SC auch bei Persönlichkeitsfragebögen
Multiple-Choice-Beispielitem aus einer Klausur zur
Testkonstruktion. In dieser Klausur musste Zutreffendes
angekreuzt werden:
In einem Test kann man verschiedene Aufgabenarten verwenden.
Welche der folgenden Aufgabenarten haben ein gebundenes
Antwortformat?
Multiple-Choice-Items
Ergänzungsaufgabe
Zuordnungsaufgabe
Kurzaufsatzaufgabe
Also zur Frage: Welche der folgenden Aufgabenarten haben ein gebundenes Antwortformat?
Richtige Antworten:
Multiple choice items (feste Antwortmöglichkeiten)
Ratingskala (feste antwortstufen)
Zuordnungsaufgabe (vorgegebene Zuordnungen)
Falsche Antworten:
Ergänzungsaufgabe (offenes format, da die Antwort frei ergänzt wird).
Kurzaufsatzaufgabe (offenes format, da die Antwort nicht vorgegeben ist.)
Erklärung: Gebundene Formate haben feste Antwortoptionen, die ausgewählt oder angeordnet werden müssen.
Offene Fornate erlauben freie Texteingaben oder Ergänzungen.
(ist das ein gebundenes Format? )
Single-Choice-Beispielitem aus dem BDI, einem
Depressionsfragebogen (Beck-Depressions-Inventar, Hautzinger,
Bailer, Worall & Keller, 1994)
(zutreffende Aussage markieren):
-ich bin nicht traurig
-ich bin traurig
-ich bin die ganze Zeit traurig und komme nicht davon los
-Ich bin so traurig oder unglücklich, dass ich es kaum noch ertrage.
( ja das ist ein gebundenes format, genauer gesagt ein Single-choice Format
Warum ist es gebunden? die antwortmöglichkeiten sind fest vorgegeben.
der testteilnehmer kann nur eine option auswählen.
die antwortmöglichkeiten sind klar definiert und nicht offen für individuelle Formulierungen.
Gebundene formate haben feste antwortmöglichkeiten, offene formate erlauben freie eingaben.
(Gebundene Antwortformate, Fokus auf Wahlaufagben)
Was sind die Vor - und Nachteile von Mehrfach Wahlaufgaben in gebundenen Antwortformaten?
Vorteile
• Durchführung und Auswertung ökonomisch
• Zufällige Beantwortung der Items umso weniger problematisch…
- je mehr Antwortalternativen vorhanden sind
- wenn die Richtigantwort eine Kombination aus mehreren Alternativen ist
Nachteile
• Antwortalternativen sind teilweise schwer zu finden, da alle (Distraktoren) mit
ungefähr der gleichen Wahrscheinlichkeit gewählt werden sollten
• Antwortformat sollte ausbalanciert sein (richtiges Item mindestens
1x/Position)
• Keine Wissensreproduktion, sondern nur Wiedererkennen von Material (➜
„Kreativität“?)
• Antworten können Hinweise auf die richtige Lösung geben
• Problem der Ratewahrscheinlichkeit
Problem der Ratewahrscheinlichkeit bei Mehrfach-Wahlaufgaben
Ratewahrscheinlichkeit= Wahrscheinlichkeit, zufällig die richtige(n) antwort(en) zu wählen.
Je mehr Antwortmöglichkeiten es gibt, desto niedriger ist die Ratewahrscheinlichkeit.
Bei einer richtigen Antwort:
1 aus 3—>Es gibt 3 3 Antwortmöglichkeiten, aber nur eine ist richtig —>Ratewahrscheinlichkeit = 33% (1/3)
1 aus 4 —> Es gibt 4 Antwortmöglichkeiten, aber nur eine ist richtig —>Ratewahrscheinlichkeit = 25% (1/4)
1 aus 5 —> Es gibt 5 Antwortmöglichkeiten , aber nur eine ist richtig—>Ratewahrscheinlichkeit = 20% (1/5)
Ratewahrscheinlichkeit bei x richtigen Antworten:
2 aus 4 —> Es gibt 4 Antwortmöglichkeiten , aber 2 sind richtig —>Ratewahrscheinlichkeit = 16.6%
2 aus 5 —>Es gibt 5 Antwortmöglichkeiten aber 2 sind richtig
—>Ratewahrscheinlichkeit= 10%
• Eine Erhöhung der Anzahl der richtigen Lösungen von 1 auf 2 bei selber
Distraktorenanzahl senkt die Ratewahrscheinlichkeit!
(Wenn die anzahl der richtigen Antworten steigt, sinkt die Ratewahrscheinlichkeit noch weiter.
Beispiel: Eine Aufgabe mit zwei richtigen Lösungen aus 5 Antwortmöglichkeiten hat nur eine Ratewahrscheinlichkeit von 10%.
Fazit: Mehr antwortmöglichkeiten= geringere chance, zufällig richtig zu raten.
Mehrere richtige antworten = noch geringere ratewahrscheinlichkeit , da es mehr kombinationen gibt.
durch eine clevere gestaltung von Mehrfach-wahlaufgaben kann die Ratewahrscheinlichkeit verringert und die Testqualität verbessert werden).
Welche Empfehlungen gibt es zu Multiple - Choice - Aufgaben?
Inhaltsvalidität beachten!
• Auf angemessene Auswahl und Formulierung der Distraktoren und der
Richtiglösungen achten!
- Distraktor ist zu leicht ➜ Ratewahrscheinlichkeit steigt
- Distraktoren mehrdeutig interpretierbar ➜ gute Personen wählen eventuell den Distraktor statt der Richtiglösung
• Reliabilitätsbestimmung evtl. schwierig
• Bei der Wahl des Antwortformats sollte eine hohe Beanspruchung des
Arbeitsgedächtnisses vermieden werden!
• Distraktoren und Richtigantworten sorgfältig auswählen und ständig
optimieren!
Gebundenes Format: Zuordnungsaufgaben
Was sind Zuordnungsaufgaben und wie funktionieren Sie?
Zuordnungsaufgaben verlangen, dass bestimmte Zeichen oder Inhalte anderen Zeichen oder Inhalten zugeordnet werden.
Beispiel: Wisconsin-Card-Sorting-Test (Grant & Berg, 1993)
Was sind Vor- und Nachteile von Zuordnungsaufgaben?
Vorteile Zuordnungsaufgaben
• Durchführung ökonomisch
• Auswertung ökonomisch
• Zufällige Beantwortung ist unproblematisch
• Eignet sich auch zur Überprüfung von Wissen
• Statt Reproduktion nur Wiedererkennung von Wissensinhalten
• Es ist schwierig, passende Antwortalternativen zu finden
(alle „falschen“ sollten gleich wahrscheinlich gewählt werden)
Gebundenes Format: Umordnungsaufgaben
Was sind Umordnungsaufgaben und wie funktionieren Sie?
Was sind Vor- und Nachteile von Umordnungsaufgaben?
Vorteile Umordnungsaufgaben
• Kann bei Personen eingesetzt werden, die nicht lesen können
Nachteile von Umordnungsaufgaben
• Bei Gruppentestungen muss das Testmaterial (z.B. Kärtchen) in großer Stückzahl verfügbar sein ➜ es muss für jeden Probanden vollständig vorhanden sein
• Itemformat ist nur für wenige spezifische Fragestellungen anwendbar
Welche allgemeinen Probleme gibt es bei gebundenen Itemformaten?
• Verfälschbarkeit
• Antworttendenzen/-stile
• Motivation
• Reihenfolgeeffekte und logisch abhängige Items
• Negativ gepolte Items
(negativ gepolte items zb ich bin selten optimistisch)
Verfälschbarkeit von Fragebögen (subjektive Verfahren)
Warum ist die Verfälschbarkeit von Fragebögen ein problem?
Häufiges Problem: absichtliche Verfälschung
-Faking good (bessere selbstdarstellung)
-Faking bad (schlechtere Selbstdarstellung , zb für eine Diagnose)
• Insbesondere ich High Stakes-Situationen (z.B. Personalauswahl)
• Testergebnis spiegelt nicht mehr die „wahre“ Persönlichkeit wieder
Studien dazu:
Zickar et al. (2004): slight faker, extreme faker und honest respondents
➜ Verfälschung durch Addieren einer Konstante unterschiedlicher Größe
• Effekte auf Interkorrelationen von Items und Testwerten
- Pauls & Crost (2005): Einfluss auf Konstruktvalidität
- Einfluss auf Kriteriumsvalidität? Widersprüchliche Befundlage (Ziegler & Bühner,
2009; Ones, Viswesvaran & Reis, 1996; Ziegler, Danay, Schölmerich & Bühner 2010)
Welche Fragen und Implikationen ergeben sich aus der Verfälschbarkeit von Tests ?
Fragen:
• Gibt es Faking bei der Anwendung subjektiver Testverfahren? ➜ Ja
• Welche Rolle spielt Faking? ➜ unklar, aber Einfluss auf Validität und vor allem
Selektion nicht auszuschließen
• Können wir Faking korrigieren? ➜ im Moment nicht
• Können wir Faking verhindern? ➜ Jein
Implikationen
• Selektion anhand von Fragebögen eher ungeeignet
• Verwendung mehrerer Datenquellen (➜ Mehrfachbeleg), z.B. zusätzliches Interview
• Abschreckung: Ankündigung des Abgleichs mit anderen Datenquellen, um Faking zu reduzieren
(Implikationen sind die konsequenzen oder bedeutungen einer sache).
Welche Antworttendenzen gibt es?
Ja-Sage-Tendenz (Zustimmungstendenz, Akquieszenz)
=Neigung, Fragen eher zu bejahen.
Tendenz zur Mitte = Bevorzugung mittlerer Antwortkategorien.
Tendenz zu den Extremen= Bevorzugung sehr hoher oder niedriger Werte.
Testmotivation
Welche Faktoren beeinflussen die Testmotivation?
• Je nach Motivation werden Items unterschiedlich genau bearbeitet
• Motivation ist während Testbearbeitung veränderbar
• Die Motivation ist umso geringer, je ...
- komplexer Items formuliert sind
- je schwerer Items zu beantworten sind
- je länger der Test dauert
Reihenfolgeeffekte und logisch abhängige Items
Was sind Reihenfolgeeffekte und logisch abhänginge Items?
• Abhängig von der Position kann die Antwort auf ein Item zwischen Versuchspersonen variieren
(Reihenfolgeeffekte bedeuten, dass die Position eines Items die antworten der versuchspersonen beeinflussen kann)
• Eine vorausgegangene Aufgabe darf keine Lösungshinweise für die darauffolgende Aufgabe geben
• Bei Persönlichkeitstests können Pufferitems Reihenfolgeeffekte reduzieren
(Erklärung mit Beispiel aus der Folie):
Reihenfolgeeffekte bedeuten, dass die Position eines items innerhalb eines tests die antworten beeinflussen kann. dh wenn eine frage früher oder später im test erscheint, könnte sie anders beantwortet werden.
Warum passiert das? = Menschen neigen dazu, vorherige Fragen unbewusst in ihre Antworten einfließen zu lassen. Wenn eine Frage vorher schon ein bestimmtes thema aufgreift, kann das beeinflussen ,wie eine spätere frage beantwortet wird.
Zb wenn eine frage zu optimismus kommt “ich erwarte das beste” könnte das beeinflussen, wie man eine spätere frage zu sorgen oder ängsten beantwortet.
was kann man dagegen tunß
Tests sollten so gestaltet sein, dass vorherige fragen keine lösungshinweise für spätere frageb geben.
in persönlichkeitstests kann man PUFFERITEMS (also zusätzliche neutrale fragen) einsetzen, um diesen Effekt zu reduzieren.
Fazit: Die reihenfolge der fragen ist in einem Test wichtig, weil sie unbewusst das antwortverhalten beeinflussen kann.
beispiel aus der folie: das zweite item könnte bewusst dazwischen eingefügt sein, um reihenfolgeeffekte zu reduzieren, also könnte es ein Pufferitem sein
Offenes Format: Ergänzungsaufgabe
Was ist eine Ergänzungsaufgabe im offenen Format?
Für die Aufgabenbeantwortung werden keine festen Kategorien vorgegeben
Antwort erfolgt frei oder teilstrukturiert (zb ergänzungsaufgabe oder Kurzaufsatz)
Problem: Objektivität der Bewertung!
Aufgaben sind nur dann objektiv, wenn antwortkategorien vorgegeben werden (zb lückentext mit antwortmöglichkeiten) das bedeutet, dass eine Aufgabe nur dann unabhängig vom prüfer bewertet werden kann, wenn es eine eindeutige antwortmöglichkeit gibt.
Ergänzungsaufgaben lassen die antwort frei, was bedeutet, dass es unterschiedliche richtige formulierungen geben kann. das macht die bewertung schwieriger und subjektiver. wenn antwortmöglichkeiten vorgegeben werden zb lückentext mit auswahl) ist die bewertung objektiv, weil es nur eine richtige lösung gibt.
kurz gesagt: ohne antwortvorgaben muss eine person die antworten prüfen, mit vorgaben kann der test automatisch ausgewertet werden.
Das erste Beispiel ist subjektiv, weil mehrere Formulierungen richtig sein können
Das zweite Beispiel ist objektiv weil die richtigen Antworten vorher festgelegt sind und die Bewertung dadurch einheitlich bleibt
In welchem Land liegt die Stadt… das ist auch eher subjektiv weil nicht festgelegt wird wie Peru (die richtige Antwort) geschrieben wird
Wa sind Vor- und Nachteile von Ergänzungsaufgaben?
Vorteile Ergänzungsaufgaben:
• Zufallslösungen kaum möglich
• Qualitative Auswertung möglich
• Komplexe inhaltliche Aufgaben möglich
• Nur Reproduktion von Wissen
• Eventuell Suggestivwirkung der Fragestellung (bedeutet, dass eine frage so formuliert ist, dass sie die befragte person in eine bestimmte richtung lenkt oder beeinflusst)
zb neutral wäre: wie zufrieden sind sie in ihrem job? und suggestiv wäre: finden sie nicht auch, dass ihr job stressig ist?
• Hoher Zeitaufwand während der Bearbeitung
• Eingeschränkte Auswertungsobjektivität, wenn mehrere Begriffe passen
Offenes Format: Kurzaufsatz
Fragen werden mit kurzen, niedergeschriebenen freien Antworten beantwortet.
Beispiel: wie kommen sommer und winter zustande?
vorteile: Freie reproduktion von wissen ist möglich, zufallslösung nicht möglich
Nachteile: eventuell eingeschränkte auswertungsobjektivität, da es schwierig ist, eindeutige auswertungskriterien zu finden, aufwendige inhaltsanalyse notwendig
Itemauswahl
Welche Kriterien gibt es bei der Itemauswahl?
Repräsentativ : Alle Items sind bekannt und eine Auswahl wird aus dem “Itemuniversum” gezogen. also die items werden aus einem bekannten “itemuniversum” ausgewählt
(dh das itemuniversum umfasst alle möglichen fragen, die ein bestimmtes merkmal messen könnten. eine repräsentative auswahl stellt sicher, dass die gewählten items den gesamten bereich des konstrukts abdecken)
beispiel: ein intelligenztest soll allgemeine kognitive fähigkeiten messen. eine nicht repräsentative auswahl würde nur mathematische aufgaben enthalten. eine repräsentative auswahl enthält verschiedene aufgabentypen (zb sprache, logik etc). )
—>Ein test ist repräsentativ, wenn die ausgewählten items den gesamten relevanten bereich eines merkmals realistisch widerspiegeln.
Prototypisch: Die ausgewählten items sind für einen bestimmten bereich besonders charakteristisch
Ausgewogene verteilung: jedes inhaltsgebiet eines tests (zb skala oder untertest) sollte gleich viele items enthalten.
Itemschwierigkeit: die schwierigkeit der items sollte zur angestrebten Merkmalsausprägung passen.
das bedeutet dass die schwierigkeit der fragen zum ziel der messung passen muss. also nicht zu leichte, schwierige fragen sondern eine mischung daraus um eine genaue differenzierung zu ermöglichen.
Modern Talking Items und ihre Probleme
Welche Probleme entstehen, wenn inhaltsgleiche Items =(“Modern Talking Items”) nicht aussortiert werden?
Werden inhaltsgleiche Items= also sogeannte Modern Talking Items nicht aussortiert, treten probleme bei der Itemanalyse und der Interpretation des gesamtwerts auf.
• Diese bestimmen dann den Skalenwert, weil sie denselben Aspekt eines
Konstrukts abdecken und dadurch überproportionalen Einfluss haben
• Andere zum Konstrukt gehörende Items verlieren an Bedeutung!
➜ Die Breite des Konstrukts wird eingeschränkt und somit die
Inhaltsvalidität gefährdet
Fazit in eigenen worten: wenn ein test zu viele ähnliche items enthält, messen diese nur einen kleinen teil des konstrukts und haben dadurch einen übermäßigen einfluss auf das ergebnis. dadurch gehen andere wichtige aspekte verloren, und der test bildet das konstrukt nicht mehr vollständig ab. das macht ihn weniger aussagekräftig und weniger valide.
was zeigt das beispiel?
das hatte der in der Klausur gelbes Beispiel mit der Discobox
das beispiel zeigt das rpoblem von “modern Talkin items” also inhaltsgleichen items die alle fast das gleiche messen und dadurch den test verzerren können.
Linke Seite: Problematische itemauswahl
Alle 5 items beziehen sich nämlich darauf , abends auszugehen.
Problem: Diese items messen alle nur einen Kleinen teilaspekt von Extraversion (nämich abends ausgehen)
wenn eine person diesem aspekt zustimmt, bekommt sie automatisch einen hohen extraversionstestwert , auch wenn sie andere merkmale von extraversion zb durchsetzungsfähigkeit gar nicht besitzt.
das schränkt die inhaltsvalidität ein, weil extraversion viel mehr umfasst als nur das ausgehverhalten.
rechte seite:
bessere itemauswahl
weil hier sind die items vielfältiger und messen unterschiedliche facetten von extraversion.
diese auswahl ist besser, weil sie verschiedene aspekte von extraversion abdeckt , nicht nur das ausgehverhalten.
dadurch ist der testwert repräsentativer für das gesamte konstrukt extraversion.
Fazit: schlechte tests enthalten viele inhaltsgleiche fragen —> eine einzelne eigenschfat (zb ausgehen) bestimmt das gesamtergebnis.
gute tests enthalten eine breite mischung an items, um das gesamte konstrukts abzubilden.
Folge von Modern Talking Items= der test misst nicht wirklich , was er vorgibt zu messen, weil er zu einseitig ist.
(das gelbe item “ich tanze gerne auf der discobox”) unten ist in beiden skalen enthalten, aber in unterschiedlichem Kontext:
Links: (problematische skala mit modern talking items): das item “ich tanze gerne auf der disco box “ gehört zur gruppe der abends ausgehen- items. es verstärkt das problem, dass die skala zu einseitig ist und fast nur das ausgehverhalten misst.
rechts: bessere skala mit vielfältigen items)
das gleiche item ist hier ein teil eines breiteren spektrums von extraversion. weil die anderen items verschiedene aspkete von extraversion messen ( zb durchsetzungsfähigkeit, geselligkeit, risikofreude ) ist es nicht mehr problematisch.
fazit: das item an sich ist nicht falsch, aber wenn es in einer unausgewogenen skala mit zu ähnlichen items steht, trägt es zur verzerrung bei. in einer vielfältigen skala hingegen ergänzt es andere aspekte sinnvoll.
3.9 Synopsis
Welche Faktoren beeinflussen die Form und den Inhalt eines Tests?
Es gibt zahlreiche Faktoren , welche form und inhalt eines tests beeinflussen können: zb
Testziel: was soll gemessen werden?
Konstruktionsstrategie: wie wird der test entwickelt?
zielgruppe: für wen ist der test gedacht?
art des tests bzw . der indikatoren: welche merkmale werden erfasst?
itemformulierung: wie sind die fragen gestellt?
itemformat: welches antwortformat wird verwendet?
itemauswahl: welche fragen kommen in den test?
Diese Faktoren müssen daher in der regel vor oder während der testentwicklung angemessen berücksichtigt werden.
Itementwicklung [ÜBUNG]
Einzelarbeit
Aufgabe
• Nehmen Sie die von uns erstellte Arbeitsdefinition zum Konstrukt Eifersucht
und entwickeln Sie 5 Items!
• Wählen Sie ein Antwortformat, das zu den Items passt!
Im Plenum werden dann die Items evaluiert und in einem
„konstruktiven Austausch“ gemeinsam optimiert (Fehler helfen den Prozess besser zu verstehen!)
Items an mich senden per Mail
zb:
Antwortformat: Likert SKALA (1= trifft überhaupt nicht zu bis 5 trifft voll und ganz zu)
ich fühle mich unwohl, wenn mein/e Partner/-in mit einer anderen person regelmäßig persönlichen kontakt durch zb verabredungen, telefonate hat.
ich kontrolliere ein bis zwei mal das handy oder die sozialen medien meines partners
wen mein partner von jemand anderem komplimente bekommt, fühle ich mich unsicher.
ich habe mindestens einmal am tag angst , dass meine partner sich für jemand anderen interessieren könnte
es fällt mir schwer , meinem partner in zu vertrauen.
Zuletzt geändertvor 9 Tagen