Buffl

04. EMPIRISCHE ÜBERPRÜFUNG DES TESTENTWURFS UND TESTREVISION

ND
von Nipu D.

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.1 Einführung

Was haben wir bisher gehört?

was folgt nun im Ablauf?

Wir haben bisher gehört …

• wie wir den Messgegenstand definieren können (Arbeitsdefinition,

nomologisches Netz),

• bei wem der Test messen soll (Zielgruppe, Testziel) und

• auf welche Art und Weise gemessen werden soll (Konstruktionsstrategie, Itemformulierung, Antwortformat etc.)

Was folgt nun im Ablauf?

Nun folgt die erste Erhebung

empirischer Daten und eine

erste „Optimierungsschleife“

▪ Datenanalyse und

Testrevision

▪ Durchlaufen der Schritte bis

Testendversion die anvisierte

Güte aufweist

Erklärung in eigenen worten:

Was versteht man unter der Optimierungsschleife= Eine Optimierungsschleife meint, dass man nach dem ersten entwurf des tests nicht direkt fertig ist. Stattdessen macht man eine erste erhebung von echten daten, schaut sich an, wie gut der test funktioniert, und verbessert ihn dann gezielt auf basis dieser erkenntnisse. Das Ganze kann mehrfach durchlaufen werden- so lange , bis der test wirklich gut ist.

Was ist eine Testrevision?= Testrevision heißt der Test wird überarbeitet, zb weil manche fragen unverständlich sind, keine guten ergebnisse liefern oder nicht gut zum konstrukt passen. man schaut sich also an, welche teile verbessert oder ausgetauscht werden müssen, um die qualität des tests zu erhöhen.

Was ist mit Datenanalyse gemeint?

Bei der Datenanalyse schaut man sich genau an, wie die antworten der testpersonen ausgefallen sind. zum beispiel: welche fragen waren zu leicht oder zu schwer, wo gan es viele ausreißer oder missings?, sind die items gut voneinander unterscheidbar? wie zuverlässig ist der test insgesamt?

Diese analyse gibt die Grundlage für die Tesrevision.

Was bedeutet der letzte satz: durchlaufen der schritte bis testendversion die anvisierte güte aufweist? = das bedeutet man macht die schritte (datenerhebung, analyse, überarbeitung) mehrmals hintereinander, bis die endversion des tests eine ausreichend gute qualität hat- also zb zuverlössig misst, valide ist, verständlich und relevant für die zielgruppe.

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.2 Datenerhebung


In welchen zwei Phasen sollte sich die empirische Überprüfung des Testentwurfs optimalerweise gliedern?


Was ist der Zweck der Erhebung qualitativer Daten?

Die empirische Überprüfung des Testentwurfs sollte sich

optimalerweise in zwei Phasen der Datenerhebung gliedern:

• Erhebung qualitativer Daten

• Erhebung quantitativer Daten


(=Erklärung in eigenen worten= Die empirische überprüfung des testentwurfs= bedeutet man überprüft mit echten daten , ob der test so funktioniert, wie man es geplant hat. Also : man schaut in der praxis , ob die fragen verständlich sind, sinnvoll beantwortet werden und das messen, was sie messen sollen. Und diese empirische überprüfung des testentwurfs sollte sich optimalerweise in zwei phasen der datenerhebung gliedern: dh einmal 1. durch die erhebung qualitativer daten= man will dabei herausfinden : verstehen die leute die fragen und anleitungen?, man schaut sich genau an, wie die leute beim lösen denken zb mit der Think-Aloud-technik (laut denken) und Probing (gezielt nachfragen). 2.bei der zweiten phase der erhebung quantitativer daten wird der test an viele personen gegeben, mit zahlen , auswertungen und statistiken. man schaut: wie schwierig sind die items, gibt es ausreißer oder fehler, wie gut unterscheiden sich die antworten zwischen den personen? , ist der test zuverlässig und valide. Zusammengefasst: also erst schaut man im kleinen qualitativ, ob alles verstanden wird, dann im großen quantitativ, wie gut der test messbar funktioniert.)



Erhebung qualitativer Daten:

• Zweck: Überprüfung des Verständnisses der Instruktionen und Items, Erhebung von Lösungsstrategien

• Kleine Stichprobe, Quotenplan nach Alter, Geschlecht und Bildung (!), abhängig von Zielgruppe des Tests

• Think aloud-Technik: Testpersonen denken laut beim Bearbeiten

• Probing: gezieltes Nachfragen bei einzelnen Konzepten und Begriffen


(Erklärung=wie läuft die erhebung qualitativer daten ab? hier will man nicht zahlen sammeln, sondern verstehen, wie die testpersonen denken, ob sie alles richtig verstehen und wie sie mit den items umgehen. das macht man so: 1. Kleine stichprobe auswählen: nur weniger personen (zb 5-15) aus der zielgruppe, sie sollten verscheiden alt sein, unterschiedliche bildung und geschlechter haben also möglichst vielseitig abgedeckt sein (=Quotenplan). Also quotenplan heißt: die testgruppe (also die leutet die man testet) wird so ausgewählt, dass verschiedene altersgruppen, geschlechter und bildungsniveaus vertreten sind. so stellt man sicher , dass die ergebnisse nicht nur für eine kleine teilgruppe gelten, sondern repräsentativ für die zielgruppe sind)

2. Think Aloud-Technik verwenden= die testperson spricht laut , was sie denkt, während sie die fragen bearbeitet. so erkennt man zb : oh die frage ist irgendwie komisch fprmuliert, oder ich weiß nicht genau, was hier gemeint ist.

3. Probing= gezieltes nachfragen. Der Testleiter fragt nach bestimmten begriffen oder formulierungen: zb was verstehen sie unter diesem wort? warum haben sie sich für diese antwort entschieden?


(Was bedeutet erhebung von Lösungsstrategien?= dabei geht es darum herauszufinden, wie die testpersonen beim lösen der aufgaben vorgehen. also: was denken sie? was verstehen sie unter der frage? wie kommen sie auf ihre antwort?

das hilft dabei zu sehen, ob die fragen wirklich das messen, was sie sollen oder zb verwirrung entsteht)


4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte


Was ist der nächste schritt nach der datenerhebung?

woran können wir die Güte von items festmachen?

▪ Nächster Schritt: Prüfung der Item- und Testwertgüte

▪ Woran können wir Güte von Items festmachen?

▪ =Durch Indikatoren der Itemqualität nach Stanton, Sinar, Balzer, & Smith

(2002):

• Internale Qualitätsindikatoren: Itemschwierigkeit, Itemvarianz,

Antwortverteilung, Trennschärfen, Faktorladungen, IRT-Parameter

• Externale Qualitätsindikatoren: Fremdtrennschärfen

• Inhaltliche Qualitätsindikatoren: Inhaltsvalidität, Verständlichkeit, Relevanz

für Zielgruppe, semantische Redundanz (Modern Talking-Items)

➜ Subjektive Ratings durch Experten oder Zielgruppe


(erklärung= was versteht man unter item- und testwertgüte= das ist die qualität der einzelnen Fragen (Items) und des gesamten testergebnisses (testwert)

man prüft, ob die items funktionieren, trennen , verständlich und relevant sind- und ob der test insgesamt zuverlässig und gültig ist.

internalte qualitätsindikatoren:

  1. itemschiwerigkeit= gibt an, wie leicht oder schwer eine frage ist (zb) wie oft sie richtig beantwortet wird.

  2. itmvarianz= zeigt, wie stark sich die antworten auf ein item unterscheiden , je mehr streuung , desto besser unterscheide es.

  3. trennschärfe= zeigt, wie gut ein item zwischen “starken” und “schwachen” personen unterscheidet.

  4. Faktorladungen: zeigen, wie stark ein item zu einem bestimmten faktor (zb persönlichkeitseigenschaft) gehört.

  5. IRT-parameter= kennzahlen aus der Item-Response Theorie , die beschreiben , wie genau ein item misst, bei welcher fähigkeit etc. )


(Externale Qualitätsindikatoren:

Fremdtrennschärfen= zeigen , wie gut ein item mit anderen tests oder skalen zusammenhängt , die ähnliche dinge messen).


(Inhaltliche Qualitätsindikatoren:

Inhaltsvalidität= deckt das item den inhalt ab, den es messen soll?

verständlichkeit= ist das item sprachlich klar und leicht zu verstehen?

relevanz für die zielgruppe= passt das item zur lebensrealität der getesteten personen?

semantische redundanz (modern talking items)= sind items inhaltlich zu ähnlich doppelt vorhanden?

subjektive ratings= einschätzungen der items durch experten oder tespersonen - ob sie sinnvoll und passend erscheinen.)


4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte


Was ist das Ziel der Itemanalyse?

was liefert eine übersicht über die missings auf itemebene?


welche deskriptiven statistiken soll man sich anschauen?

Welche verteilungen sollte man analysieren?

  • Das ziel der itemanalyse ist es ein gefühl für die daten zu bekommen

was liefert eine übersicht über die missings auf itemebene?

=Erstes Indiz für problemitems


welche deskriptiven statistiken soll man sich anschauen?:

= Itemschwierigkeit, antwortverteilung, univariate ausreißer


Welche verteilungen sollte man analysieren?

=Histrogramme, Boxplots, Streudiagramme (zb bivariate ausreißer)


erklärung: was bedeutet übersicht über die missings auf items? was sind missings= das sind nicht beantwortete fragen im test. was wird gemeint mit erstes indiz für problemitems= wenn viele leute eine frage nicht beantworten , ist das ein hinweis , dass sie unklar oder problematisch sein könnten. )

(wann schaut man sich die deskriptiven statistiken an? frühzeitig nach der datenerhebung, um zu sehen, ob es auffällige oder schlechte items gibt).


(begriffe kurz erklärt:

itemschwierigkeit= wie leicht oder schwer eine frage ist (wie viele sie richtig beantworten bzw zustimmen).


antwortverteilung= zeigt, wie die antworten verteilt sind zb alle in der mitte = verdächtig.


univariate ausreißer= einzelne, extrem abweichende antworten bei einem item, kann die statistik verzerren.


histogramme= balkendiagramm, das zeigt, wie oft welche antwort vorkommt.


boxplots= zeigt median, quartile und ausreißer gut für vergleich von verteilungen.


streudiagramme zb bivariate ausreißer= punkt-diagramm, um zu sehen , ob zwei variablen auffällig zusammenhängen oder einzelne werte stark herausstechen. )





4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte


Wie geht man bei der Itemanalyse vor? wie sieht das Vorgehen der Itemanalyse aus?

Vorgehen bei der Itemanalyse:

• Ermittlung der Itemrohwerte (➜ Itemschwierigkeit)

• Prüfen der Missings

• Schwierigkeitsanalyse

• Itemverteilung/Streuungsanalyse

• Reliabilitätsanalyse inklusive Trennschärfe

• Strukturanalyse, z.B. Zuordnung Item zu Faktor


(die itemanalyse ist wichtiger schitt, bei dem man prüft , wie gut einzelne items im test funktionieren.

begriffe erklärt:

(1. ermittlung der itemrohwerte —>Itemschwierigkeit

man schaut, welche punktzahl eine person bei jedem item erzielt hat. daraus kann man berechnen , wie schwer oder leicht ein item ist (itemschwierigkeit).


2.prüfen der missings = man kontrolliert , wie viele antworten fehlen bei jedem item. viele fehlende antworten = hinweis auf probleme mit dem item.


  1. schwierigkeitsanalyse= es wird berechnet, wie schwierig jedes item ist, also wie viele personen es “richtig” beantworten oder zustimmen. zu leiche oder zu schwere items sind weniger nützlich.

  2. itemverteilung / streuungsanalyse : man untersucht, wie stark die antworten auf ein item streuen. items mit wenig streuung unterscheiden nicht gut zwischen personen.

    =dh man schaut, wie unterschiedlich die leute auf ein item antworten. wenn alle ungefähr das gleiche antworten (zb alle wählen “stimme volll zu ) dann ist kaum unterschied zu sehen —>das item unterscheidet nicht gut zwischen personen.

    wenig streuung= item bringt kaum infos

    viel streuung= item zeigt unterschiede zwischen personen und ist wertvoller für den test )

  3. Reliabilitätsanalyse inklusive trennschärfe: man prüft wie zuverlässig der test ist (zb cronbachs alpha) und wie stark jedes item zum gesamttest passt (trennschärfe)

  4. strukturanalyse (zb zuordnng item zu faktor)= man schaut, zu welchem inhaltlichen bereich (faktor) ein item gehört zb durch faktorenanalyse. das zeigt, ob die struktur des tests logisch und konsistent ist. zb man entwicklet einen persönlichkeitstest , der folgende bereiche messen soll: extraversion, neurotizismus, gewissenhaftigkeit

    du hast zb 30 items also 10 für jeden bereich. ein item lautet: ich gehe gerne auf neue leute zu, du erwartest dass es zur extraversion gehört. was passiert jetzt bei der strukturanalyse? du machst eine faktorenanalyse die zeigt dir dann: passt das item wirklich zu extraversion? oder lädt es vielleicht eher auf einen anderen faktor wie neurotizismus? wenn ein item nicht auf den erwarteten faktor lädt, passt es inhaltlich nicht und sollte evtl. überarbeitet oder entfernt werden.

    ziel der strukturanalyse: sicherstellen, dass alle items wirklich das messen, was sie sollen und sauber einem klaren bereich (faktor) zugeordnet werden können. )


4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

Ermittlung von Itemrohwerten

Was ist ein Itemrohwert?

was kann bei negativ gepolten items nötig sein ?

was kann man mit mehreren itemrohwerten machen?

was ist der item oder skallenmiitelwert?

wie nennt man den itemmittelwert auch?

Was ist ein Itemrohwert? = der itemrohwert ist der wert einer person (proband) bei der beantwortung eines einzelnen items (zb eine zahl auf einer skala von 1 bis 5).


was kann bei negativ gepolten items nötig sein ? =evtl. umkodierung negativ gepolter items nötig


was kann man mit mehreren itemrohwerten machen?

man kann sie zusammenrechnen (summieren) um daraus Skalenwerte oder Untertestwerte zu bilden . Ergebnis—> Probandenrohwert im test (zb gesamtscore).


was ist der item oder skallenmitelwert? ▪ Mittelwertbildung von Item- oder Probandenrohwerte über die

Probanden in einer Stichprobe

➜ Item- oder Skalenmittelwert dh das ist der durschnittswert der item - oder probandenrohwerte über alle personen einer stichprobe.


wie nennt man den itemmittelwert auch? der itemmittelwert wird auch als (psychometrische) Itemschwierigkeit bezeichnet.


(erklärung umkodierung negativ gepolter items= stell dir vor du willst testen wie ordentlich jemand ist. du hast zwei aussagen (items)

item 1: positiv formuliert= ich räume regelmäßig auf

wenn jemand sagt: 5=stimmt völlig —>bedeutet: sehr ordentlich

1= stimmt gar nicht —>bedeutet: nicht ordentlich

hohe zahl = ordentlich


item 2 negativ formuliert: ich lasse meine sachen überall liegen.

wenn jemand sagt: 5= stimmt völlig —> bedeutet: nicht ordentlich

1= stimmt gar nicht —>bedeutet: sehr ordentlich

hier ist das problem: Hohe zahl= unordentlich- also genau das gegenteil von item 1.


warum ist das ein problem?= wenn du später alle antworten zusammenzählst, soll eine hohe gesamtpunktzahl zeigen: diese person ist ordentlich. aber bei item 2 bedeutet eine hohe zahl ja das gegenteil. was macht man also? man dreht die antwort bei item 2 um, damit eine hohe zahl auch dort “ordentlich” bedeutet.

zb: du gibst bei item 2 die antwort 5 (du lässt deine sachen über all liegen) das ist eigentlich nicht ordentlich, nach umoodierung wird das zu 1 also du bist ordentlich. )


4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

Was ist (psychometrische) Itemschwierigkeit?


▪ Definition (psychometrische) Itemschwierigkeit: Zustimmung zu einem Item in Schlüsselrichtung der Skala


▪ Schwierigkeitsindizes für:

• Intervallskalierte Items (Ratingskalen)

• Dichotome Items

• Ordinalskalierte Items


(das bedeutet: was ist (psychometrische) itemschwierigkeit?= dh wie viele personen stimmen einem item zu, und zwar in der richtung, die du als “richtig” oder “typisch” willst (=schlüsselrichtung). zb: ich arbeite gerne im team. wenn viele sagen “ja stimmt”, ist das item leicht, wenn wenige zustimmen , ist es schwer. weil bei der itemschwierigkeit geht es nicht darum, ob etwas “falsch” oder “richtig” ist, sondern wie viele leute der aussage zustimmen, also wie “einfach” es ist, zustimmung zu bekommen. bsp: ich arbeite gerne im team. wenn 90% der leute sagen stimmt, dann heißt das: fast alle finden diese aussage zutreffend—>das item ist also leicht, weil es für fast alle personen “zutrifft”.

merksatz: leichtes item= viele stimmen zu,

schweres item= wenige stimmen zu. !!!es geht um Zustimmungshäufigkeit, nicht um richtig/ falsch wie bei einem wissenstest.


was sind schwierigkeitsindizes?

=das sind zahlen, mit denen man berechnen kann wie leicht oder schwer ein item ist- je nachdem, wie es beantwortet wurde



die dreit arten von items:

1.intervallsklaierte items (ratingskalen): zb skala von 1 bis 5

man rechnet den durchschnitt (mittelwert) als schwierigskeitsindex


  1. dichotome items—>nur zwei antworten möglich, zb ja , nein oder richtig, falsch

    —>man schaut : wie viel % haben es “richtig” beantwortet?

  2. ordinalskalierte items: antworten sind in einer geordneten reihenfolge , aber die abstände sind nicht gleich (zb selten, manchmal , oft) es braucht spezielle auswertungen für den schwierigkeistindex. )



4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

Schwierigkeitsanalyse: Intervallskalierte Items

Was wird bei Ratingskalen als schwierigkeitsindex herangezogen?

Warum sollte zusätzlich die Varianz des items betrachtet werden?

was zeigt die formel für den mittelwert xi ?

was zeigt die formel für die varianz s2?

Was wird bei Ratingskalen als schwierigkeitsindex herangezogen? = Fast immer der Mittelwert, da Ratingskalen in der Regel Intervallniveau unterstellt wird.

warum sollte zusätzlich die varianz des items betrachtet werden? = um zu erkennen, wie stark die antworten der testpersonen voneinander abweichen.

was zeigt die formel für den mittelwert xi?

den durchschnittlichen wert für ein item über alle personen.

was zeigt die formel für die varianz s2?

wie weit die einzelnen antworten vom mittelwert entfernt sind. also die streuung der antworten.

erklärung:

(was sind rating skalen= Das sind bewertungsskalen zb von 1 bis 5 oder 0 bis 10 , bei denen personen einen grad an zustimmung angeben.

beispiel: ich bin oft gut organisiert. 1= stimmt gar nicht 2=.. 5=stimmt völlig

(was ist ein schwierigkeitsindex?= der schwierigkeitsindex sagt: wie leicht oder schwer ein item ist. bei ratingskalen: je höher der mittelwert desto mehr stimmen zu, also : item ist leicht. also der mittelwert ist der durchschnitt aller antworten auf ein item. wenn viele personen zb auf einer 1-5 skala eine 4 oder 5 ankreuzen dann ist der durchschnitt (mittelwert) hoch. was zeigt ein hoher mittelwert?= dass viele personen dem item zugestimmt haben. und wenn viele zustimmen, dann ist das item “leicht” also leicht zu bejahen. gegenteil: ich lüge oft, hier stimmen die meisten nicht zu antworten also 1 oder 2, mittelwert ub 1,8 also niedrig heißt das item ist schwer wegen der niedrigen zustimmung. )

(was ist ein intervallniveau?= das bedeutet die abstände zwischen den zahlen auf der skala sind gleich groß. beispiel: unterschied zwischen 2 und 3 ist genauso groß wie zwischen 4 und 5. deshalb kann man damit gut rechnen, zb den mittelwert berechnen).

(was bedeutet: Bei Ratingskalen wird fast immer der Mittelwert als

Schwierigkeitsindex herangezogen, da bei

Ratingskalen in der Regel Intervalldatenniveau

unterstellt wird. dh= weil man bei ratingskalen davon ausgeht, dass die zahlen gleichmäßig angeordnet sind (intervall) verwendet man fast immer den mittelwert um zu sehen wie “leicht” das item ist.

(Zusätzlich sollte immer die Varianz des Items

betrachtet werden, um zu erkennen, wie stark die

Antworten der Testpersonen auf dem Item

abweichen dh:= die varianz zeigt, wie unterschiedlich die leute geantwortet haben. konkret: wenn fast alle dasselbe sagen= niedrige varianz= item bring also wenig unterscheidung

wenn antworten stark streuuen= hohe varianz = item zeigt unterschiede zwischen personen. )

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

Schwierigkeitsanalyse: Dichotome items (ja /nein)

wann wird der schwierigkeitsindex ohne korrektur verwendet?

was bedeutet ein hoher prozentwert beim schwierigkeitsindex?

was bedeutet ein geringer prozentwert bein schwierigkeitsindex?

wie berechnet man den schwierigkeitsindex bei dichotomen items?

wann wird der schwierigkeitsindex ohne korrektur verwendet?

= beim einsatz in zb persönlichkeitstests, bei denen raten eine untergeordnete rolle spielt.

was bedeutet ein hoher prozentwert beim schwierigkeitsindex?

=er zeigt, dass die aufgabe leicht war (viele haben sie “richtig” gelöst bzw zugestimmt).

was bedeutet ein geringer prozentwert beim schwierigkeitsindex?

er zeigt, dass die aufgabe schwer war (wenige haben sie “richtig” gelöst.

(merk dir: je nach itemtyp ist die bedeutung des schwierigkeitsindex eine andere. also zwei arten von items- zwei bedeutungen von “schwierigkeit” : 1. in persönlichkeitstests (ratingskalen zb ich bin zuverlässig. hier geht es nicht um richtig oder falsch, sondern um zustimmung. schwierigkeitsindex=wie viele stimmen zu?

bsp: item: ich bin gerne pünktlich. wenn viele sagen “stimmt völlig” , ist das item leicht, weil viele zustimmen. Hoher mittelwert= leicht.

  1. in leistungstests zb wissenstests, matheaufgaben , ja/nein format aber muss nicht immer ja nein format sein ) geht es um richtige oder falsche antworten. schwierigkeitsindex= wie viele haben die richtige lösung gefunden?

    bsp: ist berlin die hauptstadt von deutschland? 90 von 100 sagen ja. P=90% also leichte aufgabe, weil viele sie richtig beantwortet haben.

merke: itemtyp: persönlichkeitstest

bedeutung schwierigkeitsindex=zustimmungshäufigkeit (zb 5er skala)

itemtyp: leistungstest

bedeutung schwierigkeitsindex= anteil richtiger antworten (zb ja /nein). )

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

Schwierigkeitsanalyse: Dichotome Items (Ja - Nein) Schwierigkeits-

index ohne Korrektur


was bewirken mittlere itemschwierigkeiten bei dichotomen items?


was bewirken extreme itemschwierigkeiten?


wovon hängt die standardabweichung eines dichotomen items ab?

was bewirken mittlere itemschwierigkeiten bei dichotomen items?

= Mittlere Itemschwierigkeiten erhöhen bei dichotomen Items die

Wahrscheinlichkeit für hohe Streuungen der Itemantworten und damit für

eine starke Differenzierung zwischen den Testpersonen

→ führt zu hohen Trennschärfen

=dh (wenn ein item mittel schwer ist (zb 50% richtig, 50% falsch) dann antworten die leute unterschiedlich . das hilft , gut zwischen “guten” und “schwachen “ testpersonen zu unterscheiden. das item kann gut unterscheiden , wer insgesamt eher stark oder schwach ist —> das nennt man hohe trennschärfe)


• was bewirken extreme itemschwierigkeiten?

=Extreme Schwierigkeiten ermöglichen eine Differenzierung in

Randbereichen der Verteilung, führen aber meist zu reduzierter

Homogenität

→ führt zu reduzierten Trennschärfen

(dh= wenn ein item sehr leicht oder sehr schwer ist, kann es sehr wenige personen unterscheiden (zb nur die ganz schwachen oder ganz starken ) es passt nicht gut zur mitte der gruppe —>dadurch wird der test weniger einheitlich (also weniger homogen)

führt zu reduizierten trennschärfe bedeutet= weil fast alle das item gleich beantworten , bringt es wenig infos und kann nicht gut zwischen personen unterscheiden).


• wovon hängt die standardabweichung eines dichotomes items ab?

Die Standardabweichung des Items (i) mit dichotomen Antwortformat

hängt rechnerisch vom Schwierigkeitsindex ab: (formel)

=(dh man kann die streuung der antworten berechnen und sie hängt davon ab, wie viele personen das item richtig beantworten.)


zur formel: ( dh die streuung (standardabweichung) ist am höchsten, wenn P=0,5 (also 50% richtig). das ist ideal weil es bedeutet : antworten sind gut verteilt= mehr info= bessere unterscheidung.


(trennschärfe= hohe trennschärfe= heißt das item “trennt” gut zwischen personen. dadurch kann man gut zwischen starken und schwachen personen unterscheiden).


(homogenität= dh die items eines tests messen alle ungefähr dasselbe. wenn ein item “aus der reihe tanzt” , senkt das die homogenität.



4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

▪ Itemverteilung/Itemstreuung

analysieren

Woran erkennt man problematische Itemverteilungen/itemstreuungen in einem Test?

• Boden- und Deckeneffekte prüfen

(Bodeneffekt= Viele Personen wählen die niedrigste antwortmöglichkeit (zb stimme gar nicht zu). das bedeutet das item ist zu schwer oder nicht verständlich, es gib dann keine unterschiede zwischen den personen , weil fast alle gleich niedrig antworten. (zb ich lese jeden tag drei wissenschaftliche artikel- fast alle antworten mit 1=bodeneffekt).

(Deckeneffekt= viele personen wählen die höchste antwortmöglichkeit (zb stimme völlig zu). das bedeutet: das item ist zu leicht oder zu allgemein , auch hier fehlt die streuung. zb: ich finde es gut, freundlich zu sein. fast alle sagen 5 =>deckeneffekt )

• Mehrgipflige Verteilungen

(=dh die Antworten häufen sich an mehreren Stellen der skala (zb viele bei 1 und bei 5). das bedeutet die testpersonen verstehen das item unterschiedlich oder es gibt gruppen mit sehr verschiedenen meinungen. zb: ich finde gruppenarbeiten hilfreich - einige lieben sie (antwort 5) , andere hassen sie (antwort 1) = mehrgipflig

• Gleichverteilungen

(=die antworten sind gleichmäßig über die skala verteilt (zb etwa gleich viele 1er , 2er, 3er ..)

das bedeutet: könnte auf zufall , raterei, oder unsicherheit hindeuten- das item ist eventuell unklar formuliert. zb: ich stimme zufälligen aussagen zu- jede antwprtmöglichkeit wird dabei ähnlich oft gewählt.)

erklärung zur abbildung: )

obere grafik: antworten sind relativ gut gestreut —>keine starken boden- oder deckeneffekte —>aber leichte häufung bei 3 und 4. )

untere grafik: ) starker deckeneffekt: fast alle personen haben sehr hoch geantwortet (viele 4er) item ist vermutlich zu leicht oder alle stimmen sehr stark zu. )

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

▪ Deskriptiv Statistiken: Umsetzung in R

• Übersicht

das ist eine übersicht über verschiedene items (fragen) aus einem test, mit den wichtigsten statistikwerten für jedes item.

vars= variablennummer (für R intern)

n= anzahl gültiger antworten ( zb 101 personen)

mean= mittelwert ,zeigt wie hoch im durchschnitt geantwortet wurde.

sd= standadrabweichung , wie stark die antworten streuen.

median= der mittlere wert (zentralwert)

trimmed= mittelwert ohne extreme ausreißer

mad= mittlere abweichung vom median (robuste streuung)

min / max : kleinster / größter wert auf der skala

range: spannweite

skew= schiefe, zeigt ob die antworten eher links, rechts liegen

kurtosis = wölbung , ob die verteilung eher flach oder spitz ist

se= standardfehler , wie genau der mittelwert geschätzt ist.

was sagen die werte insgesamt über die items aus?

=mittelwerte (mean) liegen meist zwischen 1.6 und 2.2

die items sind weder extrem leicht, noch extrem schwer (keine starken decken, bodeneffekte)

die antworten tendieren leicht zur niedrigen zustimmung, aber noch im normalen bereich

standardabweichungen (sd) um 1.0 . das zeigt dass es eine gute streuung der antworten gibt. die items können zwischen personen gut unterscheiden.

schiefe (skew) ist bei fast allen items nahe o. —>die verteilungen sind relativ symmetrisch , keine starke verzerrung.

kurtosis (wölbung)= liegt meist unter 0—>die verteilungen sind eher flach als spitz das bedeutet die antworten sind etwas breiter gestreut, nicht stark auf einen wert konzentriert.

fazit;

die items zeigen insgesamt : gute verteilung, brauchbare streuung, keine auffälligen extremwerte, also: keine klaren problem-items dabei.

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

▪ Histogramme für mehrere Variablen in R

Worum gehts?

  • Hier geht es darum, wie man in R mehrere Histogramme gleichzeitig darstellen kann, um die Antwortverteilungen von vielen items auf einmal zu vergleichen.

  • Code kurz erklärt: select () wählt zb neo 1, neo 6…

  • melt () = macht aus spalten zeilen (damit ggplot es als “lange daten” versteht )

  • geom_histogram())= erstellt histogramme (also verteilung der antworten)

  • facet_wrap(variable): zeigt für jede variable ein eigenes kleines histogramm

wozu das ganze?

Ein Histogramm ist ein statistisches Diagramm, das die Verteilung eines kontinuierlichen Datensatzes durch gezeichnete Balken darstellt, von denen jeder eine bestimmte Kategorie oder ein Klassenintervall darstellt. Die Balkenhöhe spiegelt die Häufigkeit oder Anzahl der Datenpunkte innerhalb jeder Gruppe wider.

—>du bekommst einen schnellen überblick , wie die antwortverteilungen bei vielen items aussehen.

du erkennst sofort: gibt es boden- oder deckeneffekte? sind die items mehrgipflig oder gut verteilt? also Bodeneffekt= alle antworten niedrig, deckeneffekt= alle antworten hoch, mehrgipflig= zb gruppenunterschiede, ausreißer oder verzerrungen)

ein histogramm ist also ein balkendiagramm, das zeigt, wie oft ein bestimmter wert oder wertebereich in den daten vorkommt.

man nutzt also histogramme um die verteilung von antworten zu erkennen, zb ob viele hohe, niedrige oder mittlere werte vorkommen.

die aussagen unten sind beispiel items die im histogramm dargestellt werden- vermutlich items aus einer skala zu emotionaler belastung oder depressivität.

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

was zeigt die folie?

  • die grafik zeigt histogramme für mehrere items gleichzeitig - hier zb neo 1, neo. 6, neo 11 bis neo 56 . jedes kleine kästchen stellt ein item dar.

  • auf der x-achse steht der antwortwert (Zb 0 bis 4) , auf der y-achse die anzahl der personen, die diesen wert gewählt haben.

  • was kann man aus dem histogramm ablesen?

    die verteilungen sehen bei den meisten items gesund gestreut aus- keine extremen boden- oder deckeneffekte.

  • teilweise schiefe sichtbar zb bei neo 6 antworten vielen mit 2, nur wenige mit 0 = leichte schiefe zur mitte.

  • neo 16 und neo 56 zeigen etwa smehr hohe antworten —>evtl. leichteres item.

  • item neo 46 = wirkt relativ gleichmäßig verteilt—> das zeigt eine gute streuung.

wozu ist das hilfreich?

so sieht man auf einen blick:

welche items gut unterscheiden können (breite verteilung)

welche items evtl. problematisch sind (zb fast alle antworten gleich)

also hilft diese darstellung die qualität der items zu beurteilen, bevor man sie weiter statistisch auswertet.

was bedeutet gesund gestreut?

dh die anworten verteilen sich über mehrere antwortmöglichkeiten (nicht alle wählen zb nur 0, oder nur 4)

es gibt unterschiede zwischen den personen - und das ist gut , weil so das item zwischen menschen differenzieren kannn.

nicht gut gestreut wäre zb:

nur ein balken ist sehr hich (zb bei 4)

das nennt man deckeneffekt

oder nur ganz niedrige werte (zb bei 0 ) das ist dann ein bodeneffekt

frag dich bei jedem kleinen plot:

gibt es mehrere balken, die ähnlich hoch sind?

dann gut gestreut

ist nur ein balken hoch und der rest fast leer? = dann ist es kein gutes item zur unterscheidung

das ist übrigens auch ein histogramm

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

▪ Boxplots für mehrere Variablen in R

worum gehts hier?

diese folie zeigt , wie man mit R mithilfe von BOXPLOTS die verteilungen der antworten auf die items übersichtlich darstellen kann.

was ist ein boxplot?

ein boxplot ist eine grafische darstellung die zeigt:

wo liegt die mitte der antworten ? (=Median)

Wie weit streuen die antworten ? (Box= Interquartilsabstand)

gibt es ausreißer? (punkte außerhalb der fühler)

kurz gesagt: Boxplots helfen dir, streuung , zentrum und ausreißer auf einen blick zu sehen.

was macht der R-code auf der folie?

bedeutung :

items auswählen (neo 1, neo 6, neo 56..)

daten umformen (von “breit” zu “lang” mit melt ()

boxplot zeichnen mit geom_boxplot ()

—>jeder boxplot zeigt die verteilung der antworten für ein item

wozu ist das nützlich?

=um zu sehen, ob items gleichmäßig beantwortet wurden.

ob es ausreißer gibt

ob es items mit geringer streuung (kaum unterschied) gibt.

also: in den boxplots sieht man die verteilung der antworten pro item also:

wie sind die werte verteilt? liegen sie eher in der mitte oder ganz oben / unten auf der skala?

wie breit ist die streuung? antworten die leute ähnlich oder sehr unterschiedlich?

gibt es ausreißer? personen, deren antworten sehr stark vom rest abweichen?

was sagt ein boxplot über die verteilung?

die box zeigt , wo die mittleren 50% der antworten liegen

der strich in der mitte = median (also die mitte der antworten)

die “fühler” (Whisker) zeigen den rest der “normalen” verteilung

punkte außerhalb = ausreißer

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.3 Prüfung der Item- und Testwertgüte

▪ Prüfung der Testwertgüte

• Neben der Prüfung einzelner items (itemqualität) wird jetzt auch geschaut: wie gut ist der gesamte testwert (also der score, den man am ende bekommt?) ( wenn eine person viele items beantwortet , bekommt sie am ende einen gesamtwert (testscore) jetzt prüft man: ist dieser gesamtwert zuverlässig ? misst er wirklich das, was er messen soll? )


Zusätzlich zur Prüfung der Itemqualität werden erste Ergebnisse zur psychometrischen Güte des Testscores ermittelt

(=es wird nicht nur geschaut, ob einzelne fragen gut sind, sondern auch , ob der test insgesamt zuverlässig und gültig misst.


Zweck: Positionsbestimmung – Ist die Entwicklungsarbeit auf dem richtigen

Weg? (= man prüft ob man auf dem richtigen weg ist, zeigen die ergebnisse schon eine brauchbare teststruktur?


Auf den Testentwurf werden oft dieselben Analysen wie auf die finale Testversion angewandt

(=auch in der testentwicklung nutzt man schon methoden, die später beim endgültigen test wichtig sind)


was wird geprüft?:

reliabilität (wie zuverlässig misst der test? (zb interne konsistenz)


skalierbarkeit (kann man aus den items einen sinnvollen gesamtwert bilden?)


faktorielle validität (stimmen die daten mit der theoretischen struktur überein? (zb faktorenanalyse)


kriteriumsvalidität (passt der testwert zu äußeren kriterien? ) zb schulleistung, verhalten)


konvergente / diskriminante validität (misst der test das, was er soll und nicht etwas anderes



4. Empirische Überprüfung des Testentwurfs und Testrevision

4.4 Revision des Testentwurfs

▪ Revision des Testentwurfs

(Was bedeutet eigentlich Revision des testentwurfs?

bedeutet, dass der erste entwurf des tests nach der datenauswertung überprüft und angepasst wird.

warum macht man das ? weil sich beim testen oft zeigt: manche fragen (items) funktionieren nicht gut, wichtige inhalte fehlen noch, oder das, was gemessen werden soll, wird nicht richtig abgedeckt.

was kann man dann machen? items umformulieren oder löschen, neue items hinzufügen, oder sogar die teststruktur oder definitionen überarbeiten. die revision des testentwurfs ist der schritt, in dem man den test auf basis der daten verbessert , bevor man ihn finalisiert ) .


• Umfangreiche Datenbasis nach Erhebung qualitativer und quantitativer Daten und der Analysen der Item- und Testwertgüte

(=es liegen jetzt viele daten vor, aus interviews , fragebögen etc. diese wurden genutzt um einzelne items und den gesamten test statistisch zu prüfen)

− Internale, externale und inhaltliche Qualitätsindikatoren für Testitems

(=man schaut, ob die items zb gut unterscheiden (trennschärfe) sinnvoll zusammenhängen (korrelatinen ) , verständlich sind etc. )

− Erste Daten zur psychometrischen Qualität des Testwerts (Gütekriterien)

(=man bekommt erste ergebnisse zu den testgütekriterien zu wie reliabilität, validität) diese infos kommen aus den bisherigen auswertungen)


• Weiteres Vorgehen hängt vom Umfang der nötigen Revisionen ab

− Geringfügig, z.B. wenn Reliabilität und Validität des Testwerts schon akzeptabel für

Anwendungszweck und nur einzelne Items optimiert werden müssen

(=es muss nur wenig überarbeitet werden: der test ist schon ziemlich gut , aber mann vlt ein paar fragen verbessern)


− Moderat, wenn zahlreiche neue Items hinzugefügt werden müssen, z.B. weil

bestimmte Aspekte des Konstrukts noch nicht adäquat repräsentiert sind

(=es fehlen noch wichtige inhalte, die zum thema gehören. deshalb muss man mehrere neue items ergänzen, um das konstrukt vollständig abzudecken )


− Umfangreich, wenn sich herausstellt, dass bestimmte Aspekte des Konstrukts

bisher nicht bedacht wurden und die Arbeitsdefinition revidiert werden muss

(der test geht inhaltlich am ziel vorbei, zb weil man das konstrukt falsch oder unvollständig definiert hat. dann muss man größere änderungen machen- vlt. sogar das ganze konzept überdenken, )

4. Empirische Überprüfung des Testentwurfs und Testrevision

4.4 Revision des Testentwurfs

▪ Strategien bei der Testrevision

• Manuelle Itemselektionsstrategien

(dh die testentwickler entscheiden bewusst , welche items sie behalten oder rausnehmen - auf basis von kennwerten)


− Maximierung der Reliabilität/Faktorladungen

(man wählt die items aus die: zuverlässig messen (hohe reliabilität) , gut zu einem faktor gehören also inhaltlich passen (hohe faktorladung)


− Minimierung der Modifikationsindizes/Nebenladungen

(=wenn man einen test erstellt, möchte man, dass jedes item nur zu einem bestimmten bereich (faktor) gehört. was sind nebenladungen = das ist, wenn ein item nicht nur auf einen faktor sondern auch auf andere faktoren “mitlädt” (also mit anderen bereichen zusammenhängt). das ist nicht gut weil dann unklar ist was das item eigentlich misst.

was sind modifikationsindizes = das sind hinweise aus einer faktoranalyse, die sagen hey wenn du dieses item rausnimmst oder umänderst passt das modell besser)

also : ein hoher modifikationsindex= das item stört das modell)

der satz meint also: man sollte items mit nebenladungen oder hohem modifikationsindex lieber rausnehmen oder verbessern, weil sie die struktur des tests verzerren und verwirrung bringen )

- Optimales Vorgehen: Verwendung multipler Kriterien (internale, externale,

inhaltliche)

(=am besten : man kombiniert mehrere aspekte bei der entscheidung: internale= zb trennschärfe, homogenität,

externale= zb zusammenhang mit anderen tests;

inhaltliche= zb verständlichkeit , relevanz)


− Nachteil: Nichtbeachtung der wechselseitigen Abhängigkeiten der Testitems bei

sukzessiver Elimination

(=problem= wenn man ein item nach dem anderen rausnimmt ändert sich die wirkung der restlichen items- das wird oft nicht mitbedacht. folge: die skala funktioniert nach der überarbeitung evtl. nicht mehr optimal).

Author

Nipu D.

Informationen

Zuletzt geändert