4. Empirische Überprüfung des Testentwurfs und Testrevision
Themen & Lernziel
4.1 Einführung
4.2 Datenerhebung
4.3 Prüfung der Item- und Testwertgüte
4.4 Revision des Testentwurfs
4.5 Synopsis
▪ Lernziel: Wissen, wie man einen Testentwurf auf der Grundlage
empirischer Daten optimiert
Was haben wir bisher gehört?
was folgt nun im Ablauf?
Wir haben bisher gehört …
• wie wir den Messgegenstand definieren können (Arbeitsdefinition,
nomologisches Netz),
• bei wem der Test messen soll (Zielgruppe, Testziel) und
• auf welche Art und Weise gemessen werden soll (Konstruktionsstrategie, Itemformulierung, Antwortformat etc.)
Was folgt nun im Ablauf?
Nun folgt die erste Erhebung
empirischer Daten und eine
erste „Optimierungsschleife“
▪ Datenanalyse und
Testrevision
▪ Durchlaufen der Schritte bis
Testendversion die anvisierte
Güte aufweist
Erklärung in eigenen worten:
Was versteht man unter der Optimierungsschleife= Eine Optimierungsschleife meint, dass man nach dem ersten entwurf des tests nicht direkt fertig ist. Stattdessen macht man eine erste erhebung von echten daten, schaut sich an, wie gut der test funktioniert, und verbessert ihn dann gezielt auf basis dieser erkenntnisse. Das Ganze kann mehrfach durchlaufen werden- so lange , bis der test wirklich gut ist.
Was ist eine Testrevision?= Testrevision heißt der Test wird überarbeitet, zb weil manche fragen unverständlich sind, keine guten ergebnisse liefern oder nicht gut zum konstrukt passen. man schaut sich also an, welche teile verbessert oder ausgetauscht werden müssen, um die qualität des tests zu erhöhen.
Was ist mit Datenanalyse gemeint?
Bei der Datenanalyse schaut man sich genau an, wie die antworten der testpersonen ausgefallen sind. zum beispiel: welche fragen waren zu leicht oder zu schwer, wo gan es viele ausreißer oder missings?, sind die items gut voneinander unterscheidbar? wie zuverlässig ist der test insgesamt?
Diese analyse gibt die Grundlage für die Tesrevision.
Was bedeutet der letzte satz: durchlaufen der schritte bis testendversion die anvisierte güte aufweist? = das bedeutet man macht die schritte (datenerhebung, analyse, überarbeitung) mehrmals hintereinander, bis die endversion des tests eine ausreichend gute qualität hat- also zb zuverlössig misst, valide ist, verständlich und relevant für die zielgruppe.
In welchen zwei Phasen sollte sich die empirische Überprüfung des Testentwurfs optimalerweise gliedern?
Was ist der Zweck der Erhebung qualitativer Daten?
Die empirische Überprüfung des Testentwurfs sollte sich
optimalerweise in zwei Phasen der Datenerhebung gliedern:
• Erhebung qualitativer Daten
• Erhebung quantitativer Daten
(=Erklärung in eigenen worten= Die empirische überprüfung des testentwurfs= bedeutet man überprüft mit echten daten , ob der test so funktioniert, wie man es geplant hat. Also : man schaut in der praxis , ob die fragen verständlich sind, sinnvoll beantwortet werden und das messen, was sie messen sollen. Und diese empirische überprüfung des testentwurfs sollte sich optimalerweise in zwei phasen der datenerhebung gliedern: dh einmal 1. durch die erhebung qualitativer daten= man will dabei herausfinden : verstehen die leute die fragen und anleitungen?, man schaut sich genau an, wie die leute beim lösen denken zb mit der Think-Aloud-technik (laut denken) und Probing (gezielt nachfragen). 2.bei der zweiten phase der erhebung quantitativer daten wird der test an viele personen gegeben, mit zahlen , auswertungen und statistiken. man schaut: wie schwierig sind die items, gibt es ausreißer oder fehler, wie gut unterscheiden sich die antworten zwischen den personen? , ist der test zuverlässig und valide. Zusammengefasst: also erst schaut man im kleinen qualitativ, ob alles verstanden wird, dann im großen quantitativ, wie gut der test messbar funktioniert.)
Erhebung qualitativer Daten:
• Zweck: Überprüfung des Verständnisses der Instruktionen und Items, Erhebung von Lösungsstrategien
• Kleine Stichprobe, Quotenplan nach Alter, Geschlecht und Bildung (!), abhängig von Zielgruppe des Tests
• Think aloud-Technik: Testpersonen denken laut beim Bearbeiten
• Probing: gezieltes Nachfragen bei einzelnen Konzepten und Begriffen
(Erklärung=wie läuft die erhebung qualitativer daten ab? hier will man nicht zahlen sammeln, sondern verstehen, wie die testpersonen denken, ob sie alles richtig verstehen und wie sie mit den items umgehen. das macht man so: 1. Kleine stichprobe auswählen: nur weniger personen (zb 5-15) aus der zielgruppe, sie sollten verscheiden alt sein, unterschiedliche bildung und geschlechter haben also möglichst vielseitig abgedeckt sein (=Quotenplan). Also quotenplan heißt: die testgruppe (also die leutet die man testet) wird so ausgewählt, dass verschiedene altersgruppen, geschlechter und bildungsniveaus vertreten sind. so stellt man sicher , dass die ergebnisse nicht nur für eine kleine teilgruppe gelten, sondern repräsentativ für die zielgruppe sind)
2. Think Aloud-Technik verwenden= die testperson spricht laut , was sie denkt, während sie die fragen bearbeitet. so erkennt man zb : oh die frage ist irgendwie komisch fprmuliert, oder ich weiß nicht genau, was hier gemeint ist.
3. Probing= gezieltes nachfragen. Der Testleiter fragt nach bestimmten begriffen oder formulierungen: zb was verstehen sie unter diesem wort? warum haben sie sich für diese antwort entschieden?
(Was bedeutet erhebung von Lösungsstrategien?= dabei geht es darum herauszufinden, wie die testpersonen beim lösen der aufgaben vorgehen. also: was denken sie? was verstehen sie unter der frage? wie kommen sie auf ihre antwort?
das hilft dabei zu sehen, ob die fragen wirklich das messen, was sie sollen oder zb verwirrung entsteht)
Was ist bei der Erhebung quantitativer Daten wichtig?
• Geeignete und ausreichend große
Konstruktionsstichprobe muss
rekrutiert werden: Mindestgrenze N =
100, besser N = 250 oder mehr!
• Testpersonen aus Zielgruppe des Tests
rekrutieren
• Testlänge, Testzeit beachten
• Konvergente und diskriminante Maße
mitlaufen lassen!
(dh= es müssen genug leute mitmachen: mindestens 100 besser 250 oder mehr , die gruppe nennt man Konstruktionsstichprobe.
Was bedeutet testpersonen aus zielgruppe rekrutieren?=man soll nur personen testen, für die der test gedacht ist. zb: wenn der test für jugendliche ist, dann sollen auch nur jugendliche mitmachen - nicht erwachsene- so bleibt der test relevant und aussagekräftig.
testlänge und testzeit beachten= der test darf nicht zu lang oder zu anstrengend sein. sonst sind die leute unkonzentriert oder genervt- das verfälscht die ergebnisse.
konvergente und diskriminante maße mitlaufen lassen=
dh konvergente maße= man gibt ähnliche tests oder skalen , die dasselbe konstrukt messen —> wenn beide gut zusammenpassen = gut ! (hohe korrelation)
diskriminante maße= man gibt tests zu ganz anderen themen, die nicht dasselbe messen —>wenn diese nicht mit dem test zusammenhängen = auch gut (niedrige korrelation) Ziel: zeigen , dass dein test genau das misst, was er messen soll und nichts anderes).
Was ist der nächste schritt nach der datenerhebung?
woran können wir die Güte von items festmachen?
▪ Nächster Schritt: Prüfung der Item- und Testwertgüte
▪ Woran können wir Güte von Items festmachen?
▪ =Durch Indikatoren der Itemqualität nach Stanton, Sinar, Balzer, & Smith
(2002):
• Internale Qualitätsindikatoren: Itemschwierigkeit, Itemvarianz,
Antwortverteilung, Trennschärfen, Faktorladungen, IRT-Parameter
• Externale Qualitätsindikatoren: Fremdtrennschärfen
• Inhaltliche Qualitätsindikatoren: Inhaltsvalidität, Verständlichkeit, Relevanz
für Zielgruppe, semantische Redundanz (Modern Talking-Items)
➜ Subjektive Ratings durch Experten oder Zielgruppe
(erklärung= was versteht man unter item- und testwertgüte= das ist die qualität der einzelnen Fragen (Items) und des gesamten testergebnisses (testwert)
man prüft, ob die items funktionieren, trennen , verständlich und relevant sind- und ob der test insgesamt zuverlässig und gültig ist.
internalte qualitätsindikatoren:
itemschiwerigkeit= gibt an, wie leicht oder schwer eine frage ist (zb) wie oft sie richtig beantwortet wird.
itmvarianz= zeigt, wie stark sich die antworten auf ein item unterscheiden , je mehr streuung , desto besser unterscheide es.
trennschärfe= zeigt, wie gut ein item zwischen “starken” und “schwachen” personen unterscheidet.
Faktorladungen: zeigen, wie stark ein item zu einem bestimmten faktor (zb persönlichkeitseigenschaft) gehört.
IRT-parameter= kennzahlen aus der Item-Response Theorie , die beschreiben , wie genau ein item misst, bei welcher fähigkeit etc. )
(Externale Qualitätsindikatoren:
Fremdtrennschärfen= zeigen , wie gut ein item mit anderen tests oder skalen zusammenhängt , die ähnliche dinge messen).
(Inhaltliche Qualitätsindikatoren:
Inhaltsvalidität= deckt das item den inhalt ab, den es messen soll?
verständlichkeit= ist das item sprachlich klar und leicht zu verstehen?
relevanz für die zielgruppe= passt das item zur lebensrealität der getesteten personen?
semantische redundanz (modern talking items)= sind items inhaltlich zu ähnlich doppelt vorhanden?
subjektive ratings= einschätzungen der items durch experten oder tespersonen - ob sie sinnvoll und passend erscheinen.)
Was ist das Ziel der Itemanalyse?
was liefert eine übersicht über die missings auf itemebene?
welche deskriptiven statistiken soll man sich anschauen?
Welche verteilungen sollte man analysieren?
Das ziel der itemanalyse ist es ein gefühl für die daten zu bekommen
=Erstes Indiz für problemitems
welche deskriptiven statistiken soll man sich anschauen?:
= Itemschwierigkeit, antwortverteilung, univariate ausreißer
=Histrogramme, Boxplots, Streudiagramme (zb bivariate ausreißer)
erklärung: was bedeutet übersicht über die missings auf items? was sind missings= das sind nicht beantwortete fragen im test. was wird gemeint mit erstes indiz für problemitems= wenn viele leute eine frage nicht beantworten , ist das ein hinweis , dass sie unklar oder problematisch sein könnten. )
(wann schaut man sich die deskriptiven statistiken an? frühzeitig nach der datenerhebung, um zu sehen, ob es auffällige oder schlechte items gibt).
(begriffe kurz erklärt:
itemschwierigkeit= wie leicht oder schwer eine frage ist (wie viele sie richtig beantworten bzw zustimmen).
antwortverteilung= zeigt, wie die antworten verteilt sind zb alle in der mitte = verdächtig.
univariate ausreißer= einzelne, extrem abweichende antworten bei einem item, kann die statistik verzerren.
histogramme= balkendiagramm, das zeigt, wie oft welche antwort vorkommt.
boxplots= zeigt median, quartile und ausreißer gut für vergleich von verteilungen.
streudiagramme zb bivariate ausreißer= punkt-diagramm, um zu sehen , ob zwei variablen auffällig zusammenhängen oder einzelne werte stark herausstechen. )
Wie geht man bei der Itemanalyse vor? wie sieht das Vorgehen der Itemanalyse aus?
Vorgehen bei der Itemanalyse:
• Ermittlung der Itemrohwerte (➜ Itemschwierigkeit)
• Prüfen der Missings
• Schwierigkeitsanalyse
• Itemverteilung/Streuungsanalyse
• Reliabilitätsanalyse inklusive Trennschärfe
• Strukturanalyse, z.B. Zuordnung Item zu Faktor
(die itemanalyse ist wichtiger schitt, bei dem man prüft , wie gut einzelne items im test funktionieren.
begriffe erklärt:
(1. ermittlung der itemrohwerte —>Itemschwierigkeit
man schaut, welche punktzahl eine person bei jedem item erzielt hat. daraus kann man berechnen , wie schwer oder leicht ein item ist (itemschwierigkeit).
2.prüfen der missings = man kontrolliert , wie viele antworten fehlen bei jedem item. viele fehlende antworten = hinweis auf probleme mit dem item.
schwierigkeitsanalyse= es wird berechnet, wie schwierig jedes item ist, also wie viele personen es “richtig” beantworten oder zustimmen. zu leiche oder zu schwere items sind weniger nützlich.
itemverteilung / streuungsanalyse : man untersucht, wie stark die antworten auf ein item streuen. items mit wenig streuung unterscheiden nicht gut zwischen personen.
=dh man schaut, wie unterschiedlich die leute auf ein item antworten. wenn alle ungefähr das gleiche antworten (zb alle wählen “stimme volll zu ) dann ist kaum unterschied zu sehen —>das item unterscheidet nicht gut zwischen personen.
wenig streuung= item bringt kaum infos
viel streuung= item zeigt unterschiede zwischen personen und ist wertvoller für den test )
Reliabilitätsanalyse inklusive trennschärfe: man prüft wie zuverlässig der test ist (zb cronbachs alpha) und wie stark jedes item zum gesamttest passt (trennschärfe)
strukturanalyse (zb zuordnng item zu faktor)= man schaut, zu welchem inhaltlichen bereich (faktor) ein item gehört zb durch faktorenanalyse. das zeigt, ob die struktur des tests logisch und konsistent ist. zb man entwicklet einen persönlichkeitstest , der folgende bereiche messen soll: extraversion, neurotizismus, gewissenhaftigkeit
du hast zb 30 items also 10 für jeden bereich. ein item lautet: ich gehe gerne auf neue leute zu, du erwartest dass es zur extraversion gehört. was passiert jetzt bei der strukturanalyse? du machst eine faktorenanalyse die zeigt dir dann: passt das item wirklich zu extraversion? oder lädt es vielleicht eher auf einen anderen faktor wie neurotizismus? wenn ein item nicht auf den erwarteten faktor lädt, passt es inhaltlich nicht und sollte evtl. überarbeitet oder entfernt werden.
ziel der strukturanalyse: sicherstellen, dass alle items wirklich das messen, was sie sollen und sauber einem klaren bereich (faktor) zugeordnet werden können. )
Ermittlung von Itemrohwerten
Was ist ein Itemrohwert?
was kann bei negativ gepolten items nötig sein ?
was kann man mit mehreren itemrohwerten machen?
was ist der item oder skallenmiitelwert?
wie nennt man den itemmittelwert auch?
Was ist ein Itemrohwert? = der itemrohwert ist der wert einer person (proband) bei der beantwortung eines einzelnen items (zb eine zahl auf einer skala von 1 bis 5).
was kann bei negativ gepolten items nötig sein ? =evtl. umkodierung negativ gepolter items nötig
man kann sie zusammenrechnen (summieren) um daraus Skalenwerte oder Untertestwerte zu bilden . Ergebnis—> Probandenrohwert im test (zb gesamtscore).
was ist der item oder skallenmitelwert? ▪ Mittelwertbildung von Item- oder Probandenrohwerte über die
Probanden in einer Stichprobe
➜ Item- oder Skalenmittelwert dh das ist der durschnittswert der item - oder probandenrohwerte über alle personen einer stichprobe.
wie nennt man den itemmittelwert auch? der itemmittelwert wird auch als (psychometrische) Itemschwierigkeit bezeichnet.
(erklärung umkodierung negativ gepolter items= stell dir vor du willst testen wie ordentlich jemand ist. du hast zwei aussagen (items)
item 1: positiv formuliert= ich räume regelmäßig auf
wenn jemand sagt: 5=stimmt völlig —>bedeutet: sehr ordentlich
1= stimmt gar nicht —>bedeutet: nicht ordentlich
hohe zahl = ordentlich
item 2 negativ formuliert: ich lasse meine sachen überall liegen.
wenn jemand sagt: 5= stimmt völlig —> bedeutet: nicht ordentlich
1= stimmt gar nicht —>bedeutet: sehr ordentlich
hier ist das problem: Hohe zahl= unordentlich- also genau das gegenteil von item 1.
warum ist das ein problem?= wenn du später alle antworten zusammenzählst, soll eine hohe gesamtpunktzahl zeigen: diese person ist ordentlich. aber bei item 2 bedeutet eine hohe zahl ja das gegenteil. was macht man also? man dreht die antwort bei item 2 um, damit eine hohe zahl auch dort “ordentlich” bedeutet.
zb: du gibst bei item 2 die antwort 5 (du lässt deine sachen über all liegen) das ist eigentlich nicht ordentlich, nach umoodierung wird das zu 1 also du bist ordentlich. )
Was ist (psychometrische) Itemschwierigkeit?
▪ Definition (psychometrische) Itemschwierigkeit: Zustimmung zu einem Item in Schlüsselrichtung der Skala
▪ Schwierigkeitsindizes für:
• Intervallskalierte Items (Ratingskalen)
• Dichotome Items
• Ordinalskalierte Items
(das bedeutet: was ist (psychometrische) itemschwierigkeit?= dh wie viele personen stimmen einem item zu, und zwar in der richtung, die du als “richtig” oder “typisch” willst (=schlüsselrichtung). zb: ich arbeite gerne im team. wenn viele sagen “ja stimmt”, ist das item leicht, wenn wenige zustimmen , ist es schwer. weil bei der itemschwierigkeit geht es nicht darum, ob etwas “falsch” oder “richtig” ist, sondern wie viele leute der aussage zustimmen, also wie “einfach” es ist, zustimmung zu bekommen. bsp: ich arbeite gerne im team. wenn 90% der leute sagen stimmt, dann heißt das: fast alle finden diese aussage zutreffend—>das item ist also leicht, weil es für fast alle personen “zutrifft”.
merksatz: leichtes item= viele stimmen zu,
schweres item= wenige stimmen zu. !!!es geht um Zustimmungshäufigkeit, nicht um richtig/ falsch wie bei einem wissenstest.
was sind schwierigkeitsindizes?
=das sind zahlen, mit denen man berechnen kann wie leicht oder schwer ein item ist- je nachdem, wie es beantwortet wurde
die dreit arten von items:
1.intervallsklaierte items (ratingskalen): zb skala von 1 bis 5
man rechnet den durchschnitt (mittelwert) als schwierigskeitsindex
dichotome items—>nur zwei antworten möglich, zb ja , nein oder richtig, falsch
—>man schaut : wie viel % haben es “richtig” beantwortet?
ordinalskalierte items: antworten sind in einer geordneten reihenfolge , aber die abstände sind nicht gleich (zb selten, manchmal , oft) es braucht spezielle auswertungen für den schwierigkeistindex. )
Schwierigkeitsanalyse: Intervallskalierte Items
Was wird bei Ratingskalen als schwierigkeitsindex herangezogen?
Warum sollte zusätzlich die Varianz des items betrachtet werden?
was zeigt die formel für den mittelwert xi ?
was zeigt die formel für die varianz s2?
Was wird bei Ratingskalen als schwierigkeitsindex herangezogen? = Fast immer der Mittelwert, da Ratingskalen in der Regel Intervallniveau unterstellt wird.
warum sollte zusätzlich die varianz des items betrachtet werden? = um zu erkennen, wie stark die antworten der testpersonen voneinander abweichen.
was zeigt die formel für den mittelwert xi?
den durchschnittlichen wert für ein item über alle personen.
wie weit die einzelnen antworten vom mittelwert entfernt sind. also die streuung der antworten.
erklärung:
(was sind rating skalen= Das sind bewertungsskalen zb von 1 bis 5 oder 0 bis 10 , bei denen personen einen grad an zustimmung angeben.
beispiel: ich bin oft gut organisiert. 1= stimmt gar nicht 2=.. 5=stimmt völlig
(was ist ein schwierigkeitsindex?= der schwierigkeitsindex sagt: wie leicht oder schwer ein item ist. bei ratingskalen: je höher der mittelwert desto mehr stimmen zu, also : item ist leicht. also der mittelwert ist der durchschnitt aller antworten auf ein item. wenn viele personen zb auf einer 1-5 skala eine 4 oder 5 ankreuzen dann ist der durchschnitt (mittelwert) hoch. was zeigt ein hoher mittelwert?= dass viele personen dem item zugestimmt haben. und wenn viele zustimmen, dann ist das item “leicht” also leicht zu bejahen. gegenteil: ich lüge oft, hier stimmen die meisten nicht zu antworten also 1 oder 2, mittelwert ub 1,8 also niedrig heißt das item ist schwer wegen der niedrigen zustimmung. )
(was ist ein intervallniveau?= das bedeutet die abstände zwischen den zahlen auf der skala sind gleich groß. beispiel: unterschied zwischen 2 und 3 ist genauso groß wie zwischen 4 und 5. deshalb kann man damit gut rechnen, zb den mittelwert berechnen).
(was bedeutet: Bei Ratingskalen wird fast immer der Mittelwert als
Schwierigkeitsindex herangezogen, da bei
Ratingskalen in der Regel Intervalldatenniveau
unterstellt wird. dh= weil man bei ratingskalen davon ausgeht, dass die zahlen gleichmäßig angeordnet sind (intervall) verwendet man fast immer den mittelwert um zu sehen wie “leicht” das item ist.
(Zusätzlich sollte immer die Varianz des Items
betrachtet werden, um zu erkennen, wie stark die
Antworten der Testpersonen auf dem Item
abweichen dh:= die varianz zeigt, wie unterschiedlich die leute geantwortet haben. konkret: wenn fast alle dasselbe sagen= niedrige varianz= item bring also wenig unterscheidung
wenn antworten stark streuuen= hohe varianz = item zeigt unterschiede zwischen personen. )
Schwierigkeitsanalyse: Dichotome items (ja /nein)
wann wird der schwierigkeitsindex ohne korrektur verwendet?
was bedeutet ein hoher prozentwert beim schwierigkeitsindex?
was bedeutet ein geringer prozentwert bein schwierigkeitsindex?
wie berechnet man den schwierigkeitsindex bei dichotomen items?
= beim einsatz in zb persönlichkeitstests, bei denen raten eine untergeordnete rolle spielt.
=er zeigt, dass die aufgabe leicht war (viele haben sie “richtig” gelöst bzw zugestimmt).
was bedeutet ein geringer prozentwert beim schwierigkeitsindex?
er zeigt, dass die aufgabe schwer war (wenige haben sie “richtig” gelöst.
(merk dir: je nach itemtyp ist die bedeutung des schwierigkeitsindex eine andere. also zwei arten von items- zwei bedeutungen von “schwierigkeit” : 1. in persönlichkeitstests (ratingskalen zb ich bin zuverlässig. hier geht es nicht um richtig oder falsch, sondern um zustimmung. schwierigkeitsindex=wie viele stimmen zu?
bsp: item: ich bin gerne pünktlich. wenn viele sagen “stimmt völlig” , ist das item leicht, weil viele zustimmen. Hoher mittelwert= leicht.
in leistungstests zb wissenstests, matheaufgaben , ja/nein format aber muss nicht immer ja nein format sein ) geht es um richtige oder falsche antworten. schwierigkeitsindex= wie viele haben die richtige lösung gefunden?
bsp: ist berlin die hauptstadt von deutschland? 90 von 100 sagen ja. P=90% also leichte aufgabe, weil viele sie richtig beantwortet haben.
merke: itemtyp: persönlichkeitstest
bedeutung schwierigkeitsindex=zustimmungshäufigkeit (zb 5er skala)
itemtyp: leistungstest
bedeutung schwierigkeitsindex= anteil richtiger antworten (zb ja /nein). )
Schwierigkeitsanalyse: Dichotome Items (Ja - Nein) Schwierigkeits-
index ohne Korrektur
was bewirken mittlere itemschwierigkeiten bei dichotomen items?
was bewirken extreme itemschwierigkeiten?
wovon hängt die standardabweichung eines dichotomen items ab?
•
= Mittlere Itemschwierigkeiten erhöhen bei dichotomen Items die
Wahrscheinlichkeit für hohe Streuungen der Itemantworten und damit für
eine starke Differenzierung zwischen den Testpersonen
→ führt zu hohen Trennschärfen
=dh (wenn ein item mittel schwer ist (zb 50% richtig, 50% falsch) dann antworten die leute unterschiedlich . das hilft , gut zwischen “guten” und “schwachen “ testpersonen zu unterscheiden. das item kann gut unterscheiden , wer insgesamt eher stark oder schwach ist —> das nennt man hohe trennschärfe)
• was bewirken extreme itemschwierigkeiten?
=Extreme Schwierigkeiten ermöglichen eine Differenzierung in
Randbereichen der Verteilung, führen aber meist zu reduzierter
Homogenität
→ führt zu reduzierten Trennschärfen
(dh= wenn ein item sehr leicht oder sehr schwer ist, kann es sehr wenige personen unterscheiden (zb nur die ganz schwachen oder ganz starken ) es passt nicht gut zur mitte der gruppe —>dadurch wird der test weniger einheitlich (also weniger homogen)
führt zu reduizierten trennschärfe bedeutet= weil fast alle das item gleich beantworten , bringt es wenig infos und kann nicht gut zwischen personen unterscheiden).
• wovon hängt die standardabweichung eines dichotomes items ab?
Die Standardabweichung des Items (i) mit dichotomen Antwortformat
hängt rechnerisch vom Schwierigkeitsindex ab: (formel)
=(dh man kann die streuung der antworten berechnen und sie hängt davon ab, wie viele personen das item richtig beantworten.)
zur formel: ( dh die streuung (standardabweichung) ist am höchsten, wenn P=0,5 (also 50% richtig). das ist ideal weil es bedeutet : antworten sind gut verteilt= mehr info= bessere unterscheidung.
(trennschärfe= hohe trennschärfe= heißt das item “trennt” gut zwischen personen. dadurch kann man gut zwischen starken und schwachen personen unterscheiden).
(homogenität= dh die items eines tests messen alle ungefähr dasselbe. wenn ein item “aus der reihe tanzt” , senkt das die homogenität.
Schwierigkeitsindex mit Zufallskorrektur
Was ist der Schwierigkeitsindex mit korrektur ?
wie unterscheidet sich das vom schwierigkeitsindex ohne korrekur?
wann wird der schwierigkeitsindex mit korrektur verwendet?
wie ändert sich die itemschwierigkeit?
Was ist der Schwierigkeitsindex mit korrektur ? =ein maß dafür, wie schwer ein item wirklich its, wobei raten bei Multiple choice aufgaben mathematisch rausgrechnet wird.
=ohne korrekur= man zählt einfach, wie viele personen das item richtig gelöst haben , raten wird nicht berücksichtigt.
mit korrekur: man zieht den erwarteten rate-anteil ab, um ein realistischeres bild der schwierigkeit zu bekommen.
wann wird der schwierigkeitsindex mit korrektur verwendet? = Einsatz vorwiegend bei Leistungstests, bei denen es eine richtige Lösung
gibt oder bei Fragebögen, bei denen zufällige Itembeantwortung eine Rolle spielt
Itemschwierigkeit ändert sich mit der Differenz zwischen den Häufigkeiten
der Richtig- und der Falschantworten
(dh= wenn viele richtig antworten und wenige falsch —>item ist leicht. wenn viele falsch und wenige richtig= item ist schwer.
die itemschwierigkeit hängt also davon ab, wie unterschiedlich die antworten ausfallen. )
▪ Itemverteilung/Itemstreuung
analysieren
Woran erkennt man problematische Itemverteilungen/itemstreuungen in einem Test?
• Boden- und Deckeneffekte prüfen
(Bodeneffekt= Viele Personen wählen die niedrigste antwortmöglichkeit (zb stimme gar nicht zu). das bedeutet das item ist zu schwer oder nicht verständlich, es gib dann keine unterschiede zwischen den personen , weil fast alle gleich niedrig antworten. (zb ich lese jeden tag drei wissenschaftliche artikel- fast alle antworten mit 1=bodeneffekt).
(Deckeneffekt= viele personen wählen die höchste antwortmöglichkeit (zb stimme völlig zu). das bedeutet: das item ist zu leicht oder zu allgemein , auch hier fehlt die streuung. zb: ich finde es gut, freundlich zu sein. fast alle sagen 5 =>deckeneffekt )
• Mehrgipflige Verteilungen
(=dh die Antworten häufen sich an mehreren Stellen der skala (zb viele bei 1 und bei 5). das bedeutet die testpersonen verstehen das item unterschiedlich oder es gibt gruppen mit sehr verschiedenen meinungen. zb: ich finde gruppenarbeiten hilfreich - einige lieben sie (antwort 5) , andere hassen sie (antwort 1) = mehrgipflig
• Gleichverteilungen
(=die antworten sind gleichmäßig über die skala verteilt (zb etwa gleich viele 1er , 2er, 3er ..)
das bedeutet: könnte auf zufall , raterei, oder unsicherheit hindeuten- das item ist eventuell unklar formuliert. zb: ich stimme zufälligen aussagen zu- jede antwprtmöglichkeit wird dabei ähnlich oft gewählt.)
erklärung zur abbildung: )
obere grafik: antworten sind relativ gut gestreut —>keine starken boden- oder deckeneffekte —>aber leichte häufung bei 3 und 4. )
untere grafik: ) starker deckeneffekt: fast alle personen haben sehr hoch geantwortet (viele 4er) item ist vermutlich zu leicht oder alle stimmen sehr stark zu. )
Deskriptiv Statistiken:
Umsetzung in R
mit welchem packet kann man deskriptive statistiken in R berechnen?
welcher R-Befehl wird verwendet, um die statistiken anzuzeigen?
(=im kasten)
mit dem Packet psych
(deskripitive statistik= beschreibende statistik, sie fasst daten übersichtlich zusammen zb mit mittelwert (durchschnitt)
standardabweichung (streuung)
minimum , maximum
median (zentralwert)
ziel: überblick bekommen wie die daten aussehen, ohne tiefere tests oder zusammenhänge).
▪ Deskriptiv Statistiken: Umsetzung in R
• Übersicht
das ist eine übersicht über verschiedene items (fragen) aus einem test, mit den wichtigsten statistikwerten für jedes item.
vars= variablennummer (für R intern)
n= anzahl gültiger antworten ( zb 101 personen)
mean= mittelwert ,zeigt wie hoch im durchschnitt geantwortet wurde.
sd= standadrabweichung , wie stark die antworten streuen.
median= der mittlere wert (zentralwert)
trimmed= mittelwert ohne extreme ausreißer
mad= mittlere abweichung vom median (robuste streuung)
min / max : kleinster / größter wert auf der skala
range: spannweite
skew= schiefe, zeigt ob die antworten eher links, rechts liegen
kurtosis = wölbung , ob die verteilung eher flach oder spitz ist
se= standardfehler , wie genau der mittelwert geschätzt ist.
was sagen die werte insgesamt über die items aus?
=mittelwerte (mean) liegen meist zwischen 1.6 und 2.2
die items sind weder extrem leicht, noch extrem schwer (keine starken decken, bodeneffekte)
die antworten tendieren leicht zur niedrigen zustimmung, aber noch im normalen bereich
standardabweichungen (sd) um 1.0 . das zeigt dass es eine gute streuung der antworten gibt. die items können zwischen personen gut unterscheiden.
schiefe (skew) ist bei fast allen items nahe o. —>die verteilungen sind relativ symmetrisch , keine starke verzerrung.
kurtosis (wölbung)= liegt meist unter 0—>die verteilungen sind eher flach als spitz das bedeutet die antworten sind etwas breiter gestreut, nicht stark auf einen wert konzentriert.
fazit;
die items zeigen insgesamt : gute verteilung, brauchbare streuung, keine auffälligen extremwerte, also: keine klaren problem-items dabei.
▪ Deskriptiv Statistiken: Worauf ist zu achten?
• Min Max ➜ Eingabefehler
(= schauen, ob es unerwartete werte gibt (zb 6 auf einer 1-5 skala) —> kann ein tippfehler oder codierfehler sein.
• N ➜ Missings ➜ Umkodierungen, Ersetzungen, Imputation
(Prüfen, ob antworten fehlen (=items mit fehlenden antworten sind missings) dann entscheiden: Ignorieren, ersetzen, oder statistisch schätzen (imputation).
• Mean ➜ Itemschwierigkeit
(=der durchschnittswert zeigt, wie leicht oder schwer das item ist (zb hohe zustimmung = leicht)
• SD ➜ Itemstreuung
(=die standardabweichung zeigt, ob die antworten stark oder wenig variieren- wichtig für differenzierung. )
• Schiefe und Kurtosis ➜ Boden- und Deckeneffekte, Varianzeinschränkung
(=zeigen, ob die verteilung schief oder extrem flach/spitz ist. hinweise auf verzerrung oder fehlende streuung (zb alle antworten gleich).
kurz gesagt : (diese kennwerte helfen zu erkennen, ob items funktionieren oder problematisch sind. )
▪ Deskriptiv Statistik in R
was wird hier gemacht?
mit dem R-Packet gt wird eine übersichtliche tabelle erstellt, die die wichtigsten deskriptiven kennwerte zeigt. es geht um eine auswertung von items (zb neo1 , neo6..)
Der R-code kurz erklärt (das im kasten) =
der code wählt alle 5 items von neo 1 bis neo 60
dann werden die spalten n , mean, sd, min , max, kurtosis , skew dargestellt
mit gt ( ) wird daraus eine saubere tabelle für berochte oder präsentationen
tabelle kurz erklärt:
n= anzahl gültiger antworten
mean=durchschnitt der antworten
sd= standardabweichung
min / max= niedrigster und höchster wer
kurtosis = wölbung der verteilung
skew= schiefe der verteilung
was sieht man in den werten?=
mean liegt meist um 2.0 = mittlere zustimmung
sd um 1.0 = ordentliche streuung
min= 0 , max=4 —>ganze skala wurde genutzt
kurtosis & skew = Meist nahe 0 —> keine extrem schiefe oder auffällige verteilung.
fazit: die items zeigen ausgewogene, brauchbare verteilungen-keine klaren problem-items sichtbar.
Was zeigt die Folie?
Diese folie zeigt wie man mit R automatisch eine schöne APA-konforme Tabelle erstellen kann zb für berichte oder wissenschaftliche arbeiten zb in word als doc.
Den R code kurz erklärt (über der tabelle): es werden nur bestimmte Items aus dem datensatz ausgewählt (neo 1, neo 6) bis neo 40 in 5er schritten.
dann wird mit apa.cor.table ( ) eine tabelle erstellt, die : mittelwert (M), Standardabweichung (SD) und Korrelation zwischen den items enthält.
diese tabelle wird als word datei gespeichert (zb BeispielTable.doc)
Tabelle rechts- was sieht man?
oben: variablen /items mit nummern
in den spalten:
M(mean) = mittelwert
SD=Standardabweichung
Korrelation zwischen den items (zb 30, 45..)
Korrelation mit sternchen:
. (punkt)
.** = sehr signifikant
wozu das ganze?
=so kann man schnell sehen, wie stark die items zusammenhängen und ob sie ähnliche merkmale messen
—>Hilft bei der beurteilung von konstruken (zb ob eine skala intern zusammenhängt)
▪ Histogramme für mehrere Variablen in R
Worum gehts?
Hier geht es darum, wie man in R mehrere Histogramme gleichzeitig darstellen kann, um die Antwortverteilungen von vielen items auf einmal zu vergleichen.
Code kurz erklärt: select () wählt zb neo 1, neo 6…
melt () = macht aus spalten zeilen (damit ggplot es als “lange daten” versteht )
geom_histogram())= erstellt histogramme (also verteilung der antworten)
facet_wrap(variable): zeigt für jede variable ein eigenes kleines histogramm
Ein Histogramm ist ein statistisches Diagramm, das die Verteilung eines kontinuierlichen Datensatzes durch gezeichnete Balken darstellt, von denen jeder eine bestimmte Kategorie oder ein Klassenintervall darstellt. Die Balkenhöhe spiegelt die Häufigkeit oder Anzahl der Datenpunkte innerhalb jeder Gruppe wider.
—>du bekommst einen schnellen überblick , wie die antwortverteilungen bei vielen items aussehen.
du erkennst sofort: gibt es boden- oder deckeneffekte? sind die items mehrgipflig oder gut verteilt? also Bodeneffekt= alle antworten niedrig, deckeneffekt= alle antworten hoch, mehrgipflig= zb gruppenunterschiede, ausreißer oder verzerrungen)
ein histogramm ist also ein balkendiagramm, das zeigt, wie oft ein bestimmter wert oder wertebereich in den daten vorkommt.
man nutzt also histogramme um die verteilung von antworten zu erkennen, zb ob viele hohe, niedrige oder mittlere werte vorkommen.
die aussagen unten sind beispiel items die im histogramm dargestellt werden- vermutlich items aus einer skala zu emotionaler belastung oder depressivität.
was zeigt die folie?
die grafik zeigt histogramme für mehrere items gleichzeitig - hier zb neo 1, neo. 6, neo 11 bis neo 56 . jedes kleine kästchen stellt ein item dar.
auf der x-achse steht der antwortwert (Zb 0 bis 4) , auf der y-achse die anzahl der personen, die diesen wert gewählt haben.
was kann man aus dem histogramm ablesen?
die verteilungen sehen bei den meisten items gesund gestreut aus- keine extremen boden- oder deckeneffekte.
teilweise schiefe sichtbar zb bei neo 6 antworten vielen mit 2, nur wenige mit 0 = leichte schiefe zur mitte.
neo 16 und neo 56 zeigen etwa smehr hohe antworten —>evtl. leichteres item.
item neo 46 = wirkt relativ gleichmäßig verteilt—> das zeigt eine gute streuung.
wozu ist das hilfreich?
so sieht man auf einen blick:
welche items gut unterscheiden können (breite verteilung)
welche items evtl. problematisch sind (zb fast alle antworten gleich)
also hilft diese darstellung die qualität der items zu beurteilen, bevor man sie weiter statistisch auswertet.
was bedeutet gesund gestreut?
dh die anworten verteilen sich über mehrere antwortmöglichkeiten (nicht alle wählen zb nur 0, oder nur 4)
es gibt unterschiede zwischen den personen - und das ist gut , weil so das item zwischen menschen differenzieren kannn.
nicht gut gestreut wäre zb:
nur ein balken ist sehr hich (zb bei 4)
das nennt man deckeneffekt
oder nur ganz niedrige werte (zb bei 0 ) das ist dann ein bodeneffekt
frag dich bei jedem kleinen plot:
gibt es mehrere balken, die ähnlich hoch sind?
dann gut gestreut
ist nur ein balken hoch und der rest fast leer? = dann ist es kein gutes item zur unterscheidung
das ist übrigens auch ein histogramm
▪ Boxplots für mehrere Variablen in R
worum gehts hier?
diese folie zeigt , wie man mit R mithilfe von BOXPLOTS die verteilungen der antworten auf die items übersichtlich darstellen kann.
was ist ein boxplot?
ein boxplot ist eine grafische darstellung die zeigt:
wo liegt die mitte der antworten ? (=Median)
Wie weit streuen die antworten ? (Box= Interquartilsabstand)
gibt es ausreißer? (punkte außerhalb der fühler)
kurz gesagt: Boxplots helfen dir, streuung , zentrum und ausreißer auf einen blick zu sehen.
was macht der R-code auf der folie?
bedeutung :
items auswählen (neo 1, neo 6, neo 56..)
daten umformen (von “breit” zu “lang” mit melt ()
boxplot zeichnen mit geom_boxplot ()
—>jeder boxplot zeigt die verteilung der antworten für ein item
wozu ist das nützlich?
=um zu sehen, ob items gleichmäßig beantwortet wurden.
ob es ausreißer gibt
ob es items mit geringer streuung (kaum unterschied) gibt.
also: in den boxplots sieht man die verteilung der antworten pro item also:
wie sind die werte verteilt? liegen sie eher in der mitte oder ganz oben / unten auf der skala?
wie breit ist die streuung? antworten die leute ähnlich oder sehr unterschiedlich?
gibt es ausreißer? personen, deren antworten sehr stark vom rest abweichen?
was sagt ein boxplot über die verteilung?
die box zeigt , wo die mittleren 50% der antworten liegen
der strich in der mitte = median (also die mitte der antworten)
die “fühler” (Whisker) zeigen den rest der “normalen” verteilung
punkte außerhalb = ausreißer
▪ Bivariate Analysen in R – Streudiagramme
worum gehts?
mit diesem R-Befehlen erzeugt man Streudiagramme (scatterplots), um zu sehen, wie zwei Variablen (zb items) miteinander zusammenhängen.
was zeigt ein streudiagramm?
jeder punkt= eine person
x -achse= Item 1 , y-achse= item 2
—>so sieht man : je mehr A, desto mehr B?
wenn ja: positiver zusammenhang (korrelation)
wofür ist das nützlich ?
der r-code ist also da um zu prüfen ob items zusammenhängen
zeigt , ob ein item zu einer skala passt oder vielleicht herausfällt
was bedeutet bivariat= zwei variablen
Bi= zwei, variat= variablen
man schaut sich den zusammenhang zwischen zwei variablen an.
beispiel:
variable a= wie ängstlich ist jemand?
variable b= wie oft vermeidet er soziale situationen ?
frage= hängen diese beiden zusammen ?
was ist ein streudiagramm (scatterplot)
ein streudiagramm ist eine grafik, in der jeder punkt eine person darstellt.
die x -achse zeigt die werte der ersten variable (zb wert , antwort eines items)
die y-achse zeigt die werte der zweiten variable
so sieht man : wie “streuen” die punkte gibt es ein muster?
kurz gesagt: bivariat= zusammenhang zwischen zwei variablen
streudiagramm= bild, das zeigt wie stark dieser zusammenhang ist
das ist eine sogenannte Pairwise-korrelationsmatrix mit streudiagrammen erstellt in R mit pairs.panels ().
sie zeigt, wie stark bestimmte items miteinander zusammenhängen.
aufbau der darstellung:
die items (zb neo 1, neo 6) stehen in den zeilen und spalten
oben auf der diagonale: kleine histogramme —> zeigen die verteilung der werte pro item
darüber und darunter: streudiagramme mit den echten punkten (unten links)
korrelationskoeffizienten (oben rechts ) zb 0.20, 0.30, 0.41 usw
was bedeuten die zahlen ?
das sind Korrelationswerte (r) zwischen den items
zb 0.30 zwischen neo 6 und neo 11 dh wenn jemand bei neo 6 hoch antwortet , antwortet er tendenziell auch bei neo 11 hoch.
je höher der wert (max. 1.00) desto stärker der zusammenhang
0.00 = kein zusammenhang
ab 0.30= moderater zusammenhang (also die beiden variablen hängen etwas miteinander zusammen, aber nicht sehr stark und nicht völlig zufällig)
ab 0.50 = deutlich
MERKEN!!!!
was zeigen die punkte unten links? das sind die streudiagramme (scatterplots)
jeder punkt steht für eine person
du siehst: bei höherem wert in a —> tendenziell auch höherer wert in B?
Was kann man damit machen?
man kann prüfen welche items hängen gut miteinander zusammen ?(passen zur gleichen skala?)
gibt es items , die nicht gut korrelieren (vlt rausnehmen?)
wie sieht die verteilung der antworten pro item aus?
Was zeigt die Folie ?
das ist eine große korrelationsmatrix mit:
streudiagrammen (unten links)
histogrammen (auf der diagonalen )
korrelationswerten (oben rechts)
—>Für viele items gleichzeitig : n11, n6 , n16 ..
so ist sie aufgebaut:
oben rechts: die zahlen sind korrelationskoeffizienten (zb 0.32, 0.50) und zeigen wie stark zwei items zusammenhängen
zb n16 und n21 = 0.32 —>moderater zusammenhang
diagonale (grüne histogramme) : zeigen die verteilung der antworten pro item
unten links (streudiagramme) : jeder punkt = eine person , die auf zwei items geantwortet hat
man sieht : gibt es ein muster) (zb je mehr a desto mehr b)
was kann man daraus lesen?
höhere korrelationen (zb > 0.30): die items messen vermutlich ähnliche inhalte zb n 16 und n26 = 0.47 —>relativ starker zusammenhang
niedrige oder negative werte (zb < 0.10) : eher kein zusammenhang
zb n51 mit anderen werten -_>oft nahe 0 also evtl. passt dieses item nicht zur skala
histogramme mit einer seite “voll”= hinweise auf boden- oder deckeneffekte
fazit
die darstellung hilft items zu finden, die gut zusammenpassen
ausreißer zu erkennen
schwache items zu identifizieren (die kaum mit anderen korrelieren)
▪ Worauf ist zu achten bei den Analysen der Antwortverteilungen?
fragt er bestimmt ab
• Bimodale Verteilung ➜ mehrdeutige Items?
=(wenn es zwei antworthäufungen gibt (zb viele sagen 1 und viele 4 , aber kaum jemand 2), kann das ein zeichen sein, dass das item unterschiedlich verstanden wird —>evtl. mehrdeutig formuliert.
• Unterschiedliche Schiefen zweier Items ➜ beeinflusst die Korrelationen zwischen den Items
=(wenn ein item links schief ist (viele hohe werte) und das andere rechts schief (viele niedrige) , dann verzerren diese unterschiede die korrelation , auch wenn die inhaltte zusammengehören.
• Nicht alle Antwortoptionen besetzt ➜ Item zu schwierig für Zielgruppe?
=(wenn zb niemand die antwort 4 gibt, kann das bedeuten , dass die frage zu schwer oder nicht passend für die zielgruppe ist).
• Gleichverteilung ➜ Verständlichkeit des Items?
(=wenn alle antwortmöglichkeiten gleich häufig gewählt werden , könnte das ein hinweis auf unklarheit oder raterei sein- das item wird evtl. nicht richtig verstanden).
• Ausreißerwerte ➜ Verzerrung von Korrelationen und anderen Analysen
(=sehr extreme einzelwerte (zb jemand kreuzt immer 0 oder 4 an) können die statistiken stark beeinflussen
—>sie machen korrelationen ungenauer oder falsch.
▪ Prüfung der Testwertgüte
• Neben der Prüfung einzelner items (itemqualität) wird jetzt auch geschaut: wie gut ist der gesamte testwert (also der score, den man am ende bekommt?) ( wenn eine person viele items beantwortet , bekommt sie am ende einen gesamtwert (testscore) jetzt prüft man: ist dieser gesamtwert zuverlässig ? misst er wirklich das, was er messen soll? )
Zusätzlich zur Prüfung der Itemqualität werden erste Ergebnisse zur psychometrischen Güte des Testscores ermittelt
(=es wird nicht nur geschaut, ob einzelne fragen gut sind, sondern auch , ob der test insgesamt zuverlässig und gültig misst.
Zweck: Positionsbestimmung – Ist die Entwicklungsarbeit auf dem richtigen
Weg? (= man prüft ob man auf dem richtigen weg ist, zeigen die ergebnisse schon eine brauchbare teststruktur?
Auf den Testentwurf werden oft dieselben Analysen wie auf die finale Testversion angewandt
(=auch in der testentwicklung nutzt man schon methoden, die später beim endgültigen test wichtig sind)
was wird geprüft?:
reliabilität (wie zuverlässig misst der test? (zb interne konsistenz)
skalierbarkeit (kann man aus den items einen sinnvollen gesamtwert bilden?)
faktorielle validität (stimmen die daten mit der theoretischen struktur überein? (zb faktorenanalyse)
kriteriumsvalidität (passt der testwert zu äußeren kriterien? ) zb schulleistung, verhalten)
konvergente / diskriminante validität (misst der test das, was er soll und nicht etwas anderes
▪ Revision des Testentwurfs
(Was bedeutet eigentlich Revision des testentwurfs?
bedeutet, dass der erste entwurf des tests nach der datenauswertung überprüft und angepasst wird.
warum macht man das ? weil sich beim testen oft zeigt: manche fragen (items) funktionieren nicht gut, wichtige inhalte fehlen noch, oder das, was gemessen werden soll, wird nicht richtig abgedeckt.
was kann man dann machen? items umformulieren oder löschen, neue items hinzufügen, oder sogar die teststruktur oder definitionen überarbeiten. die revision des testentwurfs ist der schritt, in dem man den test auf basis der daten verbessert , bevor man ihn finalisiert ) .
• Umfangreiche Datenbasis nach Erhebung qualitativer und quantitativer Daten und der Analysen der Item- und Testwertgüte
(=es liegen jetzt viele daten vor, aus interviews , fragebögen etc. diese wurden genutzt um einzelne items und den gesamten test statistisch zu prüfen)
− Internale, externale und inhaltliche Qualitätsindikatoren für Testitems
(=man schaut, ob die items zb gut unterscheiden (trennschärfe) sinnvoll zusammenhängen (korrelatinen ) , verständlich sind etc. )
− Erste Daten zur psychometrischen Qualität des Testwerts (Gütekriterien)
(=man bekommt erste ergebnisse zu den testgütekriterien zu wie reliabilität, validität) diese infos kommen aus den bisherigen auswertungen)
• Weiteres Vorgehen hängt vom Umfang der nötigen Revisionen ab
− Geringfügig, z.B. wenn Reliabilität und Validität des Testwerts schon akzeptabel für
Anwendungszweck und nur einzelne Items optimiert werden müssen
(=es muss nur wenig überarbeitet werden: der test ist schon ziemlich gut , aber mann vlt ein paar fragen verbessern)
− Moderat, wenn zahlreiche neue Items hinzugefügt werden müssen, z.B. weil
bestimmte Aspekte des Konstrukts noch nicht adäquat repräsentiert sind
(=es fehlen noch wichtige inhalte, die zum thema gehören. deshalb muss man mehrere neue items ergänzen, um das konstrukt vollständig abzudecken )
− Umfangreich, wenn sich herausstellt, dass bestimmte Aspekte des Konstrukts
bisher nicht bedacht wurden und die Arbeitsdefinition revidiert werden muss
(der test geht inhaltlich am ziel vorbei, zb weil man das konstrukt falsch oder unvollständig definiert hat. dann muss man größere änderungen machen- vlt. sogar das ganze konzept überdenken, )
▪ Strategien bei der Testrevision
• Manuelle Itemselektionsstrategien
(dh die testentwickler entscheiden bewusst , welche items sie behalten oder rausnehmen - auf basis von kennwerten)
− Maximierung der Reliabilität/Faktorladungen
(man wählt die items aus die: zuverlässig messen (hohe reliabilität) , gut zu einem faktor gehören also inhaltlich passen (hohe faktorladung)
− Minimierung der Modifikationsindizes/Nebenladungen
(=wenn man einen test erstellt, möchte man, dass jedes item nur zu einem bestimmten bereich (faktor) gehört. was sind nebenladungen = das ist, wenn ein item nicht nur auf einen faktor sondern auch auf andere faktoren “mitlädt” (also mit anderen bereichen zusammenhängt). das ist nicht gut weil dann unklar ist was das item eigentlich misst.
was sind modifikationsindizes = das sind hinweise aus einer faktoranalyse, die sagen hey wenn du dieses item rausnimmst oder umänderst passt das modell besser)
also : ein hoher modifikationsindex= das item stört das modell)
der satz meint also: man sollte items mit nebenladungen oder hohem modifikationsindex lieber rausnehmen oder verbessern, weil sie die struktur des tests verzerren und verwirrung bringen )
−
- Optimales Vorgehen: Verwendung multipler Kriterien (internale, externale,
inhaltliche)
(=am besten : man kombiniert mehrere aspekte bei der entscheidung: internale= zb trennschärfe, homogenität,
externale= zb zusammenhang mit anderen tests;
inhaltliche= zb verständlichkeit , relevanz)
− Nachteil: Nichtbeachtung der wechselseitigen Abhängigkeiten der Testitems bei
sukzessiver Elimination
(=problem= wenn man ein item nach dem anderen rausnimmt ändert sich die wirkung der restlichen items- das wird oft nicht mitbedacht. folge: die skala funktioniert nach der überarbeitung evtl. nicht mehr optimal).
Stretagien der testrevision
(=man wählt items, die zuverlässig messen und gut zu einem faktor passen. )
(items die statistisch das modell stören oder mehrere faktoren gleichzeitig treffen, werden aussortiert. )
− Nachteil: Nichtbeachtung der wechselseitigen Abhängigkeiten der Testitems
(=wenn man ein item entfernt, kann das andere items beeinflussen. das wird oft nicht mitbedacht bei schrittweisem entfernen)
− Optimales Vorgehen: Verwendung multipler Kriterien (internale, externale,
(=beste strategie: alle wichtigen qualitätsapsekte werden gleichzeitig berücksichtigt - also statistik , inhalt, zusammenhang mit anderen tests )
• Algorithmen für Itemselektion (➜Kürzung der Itemzahl)
(hier wird die auswahl von items automatisch durch rechenverfahren gemacht zb für kürzere tests )
− Ant Colony Optimization (ACO)
(ein algorhitmus, der sich an der intelligenz von ameisenkolonien orientiert, findet gute itemkobinationen ) merk dir den satz mit der ameisenabbildung dazu
− Genetic Algorithm
(wie bei der evolution: gute itemkombis werden kombiniert & verbessert , bis das “beste set” entsteht )
− Vorteil: Reduktion von Entscheidungskomplexität
− Nachteil: Implementierung inhaltlicher Kriterien?
(schwieriger ist es inhaltlich sinnvolle entscheidungen mit einzubauen (nicht nur nach statistik gehen )
was zeigt die grafik ?
die 6 diagramme zeigen, wie gut verschiedene methoden der itemauswahl funktionieren, wenn man tests zu den big five (extraversion , neurotizismus usw) kürzt.
achsen:
x-achse: anzahl der items (zb von 18 runter auf 10)
y -achse: CFI Comparative fit index, ein maß dafür, wie gut das modell passt (höher= besser)
linien bedeuten:
MML= Maximizing main loadings (haptladungen maximieren)
MI= Modifikationsindizes minimieren
ACO= Ant colony optimization (algorithmus)
random= zufällige auswahl von items (zum vergleich)
was sieht man ?
ACO (dick schwarz) und MML (grau) haben die besten werte —>also die beste modellpassung auch bei wenigen items
random= ist am schlechtesten, zeigt dass durchdachte auswahl wichtig ist
wenn man weniger items nimmt, sinkt CFI meist etwas , aber nicht dramatisch , wenn man gute strategien nutzt.
fazit: bestimmte methoden (vor allem ACO ) Helfen, tests effizient zu kürzen , ohne viel qualität zu verlieren
▪ Mit der Erhebung und Analyse erster empirischer
Daten zum Testentwurf werden Informationen
zum Modifikationsbedarf eingeholt
(=sobald erste testergebnisse vorliegen, erkennt man: was am test noch überarbeitet (modifiziert) werden muss. )
▪ Neben der Erhebung quantitativer Daten sind
auch qualitative Daten nützlich für die Revision
(=neben zahlen (zb mittelwerte) sind auch rückmeldungen von teilnehmenden (zb über verständlichkeit ) hilfreich )
▪ Die Qualität der Testitems wird auf unterschied-
liche Arten eingeschätzt
(=man prüft items statistisch (zub trennschärfe) und inhaltlich (zb klare formulierung)
▪ Anhand manueller oder automatisierter
Itemselektionsverfahren kann der Testentwurf
verbessert werden
(= man kann items per hand oder mit algorithmen auswählen , um den test gezielt zu verbessern)
▪ Hinweise auf Modifikationsbedarf kommt auch
von einer ersten Betrachtung der Gütekriterien
(=wenn zb reliabilität oder validität schlecht sind, sieht man, dass man ändern oder nachbessern sollte ).
▪ Optimierungsschleife wird so lange durchlaufen,
bis der Testwert ein Mindestmaß an Güte für den
angestrebten Anwendungszweck aufweist
(der test wird mehrfach überarbeitet , bis er gut genug für den späteren einzatz ist (zb im beruf, in forschung oder klinik)
Zuletzt geändertvor 14 Tagen