VL2: Testtheorie

Buffl

Testen und Entscheiden

by Greta R.

1. Messfehler Theorie

Konzeption des Messfehlers/Fehlerquellen

- Unsystematische Einflüsse

o Verrutschen von Elektroden, Ablese- und Eingabefehler, usw. („echte“ Messfehler)

- Systematische Einflüsse

o Merkmalsveränderungen über die Zeit, Reifungsprozesse, Lernen/Einsicht, tageszeitliche Schwankungen, usw.

- Mangelnde Homogenität

o Items, di das gleiche Konstrukt messen sollen, messen eigentlich unterschiedliche Konstrukte, Resultierende Skalen sind dann nicht unidimensional

- Mangelnde Konstruktvalidität

o Das Konstrukt als solches nicht unidimensional und verschiedene Items messen unterschiedliche Facetten

Grundgleichung der Messfehlertheorie

o 𝑌 𝑚𝑖 = 𝜏𝑚𝑖 + 𝜀𝑚𝑖

𝜏𝑚𝑖 -> Wert von M, wie reagiert jemand auf item
𝜀𝑚𝑖 -> Messfehler, systematische Effekte, Effekte von Konstruktion

- Wenn Messfehler unsystematischer Natur ist, müsste er sich bei unendlich vielen Messungen rausmitteln.

- Der wahre Wert lässt sich somit als Erwartungswert (Mittelwert bei unendlich vielen Messungen) auffassen.

- Systematische Effekte und echte Unterschiede (zwischen Perosnen, Veränderungen über die Zeit) würden sich nach wie vor ergeben.

Eigenschaften der Messfehler und True-Score-Variablen

- Der Erwartungswert einer Messfehlervariablen ist für jede Ausprägung der True-Score-Variablen gleich 0.

o E(εi | τi) = 0

- Der unbedingte Erwartungswert einer Messfehlervariablen ist gleich 0.

o E(εi) = 0

- Messfehler- und True-Score-Variablen sind unkorreliert

o Cov(εi , τi) = 0

- Die Varianz einer beobachteten Messwertvariablen lässt sich additiv zerlegen in die Varianz der True-Score-Variablen und die Varianz der Messfehlervariablen.

o Var(Yi) = Var(τi) + Var(εi)

1. Messmodelle

Regression als Messmodell

Formeln

o 𝑌 = 𝛼 + 𝛽 * 𝜂 + 𝜀

o 𝑌 = 𝜏 + 𝜀

Variablen

o Y: Fragebogenitem (mit irgendeiner Skalierung)

o 𝜂: Persönlichkeitsmerkmal

o 𝛽: Relation zwischen Item und Merkmal

o 𝜏: wahrer Wert im Item

o 𝜀: Fehler (bzw. Spezifität)

o 𝛼: Itemschwierigkeit (Intercept/Ordinatenabschnitt)

Skalierung als Items ist arbiträr

Die Metrik (z.B. Likert/Prozent) des Indikators (Fragebogenitems) ist arbiträr (willkürlich)
Es kommt nur auf den relativen Anteil von wahrem Wert (𝜏) im Item relativ zum Fehler (𝜀) an. (bestimmt Genauigkeit der Messung)
Der Fehler wurde hier im gleichen Verhältnis wie die Skala vergrößert (*1,*2,*3), sodass sich der relative Anteil nicht geändert

Messfehler im Item ist kritisch für die Reliabilität

- Bei gleicher Relation von Item und Merkmal (𝛽) ist entscheidend, wie hoch der zusätzliche Fehler (𝜀) im Item ist.

- Der Fehler (𝜀) wurde hier im Verhältnis (*1,*2,*3) zur Relation (𝛽) vergrößert.

- Konsequenz: Fehleranteil steigt,

Regressionsmodell von 3 Items

Die 3 True-Score (𝝉) Gleichungen

𝑌 1 = 𝜏1 + 𝜀1

𝑌 2 = 𝜏2 + 𝜀2

𝑌 3 = 𝜏3 + 𝜀3

- Die 3 𝜏 unterscheiden sich nicht in ihrer Relation (𝛽) mit dem wahren Wert (𝜂)

- Allerdings sind sie um eine Konstante (𝛼) verschoben

o 𝑌 1 = 𝛼1 + 𝛽 ∙ 𝜂 + 𝜀1

o 𝑌 2 = 𝛼2 + 𝛽 ∙ 𝜂 + 𝜀2

o 𝑌 3 = 𝛼3 + 𝛽 ∙ 𝜂 + 𝜀3

- Die Parallelverschiebung kann als Unterschied in der Item- Schwierigkeit verstanden werden.

Rückschlüsse aus einem Regressionsmodell

- Jedes Item hat eine eigene True-Score Relation mit dem Merkmal (𝜂). Daher gibt es unterschiedliche Geraden.

- Items reflektieren das Merkmal in vergleichbarer Weise (gleiche Steigung (𝛽)), daher sind die Geraden parallel.

- Ohne Kenntnis des Fehleranteils (𝜀) lässt sich nichts über die Unterschiede in der Reliabilität sagen (Es fehlen die Punkte des Streudiagramms.)

- Die drei Items sind unterschiedlich schwierig: Item 1 (𝜏1) ist das schwerste, da es im Schnitt die kleinsten Y-Werte hat (kleinstes 𝛼1), unabhängig von der Relation mit dem Merkmal.

Notation als Pfadanalytisches Modell

Latente Variable

(Gemeinsamer Faktor)

Relation zwischen latenten und manifesten Variablen

(Ladungen/Regressionen)

Manifeste Variablen

(Indikatoren)

Fehler

(Messfehler, aber auch Uniqueness/Spezifität der Indikatoren)

Variablen-Gleichungen des Pfadmodells

Variablengleichungen

Y1 = λ1 * η + ε1

Y2 = λ2 * η + ε2

Y3 = λ3 * η + ε3

Es handelt sich um lineare Regressionsgleichungen:

Yi = Kriterium

λi = Steigung

η = Prädiktor

εi = Fehler

Rückschlüsse aus einem Pfadmodell

- Die Fakotorenanalyse ist ein Spezialfall eines Regressionsmodells: ein latenter Prädiktor (η) sagt mehrere beobachtbare Indikatoren (Y1 .. Y3) voraus.

- Die Darstellung erlaubt die Visualisierung der Relationen (λ) von Indikatoren und latentem Merkmal sowie der Fehler bzw. Spezifitäten der Items (ε).

- Hingegen werden Intercepte i.d.R. nicht dargestellt

- Meist geht es in differentieller Forschung nur um Relationen, sodass Unterschiede in Itemschwierigkeit nicht von Interesse sind.

Erweitertes Pfadmodell mit Intercepten und Mittelwerten

- Prinzipiell lassen sich Item-Intercepte und Faktormittelwerte auch in pfadanalytischen Analysen schätzen.

- Entsprechend kann man sie in Abbildungen visualisieren (quantifizieren)

- Allerdings finden sich die Darstellungen nur in Arbeiten, in denen Itemschwierigkeit oder implizierte Mittelwerteffekte von Relevanz sind.

- Itemintercepte sind nützlich, um zu quantifizieren, wie schwer ein Item in der untersuchten Stichprobe ist (auch relevant für Gruppenvergleiche).

§ 𝜀= Varianz der Messfehler/wie groß Fehleranteil

§ 𝛼= Geben Level vom Faktor an/Schwierigkeit

§ 𝜂= Varianz des Faktors

§ Delta= Abweichung vom Faktorwert

1. Item-Schwierigkeit und -Varianz

Itemleichtigkeit (Pi)

- P= Probability Item richitg zu beantworten

- Der Leichtigkeitsindex (Pi) eines Item i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktsumme aller n Probanden und der maximal erreichbaren Punktsumme, multipliziert mit 100.

Leichtigkeitsindex wird berechnet aus der Spaltensumme und der maximalen Punktsumme, multipliziert mit 100

Durch Multiplikation mit 100 hat der Index einen Wertebereich von 0-100
Anmerkung: Hohe Werte von Pi (=Lösungswahrscheinlichkeit) kennzeichnen leichte Items. In der Literatur findet sich allerdings häufig der Begriff „Itemschwierigkeit“, wobei dann trotzdem Pi angegeben wird..

Differenzierungsfähigkeit eines Items

Gedankenbeispiel

Item 1-4 sind Prüfungen: 1= bestanden; == nicht bestaden.
Wenn jeder Durchgefallene jedem Erfolgreichen gratuliert, ergeben sich folgende Interaktionen

· Item 1: 1*9=0

· Item 2: 5*5=25

· Item 3: 8*2=16

· Item 4: 10*0=0

-> Fazit: Die besten Differenzierungen erlauben mittelschwere Items (siehe Tabelle Varianz)

Zusammenhang von Itemschwierigkeit und Itemvarianz bei binären Items

Varianz ist bei mittelschweren binären Items am größten -> 50% lösen, 50% lösen nicht
- maximale Streuung
Bei sehr schwer pder leicht -> wenig Varianz -> viele antworten gleich

4. Item- Trennschärfe und -Selektion

Berechnung der Trennschärfe

Die Trennschärfe ist ein Maß für den Zusammenhang zwischen Item und Konstrukt (Diskriminiert das Item in Bezug auf das Konstrukt?)
Eine häufig angewandte Methode zur Schätzung der Trennschärfe ist die Korrelation zwischen Testwert (Proxy für Konstrukt) und dem Item: 𝑟 𝑖𝑡 = 𝑟 (𝑥𝑣𝑖,𝑥𝑣)
Dabei ist der Testwert der Summenscore aller Items:

…bzw. der Summenscore ohne das betreffende Item:

Üblicherweise wird die Part-Whole-Korrektur angewandt (Testwert ohne das entsprechende Item), um die Trennschärfe nicht zu überschätzen.
Weiter Schätzmethoden für Trennschärfe: Faktorladung in einer Faktorenanalyse oder Steigung in IRT-Modellen.

Interpretation der Trennschärfe und Empfehlungen

rit nahe bei 1:

- Item kovariiert hoch mit Skala

- Korrelationen .4-.7 -> gute Trennschärfen

- Sehr hohe korrelationen lassen aber vermuten, dass die Skala (zu?) homogen ist (tautologische Items? Zu geringe Konstrukt-Abdeckung?).

rit nahe bei 0:

- Item differenziert nicht im Sinne der Skala

- Sollte entfernt werden

rit nahe bei -1:

- Item diskriminiert in falsche Richtung: Bei Fähigkeitstests können gute Probanden Item nicht lösen, während schlechte es lösen können.

- Wenn es nicht an falscher Polung des Items liegt, sollte man das Item eliminieren.

Homogenität vs. Heterogenität von Skalen

Homogenität

Formale und inhaltliche Einheitlichkeit der Items

Heterogenität

Formative und inhaltliche Vielgestaltigkeit

Konsequenzen

Wenn Items so selektiert werden, dass einzig die Homogenität optimiert wird, resultiert eine hoch intern-konsistente Skala, die aber an Breite verliert und dadurch möglicherweise an Validität.
Zumindest kann Skala Validität für einen Großteil der ursprünglichen Domänen einbüßen: Breite der Validität wird eingeschränkt.

Das Reliabilitäts- und Validitäts- Dilemma

Gemeinsame Beachtung von Schwierigkeit, Varianz und Trennschärfe

Bei der Itemauswahl sollten alle Item-Charakteristiken beachtet werden: Schwierigkeit, Varianz und Trennschärfe
Generell haben mittelschwere Items die höchsten Varianzen und Trennschärfen. Allerdings werden auch extremere Items im Test benötigt.
Im Zweifelsfall wählt man diejenigen leichten oder schwierigen Items, die noch die höchsten Trennschärfen:

Join Course

Preview

Author

Greta R.

Information

Last changed
2 years ago

Report course