1. Messfehler Theorie
Konzeption des Messfehlers/Fehlerquellen
- Unsystematische Einflüsse
o Verrutschen von Elektroden, Ablese- und Eingabefehler, usw. („echte“ Messfehler)
- Systematische Einflüsse
o Merkmalsveränderungen über die Zeit, Reifungsprozesse, Lernen/Einsicht, tageszeitliche Schwankungen, usw.
- Mangelnde Homogenität
o Items, di das gleiche Konstrukt messen sollen, messen eigentlich unterschiedliche Konstrukte, Resultierende Skalen sind dann nicht unidimensional
- Mangelnde Konstruktvalidität
o Das Konstrukt als solches nicht unidimensional und verschiedene Items messen unterschiedliche Facetten
Grundgleichung der Messfehlertheorie
o 𝑌 𝑚𝑖 = 𝜏𝑚𝑖 + 𝜀𝑚𝑖
𝜏𝑚𝑖 -> Wert von M, wie reagiert jemand auf item
𝜀𝑚𝑖 -> Messfehler, systematische Effekte, Effekte von Konstruktion
- Wenn Messfehler unsystematischer Natur ist, müsste er sich bei unendlich vielen Messungen rausmitteln.
- Der wahre Wert lässt sich somit als Erwartungswert (Mittelwert bei unendlich vielen Messungen) auffassen.
- Systematische Effekte und echte Unterschiede (zwischen Perosnen, Veränderungen über die Zeit) würden sich nach wie vor ergeben.
Eigenschaften der Messfehler und True-Score-Variablen
- Der Erwartungswert einer Messfehlervariablen ist für jede Ausprägung der True-Score-Variablen gleich 0.
o E(εi | τi) = 0
- Der unbedingte Erwartungswert einer Messfehlervariablen ist gleich 0.
o E(εi) = 0
- Messfehler- und True-Score-Variablen sind unkorreliert
o Cov(εi , τi) = 0
- Die Varianz einer beobachteten Messwertvariablen lässt sich additiv zerlegen in die Varianz der True-Score-Variablen und die Varianz der Messfehlervariablen.
o Var(Yi) = Var(τi) + Var(εi)
1. Messmodelle
Regression als Messmodell
Formeln
o 𝑌 = 𝛼 + 𝛽 * 𝜂 + 𝜀
o 𝑌 = 𝜏 + 𝜀
Variablen
o Y: Fragebogenitem (mit irgendeiner Skalierung)
o 𝜂: Persönlichkeitsmerkmal
o 𝛽: Relation zwischen Item und Merkmal
o 𝜏: wahrer Wert im Item
o 𝜀: Fehler (bzw. Spezifität)
o 𝛼: Itemschwierigkeit (Intercept/Ordinatenabschnitt)
Skalierung als Items ist arbiträr
Die Metrik (z.B. Likert/Prozent) des Indikators (Fragebogenitems) ist arbiträr (willkürlich)
Es kommt nur auf den relativen Anteil von wahrem Wert (𝜏) im Item relativ zum Fehler (𝜀) an. (bestimmt Genauigkeit der Messung)
Der Fehler wurde hier im gleichen Verhältnis wie die Skala vergrößert (*1,*2,*3), sodass sich der relative Anteil nicht geändert
Messfehler im Item ist kritisch für die Reliabilität
- Bei gleicher Relation von Item und Merkmal (𝛽) ist entscheidend, wie hoch der zusätzliche Fehler (𝜀) im Item ist.
- Der Fehler (𝜀) wurde hier im Verhältnis (*1,*2,*3) zur Relation (𝛽) vergrößert.
- Konsequenz: Fehleranteil steigt,
Regressionsmodell von 3 Items
Die 3 True-Score (𝝉) Gleichungen
𝑌 1 = 𝜏1 + 𝜀1
𝑌 2 = 𝜏2 + 𝜀2
𝑌 3 = 𝜏3 + 𝜀3
- Die 3 𝜏 unterscheiden sich nicht in ihrer Relation (𝛽) mit dem wahren Wert (𝜂)
- Allerdings sind sie um eine Konstante (𝛼) verschoben
o 𝑌 1 = 𝛼1 + 𝛽 ∙ 𝜂 + 𝜀1
o 𝑌 2 = 𝛼2 + 𝛽 ∙ 𝜂 + 𝜀2
o 𝑌 3 = 𝛼3 + 𝛽 ∙ 𝜂 + 𝜀3
- Die Parallelverschiebung kann als Unterschied in der Item- Schwierigkeit verstanden werden.
Rückschlüsse aus einem Regressionsmodell
- Jedes Item hat eine eigene True-Score Relation mit dem Merkmal (𝜂). Daher gibt es unterschiedliche Geraden.
- Items reflektieren das Merkmal in vergleichbarer Weise (gleiche Steigung (𝛽)), daher sind die Geraden parallel.
- Ohne Kenntnis des Fehleranteils (𝜀) lässt sich nichts über die Unterschiede in der Reliabilität sagen (Es fehlen die Punkte des Streudiagramms.)
- Die drei Items sind unterschiedlich schwierig: Item 1 (𝜏1) ist das schwerste, da es im Schnitt die kleinsten Y-Werte hat (kleinstes 𝛼1), unabhängig von der Relation mit dem Merkmal.
Notation als Pfadanalytisches Modell
Latente Variable
(Gemeinsamer Faktor)
Relation zwischen latenten und manifesten Variablen
(Ladungen/Regressionen)
Manifeste Variablen
(Indikatoren)
Fehler
(Messfehler, aber auch Uniqueness/Spezifität der Indikatoren)
Variablen-Gleichungen des Pfadmodells
Variablengleichungen
Y1 = λ1 * η + ε1
Y2 = λ2 * η + ε2
Y3 = λ3 * η + ε3
Es handelt sich um lineare Regressionsgleichungen:
Yi = Kriterium
λi = Steigung
η = Prädiktor
εi = Fehler
Rückschlüsse aus einem Pfadmodell
- Die Fakotorenanalyse ist ein Spezialfall eines Regressionsmodells: ein latenter Prädiktor (η) sagt mehrere beobachtbare Indikatoren (Y1 .. Y3) voraus.
- Die Darstellung erlaubt die Visualisierung der Relationen (λ) von Indikatoren und latentem Merkmal sowie der Fehler bzw. Spezifitäten der Items (ε).
- Hingegen werden Intercepte i.d.R. nicht dargestellt
- Meist geht es in differentieller Forschung nur um Relationen, sodass Unterschiede in Itemschwierigkeit nicht von Interesse sind.
Erweitertes Pfadmodell mit Intercepten und Mittelwerten
- Prinzipiell lassen sich Item-Intercepte und Faktormittelwerte auch in pfadanalytischen Analysen schätzen.
- Entsprechend kann man sie in Abbildungen visualisieren (quantifizieren)
- Allerdings finden sich die Darstellungen nur in Arbeiten, in denen Itemschwierigkeit oder implizierte Mittelwerteffekte von Relevanz sind.
- Itemintercepte sind nützlich, um zu quantifizieren, wie schwer ein Item in der untersuchten Stichprobe ist (auch relevant für Gruppenvergleiche).
§ 𝜀= Varianz der Messfehler/wie groß Fehleranteil
§ 𝛼= Geben Level vom Faktor an/Schwierigkeit
§ 𝜂= Varianz des Faktors
§ Delta= Abweichung vom Faktorwert
1. Item-Schwierigkeit und -Varianz
Itemleichtigkeit (Pi)
- P= Probability Item richitg zu beantworten
- Der Leichtigkeitsindex (Pi) eines Item i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktsumme aller n Probanden und der maximal erreichbaren Punktsumme, multipliziert mit 100.
Leichtigkeitsindex wird berechnet aus der Spaltensumme und der maximalen Punktsumme, multipliziert mit 100
Durch Multiplikation mit 100 hat der Index einen Wertebereich von 0-100
Anmerkung: Hohe Werte von Pi (=Lösungswahrscheinlichkeit) kennzeichnen leichte Items. In der Literatur findet sich allerdings häufig der Begriff „Itemschwierigkeit“, wobei dann trotzdem Pi angegeben wird..
Differenzierungsfähigkeit eines Items
Gedankenbeispiel
Item 1-4 sind Prüfungen: 1= bestanden; == nicht bestaden.
Wenn jeder Durchgefallene jedem Erfolgreichen gratuliert, ergeben sich folgende Interaktionen
· Item 1: 1*9=0
· Item 2: 5*5=25
· Item 3: 8*2=16
· Item 4: 10*0=0
-> Fazit: Die besten Differenzierungen erlauben mittelschwere Items (siehe Tabelle Varianz)
Zusammenhang von Itemschwierigkeit und Itemvarianz bei binären Items
Varianz ist bei mittelschweren binären Items am größten -> 50% lösen, 50% lösen nicht
maximale Streuung
Bei sehr schwer pder leicht -> wenig Varianz -> viele antworten gleich
4. Item- Trennschärfe und -Selektion
Berechnung der Trennschärfe
Die Trennschärfe ist ein Maß für den Zusammenhang zwischen Item und Konstrukt (Diskriminiert das Item in Bezug auf das Konstrukt?)
Eine häufig angewandte Methode zur Schätzung der Trennschärfe ist die Korrelation zwischen Testwert (Proxy für Konstrukt) und dem Item: 𝑟 𝑖𝑡 = 𝑟 (𝑥𝑣𝑖,𝑥𝑣)
Dabei ist der Testwert der Summenscore aller Items:
…bzw. der Summenscore ohne das betreffende Item:
Üblicherweise wird die Part-Whole-Korrektur angewandt (Testwert ohne das entsprechende Item), um die Trennschärfe nicht zu überschätzen.
Weiter Schätzmethoden für Trennschärfe: Faktorladung in einer Faktorenanalyse oder Steigung in IRT-Modellen.
Interpretation der Trennschärfe und Empfehlungen
rit nahe bei 1:
- Item kovariiert hoch mit Skala
- Korrelationen .4-.7 -> gute Trennschärfen
- Sehr hohe korrelationen lassen aber vermuten, dass die Skala (zu?) homogen ist (tautologische Items? Zu geringe Konstrukt-Abdeckung?).
rit nahe bei 0:
- Item differenziert nicht im Sinne der Skala
- Sollte entfernt werden
rit nahe bei -1:
- Item diskriminiert in falsche Richtung: Bei Fähigkeitstests können gute Probanden Item nicht lösen, während schlechte es lösen können.
- Wenn es nicht an falscher Polung des Items liegt, sollte man das Item eliminieren.
Homogenität vs. Heterogenität von Skalen
Homogenität
Formale und inhaltliche Einheitlichkeit der Items
Heterogenität
Formative und inhaltliche Vielgestaltigkeit
Konsequenzen
Wenn Items so selektiert werden, dass einzig die Homogenität optimiert wird, resultiert eine hoch intern-konsistente Skala, die aber an Breite verliert und dadurch möglicherweise an Validität.
Zumindest kann Skala Validität für einen Großteil der ursprünglichen Domänen einbüßen: Breite der Validität wird eingeschränkt.
Das Reliabilitäts- und Validitäts- Dilemma
Gemeinsame Beachtung von Schwierigkeit, Varianz und Trennschärfe
Bei der Itemauswahl sollten alle Item-Charakteristiken beachtet werden: Schwierigkeit, Varianz und Trennschärfe
Generell haben mittelschwere Items die höchsten Varianzen und Trennschärfen. Allerdings werden auch extremere Items im Test benötigt.
Im Zweifelsfall wählt man diejenigen leichten oder schwierigen Items, die noch die höchsten Trennschärfen:
Zuletzt geändertvor 5 Monaten