Probleme der klassischen Reliabilitätsschätzung
Voraussetzungen oft nicht überprüft
Voraussetzungen selten erfüllt
Modellbasierte Reliabilitätsschätzung als Alternative
Modelle der konfirmatorischen Faktorenanalyse (CFA) = Daten als Passend oder unpassend gewertet
Reliabilitätskoeffizienten eindimensionaler Tests = z.B. McDonald Omega, Cronbachs Alpha
Reliabilitätskoeffizienten mehrdimensionaler Tests
Modellbasierte Methoden der Reliabilitätsschätzung
eindimensionale Test
mehrdimensionaler Test (Gesamttest)
mehrdimensionaler Test (Subskala)
Koeffizienten als Schätzung der Reliabilität eindimensionaler Tests
McDonals Omega als Alternative zu Cronbachs Alpha
Bollens Omega bei korrelierten Messfehlern
guter Modellfit als Voraussetzung
Cronachs-Alpha —> Voraussetzungen: Eindimensionalität, Fehlervariablen unkorreliert, T-Äquivalanz wichtig
McDonals Omega —> Modell T-kongenerischer Variablen
Bollens Omega —> Voraussetzung der Eindimensionalität gelockert
Mehrdimensionale Modelle
Bifaktorenmodell
= direktes hierarchisches Modell oder Nested Modell
jede Itemvariablen auf gemeinsamen Fagotte (Generalfaktor) lädt und spezifische Residualfaktoren (definierte Teilaspekte des Konstruktes erfassen)
Koeffizienten zur Schätzung der Reliabilität mehrdimensionaler Tests
Omega Koeffizienten des Gesamttests
Omega Total = Anteil gesamte wahre Varianz eines mehrdimensionalen Konstruktes
omega-hierarchisch = Maß für Anteil an wahrer Varianz an Gesamtvarianz mehrdimensionaler Testvariablen, nur auf Generalfaktor zurückzuführen und keine subskalenspezifische Anteile
omega-spezifisch = Maß für Anteil an wahrer Varianz an Gesamtvarianz der mehrdimensionalen Testwertvariablen und unabhängig vom Generalfaktor
Bewertung der modellbasierten Reliabilitätsschätzung
Vorteile gegenüber klassische Reliabilitätsschätzung
Nutzen bei ein- und mehrdimensionalen Tests
klare Entscheidungsregeln (gute Überprüfbarkeit)
Verwendung unterschiedlicher Schätzmethoden (Wahl geeignete Schätzmethode)
adäquate Schätzung der Konfidenzintervalle
Berücksichtigung der Methodeneffekte
Probleme
Hinzunahme weiterer Items (Abhängigkeit von Itemanzahl)
Stichprobengröße: relativ große nötig
umplausible Ergebnisse = Abhängigkeit von verwendeten Modell
Grundüberlegungen zur IRT
Antwortverhalten (Response) abhängig von Eigenschaften Items und Merkmalsausprägung Person
IRT - Dichotomes Antwortverhalten
zweiwertige Antwortvariablen
mehrwertige Antwortvariablen = polytopes Antwortformat
Zusammenhänge dichotomer Antwortvariablen
—> Koeffizient als Maß des Zusammenhangs zweier dichotomer Variablen
IRT - latent Trait Modelle
gezeigtes Verhalten liegt kontinuierliches latentes Merkmal (Trait) zugrunde (n)
Konzept der Lösungswahrscheinlichkeit
bedingte Wahrscheinlichkeit der Lösung eines Items in Abhängigkeit von Personenvariable
monotone IC-Funktion
IRT - Dichotomes Rasch-Modell (1PL-Modell)
Rasch Homogenität —> rasch-homogene Items messen EINE latente Variable
logistische IC-Funktion —> Fähigkeitsparameter, Schwierigkeitsparameter, Joint Scale (beides auf einer Skala)
Lösungswahrscheinlichkeit und Gegenwahrscheinlichkeit —> Lösungswahrscheinlichkeit (n = Personenfähigkeit), Abb. —> Gegenwahrscheinlichkeit, Abb.
IRT - Joint-Maximum Likelihood (JML)
—> Schätzung Item- und Personenparamter
—> je höher Likelihood für empirisch beobachtete Datenmatrix, desto wahrscheinlicher richtiger Wert
—> Score-Funktion = um Stelle zu bestimmen, wo Likelihood-Funktion für Personenausprägung maximal
IRT - Conditional Maximum Likelihood (CML)
—> Summenscore als suffiziente Statistik
—> Separierbarkeit der Parameter und Stichprobenunabhängigkeit
IRT - Marginal Maximum Likelihood (MML)
—> Annahme einer Normalverteilung der Personenparamter
—> Maximierung der unbedingten Antwortmusterwahrscheinlichkeiten
IRT - Überprüfung der Modellpassung/ Modellkonformität
—> Modellkonformität = Parameter liegt zutreffendes Modell zugrunde
—> Modellinkonformität = mangelnde Modellpassung
—> Itemrevision (-selektion) oder Modellmodifikation bei Modellinkonformität
IRT - empirische Modellkontrolle und Itemselektion
—> Teilung der Stichprobe nach relevanten Kriterium
—> grafischer Modelltest als erster Überblick
—> Itemselektion
—> Likelihood-Quotienten-Test: für beide Teilstichproben CML-Schätzungen durchgeführt
IRT - Personenselektion
—> unangemessene Bearbeiungsstile
—> auffällige Antwortmuster
—> Person-Fit-Index = ob Person sich modellkonform verhält
—> Kombination von Rasch-Modell und LCA (Latent-Class-Analyse)
—> keine vorschnelle Personenselektion
IRT - 2PL-Modell nach Birnbaum
Charakteristika
—> zusätzlicher Itemdiskriminationsparameter
Modellgleichung
—> Sensitivität der Items für Merkmalsunterschiede
Parameterschätzung
—> keine spezifisch objektiven Vergleiche möglich
—> MML Schätzverfahren
Interpretation von Testwerten in der Item-Response-Theorie (IRT)
indirekte Messung
Matrix-Sampling von Testaufgaben (zur Erfassung spezifischer Kompetenzen)
parallele Testformen um Erinnerungseffekte etc. zu meiden
computerisierte adaptive Tests
kalibrierte Items
Joint Scale für Personenfähigkeiten und Itemschwierigkeiten
Vorteile Rasch Modell
Nachteile mehrparametrische Modelle
Vorteile Rasch Modell: spezifische Objektivität, nur durch Itemschwierigkeit determiniert
Nachteile mehrparametrischer Modelle: Interpretierbarkeit der Skala, paradoxe Ergebnisse
65% Schwelle zur Verortung von Items auf Kompetenzskala
Methoden zur Bestimmung von von Schwellen zwischen Kompetenzniveaus
—> Post-hoc-Analyse der Iteminhalte = inhaltliche Beschreibung der Skalenabschnitte
—> A-priori-Aufgabenmerkmale = Annahme welche spezifischen Merkmale der Items seine Schwierigkeit bedingen (Merkmal nutzen um Schwellen festzulegen)
Last changed2 years ago