KTT
= lineare Zusammenhänge zwischen kontinuierlichen Itemvariablen und einer latenten Variable
= Messfehlertheorie
= Grundgleichung: y = T + E
KTT - T-kongenerisches Modell
– Voraussetzung: Eindimensionalität
– Diskriminationsparameter (Faktorladungen): frei geschätzt
– Leichtigkeitsparameter (Interzepte): frei geschätzt
– Fehlervarianzen: frei geschätzt
– Adäquates Reliabilitätsmaß: McDonalds Omega
KTT - Essentiell T-äquivalentes Modell
– Diskriminationsparameter: für alle Items identisch
– Leichtigkeitsparameter: frei geschätzt
– Adäquate Reliabilitätsmaße: Cronbachs Alpha und McDonalds Omega
KTT - Essentiell T-paralleles Modell
– Fehlervarianzen: für alle Items identisch
– Adäquate Reliabilitätsmaße: Spearman-Brown-Formel der Testverlängerung, Cronbachs Alpha und McDonalds Omega
KTT - Axiome
1. Axiom: Der Testwert setzt sich zusammen aus wahren Wert (T) & Fehler (E) X = T+ E
2. Axiom: Jede Messung aus wahren Wert (T) & zufälligen Messfehler (E) —> zufälliger Fehler (z.B. Kopfschmerzen bei Intelligenztest) —> X = Schätzer vom „wahren Wert“ T (da Fehler zufällig)
3. Axiom: Korrelation zwischen Messfehler (E) und wahren Werten (T) bei beliebigen Personen/ Items = 0 —> Unabhängigkeit Fehler und wahrem Wert
Zusatzannahmen (4./ 5. Axiomen) —> 4. Axiom: Unabhängigkeit des Fehlers (E) vom wahren Wert (T) —> 5. Axiom: Unabhängigkeit von Fehlern aus 2 Messungen
KTT - Interpretation Testwert
Standardmessfehler von Bedeutung (erwartete Streuung der Testwerte um wahren Wert)
Abschätzung dieses Messfehlers bringt Zuverlässigkeit (Reliabilität)
—> Quotient aus wahrer und beobachteter Varianz
KTT - Reliabilität
als Maß der Messgenauigkeit einer Variable Y = Verhältnis Varianz True-Score-Variablen T zur Varianz Testvariablen Y
klassische Reliabilitätsschätzung = Cronbachs Alpha, Spearman Brown Formel —> anhand Modelltests überprüft, empirisch oft nicht gegeben —> modellbasierte Reliabilitätsschätzung
Standardmessfehler mit Konfidenzintervalle —> umfasst Wertbereiche in dem 95 bis 99% aller wahren Werte
beobachtete Testwert Y = bei r-Parallelität genaue Schätzung
Nachteil Summeriunsverfahren = Messfehler, unbelichtete Aufsummieren der Itemwerte
direkte Schätzung latente Personenwerte (Factor-Scores)
KTT - eindimensionale Messmodelle
Annahme: alle Items gleiche latente Variable messen und Fehlervariable unkorreliert sind
manifeste Itemvariable und latente Variable = lineare Beziehung
alle Itemvariablen y messen 1 latente Variable
Vorteil: spezifischen Objektivität von Personen/ Items möglich
KTT - Mehrdimensionale Messmodelle
Bifaktormodell = verschiedene Omega-Koeffiziten als Reliabilitätsmaße schätzen
LSF-Theorie (Latent-State-Trait-Theorie) = Reliabilität in Konsistenz & Spezifität aufgeteilt
Multitrait-Mulimethod-Analyse = Reliabilität in trait-/ methodenspezifischen Anteil geteilt
Item-Response-Theorie (IRT)
= logistische Zsm.hänge zwischen kategoriale Itemvariablen und einer latenten Variable
= Rückschlüsse auf latente Konstrukte
Ergänzung zum KTT —> nicht alle Messfehler unsystematisch, sondern auch systematisch (z.B. Übungseffekte)
manifeste vs. latente Variablen
manifeste Variablen: beobachtbare Antwortverhalten auf Testitems —> beobachtbare Testwerte/ Indikatoren
latente Variablen: Merkmalsausprägung in nicht beobachtbaren Fähigkeits-/ Persönlichkeits- merkmalen (psychologische Konstrukte)
latente Variablen = untersuchte Merkmale —> manifeste Variablen = Indikatoren dieser Merkmale
latente Variable beeinflusst manifeste Variablen
IRT - Reaktion auf Item aus 3 Anteilen:
—> Eigenschaft der Person (z.B. Fähigkeit) = Personenparameter = Wahrscheinlichkeit mit der Person Item lösen kann
—> Eigenschaft des Items (z.B. Schwierigkeit) = Itemparameter = Wahrscheinlichkeit mit der Item von Person gelöst wird
—> Zufall (unkontrollierbare Einflüsse) = Wahrscheinlichkeit wie Person (w) Item (J) löst
IRT - Annahmen
lokale stochastische Unabhängigkeit
Latent-Trait = latente Variable als kontinuierlich angenommen
Latent-Class-Modell = bei kategorialen, nicht kontinuierlichen Variablen
IRT - Summenscores
individuelle Schätzung des Personenparameters
Summenscore als suffiziente Statistik
IRT - Reliabilität
Testinformationen als Maß für Messgenauigkeit
Konfidenzintervallbreite bei Personenparameter variiert in Abhängigkeit von Ausprägung der latenten Variablen
marginale/ durchschnittliche Reliabilitätskoeffiziente =
adaptives Testen = Verwendung von Items mit hoher Iteminformation
Eindimensionale IRT Modelle
Mehrdimensionale IRT-Modelle
MIRT-Modelle erfassen mehrere Personenmerkmale
differenzierte Kompetenzdiagnostik möglich
KTT vs. IRT
KTT = Schwerpunkt kontinuierliche Variablen
IRT = Schwerpunkt kategoriale Variable
KTT - Arten von Messfehlern
unsystematische Messfehler = z.B. Schwankungen bei Blutdruckmessung, wiederholte Messung
systematische Messfehler = Ursache bei Person, Messgerät usw.
KTT - Definition wahrer Wert (True-Score)
wahrer Wert T (True Score) und Messfehler E = beobachtbarer Messwert —> y = T + E
Definition True Score T = E (y)
Messfehler einer Person = E = Y - T
KTT - Das Gütekriterium der Reliabilität
Reliabilitätsbestimmung als wesentliches Ziel der KTT
Mehrfachmessung nötig
Itemreliabilität = da True-Score und Fehlervariable bei 1 Messung unbekannt sind mehrere Messung nötig
Raliabilität einer Testwertvariable
KTT - Eindimensionalität
= bei Messungen ein gemeinsames latentes Konstrukt
—> alle Items messen ein gemeinsames Merkmal n und Zusammenhänge
KTT - Unterschiedliche Stufen der Messäquivalenz
—> Messmodelle mit unterschiedlichen Modellrestriktionen
—> Prinzip der Parsimonität
KTT - Messmodelle zur Schätzung der Reliabilität
Modell T-kongenerische Variable
—> eindimensionale Messungen, latente Variable n auf jede Itemvariable unterschiedlich stark auswirkt
—> Diskriminationsparameter = Faktorlafung
—> Leichtigkeitsparameter = Interzept
Modell essentiell T-äquivalenter Variablen
—> Messäquivalenz strenger gefasst als im Modell T-kongenerischer Variablen
—> Diskriminationsparameter aller Itemvariablen identisch und konstanten Wert
Modell essetiell T-paralleler Variablen
—> noch strengere Stunden der Messäquivalenz
—> Itemvariablen unterschiedlich, Diskriminationsparameter gleich
KTT - Erweiterung
mehrdimensionale Ansätze
unsystematische und systematische Anteile des Messfehlers durch Mehrfachmessung reduzieren
Situationsspezifität = mehrere Messungen in unterschiedlichen Situationen durchführen
Methodenspezifisch = mehrere Messmethoden
Definition Reliabilität
wahre Varianz (Var(T))
Testwert (Var(Y))
Messfehler (Var(E))
Wertebereich zwischen 0 (fehlende Messgenauigkeit) und 1 (höchste Genauigkeit)
Klassische vs. modellbasierte Methoden der Reliabilitätsschätzung
klassisch = beruht auf Stichprobenkennwerte
—> Kovarianzen der Itemvariablen eines Tests/ Skala
—> Korrelation der Testwertvariablen zweier paralleler Tests
modellbasiert = basiert auf Modellparameter
—> anhand expliziten Messmodellen geschätzt
Beziehungen zu Objektivität und Validität
Objektivität = Voraussetzung für Reliabilität
Validität = Reliabilität Grundlage für Validität
Cronbachs Alpha
p = Anzahl Items, y = Itemvariablen, Y = Testwertvariable
Varianz der Testwertvariable
True-Score-Varianzen und -kovarianzen der Itemvariablen liefern Informationen zur Bestimmung True-Score- und Fehlervarianz der Testwertvariablen
Cronbachs Alpha setzt essentielle T-Äquivalenz der Itemvariablen voraus
identische True-Score-Varianzen aller Itemvariablen
Cronbachs Alpha - Voraussetzung
Eindimensionalität und essentielle T-Äquivalenz
identische Itemkovatianzen
Cronbachs Alpha - Probleme
Cronbachs Alpha kann nicht auf Dimensionalität der Messungen geschlossen werden
Fehlerkovarianzen durch Methodeneffekte
—> invers formulierte Items = Verwendung um Antworttendenzen zu eliminieren
—> ähnliche Itemformulierungen
unklare Bedeutung des Begriffs „Interne/ innere Konsistenz“
—> Mehrdimensionalität und Mezhodeneffekte
untere Schranke der Reliabilität
—> Voraussetzung T-Äquivalenz gegeben, aber keine Methodeneffekte
Spearman-Brown-Forme
Halbtest-Korrelation nur Reliabilität halber Test
Formel zur Testverlängerung
Test-Test-Korrelation
Retest-Reliabilität
Paralleltest-Reliabilität
Split-Half-Reliabilität
Voraussetzungen der Test-Test-Korrelation
Eindimensionalität und essentielle T-Parallelität der Testwertvariablen über Messungen hinweg
strikte Messvarianz der Itemvariablen über Messungen hinweg
Probleme Paralleltest und Split-Half Reliabilität
Erstellung von Parallelformen eines Tests
—> Parallelformen für Leistungstests leichter realisierbar als für Persönlichkeitstests
—> Überprüfung der Voraussetzungen nötig
Stabilität des latenten Merkmals und Übertragungseffekte
Anzustrebende Höhe der Reliabilität
Leistungstest = um .90
Persönlichkeitstest = um .70
Screening-Tests = zur groben Einschätzung eines Merkmals mit geringem Aufwand
Daumenregel zur Beurteilung Reliabilität
—> Screeningtests und heterogene Konstrukte mind. .80
—> homogene 0.8 bis 0.9
—> Leistungswerte > .90 sehr gut
Notwendigkeit von Konfidenzintervallen
Verwendung des Standaradmessfehlers
Last changed2 years ago