Klassische Testtheorie und Reliabilität

by Jonathan M.

Was ist die KTT?

Theoretischer Hintergrund zur Konstruktion und Interpretation von Testverfahren

„Klassisch“: Vor über 50 Jahren entwickelt, nach wievor von sehr großer Bedeutung

Erlaubt eine Beschreibung des Zusammenhangs zwischen tatsächlicher Merkmalsausprägung (bspw. Intelligenz) und empirisch ermittelten Testwerten (bs Leistung beim IQ Test)

Im Wesentlichen Messfehler-Theorie, die beschreibt, wie zuverlässig/reliabel empirisch bestimmte Testwe sind

Was ist die Implikation der KTT?

Implikation: Wenn man wiederholt misst und die Ergebnisse mittelt, nähert man sich mit zunehmender Anzahl an Messungen immer mehr dem wahren Wert an und der Messfehler spielt eine immer geringere Rolle (Aggregationsprinzip)

Was ist die Die Varianz der Testvariablen

Die Varianz der Testvariablen ist gleich die Summe aus wahrer und Fehlervarianz: Var(x) = Var(T) + Var(E)

Was ist der Reliabilitätskoeffizient?

Zentrale Frage: Wie stark sind der Einfluss der wahren Werte T und der Messfehler E auf die Testwerte?
Je höher der Einfluss der wahren Werte (und je geringer der Einfluss des Messfehlers), desto höher die Reliabilität (Genauigkeit) eines Messinstruments
Das Varianzverhältnis wahre Werte/beobachtete Testwerte wird benutzt, um den Reliabilitätskoeffizienten Rel (x) zu definieren:

Der Reliabilitätskoeffizient gibt den Anteil der wahren Varianz an der Gesamtvarianz einer Testvariablen an

Welche 4 Möglichkeiten gibt es zur Reliabilitätschätzung?

Diesem Prinzip folgend werden in der Praxis vor allem vier Methoden zur Schätzung der Reliabilität herangezogen:

Retest–Reliabilität
Paralleltest–Reliabilität
Split-Half–Reliabilität
InterneKonsistenz

Was ist Retest Reliabilität?

Eine Art, die Reliabilität zu bestimmen, ist den selben Test zweimal vorzugeben. Die Retest–Reliabilität (rtt) wird als Korrelation der Messwerte zum ersten und zweiten Vorgabezeitpunkt bestimmt

Probleme/Schwierigkeiten:

Merkmalsveränderungen: Die Reliabilität wird unterschätzt, wenn es unsystematische/differentielle Merkmalsveränderungen gab oder es sich um ein instabiles Merkmal handelt
Erinnerungseffekte: Können sowohl zu einer Über- als auch zu einer Unterschätzung der Reliabilität führen

Was ist Parallleltest-Reliabilität?

Liegen zwei parallele Formen a und b eines Tests vor, so kann die Paralleltest-Reliabilität des Testverfahrens geschätzt werden als die Korrelation der beiden Testformen

Probleme/Schwierigkeiten: Die parallelen Formen a und b müssen aus exakt parallelen Items bestehen. D.h. jedem Item in Form a muss ein Item in Form b entsprechen mit identischen psychometrischen Eigenschaften (Schwierigkeit, Standardabweichung, Trennschärfe, etc.)

In der Praxis schwierig zu bewerkstelligen

Was ist Split-Half – Reliabilität?

ÖkonomischeVariantederReliabilitätsschätzung
Ähnliche Idee wie die Paralleltestung, zieht aber lediglich
Informationen heran, die bereits bei Vorgabe eines Test vorliegen
Teilung des Tests in zwei Testhälften mit jeweils gleich vielen
Items/Aufgaben
Die Reliabilität wird bestimmt über die Korrelation der beiden Testhälften

Methoden der Testhalbierung

Odd/Even Methode: Alle geradzahligen Items werden der einen Testhälfte zugewiesen und alle ungeradzahligen der anderen

Zeitpartitionierungsmethode: Testhälften werden aus den Items von zwei Abschnitten mit gleicher Bearbeitungsdauer gebildet
Methode der Itemzwillinge: Matching von jeweils 2 Items (eines aus jeder Testhälfte) mit gleicher Trennschärfe und Schwierigkeit
Achtung: Die Korrelation zwischen den Testhälften ergibt der Reliabilität der Testhälfte, nicht die Reliabilität des gesamten Tests

Was ist die Spearman-Brown Formel?

Gibt an, wie stark die Reliabilität eines Tests steigt, wenn man ihn um einen gegebenen Faktor verlängert:

wie kann man mit der Testhalbierungsmehtode interne Konsistenz prüfen?

Verallgemeinerung der Testhalbierungsmethode: jedes Item wird gewissermaßen als Paralleltest (bzw. „Minitest“) behandelt und mit jedem anderen Item korreliert
Die mittlere Korrelation zwischen allen Items entspricht der Reliabilität eines Items
Dieser Wert wird dann mittels der Spearman-Brown-Formel auf den gesamten Test hochgerechnet

->Die interne Konsistenz steigt mit der Anzahl der Items

Welche Richlinien für die höhe der Reliabilität gibt es?

Niveau 1: Tests für wichtige Entscheidungen auf der individuellen Ebene (z.B. Personalentscheidung)

Niveau 2: Tests für weniger bedeutsame Entscheidungen auf der individuellen Ebene (z.B. Interessenstests bei der Berufsberatung)

Niveau 3: Untersuchungen auf Gruppenniveau

Was ist das Konfidenzintervall?

Basierend auf der Reliabilität ist es allerdings möglich, einen Bereich abzustecken, in welchem der wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt (Konfidenzintervall)

Hierfür müssen wir zunächst den Standardmessfehler berechnen

Was ist der Standardmessfehler?

= Standardabweichung des Fehlers (Fehlerstreuung)
Der Standardmessfehler gibt den Anteil der Streuung der Testwerte an, der auf die unvollständige Zuverlässigkeit (nicht perfekte Reliabilität) zurückzuführen ist
Setzt sich zusammen aus der Standardabweichung der Testwerte multipliziert mit der Wurzel aus der Unreliabilität

(1 - Rel)

SD (ε) = SD (x) ∙ √1-Rel

Der Standardmessfehler wird mit höherer Reliabilität kleiner und mit niedrigerer Reliabilität größer
Beispiel: Extraversionsfragebogen mit M = 5, SD = 2, Rel = .80 SD (ε) = 2 ∙ √.20 = .89
Zum Vergleich: Bei Rel = .50

Join Course

Preview

Author

Jonathan M.

Information

Last changed
3 years ago

Report course