Was versteht man unter Objektivität?
Definition:
Objektivität bedeutet, dass die Testergebnisse eines diagnostischen Verfahrens unabhängig davon sind, wer den Test durchführt, auswertet und interpretiert.
Arten:
Durchführungsobjektivität
Auswertungsobjektivität
Interpretationsobjektivität
Was versteht man unter Durchführungsobjektivität?
Durchführungsobjektivität durch
standardisierte Instruktionen zu Testaufgaben, Antworten auf Rückfragen und zur Gestaltung der Testsituation
i.d.R. kein numerischer Kennwert
Praxisprobleme
DO nur dann gewährleistet, wenn sich Testleiter an Instruktionen hält; Einschränkungen der Standardisierung durch unzureichendes Training der Testleiter
Einschränkungen der Standardisierung häufig bei Kindern, sehr alten Personen und klinischen Populationen – individuelle Lage muss hier berücksichtigt werden
Was versteht man unter Auswertungsobjektivität?
Auswertungsobjektivität durch
exakte Anweisungen zur Auswertung im Manual (gleiches Verhalten der Testpersonen wird nach exakt denselben Regeln abgebildet)
Gegeben, wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen
numerisch bestimmbar (Auswerterüberein- stimmung/ Interrater-Objektivität)
Beispiele zu richtigen und falschen Antworten häufig sehr unzureichend in Testmanualen dokumentiert
Übertragungsfehler bei manueller Testauswertung mit Auswertungsschablonen
Was versteht man unter Interpretationsobjektivität?
gegeben, wenn unterschiedl. Diagnostiker aus dem diagnostischen Verhalten dieselben Schlüsse ziehen
Praxisproblem
Testmanuale enthalten oft unzureichende Interpretationshilfen zur Einordnung und Interpretation der Testwerte
Unterschiedliche Konvention zur Verwendung von Cut-off Werten
Interpretieren entspricht in diesem Kontext „Rohwert Bedeutung geben“
IO gegeben, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (eindeutige Beschreibung des gemessenen Merkmals, Normtabellen, Interpretationshilfen)
Was versteht man unter Reliabilität?
Die Reliabilität zeigt die Zuverlässigkeit an, mit der ein Instrument bestimmte Dimensionen misst.
Reliabilität ist dann gegeben, wenn ein Instrument bei wiederholter Messung der gleichen Objekte oder Merkmalsträger unter gleichen Bedingungen die gleichen Messergebnisse anzeigt.
Präzision der Messung steht im Vordergrund
Messungen sind nie 100%ig exakt, sondern weisen immer einen bestimmten Messfehler (E) auf.
Xi = Ti + Ei , d.h Testergebnis (X) ist nur Annäherung an wahren Wert (T)
verschiedene Zugangsweisen zur Bestimmung der Reliabilität, die unterschiedliche Interpretationen zulassen bzw. unterschiedliche Aspekte betonen – DIE EINE Reliabilität gibt es nicht
Formen:
Paralleltest-Reliabilität
Retest-Reliabilität
Testzerlegung:
Halbierung, Interne Konsistenz
Was versteht man unter Paralleltest-Reliabilität?
Vorgabe paralleler Versionen eines Tests mit ähnlichen, aber nicht identischen Items mit gleichen Messeigenschaften (Itemschwierigkeit, Trennschärfe)
Numerischer Indikator Paralleltestreliabilität: Korrelation zwischen Testversionen
Bsp.: I-S-T 2000 R Testversion 1 <-> Testversion 2
hilfreich u.a. bei Gruppenuntersuchungen oder bei wiederholter Messung (Veränderungsdiagnostik)
Was versteht man unter Itemschwierigkeit?
Die Itemschwierigkeit gibt an, wie groß der Anteil an Personen ist, die das Item im Sinne des Merkmals bearbeitet haben.
liegt zwischen 0 und 100
Itemschwierigkeit von 0 und 100 bedeutet, alle Personen haben Item gleich beantwortet
Bei Leistungstest:
richtige Antwort gegeben (je höher Wert, desto mehr Personen haben Item richtig gelöst)
100 -> Item ist nicht sehr schwer zu lösen, da alle das Item richtig gelöst haben
5 -> das Item ist relativ schwer zu lösen, da nur 5 von 100 das Item lösen konnten
keine Varianz (unbrauchbare Items), weil Item nicht dazu beiträgt, Unterschiede zwischen Personen aufzuzeigen
Antworten sollen variieren!
Was versteht man unter Trennschärfe?
Die Trennschärfe gibt an, in welchem Ausmaß das Item das Gleiche misst wie der Test bzw. bei mehrdimensionalen Tests die Subskala des Tests
Die Trennschärfe eines Items ist definiert als seine Korrelation mit dem Test oder der Skala des Tests, zu der das Item gehört.
Der Test- bzw. Skalenwert wird dabei über alle Items mit Ausnahme des analysierten bestimmt (part-whole-Korrektur).
Was versteht man unter Retest-Reliabilität?
Retest = Test- bzw. Messwiederholung
ein und derselbe Test wird ein und derselben Stichprobe von Probanden wiederholt dargeboten
Korrelation zwischen beiden Vorgaben = numerischer Indikator für Retest-Reliabilität
von Stabilität des Merkmals beeinflusst
Bei Interpretation ist Zeitintervall zwischen Messungen zu beachten (längere Zeitintervalle reduzieren Retest-Reliabilität insb. bei weniger stabilen Merkmalen)
Was versteht man unter Split-Half-Reliabilität (Testzerlegung)?
Test wird nach Durchführung in zwei möglichst äquivalente Hälften aufgeteilt, z.B.
nach ungerader und gerader Nummer der Items (Odd-even-Methode)
in erste und zweite Testhälfte (nicht bei Zeitbegrenzung oder Sortierung der Items nach Schwierigkeit möglich)
auf Basis von Itemkennwerten (Bildung von Testzwillingen nach Schwierigkeit und Trennschärfe)
Korrelation der beiden Testhälften unterschätzt Reliabilität (weniger Items werden miteinander korreliert als bei Retest) – daher Spearman-Brown-Korrekturformel (Schätzung, wie hoch Reliabilität mit doppelter Itemanzahl wäre)
Was versteht man unter Interne Konsistenz (Testzerlegung)?
Maximale Testzerlegung: jedes einzelne Item wird als Maß für das zu messende Merkmal aufgefasst – Zuverlässigkeit über Korrelation der Items miteinander geschätzt
Häufig genutzt: Cronbachs Alpha
Was ist Cronbachs Alpha?
je mehr Items ein Test enthält, desto höher Alpha
weist ein kurzer Test ein sehr hohes Alpha auf, sind die Items häufig redundant
Alpha ist stichprobenabhängig – höhere Varianz in heterogenen SPn führt zu höheren Werten für Alpha
Ab wann ist interne Konsistenz akzeptabel?
ist vom jeweiligen Anwendungsfall und Verfahren abhängig!!!
Daumenregel:
Rel < .70 → unakzeptabel
Rel > .70 → akzeptabel
Rel> .80→gut
Rel> .90→sehrgut
Alpha ist immer auch ein Maß der Breite oder Dimensionalität des Messbereiches („inwiefern messen die Items inhaltlich dasselbe“?)
Extremes Beispiel: Ein Test hat zwei Items:
1. Körpergröße (Reliabilität der Messung extrem hoch)
2. Vokabelkenntnisse Englisch (Reliabilität der Messung ebenfalls hoch)
Dann ist der Gesamtwert des Tests auch hoch reliabel, aber Items sind nicht interkorreliert, d.h. Alpha liegt nahe bei Null, wegen inhaltlicher Heterogenität
Alpha lässt sich nur dann sinnvoll interpretieren, wenn Unidimensionalität gegeben ist (alle Items genau dasselbe Merkmal erfassen)
.70 wird oft als akzeptable interpretiert
Aber Vorsicht: für Anwendungskontext nicht sinnvoll!
Warum?
Im Anwendungskontext sollte Reliabilität mind. .85 sein!
häufig wird auf Angabe von Konfidenzintervallen verzichtet
Gefahr falscher Schlussfolgerungen über Leistung einer Person
insbesondere bei Tests mit geringer Reliabilität (< .85)
Last changeda year ago