Messtheoretische Grundlagen
Reliabilität, Validität und diagnostische Entscheidung
–> Ergebnisse diagnostischer Verfahren werden häufig zu Platzierungs-/ Klassifizierungsentscheidungen herangezogen
–> Voraussetzung: Bestimmung von Cut-off-Werten:
damit kann man
• Effektivität
• Sensitivität
• Spezifität
berechnen
Cut-off-Wert
–>Der Cut-off-Wert teilt eine Stichprobe in Gruppen auf
Generelles Problem der Diagnostik: Das Setzen von Cut-off- Werten
Beispiel: Wo fängt Minderbegabung an?
• Grenzgänger sind am häufigsten
• Die Diagnose ist am wenigsten sicher
• Je sicherer die Diagnose, je stärker das Symptom, desto seltener der Fall
Entscheidungsfehler
–> Beispiel: 100 Kinder nehmen an einem Schuleingangstest teil. 75 Kinder werden als geeignet und 25 Kinder als ungeeignet diagnostiziert.
• Alle Kinder werden eingeschult
• Am Ende der ersten Klasse:
15 der nach Test geeigneten Kinder müssen die Klasse wiederholen.
5 der nach Test ungeeigneten Kinder werden in die zweite Klasse versetzt
Es gibt zwei Arten von Zuordnungsfehlern
• Fehler erster Art (Alpha-Fehler): fp = Personen werden als geeignet bezeichnet, obwohl sie ungeeignet sind.
• Fehler zweiter Art (Betha–Fehler): fn = Personen werden als ungeeignet diagnostiziert, obwohl sie eigentlich der geeigneten Gruppe angehören
Effektivität
Verhältnis von erreichtem Ziel zu definiertem Ziel in % (Zielerreichungsgrad)
Sensitivität (auch Richtig-Positiv-Rate, Empfindlichkeit oder Trefferquote)
–> gibt den Anteil der korrekt als positiv klassifizierten Objekte an der Gesamtheit der tatsächlich positiven Objekte an
Spezifität
auch Richtig-Negativ-Rate oder kennzeichnende Eigenschaft
–>gibt den Anteil der korrekt als negativ klassifizierten Objekte an der Gesamtheit der in Wirklichkeit negativen Objekte an
Verhältnis von Spezifität und Sensitivität
Ein Konzentrationstest (KT) wird zur Diagnose von ADHS durchgeführt.
Ergebnis: Alle Kinder mit ADHS liegen unter dem Cut-Off-Wert im KT
–>Hohe Sensitivität der KT
Aber: viele Kinder ohne ADHS liegen auch unter dem Cut-Off-Wert .
–>Geringe Spezifität des KT
Verbesserung der Spezifität
Verschiebung des Wertes in den Bereich der Eignung (rp).
Die Wahrscheinlichkeit mehr rp in der Gruppe zu haben sinkt, die Wahrscheinlichkeit für rn steigt
Je höher die Spezifität, desto sicherer werden alle rn erfasst.
Falsch negative erhöht sich
Verbesserung der Sensitivität:
Verschiebung des Wertes in den Bereich der Nicht- Eignung (rn).
Die Wahrscheinlichkeit mehr rp in der Gruppe zu haben steigt, die Wahrscheinlichkeit von rn sinkt.
Je höher die Sensitivität desto sicherer werden alle rp erfasst
Viele falsch positive
Gütekriterien
Die klassischen 3 Gütekriterien zur Beurteilung der Güte eines Tests sind
Objektivität
Reliabilität
Validität
Nebengütekriterien
Normen (Normwerte, Normskalen)
Testfairness
Vergleichbarkeit mit anderen Tests
Ökonomische Nützlichkeit des Tests
Spezifische Nützlichkeit
Normwerte
Vergleich von Ergebnissen diagnostischer Instrumente mit denjenigen einer Referenzpopulation
Die Normierung gibt an, für welche Zielgruppe dieser Test ein gültiges Messinstrument sein soll.
Wichtig bei Normierung
Eichstichprobe muss repräsentativ sein–> Faktoren: Alter, Geschlecht, soz. Ökonom. Status, Religion, Wohnortgröße, Region,...
Eichstichprobe muss ausreichend groß sein.
Normierung: Einflussfaktoren
Kultur
Zeit
Gesellschaftliche Veränderungen
Übersetzung in andere Sprachen
Wichtig bei Auswahl von Tests
Für welche Referenzgruppen (Alter, Geschlecht, Bildung, Berufe usw.) liegen Normen vor?
Wie groß und wie repräsentativ sind die Eichungsstichproben?
Wie aktuell sind die Normen?
Welche Art der Normierung liegt vor?
- Abweichungsnormen
- Prozentrangnormen
- (Alters-)Äquivalentnormen
Normskalen
–> Die aus der Testauswertung resultierenden Rohwerte sind zunächst≠ aussagekräftig, da sie von den verwendeten Items abhängen.
–> Um eine eindeutige Aussage über die individuelle Merkmalsausprägung treffen zu können, wird zusätzlich zum Testwert ein Vergleichsmaßstab benötigt
–>anhand dessen der Testwert eingeordnet bzw. interpretiert wird: Normskalen
Normenskalen mit Verteilungsannahme: IQ, Z-Werte, T-Werte
–> Ermöglichen den Vergleich von mehreren Tests mit unterschiedlichen Mittelwerten, Varianzen oder Standartabweichungen.
–> Voraussetzung: Annahme, dass die Fähigkeit normal verteilt ist
Meist in Population, nicht in Stichprobe
Wenn aus Stichprobe z.B. z‐Werte berechnet werden, dann muss auch in der Stichprobe Normalverteilung vorliegen
Norm ohne Verteilungsannahme: Prozentrangnorm
Der Prozentrang einer Person gibt Auskunft darüber, wie viele Personen der Vergleichsgruppe gleiche oder niedrigere im Test erreicht haben.
–> PR 90 bedeutet : 90 Prozent aller Gleichaltrigen sind gleich gut oder schlechter
–> Achtung!
Der Prozentrang gibt nur die relative Stellung in einer Gruppe und sagt nichts über die tatsächliche Leistung aus.
Der Prozentrang ist deshalb ein Rang und kein Messwert.
Prozentrangnormen
Anschaulich
Leicht zu ermitteln
Verteilungsunabhängig
–> Werden Personengruppen gleich behandelt, haben sie die gleichen Chancen auf ein entsprechendes Testergebnis?
–> Besonders unfair häufig bezogen auf:
Geschlecht
Bildungsnähe / Bildungsferne
Soz. Ökonom. Status
Migrationshintergrund
Sprachliche Fähigkeiten
Vergleichbarkeit
liegen Verfahren oder Parallelversionen vor, die gleiche oder ähnliche Konstrukte erfassen?
ist das Verfahren auch geeignet für die Beantwortung von speziellen Fragestellung, z.B. einer Auswahl für einen speziellen Beruf?
Ökonomie
Was kostet die Anschaffung des Tests?
Was kostet die Testdurchführung?
Was kosten Auswertung und Interpretation?
Steht der Aufwand an Zeit und Geld im richtigen Verhältnis zum möglichen Nutzen des Verfahrens?
Werden die Informationen des Tests für die aktuelle diagnostische Entscheidung wirklich benötigt?
Zuletzt geändertvor 2 Jahren