Definition
Valide ist ein Test dann, wenn er dasjenige Merkmal auch tatsächlich misst, was er vorgibt zu messen.
Eine moderne Digitalwaage ist sehr reliabel. (ca. r = .99) Aber ist sie auch valide?
wenn ich physikalische Maße des Gehirns messen möchte, ja! Wenn ich damit Intelligenz messen möchte, nein
Validität – Arten (S.142-144;S. 157-182 blau)
Inhaltsvalidität
Kriteriumsvalidität
Konstruktvalidität
Inhaltsvalidität = wie repräsentativ die Items eines Tests für das zu messende Merkmal sind.
Inhaltsvalidität hoch, wenn Operationalisierung nicht notwendig ist; direkte Beobachtung
Unter Kriteriumsvalidität versteht man den Zusammenhang zwischen Testergebnis und konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation.
Das Kriterium muss für den vorgesehenen Einsatzbereich des Tests relevant sein.
Ein Kriterium ist immer etwas Konkretes, direkt messbares (z.B. Prfungsleistungen, erzielter Umsatz, Alkoholkonsum usw.).
Wenn das Merkmal nicht direkt (im Ganzen oder als Teil) erfasst werden kann, nutzt man eine Korrelation mit einer anderen Variablen (z.B. Verhaltensindikatoren), um auf das interessierende Merkmal zu schließen
Bsp.:
Merkmal = Berufseignung
Test = Berufseignungstest
Wie kann ich den Test validierern, d.h. prüfen, ob er auch Berufseignung misst?
Kriterium:
Außenkriterien (z.B. Vorgesetztenurteil, Mitarbeiterbefragung, andere spezifische Lesitungsmerkmale für den Beruf)
Binnenkriterium (z.B. anderer Berufseignungstest)
Korrelation des Tests (t) mit Kriterium (c) -> Validitätskoeffizient (rtc)
Resultat einer Übereinkunft: mehrere Experten befragen und kombinieren -> aufwendig
gibt nicht nur das eine kriterium -> sondern ist auch zeitlichen/kulturellen Einflüssen/ Veränderungen unterworfen
Wenn es schwierig ist, von vornerein ein geeignetes Kriterium zu finden:
Vorläufige Kriterien: erste Information über den Probanden
Zwischen Kriterien: Annäherung an das wirklich zu erfassende Merkmal
Endgültige Kriterien: repräsentieren das interessierende Merkmal in idealer Weise (theoretische Ebene)
Bsp.: kann Berufseignungstest zwischen versch. Berufsgruppen differenzieren?
Äußere Validität
Korrelation zwischen äußerem Kriterium (Vorgesetztenurteil) und Testpunktwert
Innere Validität (Binnenkriterium)
Korrelation von Test A mit Test B, der dasselbe Merkmal erfasst wie Test A und als hinreichend Valide gilt
Problem: Beide Tests können auch aufgrund eines dritten unkontrollierten Merkmal korrelieren
Lösungsversuch: Multiple Validitätskoeffizienten
Kriterium - zeitliche Perspektive
Vorhersagevalidität (prädiktive Validität):
Test zur Vorhersage von Kriterienwerten, die zeitlich sehr viel später anfallen = prognostische Ziele
Bsp.: Wenn ein Test dafür geeignet sein soll, spätere Leistungen vorherzusagen (z.B. berufserfolg einige Jahre nach Einstellung), sind Angaben zur prognostischen Validität erforderlich
Übereinstimmungsvalidität (konkurrente Validität)
Kriterienwerte werden simultan mit Testpunktwerten erhoben = diagnostische Ziele
Bsp.: Möchte jetzt aktuell erfassen ob Person Depression hat und mein Test dies erfasst
Retrospektive Validität
Kriterien werden vorher ermittelt und Test später erhoben
Bsp.: entwickle Intelligenzverfahren und will wissen wie letzte Schulnote/ Abit Note war
Inkrementelle Validität
Verbesserung der Vorhersage durch Hinzunahme eines weiteren Tests
Bsp.: Studieneingangstest & Abi Note —> Test kann noch mehr Varianz aufklären als Note
Unter Konstruktvalidität versteht man, dass ein Test das Konstrukt erfasst, welches er erfassen soll – und nicht ein anderes.
Wenn wir über Konstrukte sprechen, bewegen wir uns auf einer theoretischen Ebene (Testergebnisse und Tests sind etwas Konkretes/Beobachtbares).
Die Bedeutung liegt in der theoretischen Kärung dessen, was der betreffende Test misst (Intelligenz -> Psychologinnen sind sich weitgehend einig, was sie unter Intelligemz verstehen)
Konstruktvalidierung ist ein Vorgang erheblicher Schwierigkeit und mit großem technisch-ökonomischem Aufwand aufgrund der fehlenden operationalen Fassbarkeit
-> Operationalisierung teilweise problemnatisch
Beispiele/Methodische Ansätze als Belege für die Konstruktvalidität
Gruppenunterschiede: Die Einstellung gegenüber der Kirche sollte bei Kirchengängern positiver sein als bei nicht-kirschengängern
Konvergente Validität muss deutlich höher sein als diskriminnate
Konvergent: Übereinstimmung mit Messungen desselben Konstrukts
Diskriminant: Nicht-Übereinstimmung mit Messungen anderer Konstrukte
Multi Trait Multi Method
Mehrere Konstrukte (Multitraits) werden durch mehrere Methoden (Multimethods) erfaßt.
Eine systematische Analyse erlaubt, die wechselseitigen Beziehungen zwischen Konstrukten und Methoden abzuschätzen und zwei Arten von Konstruktvalidität abzuschätzen: Konvergente (mehrer Methoden messen das gleiche Konstrukt übereinstimmend) und divergente Validität (Zielkonstrukt unterscheidet sich von den anderen Konstrukten)
Wofür kann Validitätskoeffizient gebraucht werden?
Validitätskoeffizienten - Standardschätzfehler (nicht Standardmessfehler)
Streuung der tatsächlichen Werte um die vorhergesagten Werte
MTMM:
Intelligenz mit fakorenanalyse, zeitliche Intervalle, usw.: Durch viele Methode den Trait/Merkmal/Konstrukt fassbar machen
Multi Trait: Extraversion: gesprächig, offen, —> Korrelationen dazwischen
Problem:
viele Methoden, die teilweise das gleiche messen, vl miteiannder korrelieren und in anderen Bereich nicht
Intelligenz messen (math. wissen, numerisches, verbales test -> 2 untersch. Methoden -> Intelligenz damit messen: kann sein, dass ich
1. Validität: Minderungskorrektur
Wenn Messwerte fehlerbehaftet sind, wirkt sich dies mindernd auf die Höhe der Korrelation mit einer anderen Variablen aus.
angenommen, 2 Tests erfassen das gleiche Merkmal, wurden aber so schlecht konstruiert, dass sie nur aus Messfehlern bestehen.
Die beobachteten Werte aus diesen Tests werden nicht miteinander korrelieren.
Begründung: die Messfehler zweier Tests korrelieren nicht miteinander (Annahme/Axiom KTT)
Die (Minerdungs-) Korrektur errechnet die Minderung, die der Validitätskoeffizient aufgrund der mangelnden Kriteriumsreliabilität erlitten hat
Einfache und doppelte Minderungskorrektur
Einfach
die einfache Minderungskorrektur wird angewendet, wenn nur die Reliabilität eines Tests bekannt ist
DIe einfache Minderungskorrektur liefert eine Schätzung für die Korrelation eines Tests mit einem Kriterium unter der Annahme, dass das Kriterium messfehlerfrei erfasst wird.
Dopplete Minderungskorrektur
liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind
1. Itemparameter nach KTT
Die Itemschwierigkeit gibt an, wie groß der Anteil an Personen ist, die das Item im Sinne des Merkmals beantwortet haben.
Im Sinne des Merkmals beantwortet: Leistungstest = richtige Antwort, Fragebögen = die Antwort, die das Merkmal identifiziert
wenige richtige (positive) Antworten =schwierig
ein hoher (Schwierigkeits-)wert bedeutet, dass es sich um ein leichtes Item handelt
Es gibt versch. Korrekturen für Ratewahrscheinlichkeit, Nicht-Beantwortung etc.
-> Mittel-schwere Items generieren
-> kannn leichter diferenzieren zwischen Leistungs- und Nicht-Leistungsträgern
-> zu einfach oder zu schwer: bekomme keine klare Aussage;
-> Trennschärfe bei mittlerer Schwierigkeit hoch
Trennschärfe
Eine Trennschärfe stellt die korrigierte Korrelation (Part‐whole‐Korrektur) einer Aufgabe (i) mit einer Skala (T) dar (Werte zwischen ‐1 und +1).
Korrelation des Items mit dem Test/der Skala des Tests
„+“ = Item trennt gut zwischen Merkmalsträgern und Nicht‐Merkmalsträgern
„0“ = Merkmalsträger und Nicht‐Merkmalsträger beantworten Item gleich häufig
„‐“ = Merkmalsträger beantworten Item seltener „richtig“
Objektivität
Ausmaß, inwieweit die Testergebnisse unabhängig von Testleitung sind, d.h. unterschiedliche Testleitungen sollten möglich zu identischen Ergebnissen kommen
Durchführungsobjektivität
Standardisierung der Testsituation (Bedingung, Zeit, Hilfestellungen, Testleiter-Testperson-Kontakt)
Auswertungsobjektivität
Eindeutige Quantifizierung des Verhaltens sollte möglich sein (Schablonen, Anweisungen, PC)
Interpretationsobjektivität
Standardisierte Interpretation, gute Normen
Verhältnis der 3 Hauptgütekriterien
Objektivität -> Voraussetzung für Reliabilität -> Voraussetzung für Validität
Geringe Objektivität -> keine optimale Reliabilität
-> Fehler bei der Durchführung, Auswertung, Interpretation
Geringe Reliabilität -> geringe Validität
-> Wahre Werte werden nur ungenau geschätzt
Reliabilitäts-Validitäts Dilemma
Extrem hohe Reliabilität: sehr homogene Items
Homogene Items: messe reliable aber auch sehr spezifisch
Sehr spezifisch —> kann nicht valide sein (Konstrukte sind breiter aufgefasst als das man sie mit homogenen Items erklären kann) —> kann nicht komplette Breite abgefragt werden weil Fokus auf homogenen Items
Bezug zu Minderungskorrektur
Internet Erklärung:
Nach dem R-V-Dilemma erfolgt perfekte Reliabilität zu Lasten der Validität, obwohl Reliabilität eine Voraussetzung für Validität ist.
Man erhebt innerhalb einer Untersuchung die Veränderung eines Merkmals zwischen zwei Messzeitpunkten. (Retest Reliabilität)
Ist die Retest Reliabilität hoch, bedeutet dies, dass offenbar in beiden Tests das Gleiche gemessen wurde, also eine hohe Validität der Untersuchung:
Die Validität der beiden Messungen ist umso stärker, je stärker die Korrelation der beiden Messungen ist. Die gleichen Faktoren sind offenbar für das Zustandekommen der beiden Meßwerte verantwortlich.
Die Reliabilität der Differenzwerte beider Messungen ist jedoch umso geringer, je stärker die beiden Messungen miteinander korrelieren.
Nebengütekriterien
Ein Test gilt als fair, wenn er nicht bestimmte Personengruppen systematisch benachteiligt.
Nebengütekriterium: Normierung (für Individualdiagnostik)
Die Normierung eines Tests liefert ein Bezugssystem
Ergebnis einer Person lässt sich als (unter‐/ über‐) durchschnittlich im Vergleich zu anderen Personen einordnen
nicht älter als 8 Jahre (lt. DIN 33430)
für verschiedene Personengruppen
mindestens 300 Probanden
Äquivalenznorm
Zuordnung der Rohwerte zu bestimmten Referenzgruppen
Bsp.: 10 jähriges Kind hat in einem Test 15 richtige Antworten erzielt
-> Tabelle, in der durchschnittliche Leistungen von Kindern unterschiedlicher Altersgruppen aufgeführt sind
-> Tabelle zeigt, dass 15 richtige Antworten der durchschnittlichen Leistung eines neunjährigen Kindes entspricht
-> untersuchte Kind ist bezüglich des untersuchten Merkmals etwas rückständig
z.B. IQ = IA/ LA * 100 (IA= Intelligenzalter, LA = Lebensalter)
Abweichungsnorm
Abweichungsnormen setzen voraus, dass die Messwerte im Sinne der Gaußschen Glockenkurve normalverteilt sind
Der Normwert gibt an, wie weit eine Person mit ihrer Testleistung unter oder über dem Mittelwert einer Vergleichsgruppe liegt.
Prozentrangnorm
es sind keinerlei Annahmen über die Verteilung der Teswerte nötig
Die Transformation besteht darin, dass dem Testwert die relative Position auf der Skala der Bezugsgruppe zugeordnet wird
Wenn eine Person einen PR von 80 erreicht hat, dann bedeutet dies, dass 20% der Personen einen höheren Wert haben und 80% haben den gleichen oder einen geringeren Wert.
Kritik an der KTT
Axiome nicht prüfbar
Nicht alle Einflüsse auf das Testergebnis sind Zufallseinflüsse. (Messfehler verteilen sich nicht immer zufällig um den wahren Wert -> systematische Verzerrung wie z.B. bei sozialer Erwünschtheit möglich, die KTT definiert Messfehler aber als unsystematisch)
Extremwerte schwerer replizierbar (Regression zur Mitte -> bei einer Messwiederholung bewegen sie sich zur Mitte)
nur Zusammensetzung von Messwerten -> Messfehlertheorie
Wahrer Wert = Eigenschaft oder Fähigkeit? Hier noch keine Definition des Konstrukts
Annahme der intraindividuellen Invarianz gilt nur für kurze Zeiträume
Axiome gehen davon aus das sich wahre Wert nicht verändert (für kurze Zeiträume möglich, aber Merkmalsfluktuation z.B. bei Paralleltest und Wiederholung verzögert)
Die Parameter der KTT sind populations- und stichprobenabhängig (Reliabilität, Validität)
Kennwerte, die von Erhebungen mit Patienten stammen, gelten nicht unbedingt für Gesunde.
Ergebnisse, die an einer Stichprobe gewonnen wurden, dürfen nur dann als gültig für die Population angenommen werden, wenn es sich um eine repräsentative und zudem hinreichend große Stichprobe handelt.
Intervallskalenannahme z.T. fraglich (gilt auch für Normalverteilungsannahme)
KTT setzt mindestens Intervallskalenniveau voraus
bei manchen Tests allerdings fraglich, ob diese Qualität erreicht wird
Annahme der Eindimensionalität ist nicht immer erfüllt (Homogenität der Items)
Führt zu Über‐ / Unterschätzung der Messgenauigkeit.
Annahme des fehlenden Zusammenhangs zwischen Fehlerwerten unterschiedlicher Tests nicht zwingend
Übertragung von Gruppenstatistiken auf das Individuum ist problematisch bei einer Reliabilität und Validität < 1.0 (Holzkamp, 1966; Vertreter der sog. „Kritischen Psychologie“) -> leider ist dies nur wenigen Praktiker:innen in ihrer Arbeit bewusst
Fazit
KTT weist Unzulänglichkeiten auf, aber hat sich in der Praxis bewährt!
oder salopp formuliert: „besser als würfeln”
Wenn man sie gut und kritisch anwendet, dann gibt es nutzbare Informationen
Fragen
Erläutern Sie die Unterschiede zwischen den drei Validitätsarten!
Was ist der Sinn der Minderungskorrektur?
Wie ist die Abhängigkeit der einzelnen Hauptgütekriterien?
Was versteht man unter dem Reliabilitäts‐Validitäts‐Dilemma?
Erläutern Sie die Bedeutung der einzelnen Nebengütekriterien.
Last changed10 months ago