Buffl

Grundlagen der Diagnostik 5 (Validität)

HM
by Hanna M.

Kriteriumsvalidität

  • Unter Kriteriumsvalidität versteht man den Zusammenhang zwischen Testergebnis und konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation.

  • Das Kriterium muss für den vorgesehenen Einsatzbereich des Tests relevant sein.

  • Ein Kriterium ist immer etwas Konkretes, direkt messbares (z.B. Prfungsleistungen, erzielter Umsatz, Alkoholkonsum usw.).

  • Wenn das Merkmal nicht direkt (im Ganzen oder als Teil) erfasst werden kann, nutzt man eine Korrelation mit einer anderen Variablen (z.B. Verhaltensindikatoren), um auf das interessierende Merkmal zu schließen


Bsp.:

Merkmal = Berufseignung

Test = Berufseignungstest


Wie kann ich den Test validierern, d.h. prüfen, ob er auch Berufseignung misst?


Kriterium:

  • Außenkriterien (z.B. Vorgesetztenurteil, Mitarbeiterbefragung, andere spezifische Lesitungsmerkmale für den Beruf)

  • Binnenkriterium (z.B. anderer Berufseignungstest)


Korrelation des Tests (t) mit Kriterium (c) -> Validitätskoeffizient (rtc)


  • Resultat einer Übereinkunft: mehrere Experten befragen und kombinieren -> aufwendig

  • gibt nicht nur das eine kriterium -> sondern ist auch zeitlichen/kulturellen Einflüssen/ Veränderungen unterworfen


Wenn es schwierig ist, von vornerein ein geeignetes Kriterium zu finden:


  • Vorläufige Kriterien: erste Information über den Probanden

  • Zwischen Kriterien: Annäherung an das wirklich zu erfassende Merkmal

  • Endgültige Kriterien: repräsentieren das interessierende Merkmal in idealer Weise (theoretische Ebene)


  • Bsp.: kann Berufseignungstest zwischen versch. Berufsgruppen differenzieren?


Äußere Validität

  • Korrelation zwischen äußerem Kriterium (Vorgesetztenurteil) und Testpunktwert


Innere Validität (Binnenkriterium)

  • Korrelation von Test A mit Test B, der dasselbe Merkmal erfasst wie Test A und als hinreichend Valide gilt

  • Problem: Beide Tests können auch aufgrund eines dritten unkontrollierten Merkmal korrelieren

  • Lösungsversuch: Multiple Validitätskoeffizienten


Kriterium - zeitliche Perspektive


Vorhersagevalidität (prädiktive Validität):

  • Test zur Vorhersage von Kriterienwerten, die zeitlich sehr viel später anfallen = prognostische Ziele

  • Bsp.: Wenn ein Test dafür geeignet sein soll, spätere Leistungen vorherzusagen (z.B. berufserfolg einige Jahre nach Einstellung), sind Angaben zur prognostischen Validität erforderlich


Übereinstimmungsvalidität (konkurrente Validität)

  • Kriterienwerte werden simultan mit Testpunktwerten erhoben = diagnostische Ziele

  • Bsp.: Möchte jetzt aktuell erfassen ob Person Depression hat und mein Test dies erfasst


Retrospektive Validität

  • Kriterien werden vorher ermittelt und Test später erhoben

  • Bsp.: entwickle Intelligenzverfahren und will wissen wie letzte Schulnote/ Abit Note war


Inkrementelle Validität

  • Verbesserung der Vorhersage durch Hinzunahme eines weiteren Tests

  • Bsp.: Studieneingangstest & Abi Note —> Test kann noch mehr Varianz aufklären als Note



Konstruktvalidität

  • Unter Konstruktvalidität versteht man, dass ein Test das Konstrukt erfasst, welches er erfassen soll – und nicht ein anderes.

  • Wenn wir über Konstrukte sprechen, bewegen wir uns auf einer theoretischen Ebene (Testergebnisse und Tests sind etwas Konkretes/Beobachtbares).

  • Die Bedeutung liegt in der theoretischen Kärung dessen, was der betreffende Test misst (Intelligenz -> Psychologinnen sind sich weitgehend einig, was sie unter Intelligemz verstehen)

  • Konstruktvalidierung ist ein Vorgang erheblicher Schwierigkeit und mit großem technisch-ökonomischem Aufwand aufgrund der fehlenden operationalen Fassbarkeit

-> Operationalisierung teilweise problemnatisch


Beispiele/Methodische Ansätze als Belege für die Konstruktvalidität

  • Gruppenunterschiede: Die Einstellung gegenüber der Kirche sollte bei Kirchengängern positiver sein als bei nicht-kirschengängern

  • Konvergente Validität muss deutlich höher sein als diskriminnate


Konvergent: Übereinstimmung mit Messungen desselben Konstrukts

Diskriminant: Nicht-Übereinstimmung mit Messungen anderer Konstrukte



Multi Trait Multi Method

  • Mehrere Konstrukte (Multitraits) werden durch mehrere Methoden (Multimethods) erfaßt.

  • Eine systematische Analyse erlaubt, die wechselseitigen Beziehungen zwischen Konstrukten und Methoden abzuschätzen und zwei Arten von Konstruktvalidität abzuschätzen: Konvergente (mehrer Methoden messen das gleiche Konstrukt übereinstimmend) und divergente Validität (Zielkonstrukt unterscheidet sich von den anderen Konstrukten)


Wofür kann Validitätskoeffizient gebraucht werden?

  • Validitätskoeffizienten - Standardschätzfehler (nicht Standardmessfehler)

  • Streuung der tatsächlichen Werte um die vorhergesagten Werte




MTMM:

  • Intelligenz mit fakorenanalyse, zeitliche Intervalle, usw.: Durch viele Methode den Trait/Merkmal/Konstrukt fassbar machen

  • Multi Trait: Extraversion: gesprächig, offen, —> Korrelationen dazwischen


Problem:

  • viele Methoden, die teilweise das gleiche messen, vl miteiannder korrelieren und in anderen Bereich nicht



Intelligenz messen (math. wissen, numerisches, verbales test -> 2 untersch. Methoden -> Intelligenz damit messen: kann sein, dass ich


Objektivität

  • Ausmaß, inwieweit die Testergebnisse unabhängig von Testleitung sind, d.h. unterschiedliche Testleitungen sollten möglich zu identischen Ergebnissen kommen


Durchführungsobjektivität

  • Standardisierung der Testsituation (Bedingung, Zeit, Hilfestellungen, Testleiter-Testperson-Kontakt)


Auswertungsobjektivität

  • Eindeutige Quantifizierung des Verhaltens sollte möglich sein (Schablonen, Anweisungen, PC)


Interpretationsobjektivität

  • Standardisierte Interpretation, gute Normen


Verhältnis der 3 Hauptgütekriterien


Objektivität -> Voraussetzung für Reliabilität -> Voraussetzung für Validität


  • Geringe Objektivität -> keine optimale Reliabilität

    -> Fehler bei der Durchführung, Auswertung, Interpretation


  • Geringe Reliabilität -> geringe Validität

    -> Wahre Werte werden nur ungenau geschätzt


Reliabilitäts-Validitäts Dilemma


  • Extrem hohe Reliabilität: sehr homogene Items

  • Homogene Items: messe reliable aber auch sehr spezifisch

  • Sehr spezifisch —> kann nicht valide sein (Konstrukte sind breiter aufgefasst als das man sie mit homogenen Items erklären kann) —> kann nicht komplette Breite abgefragt werden weil Fokus auf homogenen Items

  • Bezug zu Minderungskorrektur




Internet Erklärung:

  • Nach dem R-V-Dilemma erfolgt perfekte Reliabilität zu Lasten der Validität, obwohl Reliabilität eine Voraussetzung für Validität ist.

  • Man erhebt innerhalb einer Untersuchung die Veränderung eines Merkmals zwischen zwei Messzeitpunkten. (Retest Reliabilität)

  • Ist die Retest Reliabilität hoch, bedeutet dies, dass offenbar in beiden Tests das Gleiche gemessen wurde, also eine hohe Validität der Untersuchung:

  • Die Validität der beiden Messungen ist umso stärker, je stärker die Korrelation der beiden Messungen ist. Die gleichen Faktoren sind offenbar für das Zustandekommen der beiden Meßwerte verantwortlich.

  • Die Reliabilität der Differenzwerte beider Messungen ist jedoch umso geringer, je stärker die beiden Messungen miteinander korrelieren.



Nebengütekriterien



  • Ein Test gilt als fair, wenn er nicht bestimmte Personengruppen systematisch benachteiligt.


Nebengütekriterium: Normierung (für Individualdiagnostik)


Die Normierung eines Tests liefert ein Bezugssystem

  • Ergebnis einer Person lässt sich als (unter‐/ über‐) durchschnittlich im Vergleich zu anderen Personen einordnen

  • nicht älter als 8 Jahre (lt. DIN 33430)

  • für verschiedene Personengruppen

  • mindestens 300 Probanden


Äquivalenznorm

  • Zuordnung der Rohwerte zu bestimmten Referenzgruppen

  • Bsp.: 10 jähriges Kind hat in einem Test 15 richtige Antworten erzielt

    -> Tabelle, in der durchschnittliche Leistungen von Kindern unterschiedlicher Altersgruppen aufgeführt sind

    -> Tabelle zeigt, dass 15 richtige Antworten der durchschnittlichen Leistung eines neunjährigen Kindes entspricht

    -> untersuchte Kind ist bezüglich des untersuchten Merkmals etwas rückständig

  • z.B. IQ = IA/ LA * 100 (IA= Intelligenzalter, LA = Lebensalter)


Abweichungsnorm

  • Abweichungsnormen setzen voraus, dass die Messwerte im Sinne der Gaußschen Glockenkurve normalverteilt sind

  • Der Normwert gibt an, wie weit eine Person mit ihrer Testleistung unter oder über dem Mittelwert einer Vergleichsgruppe liegt.


Prozentrangnorm

  • es sind keinerlei Annahmen über die Verteilung der Teswerte nötig

  • Die Transformation besteht darin, dass dem Testwert die relative Position auf der Skala der Bezugsgruppe zugeordnet wird

  • Wenn eine Person einen PR von 80 erreicht hat, dann bedeutet dies, dass 20% der Personen einen höheren Wert haben und 80% haben den gleichen oder einen geringeren Wert.




Kritik an der KTT


  1. Axiome nicht prüfbar

  • Nicht alle Einflüsse auf das Testergebnis sind Zufallseinflüsse. (Messfehler verteilen sich nicht immer zufällig um den wahren Wert -> systematische Verzerrung wie z.B. bei sozialer Erwünschtheit möglich, die KTT definiert Messfehler aber als unsystematisch)

  • Extremwerte schwerer replizierbar (Regression zur Mitte -> bei einer Messwiederholung bewegen sie sich zur Mitte)

  • nur Zusammensetzung von Messwerten -> Messfehlertheorie

  • Wahrer Wert = Eigenschaft oder Fähigkeit? Hier noch keine Definition des Konstrukts

  • Annahme der intraindividuellen Invarianz gilt nur für kurze Zeiträume

    • Axiome gehen davon aus das sich wahre Wert nicht verändert (für kurze Zeiträume möglich, aber Merkmalsfluktuation z.B. bei Paralleltest und Wiederholung verzögert)


  1. Die Parameter der KTT sind populations- und stichprobenabhängig (Reliabilität, Validität)

    • Kennwerte, die von Erhebungen mit Patienten stammen, gelten nicht unbedingt für Gesunde.

    • Ergebnisse, die an einer Stichprobe gewonnen wurden, dürfen nur dann als gültig für die Population angenommen werden, wenn es sich um eine repräsentative und zudem hinreichend große Stichprobe handelt.


  2. Intervallskalenannahme z.T. fraglich (gilt auch für Normalverteilungsannahme)

    • KTT setzt mindestens Intervallskalenniveau voraus

    • bei manchen Tests allerdings fraglich, ob diese Qualität erreicht wird


  3. Annahme der Eindimensionalität ist nicht immer erfüllt (Homogenität der Items)

    • Führt zu Über‐ / Unterschätzung der Messgenauigkeit.

    • Annahme des fehlenden Zusammenhangs zwischen Fehlerwerten unterschiedlicher Tests nicht zwingend


  4. Übertragung von Gruppenstatistiken auf das Individuum ist problematisch bei einer Reliabilität und Validität < 1.0 (Holzkamp, 1966; Vertreter der sog. „Kritischen Psychologie“) -> leider ist dies nur wenigen Praktiker:innen in ihrer Arbeit bewusst


Fazit

  • KTT weist Unzulänglichkeiten auf, aber hat sich in der Praxis bewährt!

  • oder salopp formuliert: „besser als würfeln”

  • Wenn man sie gut und kritisch anwendet, dann gibt es nutzbare Informationen


Author

Hanna M.

Information

Last changed