Buffl

05 Testvalidierung

ND
by Nipu D.

5. Testvalidierung

5.2 Vorgehen


Was ist der erste schritt im vorgehen der testvalidierung laut dem ABC der testkonstruktion? =



=Die Ableitung von Annahmen aus dem nomologischen Netz und dem Anwendungszweck des Tests (➜ ABC der Testkonstruktion)

( vor dem Start einer validierung überlegt man sich auf grundlage der theorie (nomologisches netz) und des zwecks des tests, wie sich personen mit bestimmten testwerten typischerweise verhalten sollen )


• Annahmen über das Verhalten von Testpersonen mit unterschiedlichen Messwerten

( es wird angenommen, dass personen mit unterschiedlichen testwerten sich auch im verhalten unterscheiden (zb optimistisch vs nicht optimistisch )


• Beispiel einer Validierungshypothese

− Wenn die Testwert der SOP-2 tatsächlich Optimismus erfasst,

− und Optimismus positive Erwartungen an die eigene Zukunft beinhaltet (siehe

Konstruktdefinition),

➜ dann sollte der Testwert der SOP-2 mit der Einschätzung von Risiken zusammenhängen

(z.B. Opfer einer Naturkatastrophe zu werden)

(hier wird gezeigt, wie man prüft, ob der test wirklich das misst, was er messen soll (zb ob optimisten geringere risiken erwarten) das ist eine konkrete hypothese , die man empirisch testen kann ).


• Annahmen für alle (quantifizierbaren) Gütekriterien möglich und empirisch überprüfbar, z.B. auch faktorielle Validität

(alle testtheoretischen qualitätsmerkmale (zb wie gut die teststruktur ist ) lassen sich ebenfalls mit daten prüfen)


• Blinder Empirismus (Anastasi, 1986)

(warnung davor , einfach nur daten zu sammeln ohne vorher sinnvolle theoretische überlegungen gemacht zu haben. eine gute validierung braucht theorie als grundlage.)


5. Testvalidierung

5.2 Vorgehen

▪ Datenerhebung


Was ist bei der datenerhebung im rahmen der testvalidierung wichtig?

▪ Datenerhebung

• Die Validierungsstichprobe sollte …

− Personen enthalten, auf die der Test später angewendet werden soll (Zielgruppe)

− unter Bedingungen erhoben werden, die den Bedingungen, unter denen der Test

später angewendet werden soll, möglichst ähnlich sind (Anwendungszweck)

➜ ABC der Testkonstruktion

(Die stichprobe muss zur zielgruppe passen, für die der test gedacht ist. wenn du zb einen test für schüler entwickelst , solltest du ihn auch an schülern prüfen- nicht an erwachsenen.

außerdem: die testbedingungen sollen dem späteren einsatz möglichst ähneln, zb einzeltestung vs gruppentestung - das sichert die praxisnähe) .


• Optimal: auch Normierung anhand der Validierungsstichprobe

➜ Schluss vom Verhalten im Test auf Verhalten in realer Situation

(es ist ideal, wenn man normwerte also zb durchschnitsswerte, standardabweichung direkt aus der validierungsstichprobe ableitet. dann man man mit den ergbenissen besser auf das verhalten im alltag schließen. zb jemand mit einem hohen testwert zeigt wahrscheinlich auch im alltag viel… x)



• Prinzip der Kreuzvalidierung: Strikte Trennung von Konstruktion- und Validierungsstichproben

− Capitalizing on chance

− Schätzung und Anwendung der Modellparameter an derselben Stichprobe

− ”If you torture the data long enough, they will eventually confess

(man darf nicht dieselbe stichprobe für die entwicklung UND überprüfung des tests nutzen. das führt zu überanpassung (“overfitting”)

das nennt man “capitalizing on chance”- man passt sein modell zu sehr auf zufälligkeiten im datensatz an.


die letzte zeile meint ironisch: wenn man daten zu lange manipuliert , sagen sie irgendwann allleeeesss was du willst, auch wenn es nicht stimmt. deshalb : unabhängige prüfung


(validierungsstichprobe ist die gruppe von personen , mit der du prüfst, ob ein test wirklich das misst, was er messen soll)

Was ist eigentlich der Unterschied zwischen der Testevaluation und der Testvalidierung?

Der unterschied zwischen der Testevaluation und der testvalidierung liegt im ziel und zeitpunkt im testentwicklungsprozess


Testvalidierung:

—>wie gut misst ein test das, was er messen soll?

ziel: überprüfung , ob ein test valide ist, also ob der testwert wirklich das gewünschte konstrukt erfasst.


fokus: bezieht sich stark auf die validität (aber auch auf andere gütekriterien) ( aber bei der testvalidierung geht es zwar hauptsächlich um die validität , aber: ja auch andere psychometrische gütekriterien wie reliabilität und objektivität werden mitbetrachtet - einfach weil sie voraussetzung dafür sind, dass ein test überhaupt valide sein kann ).


zeitpunkt: NACH der konstruktion eines tests , oft im forschungsprozess.


beispiel: du hast einen depressionsfragebogen entwickelt - jetzt überprüftst du mit daten, ob der test wirklich depressibe symptome misst ( zb durch zusammenhänge mit klinischen diagnosen )



Testevaluation:

—>wie brauchbar und qualitätsvoll ist ein test insgesamt?

ziel: Gesamtbeurteilung eines tests inkl. aller gütekriterien (objektivität, reliabilität, validität etc)


fokus: alle qualitätsaspekte und praktische anwendbarkeit (zb fairness, normen, nützlichkeit)


zeitpunkt: kann nach der konstruktion erfolgen, oft von externen fachgremien (zb DIN 33430, TBS-TK)


beispiel: du willst wissen, ob ein intelligenztest geeignet ist für die bewerberauswahl - also schaust du dir die evaluation zb durch das testkuratorium an .


kurz gesagt

testvalidierung: fokus auf inhaltliche qualität vor allem validität


testevaluation= gesamte qualitätsbeurteilung inkl. anwendungstauglichkeit



5. Testvalidierung

5.3 Faktorielle Validität – Einführung

was versteht man unter faktorieller validität und wie wird sie geprüft?

▪ Faktorielle oder strukturelle

Validität: Faktorenanalytische

Untersuchung der testinternen

Struktur

(dabei wird geschaut, wie die aufgaben innerhalb des tests miteinander zusammenhängen. man benutzt dafür faktorenanalysen , um herauszufinden, welche gemeinsamen dimensionen (faktoren ) hinter den antworten stecken.)

▪ Frage: Welche Struktur liegt

dem Testwert zugrunde? Wie

ist das latente Merkmal

strukturiert, das er abbilden

soll?

(es geht darum zu prüfen, ob der test tatsächlich das misst, was er messen soll, zb ob ein intelligenztest nur ein oder mehrere teilbereiche (zb sprachlich , logisch ) erfasst.

latentes merkmal= eigenschaft, die nicht direkt beobachtbar ist (zb intelligenz, extraversion) sondern durch den test erschlossen wird.

• KTT vs. PTT

(gemeint ist der unterschied zwischen klassischer testtheorie (KTT) und Probabilistischer testtheorie (PTT)

KTT= Fokus auf gesamttestwerte und reliabilität

PTT= betrachtet einzelne items und deren zusammenhang mit dem latenten merkmal (zb mit rasch-modellen )

▪ Form der Konstruktvalidität

(die faktorielle validität ist ein teilbereich der konstruktvalidität. sie prüft, ob die struktur des tests mit der theoretischen struktur des konstrukts übereinstimmt. )

Abbildungen erklärt merken! und abbildungen dazu merken

  1. Spearman (1904) - g- Faktor - Modell:

    Was ist ein “allgemeiner faktor (g)?”

der g-faktor steht für allgemeine intelligenz. spearman hat herausgefunden : wer in einem intelligenztest gut ist, ist meistens auch in anderen tests gut.

beispiel: wenn person a gut im rechnen ist, gut räumlich denken kann, sich gut sachen merken kann, dann liegt das (nach spearman) daran, dass sie einen hohen g-faktor hat.

das bedeutet: es gibt eine übergeordnete fähigkeit, die alle diese teilleistungen beeinflusst - das ist der g-faktor = allgemeine intelligenz.

was zeigt die grafik 1? jeder kreis ist ein test (zb rechnen, sprachverständnis)

jeder test hat einen spezifischen anteil (s) den er ALLEIN MISSt (zb speziell nur mathe)

alle tests haben aber zusätzlich einen anteil g, also die allgemeine intelligenz, die immer mitschwingt.

  1. Thurstone (1938) - kein g-faktor

    was ist hier anders?

    thurstone sagte: es gibt nicht “ die eine inteligenz” (g)

    stattdessen gibt es mehrere gleichwertige teilfähigkeiten

    beispiel: eine person kann sehr gut in mathe sein (numerische fähigkeit) aber gleichzeitig schlecht im schreiben (sprachliche fähigkeit) - und das ist okay. weil das zwei getrennte fähigkeiten sind.

  2. Jäger (1987) berliner intelligenzstrukturmodell (BIS)

    Was macht er?

    jäger kombiniert beide ansätze:

    es gibt einen g-faktor (allgemeine intelligenz) , UND es gibt mehrere teilfähigkeiten , eingeteilt nach:

    INHALTEN (sprachlich, numerisch, bildhaft)

    OPERATIONEN (wie man mit informationen umgeht , zb merken , vergleichen , schnell reagieren )

    zb eine aufgabe bei der man sich zahlen merken muss:

    numerisch (inhalt) und merkfähigkeit (operation )

5. Testvalidierung

5.3 Faktorielle Validität – Einführung

was ist die faktorielle validität und wie wird sie untersucht?

/wie wird die faktorielle validität im rahmen der testkonstruktion überprüft und welche methoden kommen dabei in welcher phase zum einsatz? =

▪ =Faktorielle oder strukturelle validität bezeichnet die faktorenanalytische untersuchung der testinternen struktur eines tests - also wie viele dimensionen oder teilaspekte das zu messende konstrukt hat.

zwei methoden innerhalb der klassischen testtheorie (ktt) helfen dabei: Explorative Fakotorenanalyse (EFA): wird in der konstruktionsphase verwendet, wenn noch keine annahmen zur struktur bestehen. sie erkundet, wie viele faktoren es geben könnte.

Konfirmatorische faktorenanalyse (CFA) : wird in der validierungsphase eingesetzt, um eine vorher angenommene struktur statistisch zu bestätigen . die CFA wird also genutzt um die angenommene struktur inferenzstatistisch abzusichern, also zu prüfen, ob die struktur wirklich vorhanden ist- nicht nur zufällig in den daten.

(das war die antwort zur letzten frage)


folie:

vorgehen: Annahmen über die Struktur des Konstrukts formulieren (in der Regel a priori) und empirisch testen

(man überlegt sich VORAB, wie die struktur des zu messenden merkmals aussieht (zb ob es mehrere teilbereiche gibt) und überprüft das mit daten.


▪ Zwei Methoden (innerhalb der KTT)

(die KTT=kLASSISCHE TESTTHEORIE . innerhalb dieser theorie gibt es 2 methoden, um die struktur eines tests zu untersuchen:

  • Explorative Faktorenanalyse (EFA) ➜ EFA Exkurs

    (wird genutzt, wenn man noch keine konkrete vorstellung hat, wie viele faktoren es geben sollte. man “lässt die daten sprechen”.

  • Konfirmatorische Faktorenanalyse (CFA)

    (wird genutzt , wenn man eine konkrete struktur schon angenommen hat und schauen will, ob die daten diese struktur bestätigen ).


▪ Verwendung in unterschiedlichen Phasen der Testkonstruktion

(die methoden werden zu verschiedenen zeitpunkten eingesetzt:

  • Konstruktionsphase: EFA

    (am anfang, (bei der testentwicklung) um herauszufinden, wie der test strukturiert ist.)

  • Validierungsphase: CFA

    (später, um zu prüfen, ob die vermutete struktur wirklich stimmt )



▪ Prüfung, d.h. inferenzstatistische Absicherung der angenommenen

Struktur, üblicherweise mittels CFA

(die CFA wird genutzt, um die angenommene struktur statistisch zu bestätigen. inferenzstatistisch bedeutet man prüft ob sich das ergebniss verallgemeinern lässt, also ob es nicht nur zufällig so aussieht.

5. Testvalidierung

5.3 Faktorielle Validität – CFA

Was überprüft die Konfirmatorische Faktorenanalyse (CFA) im Rahmen der faktoriellen Validität?

(Die Konfirmatorische Faktorenanalyse (CFA) prüft die übereinstimmung der “daten” mit theoretisch oder empirisch fundierten methoden (annahmen über die struktur)

(daten= mit daten meint man hier die antworten der testpersonen auf die einzelnen testaufgaben. aus diesen daten wird dann zb eine korrelationsmatrix berechnet, die zeigt, wie stark die untertests miteinander zusammenhängen ).

(es folgt ein vergleich der vom modell angenommenen Populations-varianz-kovarianzmatrix und der aus den empirischen daten geschätzten populations-varianz-kovarianzmatrix. )

(=hier passiert also folgendes: 1. du hast ein modell, in dem du voraussetzt, wie die testaufgaben oder subtests zusammenhängen sollen (zb diese aufgaben gehören zu faktor a , diese zu faktor b…) —>daraus lässt sich eine modell-kovarianz-matrix berechnen (=theoretische erwartung)

2.du hast echte daten von den testpersonen und daraus wird die empirische kovarianzmatrix berechnet (=realität)

  1. mit der CFA vergleichst du diese beiden matrizen : passt das, was du theoretisch erwartest, zu dem , was du in der realität beobachtet hast?

wenn modell-matrix (gewelltes gleichzeichen)= empirische matrix dh ungefähr gleich / stimmt weitgehend überein dann :

gute faktorielle validität, weil der test wirklich das misst, was er laut theorie messen soll.

kurz gesagt: die CFA prüft, ob das, was du denkst , was dein test misst, auch wirklich durch die antworten der tespersonen bestätigt wird.

Folie:

▪ Structural Equation Modelling (SEM) / Strukturgleichungsmodellierung ist der Oberbegriff für CFA und Pfadanalysen

(Das SEM ist ein übergeordnetes statistisches verfahren, unter dem sowohl die Konfirmatorische faktorenanalyse (CFA) als auch Pfadanalysen fallen. es dient dazu, komplexe zusammenhänge zwischen variablen modellbasiert darzustellen und zu prüfen. )

▪ Analysiert wird die Varianz/Kovarianz-Matrix bzw. die Korrelations- matrix der Indikatoren (Testitems)

(es wird untersucht , wie stark die die testfragen (items) miteinander zusammenhängen . diese zusammenhänge werden in der sogenannten Varianz-Kovarianz-oder Korrelationsmatrizen dargestellt.)

▪ Die CFA prüft die Übereinstimmung der „Daten“ mit theoretisch oder empirisch fundierten Modellen (Annahmen über die Struktur)

(man schaut, ob die tatsächlich gemessenen werte zu dem theoretischen modelll passen, das man vorher aufgestellt hat- also ob die vermutete struktur (zb ein faktor “intelligenz”) in den daten wirklich so vorkommt):

➜ Vergleich der vom Modell angenommen Populations-Varianz-

Kovarianzmatrix und der aus den empirischen Daten geschätzten

Populations-Varianz-Kovarianzmatrix

(es wird also geprüft, ob die modellstruktur (zb wie viele faktoren , welche items zu welchem faktor gehören ) mit dem übereinstimmt was man aus den real erhobenen daten ableiten kann.

Roter kasten erklärung;

Ganz oben H0…. = das ist die sogenannte nullhypothese der CFA

was bedeuten die symbole?

das erste mit modell= die kovarianzmatrix, die dein modell theoretisch voraussagt (also was eigentlich rauskommen müsste , wenn das modell stimmt)

das zweite mit empirisch= die kovarianzmatrix die man aus den echten (empirischen ) daten berechnet (also was tatsächlich in der stichprobe beobachtet wurde)

was bedeutet die gleichung dann ?= ho…= ganz oben das ist die hypothese. =das modell passt zu den daten.

man testet also: stimmen die erwartungen aus dem modell mit der realität (den daten ) überein ?

also zeichen mit model= erwartete zusammenhänge laut deinem modell

zeichen mit empirisch= tatsächlich beobachtete zusammenhänge aus der stichprobe

ho= diese beiden sidn gleich = also das modell ist passend und stimmt mit den daten überein

wenn die Ho nicht abgelehnt wird dann ist das ein hinweis auf gute faktorielle validität, weil das modell mit den daten übereinstimmt.

5. Testvalidierung

5.3 Faktorielle Validität – CFA


Diese Abbildung zeigt, wie mehrere testitems durch eine gemeinsame latente variable erklärt werden können- und dass ihre korrelationen verschwinden, wenn man diese variable konstant hält.

das ist quasi der beweis dafür, dass alle items dasselbe konstrukt messen- also ein nachweis für die faktorielle validität.


diese grafik zeigt, wie die CFA (Konfirmatorische Faktorenanalyse) funktioniert- in 3 aufeinanderfolgenden schritten.


  1. die items hängen miteinander zusammen (korrelieren)

    beispiel: du hast 3 fragen zum thema extraversion:

    -ich bin gerne unter leuten

    -ich rede viel

    -ich gehe gerne auf partys

die meisten leute, die die erste frage bejahen, stimmen auch bei den anderen zu —> das nennt man: die items korrelieren.

warum korrelieren die? vielleicht, weil sie alle ein gemeinsames merkmal messen - nämlich extraversion. dieses “merkmal” nennt man latente variable.


  1. diese latente variable “erklärt” die zusammenhänge der items

    du stellst also ein modell auf: “die items hängen zusammen weil sie alle von extraversion beeinflusst sind”

    und das prüft man mit der CFA konfirmatorischen faktorenanalyse.

  2. was passiert, wenn man die latente variable konstant hält?

    jetzt stell dir vor, alle leuten hätten denselben extraversion-wert zb 100. dann gibts keine unterschiede mehr zwischen den personen- und die items korrelieren nicht mehr.

    warum? weil die unterschiede in den antworten vorher durch unterschiede in der extraversion entstanden sind. wenn alle gleich extravertiert sind—> dann sind alle unterschiede weg —>keine korrelationen mehr.

wenn du mit der CFA Konfirmatorischen faktorenanalyse zeigen kannst “die items korrelieren , weil sie alle ein gemeinsames konstrukt messen “ dann ist ein test faktoriell valide.


5. Testvalidierung

5.3 Faktorielle Validität – CFA

▪ Was wird bei einer CFA Konfirmatorischen faktorenanalyse geschätzt?

▪ Was wird bei einer CFA geschätzt?

• Im Rahmen der konfirmatorischen Faktorenanalyse (CFA) werden nur

theoretisch begründete Ladungen geschätzt

(man prüft nur, ob ganz bestimmte , vorher angenommene zusammenhänge zwischen items und faktoren tatsächlich passen. alles basiert auf einer klaren theorie! )


• Bei der exploratorischen Faktorenanalyse (EFA) wird für jedes Item auf jedem

Faktor eine Ladung zugelassen und geschätz

(hier wird noch NICHT VORHER FESTGELEGT welche items zu welchen faktoren gehören. die software probiert alle verbindungen aus und zeigt, welche struktur in den daten steckt.


was zeigt die abbildung ?

links sieht man die CFA Konfirmatorische faktorenanalyse: NUR GEZIELTE VERBINDUNGSLINIEN zwischen items und faktoren gemäß hypothese.


rechts sieht man die EFA exploratorische faktorenanalyse: ALLE ITEMS SIND MIT ALLEN FAKTOREN VERBUNDEN - hier wird noch exploriert was wohin gehört.


Mit “Faktoren “ meint man in der faktorenanalyse oft mehrere latente dimensionen- also unterkategorien eines übergeordneten konstrukts.

beispiel: stell dir vor, ein test misst intelligenz . dann könnten die faktoren zum beispiel sein: sprachliche intelligenz, logisches denken, räumliches vorstellungsvermögen

das sind 3 faktoren, also 3 latente variablen, die man innerhalb des konstrukts “intelligenz” analysiert.


was bedeutet das nun für die abbildung?

linke seite CFA Konfirmatorische faktorenanalyse: man hat VORHER FESTGELEGT , welches item zu welchem faktor gehört. es wird zb angenommen: item 1 misst sprachliche intelligenz- und NUR die. Deshalb gibt es NUR EINE VERBINDUNG von item 1 zu einem faktor.



rechte seite EFA Exploratische faktorenanalyse

jedes item (frage, aufgabe) DARF AUF JEDEN FAKOR laden.

heißt: man schaut, ob zb item 1 sowohl mit sprachlicher als auch mit logischer intelligenz zu tun haben könnte. die software testet alle möglichen verbindungen- ES GIBT NOCH KEINE THEORIE, welche items zu welchen faktoren gehören.


kurz gesagt: in der abbildung rechts EFA meint “faktoren” NICHT NUR EIN KONSTRUKT wie intelligenz sondern mehrere unterfaktoren , die zusammen zb intelligenz beschreiben. und alle items dürfen mit ALLEN dieser faktoren verbunden sein- völlig offen.

5. Testvalidierung

5.3 Faktorielle Validität – CFA


Was passiert in der CFA wenn eine im modell nicht spezifizierte ladung in den empirischen daten doch vorhanden ist?



▪ (Dann weicht die empirisch beobachtete varianz-kovarianzmatrix von der durch das modell erwarteten matrix ab.

—>das modell passt schlechter zu den daten, weil es zusammenhänge nicht berücksichtigt , die in der realität dann DOCH existieren )


folie

Die CFA nimmt an, dass Ladungen, die nicht spezifiziert werden, den Wert Null annehmen

(bei der konfirmatorischen faktorenanalyse (CFA) sagt man dem modell vorher: “dieses item gehört zu diesem faktor - und zu keinem anderen “. alle anderen möglichen verbindungen (die NICHT angegeben werden) behandelt das model automatisch so, als wären sie NULL, also NICHT vorhanden)


▪ Je stärker die nicht spezifizierten Ladungen von Null abweichen, …

• desto größer ist die Abweichung der empirischen von der durch das Modell

implizierten Varianz-Kovarianzmatrix bzw. Korrelationsmatrix und

(das bedeutet das modell “erwartet” bestimmte zusammenhänge zwischen den items ( die durch die faktoren erklärt werden )

wenn die echten daten andere zusammenhänge zeigen, dann passt das modell nicht gut zu den daten- es gibt also abweichungen in den korrelationen bzw varianzen )


• desto schlechter beschreibt das Modell die Daten

(je mehr abweichungen zwischen modell und daten, desto ungenaurer ist das modell. dann muss man das modell eventuell überarbeiten- vielleicht ist eine weitere verbindung notwendig.


abbildung unten:

links: klassische CFA Konfirmatorische faktorenanalye: nur eine verbindung pro item, alles andere= 0.

rechts= hier sieht man , dass ein item DOCH AUCH auf einen anderen faktor lädt (rote gestrichelte linie mit a= 0.7)

das zeigt, dass die reale struktur komplexer ist als gedacht.


also die CFA Konfirmatorische faktorenanalyse prüft also ob die theoretische struktur wirklich mit der realität übereinstimmt. wenn ein item zb doch auf zwei faktoren lädt, obwohl man nur eine ladung angenommen hat, stimmt das modell nicht mit den daten überein. und das wird im modell sichtbar gemacht.

5. Testvalidierung

5.3 Faktorielle Validität – CFA


Welche Vorteile bieten Strukturgleichungsmodelle bzw CFAs konfirmatorische faktorenanalysen zur prüfung der faktoriellen validität eines tests?

▪ Vorteile von Strukturgleichungsmodellen bzw. CFAs:

• Theorien lassen sich umfassend überprüfen (inferenzstatistisch absichern)

( Mit der CFA Konfirmatorischen faktorenanalyse kann man prüfen , ob die theoretisch angenommene struktur des konstrukts auch wirklich zu den empirischen daten passt. man testet also: stimmt die theorie?)


• Konstrukte und ihre Indikatoren werden explizit getrennt

(man unterscheidet klar zwischen dem, WAS GEMESSEN WERDEN SOLL (zb intelligenz = latente variable) und den ITEMS , die das erfassen sollen (zb testfragen = indikaotren ).


− Messmodell vs. Strukturmodell

(messmodell= wie messen die items das konstrukt

strukturmodell= wie hängen die latenten variablen untereinander zusammen)

• Messfehler werden explizit berücksichtigt

(die CFA berücksichtigt dass jede messung fehleranfällig ist (also nicht 100% exakt)

➜ Korrelationen zwischen latenten Variablen im Modell werden

automatisch minderungskorrigiert (i.e. um den Messfehler bereinigt): (dh man rechnet den messfehler raus, um die “wahre” beziehung zu sehen —->

Konstruktreliabilität wird genauer erfasst


▪ Inferenzstatistische Absicherung mittels CFA ist wichtig, um faktorielle

Validität eines Testwerts zu belegen!

( man braucht die CFA um statistisch nachzuweisen, dass die struktur des tests wirklich das misst, was sie messen soll (also valide ist)


Strukturgleichungsmodell=CFA?

die konfirmatorische faktorenanalyse CFA ist ein spezialfall bzw. ein teilbereich von strukturgleichungsmodellen (structual equation modeling, SEM). Man kann es so zusammenfassen:


die CFA ist eine spezielle form des strukturgleichungsmodells, bei dem es ausschließlich um die messung der beziehungen zwischen latenten variablen (faktoren ) und deren indikatorischen items geht.

SEM= überbegriff, der sowohl messmodelle zb CFAs als auch Strukturmodelle (beziehungen zwischen latenten variablen umfasst)

CFA= untersucht nur den teil des modells, der beschreibt, wie items auf latente faktoren laden (=das messmodell)

5. Testvalidierung

5.4 Konstruktreliabilität – Wiederholung von Kernbegriffen

Womit beschäftigt sich die Persönlichkeitspsychologie in bezug auf testvalidierung?

  1. was ist eine disposition?

  2. was ist ein trait und wie unterscheidet er sich vom begriff disposition ?

  3. warum findet die messung von traits immer in einem situativen bedingungsgefüge statt?

  4. welche fehler können bei der trait-messung auftreten?

  5. was bedeutet state-varianz in itemantworten ?


  1. die persönlichkeitspsychologie interessiert sich dafür, wie und warum menschen unterschieldich sind- zum beispiel in bezug auf eigenschaften wie extraversion. wenn man solche unterschiede messen will, braucht man tests, die diese merkmale zuverlässig und gültig erfassen. deshalb ist die testvalidierung so wichtig: man will sicherstellen , dass der test wirklich das misst , was er vorgibt zu messen und dass die ergebnisse vergleichbar sind- also unterschiede zwischen menschen korrekt abbilden.

  1. weil sitautive faktoren (zb stimmung, umgebung) die antworten beeinflussen können- unabhängig vom eigentlichen trait.


folie:

▪ Die Persönlichkeitspsychologie beschäftigt sich mit der Messung von interindividuellen Unterschieden

(persönlichkeitspsychologie untersucht, worin sich menschen in ihrer persönlichkeit voneinander unterscheiden (zb extraversion , gewissenhaftigkeit) usw.


▪ Disposition:

  • Überdauerndes Merkmal, in dem sich Personen unterscheiden

    (eine disposition ist ein stabiles persönlichkeitsmermal , das über die zeit hinweg besteht (zb jemand ist generell eher ängstlich oder optimistisch ).

▪ Eigenschaft („trait“)

  • Synonym zu Disposition, jedoch häufig in einem anderen Zusammenhang gebraucht, um darauf hinzuweisen, dass es hier um überdauernde Eigenschaften geht („trait“ ➜ transsituative Konsistenz und zeitliche Stabilität) in Abgrenzung zu situativen Merkmalen („state“)

    (trait= stabile eigenschaft, die sich über verschiedene situationen und zeitpunkte hinweg zeigt. gegensatz dazu: state=momentane , situationsabhängige zustände (zb aktuelle angst vs generelle ängstlichkeit)


▪ Wenn wir Traits messen, passiert dies immer in einem situativen Bedingungsgefüge

• Situative Faktoren beeinflussen Messung

(die umgebung oder situation zb stress tagesform also situative faktoren) kann die antworten auf persönlichkeitsfragen beeinflussen , obwohl man stabile traits erfassen will. )


• unsystematische und systematische Fehler bei der Messung

(es können zufällige fehler (unsystematisch) oder verzerrte einflüsse (systematisch) bei der erfassung entstehen.


• State-Varianz in Itemantworten ➜ vgl. Latent State Trait Modell

(auch in antworten zu Trait Fragen steckt state-varianz (situative schwankung) die zb im latent state trait modell berücksichtigt wird- es trennt trait- von state -anteilen in den antworten.

dh auch wenn wir mit einem test ein trait also eine stabile eigenschaft messen wollen- zum beispiel extraversion -können die antworten auf einzelne items trotzdem durch situative einflüsse (states) mitbeeinflusst sein. zb ist eine person eigentlich extravertiert (trait) aber sie hatte heute einen schlechten tag oder ist müde (state) . dann könnte sie die frage “ich bin gern unter leuten” mit weniger zustimmung antworten - nicht weil sie plötzlich introvertiert ist, sondern weil die situation (der zustand = state) sie beeinflusst hat.)

5. Testvalidierung

5.4 Konstruktreliabilität – Wiederholung von Kernbegriffen

▪ Reliabilität

Was ist Reliabilität?

Welche implikationen (folgen) hat eine geringe reliabilität eines testwertes?

was ist der anteil der varianz der wahren werte an der varianz der beobachteten werte? (dh die frage bezieht sich direkt auf die reliabilität- stell dir vor, du misst etwas zum beispiel intelligenz mit einem test. der beobachtete wert ist das, was im test rauskommt. aber dieser wert besteht aus zwei teilen: 1. wahrer wert= das , was du wirklich messen willst

2.messfehler= zufällige störungen, die das ergebnis verfälschen. die reliabilität sagt dir, wie viel vom testergebnis (beobachtete varianz) tatsächlich auf den wahren wert zurückgeht- also wie zuverlässig der test ist. zb wenn die reliabilität 0,80 ist heißt das 80% der unterschiede in den testergebnissen kommen von echten unterschieden (wahrer wert) und 20% kommen von messfehlern.

wie berechnet man die reliabilität?

• 1. was ist reliabiltät

Grad der Genauigkeit mit der eine Eigenschaft gemessen wird

(reliabilität beschriebt, wie zuverlässig ein test misst. wenn ein test hohe reliabilität hat, liefert er bei wiederholter messung ähnliche ergebnisse, also wenig zufallsrauschen. )

• 2. Implikationen von geringer Reliabilität eines Testwertes

− Geringe Messpräzision in der Einzelfalldiagnostik (➜ Qualität von Schlussfolgerungen)

− Reliabilität begrenzt die Höhe, in der Tests miteinander korrelieren können (➜ Testvalidierung)

(Wenn die reliabilität niedrig ist, ist der test ungenau, dh einzelne ergebnisse sind nicht verlässlich , was zu falschen diagnosen oder einschätzungen führen kann. außerdem: wenn ein test unzuverlässig misst, kann er kaum mit anderen tests sinvoll zusammenhängen, was die validierung erschwert)

• 3.Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte

− Bsp.: Reliabilität von rtt = .50 bedeutet, die systematische Varianz beträgt 50

Prozent und der Varianzanteil des Messfehlers 50 Prozent

(ein beobachteter wert setzt sich aus dem wahren wert + messfehler zusammen. wenn die reliabilität zb .50 ist, heißt das : nur die hälfte der beobachteten unterschiede kommt von tatsächlichen unterschieden - die andere hälfte ist messfehler. )

berechnung der reliabilitä siehe abbildung

5. Testvalidierung

5.4 Konstruktreliabilität – Wiederholung von Kernbegriffen

▪ Schätzung der Reliabilität in der KTT

Wie wird die Reliabilität in der KTT mithilfe von Retest , Paralleltest oder testhalbierung geschätzt?

2.was sagt die iteminterkorrelation über die interne konsistenz eines tests aus?

▪ Schätzung der Reliabilität in der KTT

  • 1. Korrelation von Messwerten aus unterschiedlichen Testungen (Retest, Paralleltest) bzw. Testteilen (Testhalbierung)

    (die reliabilität wird geschätzt, indem man die übereinstimmung der testwerte bei wiederholungen (retest) , inhaltlich gleichen tests (paralleltest) oder zwischen testhälften (testhalbierung) betrachtet. je höher die korrelation desto zuverlässiger misst der test.

  • Iteminterkorrelationen (interne Konsistenz)

    2.(bei der internen konsistenz schaut man, wie stark die einzelnen items eines tests miteinander zusammenhängen. hohe korrelationen zwischen items zeigen, dass sie vermutlich dasselbe konstrukt messen.

▪ 3. Höhe von Korrelationen (und somit die Reliabilität) hängt von der systematischen Varianz in beiden Messwertreihen bzw. deren Kovarianz ab

(die korrelation und damit die reliabilität ist nur hoch wenn in beiden messungen ein systematischer zusammenhang steckt. das bedeutet nur wenn beide messreihen ihaltlich “das gleiche” messen und nicht zufällig schwanken, ergibt sich eine hohe reliabilität .

gleichung :

(die formel beschreibt die pearson-korrelation, sie misst den zusammenhang zwischen zwei variablen (Zb zwei testergebnissen)

r= korrelationskoeffizient —> zeigt die stärke und richtung des zusammenhangs zwischen den variablen x und y. werte liegen zwischen -1 (perfekter negativer zusammenhang und +1 perfekter positiver zusammenhang , 0 bedeutet kein zusammenhang.)

cov (x,y) = kovarianz zwischen x und y

zeigt wie stark die beiden variablen gemeinsam variieren. wenn hohe werte bei x mit hohen werten bei y einhergehen, ist die kovarianz positiv . ist sie negativ heist das : wenn x hoch ist , ist y tendenziell niedrig.

sx und sy = standardabweichung von x bzw y.

zeigt wie stark die werte um ihren mittelwert streuen. sie dienen hier als normierung , damit man die kovarianz unabhängig von der maßeinheit interpretieren kann.

die formel vergleicht die gemeinsame variation (kovarianz) mit der gesamtstreuung der beiden variablen- so erhält man eine standardisierte maßzahl, die für alle skalen vergleichbar ist.

kovarianz= wenn zwei werte gleichzeitig steigen oder fallen, ist die kovarianz positiv.

wenn einer steigt und der andere fällt , ist sie negativ

wenn keine erkennbare beziehung besteht, ist die kovarianz nahe null.

kovarianz= stell dir vor du misst an mehreren tagen:

stunden gelernt x

punkte im test y

wenn du an tagen mit mehr lernzeit auch mehr punkte erzielst, dann “gehen” x und y gemeinsam nach oben—>positive kovarianz

wenn du mehr lernst aber wneige punkte bekommst wäre die kovarianz negativ.. (was komisch wäre- oder der test ist schlecht)

die kovarianz sagt nur die richtung nicht die stärke. eine hohe kovarianz bedeutet nicht automatisch einen starken zusammenhang , weil sie nicht standardisiert ist.

deshalb benutzt man oft die korrelation (r) weil sie die kovarianz normiert und dadurch vergleichbar macht.

5. Testvalidierung

5.4 Konstruktreliabilität – Einführung

Was ist der Grundgedanke der kongenerischen testtheorie zur schätzung der reliabilität?

=grundgedanke der erweiterung ist es, die reliabilität genauer dh realistischer zu schätzen

(die klassische testtheorie (KTT) berücksichtigt nur zufällige fehler , also unsystematische varianz. die kongenerische testtheorie (erweiterung) geht weiter: sie teilt die messfehler auf in systematische komponenten (zb antwortstile, übungsefffekte = spezifität) und zufällige fehler.

dadurch wird die reliabilität nicht übershcätzt sondern realitätsnäher berechnet.

formel erklärung:

die formel zeigt das die reliabilität umso höher ist, je größer der anteil der wahren werte an der gesamtvarianz ist. in der erweiterung zählt zur gesamtvarianz auch spezifität (sytematische fehler) , wodurch die schätzung realistischer wird.

zufällige messfehler/ alos unsystematische varianz= diese dinge passieren unreglemäßig und nicht systematisch bei allen personen oder tests zb tagesform, ablenkung, zufälliges ratne. technikprobleme ) dh sie treten mal so, mal so auf, ohen system und gleichen sich über viele messungen hinweg aus.

systematische fehler sind regelmäßige , vorhersagbare verzerrungen in den messungen. sie treten nicht zufällig , sondern immer nach demselben muster auf, das macht sie besonders problematisch , weil sie sich nicht von allein ausgleichen. zb antworttendenzne, übungseffekte , erinerungseffekte …)

KTT = Klassische testtheorie berücksichtigt nur zufällige (unsystematische ) fehler

erweiterung (zb kongenerische testtheorie ) berücksichtigt auch systematische fehler

5. Testvalidierung

5.4 Konstruktreliabilität – Synopsis


was bedeutet konstruktreliabilität ?

womit kann man die konstruktreliabilität angeben?

warum ist McDonalds Omega w besser als Cronbachs Alpha und sollte bei jeder testvalidierung berichtet werden?

warum steht hier erst Konstruktreliabilität als Überschrift- die ganze folie fasst das Thema Konstruktreliabilität zusammen. Und Omega w ist ein maß, mit dem man diese Konstruktreliabilität quantitativ schätzt.


also: Konstruktreliabilität ist das Konzept: —>wie verlässlich misst ein test das latente konstrukt, das er messen soll (zb intelligenz, extraversion)? also wie gut misst ein test tatsächlich das zu erfassende konstrukt?


Omega w ist das instrument / zahl , mit dem man diese konstruktreliabilität angibt.


deshalb heißt die folie Konstruktreliabilität- weil es darum geht wie man sie schätzt und interpretiert.


3.frage antwort: (weil omega w auf der modellstruktur basiert, also auf der faktoriellen validität. es macht stärkere annahmen und liefert daher eine genauere schätzung der konstruktvalidität, während cronbach alpha nur die homogenität der items prüft. )


folie:

▪ Konstruktreliabilität: als oberthema

die punkte die jetzt kommen beziehen sich alle auf Omega w : (auch wie man es berechnet)


• vergleichsweise leicht zu berechnen

(wenn man zb CFA oder EFA gemacht hat, kann man die faktorladungen nehmen und relativ einfach Omega w berechnen)


• Prüfung der faktoriellen Validität als Vorbedingung sowieso meist Standard

(man muss zuerst wissen, ob die struktur stimmt - also ob zb alle items auch wirklich ein gemeinsames konstrukt messen (zb intelligenz oder extraversion ). das ist die faktorielle validität. ohne sie wäre omega nicht sinnvoll. )


• Ergebnis wesentlich aussagekräftiger als Cronbach Alpha, da stärkere

Annahmen

(cronbach alpha schaut nur, ob die items miteinander zusammenhängen (homogenität) , nicht aber ob wirklich EIN GEMEINSAMES KONSTRUKT zb (merkfähigkeit ) dahintersteckt. )

• „Omega w“ sollte bei jeder (!) Testvalidierung berichtet werden

(weil omega w die konstruktvalidität realistischer schätzt, wird es inzwischen als standard empfohlen , nicht nur cronbach alpha. )

5. Testvalidierung

5.5 Skalierbarkeit


1.was versteht man unter dem Gütekriterium Skalierbarkeit?

2.Was ist der Unterschied zwischen der KTT Klassische testtheorie und PTT Probabilistische Testtheorie in Bezug auf die Skalierbarkeit ?

▪ Skalierbarkeit: Das Gütekriterium der Skalierbarkeit bedeutet, dass die Bildung eines Testwerts durch eine gültige Verrechnungsvorschrift vorgenommen wird (Bühner, 2011)


(Skalierbarkeit prüft, ob man die Einzelleistungen der testpersonen (zb items) sinnvoll zusammenrechnen darf, um einen gesamtwert (testscore) zu bilden. die “gültige verrechnungsvorschrift “ meint: es muss theoretisch und empirisch gerechtfertig sein, dass die summenbildung auch tatsächlich das konstrukt abbildet.

Skalierbarkeit ist ein gütekriterium . es prüft: “darf man die antworten auf einzelne testfragen einfach zusammenzählen , um einen gesamtwert (testscore) zu bilden ?” damit ist gemeint: ist es sinnvoll und theoretisch korrekt dass zb jemand der 18 punkte erriecht auch wirklich “mehr “ von dem gemessenen merkmal hat als jemand mit 14 punkten?)


(testscore = gesamtwert, den eine person im test erreicht )


KTT Klassische testtheorie vs PTT Probabilistische testtherie - unterschied bei der skalierbarkeit

▪ Unterschied zwischen KTT und PTT


• KTT (klassische testtheorie)

− Bildung von Testscores über die trivial scoring function

(summenbildung, man zählt einfach die antworten der items zusammen - OHNE zu prüfen, ob das wirklich gerechtfertig ist)


− Einheitsgewichtung: Annahme, dass alle Items gleich gute Indikatoren für die latente Eigenschaft sind

(man geht davon aus, dass ALLE ITEMS GLEICH WICHTIG / GUT sind für das merkmal (zb intelligenz)


− Gültigkeit der Verrechnungsvorschrift wird nicht explizit geprüft

(es wird NICHT UNTERSUCHT , ob diese summenbildung überhaupt theoretisch oder empirisch passt. )


− Analysiert werden Item-Varianzen und Item-Kovarianzen

(es wird nur geschaut, wir stark sich die items voneinander unterscheiden und zusammenhängen )


• PTT Probabilistische testtheorie

− Bildung von Testscores basiert auf einem prüfbaren Messmodell

(score basiert auf prüfbarem modell - hier wird ein mathematisches modell verwendet zb das rasch-modell das überprüft werden kann)


− Gültigkeit der Verrechnungsvorschrift wird explizit geprüft

(es wird empirisch getestet, ob man die items so kombinieren darf)

− Analysiert werden Antwortmuster der Testpersonen auf den Testitems

(es wird geschaut wie die personen auf die items antworten, nicht nur wie viele punkte sie haben).


Gedanken dazu: Ja du hast recht, der testscore ist oft einfach die summe der richtigen antworten. das ist die klassische vorgehensweise zb bei einem wissenstest: 3 richtige antworten = 3 punkte.

ABER: UND DAS IST JETZT WICHTIG: die theorie dahinter fragt : ist das wirklich sinnvoll? und skalierbarkeit prüft genau das: ist es gerechtfertigt, die antworten einfach zu addieren? denn nicht alle antworten (items) sind automatisch gleich gut darin, das zu messen, was man will.


Unterschied bei den theorien :

KTT Klassische testtheorie :

wie wird der testscore gebildet= einfach addieren der items (zb richtige antworten ) - alle items zählen gleich viel.

wird geprüft ob es sinnvoll ist? nein, es wird angenommen, dass das passt.


PTT (Modern) Probabilistische testtheorie:

wie wird der testscore gebildet?= auch ein score - ABER vorher wird mathematisch überprüft, ob jedes item auch WIRKLICH GLEICH GUT GEEIGNET IST.

wird geprüft ob es sinnvoll ist?= ja .

5. Testvalidierung

5.5 Skalierbarkeit

▪ Rasch-Modell (RM) ist das wichtigste probabilistische Testmodell

▪ Rasch-Modell (RM) ist das wichtigste probabilistische Testmodell

(das rasch modell gehört zur probabilistischen testtheorie (PTT). es beschreibt nicht nur, wie viele aufgaben richtig gelöst wurden, sondern wie wahrscheinlich es ist, dass eine person eine bestimmte aufgabe richtig löst- abhängig von zwei parametern. )

• Es macht die Annahme, dass die Lösung eines Items abhängt von…

(was nimmt das Rasch-modell an? die lösung eines items hängt ab von:

− einem Personenparameter (θ = Theta = Ausprägung der Personenfähigkeit) (steht für die fähigkeit der testperson zb intelligenz, extraversion )

und einem Itemparameter (σ = Sigma = Schwierigkeit eines Item) (steht für die schwierigkeit des items)

erklärung der skala:

• Werte für θ (fähigkeit) und σ (schwierigkeit) reichen theoretisch von plus bis minus Unendlich und

liegen in der Regel zwischen -3 (niedrig) und +3 (hoch)

• Ein hoher Wert (+3) für θ und σ drückt eine hohe Fähigkeit bzw. hohe Itemschwierigkeit aus

• Item- und Personenparameter haben dieselbe Einheit ➜ können direkt miteinander verrechnet werden

(die werte für θ (fähigkeit) und σ (schwierigkeit) sind auf derselben skala - das ist wichtig, weil man sie direkt miteinander vergleichen kann. )

(was bedeutet das inhaltlich? wenn eine person einen θ wert (fähigkeit) von +3 hat und das item eine schwierigkeit σ von 0, ist die wahrscheinlichkeit ,dass die person das item RICHTIG löst, sehr hoch. )

(wenn die schwierigkeit höher ist als die fähigkeit, sinkt die lösungschance).

erklärung der formel:

gibt die Wahrscheinlichkeit an , dass die person eine aufgabe (x=1) richtig löst, abhängig von :

θ =personenfähigkeit

σ =item schwierigkeit

der unterschied ist θ - σ entscheidend:

wenn θ = σ —>p= 0.5 dh die wahrscheinlichkeit, das item richtig zu lösen liegt bei 50%. dh die fähigkeit der person entspricht genau der schwierigkeit des items.

wenn θ > σ —>p steigt über 0.5 dh die wahrscheinlichkeit ist größer als 50% dh die person ist besser als das item schwer its —> gut.

wenn θ < σ —>p fällt unter 0.5 dh die wahrscheinlichkeit ist kleiner als 50% dh : die person ist nicht so fähig wie das item schwierig ist—>schlecht)

(p steht für die wahrscheinlichkeit, dass eine bestimmte person (mit fähigkeit) ein bestimmtes item (mit schwierigkeit) richtig beantwortet.

5. Testvalidierung

5.5 Skalierbarkeit

was bestimmt laut rasch modell ob eine person ein item löst oder nicht, und wie verläuft die beziehung zwischen fähigkeit und lösungswahrscheinlichkeit?

Was zeigt die Abbildung

=(ob eine person ein item löst, hängt von der differenz zwischen ihrer fähigkeit und der schwierigkeit des items ab: je größer die differenz zwische der fähigkeit- schwierigkeit des items desto höher die wahrscheinlichkeit p das sie das item richtig löst. die beziehung ist probabilistisch dh sie foltg einer logistischen funktion ( s kurve) - nicht deterministisch.

bei fähigkeit = item schwierigkeit liegt die wahrscheinlichkeit genau bei 50%. )

▪ Die Ausprägung von θv (fähigkeit) und σi (itemschwierigkeit) bestimmen, ob ein Proband v ein Item i löst oder nicht

(ob eine person ein item richtig beantwortet hängt davon ab, wie gut sie ist und wie schwer das item ist. beides wird in zahlenwerten dargestellt. diese bestimmen zusammen die lösungschance)

• Die Wahrscheinlichkeit, ein Item zu lösen (p1) steigt, je mehr die Personenfähigkeit θv die Itemschwierigkeit σi übersteigt: θv – σ i

(wenn die person fähiger ist als das item schwer ist, ist es wahrscheinlicher, dass sie das item richtig löst)

• Die Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit

ist wegen der logistischen Funktion probabilistisch

(die wahrscheinlichkeit verläuft NICHT LINEAR sondern in einer s kurve (logistisch )

das bedeutet: eine sehr gerine fähigkeit führt fast nie zur richtigen antwort.

eine sehr hohe fähigkeit führt fast immer zur richtigen antwort.

in der mitte also fähigkeit= itemschwierigkeit liegt die wahrscheinlichkeit bei 0.5 (50%) das item richtig zu lösen

abbildung:

die abbildung zeigt , wie die wahrscheinlichkeit , ein item richtig zu lösen, mit steigender fähigkeit (theta) gemäß dem rasch-modell sigmoid (s förmig) ansteigt.

5. Testvalidierung

5.5 Skalierbarkeit


Was bedeutet es wenn das RASCH MODELL gilt?

woher weiß man, ob die daten zum rasch-modell passen ?

was bedeutet rasch konforme aufgabne?

▪ Modellparameter, d.h. Itemparameter und Personenparameter,

werden z.B. mit der conditional-Likelihood-Methode (cL) geschätzt

(das bedeutet: man nutzt eine spezielle statistische methode (cL) um die schwierigkeit eines items (itemparameter) und die fähigkeit einer person (personenparameter) zu bestimmen)


▪ Modelltest dienen zur inferenzstatistischen Absicherung des Modells

(man prüft mit statistischen verfahren, ob das rasch-modell gut zu den erhobenen daten passt )


▪ Wenn das Modell gilt, dann

(dh: nur wenn die daten wirklich gut zum rasch-modell passen, gelten die folgenden aussagen:)

• … sind die Testitems eindimensional

(alle items messen dasselbe merkmal zb nur mathematische fähigkeit)


• … ist der Summenwert eine erschöpfende Statistik der Personenfähigkeit

(der gesamtwert aus den richtig gelösten aufgaben reicht aus, um die fähigkeit zu beschreiben - mehr infos braucht man nicht.

➜ Betrachtung des Antwortmusters einer Testperson erübrigt sich

(man muss nicht mehr anschauen, welche aufgaben genau gelöst wurden- nur wie viele)


• … gilt spezifische Objektivität der Vergleiche

(man kann faire vergleiche machen- unabhängig davon, welche items verwendet wurden oder welche person man betrachtet)


− Unterschiede zwischen Personen in der Eigenschafts- oder Fähigkeitsausprägung

ändern sich bis auf Messfehler nicht, unabhängig davon, welche Items eines Rasch-

homogenen Tests vorgegeben werden

(wenn zwei personen verglichen werden, bleibt der unterschied gleich - egal welche rasch-konformen aufgaben sie bekommen )


− Unterschiede zwischen Itemparametern bzw. Schwierigkeitsunterschiede sind

unabhängig von der Merkmalsausprägung der Personen

(auch die schwierigkeit der aufgaben verändert sich nicht je nach person- sie bleibt konstant.)


➜ … ist die Skalierbarkeit gegeben!

(der test erfüllt dann das gütekriterium der skalierbarkeit dh es ist sinnvoll, aus den einzellösungen eine gesamtsumme zu machen)


(woher weiß man ob die daten zum rasch modell passen?

=das prüft man durch einen modelltest, also einen sogenannten fit-test. dabei wird geschaut: passen die tatsächlichen antwortdaten (wie die testpersonen auf die items geantwortet haben ) zu dem, was das rasch modell vorhersagt?

ein bekanntes verfahren daür ist zb der Likelihood - ratio-test (zb andersen test). er vergleicht die beobachteten mit den modelbasierten wahrscheinlichkeiten.


was bedeutet rasch konforme aufgaben ?

das sind testaufgaben, die die annahmen des rasch-modells erfüllen . genau gesagt: die items unterscheiden sich NUR IN IHRER SCHWIERIGKEIT (nicht zb im diskriminationsvermögen )

alle items müssen auf DASSELBE EINDIMENSIONALE MERKMAL (zb mathematische fähigkeiten ) abzielen .

die wahrscheinlichkeit , ein item zu lösen, hängt nur von der differenz zwischen personenfähigkeit und itemschwierigkeit ab.


wenn das für alle items im test zutriftt , sagt man : die aufgaben sind rasch-konform)

5. Testvalidierung

5.5 Skalierbarkeit

▪ Das dichotome Mixed-Rasch-Modell (MRM)

was ist das dichotome mixed - rasch - modell (MRM) und wann wird es angewendet?

(Das mixed rasch modell (mrm) ist eine erweiterung des rasch modells, die zusätzlich latente klassen berücksichtigt. es wird angewendet , wenn in der stichprobe unterschiedliche personengruppen mit unterschiedlichem antwortverhalten vermutet wird. jede person wird einer klasse zugewiesen, und innerhalb dieser klasse wird ihre fähigkeit nach dem rasch modell geschätzt.)


Das dichotome Mixed-Rasch-Modell (MRM)

• Erweiterung des RM um latente Klassen

(das MRM Mixed rasch modell baut auf dem rasch modell auf , ergänzt aber zusätzlich latente (verborgene) gruppen von personen, zb unterschiedliche kulturelle gruppen, die verschieden auf items reagieren )


• Kombination aus RM und Latenter Klassenanalyse (LCA)

(man kombiniert zwei methoden: rasch modell (für personenfähigkeit & itemschwierigkeit )

latente klassenanalyse (um gruppen mit ähnlichem antwortverhalten zu identifizieren )


• Anwendung bei vermuteter Personenheterogenität in der

Stichprobe/Population

(wenn man nicht davon ausgeht, dass alle personen gleich “ticken “ sondern zb kulturelle, sprachliche oder bildungsbedingte unterschiede bestehen, nutzt man das MRM Mixed rasch modell.)


• Das Mixed-Rasch-Modell (Rost, 2004) geht davon aus, dass

− …es unterschiedliche Klassen von Personen gibt, in denen jeweils das Rasch-Modell

gilt

− …die Klassen sich aber in den Itemparametern unterscheiden

(innerhalb jeder klasse passt das rasch modell - aber: die schwierigkeit der items kann je nach klasse unterschiedlich sein. zum beispiel kann dieselbe farge für US-Studierende leichter sein als für britische. )


• Beispiel Watzlawick: Interkult. Unterschiede beim Flirten (USA vs. GB)

(das beispiel zeigt : verschiedene gruppen (kulturen ) können gleiche fragen unterschiedlich bewerten, weil sie eine andere sichtweise haben- und das erkennt man mit dem MRM Mixed rasch modell).



• Somit werden im MRM Itemparameter, quantitative und qualitative

Personenparameter simultan geschätzt

➜ jede Testperson wird einer Klasse zugewiesen und dann innerhalb dieser

Klasse skaliert, d.h. die Personenfähigkeit wird ermittelt

(man schätzt gleichzeitig: welche klasse eine person gehört (qualititativ)

-wie fähig sie ist (quantitativ) dann wird sie innerhalb ihrer klasse nach dem rasch modell “skaliert” also bewertet.


5. Testvalidierung

5.5 Skalierbarkeit

▪ Anwendung des Mixed-

Rasch-Modells: im intelligentest I-S-T 2000 R

• Klasse 1 zeichnet sich

dadurch aus, dass die Items

durch Zusammenschieben

der Einzelteile gelöst

werden

• Für einige Items ergeben

sich in dieser Klasse sehr

geringe Itemschwierig-

keiten, da es sich dabei um

Items handelt, bei der sich

die Lösung durch einfaches

Zusammenschieben sehr

schnell ergibt

worum gehts ? die folie zeigt wie unterschiedliche klassen von testpersonen (laut mixed rasch modell) dieselben testaufgaben (items) unterschiedlich lösen-weil sie verschiedene strategien verwenden.

was zeigt die grafik?

die grafik stellt 3 klassen dar

auf der y-achse : itemparameter (zeigt die schwierigkeit eines items für die jeweilige klasse)

jeder punkt zeigt wie schwer ein item für diese klasse war

was bedeuten klassen ?

klasse 1 nutzt eine strategische methode: sie erkennt schnell, wie die figurenteile zusammengeschoben werden müssen.

dadurch erscheinen manche aufgaben sehr leicht (itemparameter stark negativ)

klasse 2 und 3:

verwenden andere, möglicherweise weniger effiziente strategien.

für sie sind dieselben aufgaben deutlich schwieriger- die itemparamter sind höher

was zeigt das ? testpersonen können in unterschiedliche lösungstrategien -klassen eingeteilt werden.

das mixed - rasch -modell erkennt diese unterschiede und weist jeder person eine klasse zu.

dadurch können leistungen realistischer beurteilt werden-passend zur jeweiligen strategie

klassen / gruppen im mixed rasch modell allgemein:

klassen sind grupen von personen die sich in einem bestimmten merkmal ähnlich verhalten , ähnlich denken oder ähnlich lösen aber: sie unterscheiden sich nicht in der fähigkeitshöhe sondern in der art wie sie aufgaben lösen (strategien, denkweisen )..

zb strategieklassen, kulturelle klassen,(gruppen aus verschiedenen kulturen interpretieren items unterschiedlich) entwicklungsstufen ..)

5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität (diagn. vali- ist spezielle form der kriteriumsvalidität)


Was ist die Kriteriumsvalidität und welche formen werden unterschieden?


▪ Definition Kriteriumsvalidität: Zusammenhang der Testleistung mit einem oder mehreren Kriterien (z.B. Schulnoten), mit denen der Test aufgrund seines Messanspruchs korrelieren sollte (Bühner, 2011, S. 63)

(Kiteriumsvalidität bezeichnet den zusammenhang zwischen der testleistung und einem äußeren Kriterimúm zb schulnote das der test vorhersagen oder erklären soll.) (sie wird meist über korrelationskoeffizienten quantifiziert)

▪ Quantifizierung meist über Korrelationskoeffizienten

man unterscheidet:

• Prädiktor: Testwert, z.B. Intelligenz

• Kriterium (ordinal oder metrisch): Schulnoten


▪ Unterschiedliche Arten / die 4 arten der kriteriumsvalidität


• Konkurrente vs. prädiktive Validität

• Inkrementelle Validität

• Diagnostische Validität

− Kriterium dichotom

− Gruppenzugehörigkeit, z.B. Gesunde vs. Kranke, Geeignete vs. Nicht-Geeignete


Konkurrente Validität )

= der test und das kriterium zb schulnote , diagnose werden zur gleichen zeit erhoben.

zb ein intelligenztest wird gemacht und gleichzeitig werden schulnoten erfasst. man schaut: wie gut hängen sie zusammen ? )

  1. Prädiktive Validität:

    der test wird vor dem kriterium gemacht. es geht darum , zukünftige leistung. vorherzusagen. zb ein eigungstest für ein studium wird jetzt gemacht- die späteren studiennoten zeigen ob der test richtig lag.

  2. inkrementelle validität= der test erklärt zusätzlich etwas, das andere tests nicht erklären.

    zb ein neuer konzentrationstest sagt etwas über die schulleistung aus auch wenn man schon die intelligenz kennt- Zusätzlicher nutzen.

  3. diagnostische validität

    =der test soll zwischen gruppen unterscheiden zb gesund vs krank

    zb ein depressionsfragebogen soll zwischen depressiven und nicht-depressiven personen unterscheiden können.




5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität

▪ Diagnostische Validität

Wozu dient sie

erkläre die tabellle

was bedeutet in der diagnostischen validität ein “falsch positiver “ test ?

▪ Diagnostische Validität

(das ist eine besondere form der kriteriumsvalidität. sie fragt: wie gut kann ein test zwischen 2 gruppen unterscheiden - zb zwischen gesunden und kranken ) also die diagnostische validität prüft ob ein test in der lage ist, personen korrekt in gruppen einzuteilen. zum beispiel krank vs gesund.

wie macht sie das?= durch den vergleich des testurteils mit einer bekannten realität also: man kennt die tatsächliche gruppenzugehörigkeit (zb durch ärztliche diagnose, beobachtung) , man hat das ergebnis des tests (zb jemand bekommt einen hohen oder niedrigen punktwert) dann vergleicht man wie oft hat der test richtig zugeordnet? wie oft hat er falsch zugeordnet?

dafür benutzt man maße wie sensitivität (wie gut erkennt der test zb kranke also die gruppe )

spezifität (wie gut ekrennt der test zb gesunde also die andere gruppe)

oder auch trefferquotem fehlerraten , vorhersagewerte —>all das basiert auf der 4 feldertafel

die diagnostische validität prüft also wie verlässlich ein test die richtigen entscheidungen über eine gruppenzugehörigkeit treffen kann. )

• Erlaubt eine Aussage über die Güte von Zuordnungsregeln bzw. Entscheidungen, die auf der Grundlage eines Tests/Testwertes getroffen werden

(man will wissen : wie gut funtioniert die entscheidung, die wir mit dem testergebnis treffen? also: lag die entscheidung richtig oder falsch? zb ein test sagt, jemand ist krank. war das wirklich so?

• Klinische Praxis: Wie gut identifiziert der Test Kranke bzw. Gesunde?

(in der medizin aber auch in der psychologie geht es oft darum, menschen richtig zu diagnostizieren:

wird jemand , der krank ist, auch wirklich als krank erkannt?

wird jemand, der gesund ist, auch wikrlich als gesund erkannt?

die tabelle zeigt was der test sagt (diagnose) im vergleich zur wahrheit (was die person wirklich ist):

valide positiv (VP) = Der test hat die krankheit richtig erkannt.

falsch negativ (FN) = der test hat eine kranke person NICHT ERKANNT.

falsch positiv (FP)= der trst sagt “krank”, aber die person ist gesund.

valide negativ (VN)= Der test erkennt richtig: person ist gesund.

was bedeutet in der diagnostischen validität ein “falsch positiver “ test ?= der test sagt , die person sei krank (positiv) aber in wirklich ist sie gesund (negativ)

5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität

▪ Diagnostische Validität:

Gütekriterien


Wie hängen die Gütekriterien mit der diagnostischen validität zusammen ?

um welche gütekriterien handelt es sich?


(die diagnostische validität fragt: wie gut kann ein test vorhersagen, ob jemand zu einer bestimmten gruppen gehört?

(zb krank vs gesund, geeignet vs nicht geeigent) damit man das beurteilen kann, braucht man messgrößen, die zeigen, wie gut der test unterscheidet. genau dafür sin die gütekriterien da:

Gütekriterien:


• Sensitivität = Wahrscheinlichkeit,

mit der ein vorliegender positiver

Zustand (z.B. krank) als solcher

erkannt wird

(wie gut erkennt der test wirklich kranke als krank?) zb 100 leute sind wirklich krank- wenn der test bei 90 davon “krank” sagt, liegt die sensitivität bei 90%). (also die wahrscheinlichkeit mit der ein tatsächlich positiver zustand (zb krank) als solcher erkannt wird)


• Spezifität = Wahrscheinlichkeit, mit

der ein vorliegender negativer

Zustand (z.B. gesund) als solcher

erkannt wird

(wie gut erkennt der test wirklich gesund als gesund? )

ist also die wahrscheinlichkeit mit der ein tatsächlich negativer zustand (Zb gesund) korrekt erkannt wird).


• Positiver Prädiktionswert =

Wahrscheinlichkeit, mir der eine

positive Diagnose zutreffend ist

(wenn der test “krank” sagt wie sicher ist es, dass die person wirklich krank ist ? (also sagt wie wahrscheinlich es ist dass jemand mit positiver diagnose auch tatsächlich betroffen ist )


• Negativer Prädiktionswert =

Wahrscheinlichkeit, mir der eine

negative Diagnose zutreffend ist

(die wahrscheinlichkeit dass jemand mit negativer diagnose auch wirklich nicht betroffen ist )


also :

(sensitivität= zeigt erkennt der test tatsächlich kranke?

spezifität= zeigt erkennt der test tatsächlich gesunde ?

positiver prädiktionswert: zeigt wenn der test sagt: krank , stimmt das dann auch ?

negativer prädiktionswert: zeigt : wenn der test sagt: gesund, stimmt das dann auch ?


5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität

▪ Diagnostische Validität:

Gütekriterien

erklärung der formeln und grafik

denk dran: gesund und krank sind nur beispiele für gruppen - du kannst diese begriffe durch jede andere gruppenzugehörigkeit ersetzen. zb geeignet vs nicht geeignet.

formeln:

• Sensitivität = VP / (VP + FN)

( wie gut erkennt der test die kranken ? von allen, die wirklich krank sind, wie viele wurden korrekt als krank erkannt?)

• Spezifität = VN / (VN + FP)

(wie gut erkennt der test die gesunden? von allen die wirklich gesund sind, wie viele wurden als korrekt gesund erkannt?)

• Positiver Prädiktionswert =

VP / (VP + FP)

(wie zuverlässig ist ein positives testergebnis? von allen die krank eingestuft wurden, wie viele sind es wirklich ?)

• Negativer Prädiktionswert =

VN / (VN + FN)

(wie zuverlässig ist ein negatives testergebnis? von allen, die als gesund eingestuft wurden, wie viele sind es wirklich ?)

abbildung

die grafik zeigt wie der test personen aufgrund eines cutoffs in gruppen aufteilt zb gesund vs krank

x-achse = testwert (zb resilienz )

links : niedriger testwert (zb geringe resilienz)

rechts : hoher testwert

y-achse= kriterium (zb tatsächlich symptomlast)

(=

unten : gesund

oben: krank

der cutoff ist die schwelle ab der man entscheidet: krank oder gesund.

felder bedeutung in der grafik:

valide positive (VP)= test sagt “krank” —> person ist wirklich krank

falsch negative (FN) = test sagt “gesund” person ist aber krank (test übersieht krankheit)

valide negative (VN)

=test sagt “gesund” —>person ist wirklich gesund

falsch positive (FP)

= test sagt “krank” —>person ist gesund (fälschlicherweise auffälig )

(sensitivität= bezieht sich auf die gruppe mit dem merkmal (zb krank, geeignet , belastet ) frage: wie viele von denen erkennt der test richtig?

zb wie viele wirklich kranke erkennt der test auch als krank ?

spezifität= bezieht sich auf die gruppe ohne das merkmal zb gesund , nicht geeignet ..) frage: wie viele erkennt der test ricitig als ohne merkmal? zb wie viele wirklich gesunde erkennt der test als gesund.

(testwert= das ergebnis, das jemand in einem psychologischen test bekommt. zb ein fragebogen zu depression ergibt hoch, also der test sagt: diese person wohl depressiv.

kriterium= das , was wirklich zutrifft - unabhängig vom test

beispiel: ein arzt stellt die diagnose depression oder eben nicht. das ist das kriterium. )

und was vergleicht man jetzt?= man schaut sagt der test das gleiche wie das kriterium? zb der test sagt depressiv —>arzt sagt ja despressiv —>passt zusammen —>valide

test sagt nicht depressiv —>passt nicht—>nicht valide

ein test macht nur sinn, wenn er auch wirklich das erkennt , was erkennen soll. und das prüft man mit dem kriterium

(beispiel:

testwert

5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität

das ist eine klassische kreuztabelle zur diagnostischen validität

sie zeigt wie gut ein test bei verschiedenen cutoff werten zwischen zwei gruppen unterscheidet (zb krank vs gesund)

was siehst du hier?

es gibt 4 tabellen - jede gehört zu einem anderen cutoff wert von s100b (das ist ein diagnostischer marker)

s100b <0.1

s100b<0.14

s100b<0.2

s100b<0.4

in jeder tabelle stehen die testurteile (positiv/ negativ) gegen das tatsächliche ergebnis (ja= zb krank , nein = geusnd)

was bedeuten die werte unten in jeder tabelle?

das sind ergebnisse des chi quadrat tests (xhoch2) und weitere maße :

xhoch 2 chi qadrat zeigt ob ein signifikanter zusammenhang zwischen testurteil und tatsächlichem ergbnis besteht.

df=1 freiheitsgrad (weil es eine 2x2 tabelle ist )

(o mit strich in der mitte) phi koeffizient : effektstärke , also wie stark der zusammenhang ist (0= kein zusammenhang, 1= maximaler zusammenhang)

p wert = gibt an, ob das ergebniss statistisch signifikant ist . wenn p <.05 ist der zusammenhang signifikant.

wie ließt man das praktisch ?

je höher der chi quadrat wert (xhoch 2) und je niedriger der p wert desto besser trennt der test zwischen dem jeweiligen cutoff zwischen den gruppen.

zb s100b <0.2

xhoch2= 20.206

o mitte strich durch=0.442 und p= .000

das ist ein starker und signifikanter zusammenhang also ein guter cutoff

man testet also verschiedene cutoffs um zu sehen bei welchem die trennung (diagnostische validität) am besten ist dabei helfen die maße. chi quadrat , p und o durch mitte zeichen

5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität

▪ Wie können wir die diagnostische Validität eines Testscores evaluieren?

(was ist die doagnostische validität?= sie zeigt wie gut ein test zwischen zwei gruppen unterscheiden kann zb gesund vs krank. und wie ? durch die treffsicherheit des tests )

• AUC berechnen und mit Richtwerten nach Fischer vergleichen

(die AUC Area under the curve zeigt wie gut ein test kranke und gesunde personen unterscheiden kann. man vergleicht sie mit wissenschaftlichen richtwerten (zb von fischer) um zu sehen, ob der test gut genug ist.

− Trefferquote (Anteil korrekt klassifizierter Fälle) sollte immer besser als Zufallsauswahl

sein

(ein guter test erkennt mehr “richtige” kranke und gesund als wenn man einfach nur raten würde. also besser als 50% trefferquote. )

• AUC berechnen und mit alternativen Verfahren vergleichen

(man vergleicht den test mit anderen bereits existierenden tests,, um zu schauen ob er genauer ist )

− Trefferquote sollte besser sein als bei verfügbaren alternativen Verfahren

(der test soll kranke und gesunde personen besser unterscheiden als frühere methoden )

• Gewünschte Sensitivität und/oder Spezifität festlegen und prüfen, ob diese mit

dem Test realisierbar ist

(man legt vorher fest was der test mindestens leisten soll (zb 80% der kranken erkennen = hohe sensitivität ) und überprüft dann ob er das schafft )

− Bsp. Sucht-Screening soll 80% der Alkoholabhängigen aus der Bevölkerung korrekt

identifizieren

(in diesem beispiel will man, dass der test mindestens 80% der betroffenen erkennt. das wäre dann eine klare zielvorgabe an die sensitivität.

• Inhaltlich begründeten Cutoff festlegen und

prüfen, ob Sensitivität und Spezifität für den

Anwendungszweck ausreichend sind

(man bestimmt einen sinnvolle grenze (cutoff) ab wann jemand zb als krank gilt und prüft ob der test damit zuverlässig arbeitet )

− Bsp. Cutoff für Resilienz in

Allgemeinbevölkerung (z.B. Vorschlag

der Testautoren) soll auf spezielle

Stichprobe (z.B. Patienten) übertragen

werden

(ein grenzwert der für die allgemeinbevölkerung passt muss nicht unbedingt auch für spezielle gruppen (zb kranke menschen ) passend sein- das muss man extra prüfen. )

02.12.2024

5. Testvalidierung

5.6 Kriteriumsvalidität: Diagnostische Validität [ÜBUNG]

das ist eine klassische kontingenztafel zur diagnostischen validität , hier angewendet auf den GAD-2

die tabelle vergleicht 2 dinge:

1.tatsächliche gruppenzugehörigkeit

—>ermittelt zb durch ein strukturiertes interview (also “objektiv “ , klinische einschätzung)

  1. diagnostische entscheidung

    —>wie der GAD-2 test die person einordnet (positiv / negativ)

felder:

Valide positiv (VP) test sagt, die person ist “krank”

wirklichkeit: die person ist wirklich krank

test hat richtig erkannt , dass jemand zur zielgruppe gehört ( zb angststörung hat) das ist ein richtiger treffer

falsch negativ (FN)

test sagt: die person ist gesund

wirklichkeit: die person ist aber krank

der test hat die person übersehen . das ist gefährlich, weil jemand hilfe bräuchte aber durch den test nicht erkannt wird

das ist ein fehlalarm nach unten

falsch positiv (FP)

test sagt : die person ist krank.

wirklichkeit: die person ist gesund

der test schlägt fälschlich an, die person wird unnötig weiter untersucht oder verunsichert

das ist ein fehlalarm nach oben

valide negativ (VN)

test sagt: die person ist gesund

wirklichkeit: die person ist wirklich gesund —> alles korrekrt erkannt - die person gehört nicht zur zielgruppe und wurde vom test auch so eingeschätzt

das ist ein richtiger ausschluss

berechnungen anhand der maße:

  1. sensitvität wie gut erkennt der test die kranken

    VP

    bruch

    VP+ FN

    anteil der richtig erkrannten kranken an allen tatsächlichen kranken

  1. spezifität

    wie gut erkennt der test die gesunden ?

    VN

    BRUCH

    VN+FP

    anteil der rcihtig erkannten gesunden an allen tatsächlichen gesunden

3.positiver prädiktionswert (PPV)

wie wahrscheinlich ist es, dass jemand wirklich krank ist , wenn der test positiv ist ?

PPV = vp

BRUCH

Vp+fp

anteil der wirklich kranken an allen mit poriven testergebnis

4.negativer prädiktionswert (NPV)

wie wahrscheinlich ist es dass jemand wirklich gesund ist wenn der test negativ ist ?

NPV= VN

bruch

Vn +Fn

anteil der wirklich gesunden an allen mit negativem testergebnis

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ welche Methoden gibt es um die Konstruktvalidität (im weitesten Sinne) zu

bestimmen (Cronbach & Meehl, 1955)


merken

• Analyse intra- oder interindividueller Unterschiede in den Testwerten

(man schaut wie sich personen in einem test unterscheiden , intraindividuell= innerhalb einer person, interindividuell= zwischen personen. wenn ein test zb zwischen hoch und niedrig-ausgeprägten zuverlässig unterscheidet spricht das für validität )


• Korrelation des Test mit externen Kriterien

(man prüft ob der test mit etwas zusammenhängt, was theoretisch sinnvoll ist (zb sollte ein depressions test mit arzt diagnosen korrelieren . das ist ein hinweis darauf das der test tatsächlich das konstrukt misst, das er vorgibt zu messen )


• Korrelation des zu validierenden Tests mit Tests, die verwandte oder weniger

verwandte bzw. nicht verwandte Merkmale erfassen

(konvergente validität: hohe korrelation mit tests , die ähnliche konstrukte messen. diskriminante validität= geringe korrelation mit tests die nicht das gleiche messen , das ist genau der kern des MTMM ansatzes )


• Faktorenanalyse der Testitems

(man schaut ob sich die items (einzelfragen ) des tests zu einem gemeinsamen faktor zusammenfassen lassen - also ob sie alle dasselbe konstrukt messen. zb sollten bei einem konzentrationstest alle items auf einen konzentrationsfaktor laden)


• Gemeinsame Faktoranalyse des Tests mit Tests, die verwandte oder weniger

verwandte bzw. nicht verwandte Merkmale erfassen

(hier schaut man nicht nur auf einen test sondern kombiniert mehrere tests und analysiert ob sich gemeinsame oder getrennte faktoren ergeben. das hilft zu prüfen ob zb ein neuer motivationstest eigenständig misst oder mit anderen konstrukten vermischt)


▪ Konstruktvalidität im engeren Sinne

• Konvergente und diskriminante Validität

(konvergent= der test korreliert hoch mit ähnlichen tests

diskriminant = der test korreliert nicht hoch mit unähnlichen tests )

diese beiden validitätsarten sind der kern der konstruktvalidität im engeren sinn- besonders gut überprüfbar mit dem MTMM anstatz (Multitrait multimethod ansatz

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ Diskriminante Validität

▪ Diskriminante Validität

• Zentrale Frage: Was misst der Testwert nicht?

(hier geht es darum sicherzustellen, dass der test nicht mit völlig anderen merkmalen verwechselt wird. der testwert soll nicht mit etwas korrelieren das inhaltlich nichts (oder wenig ) damit zu tun hat. )


• Wie hoch hängt die Ausprägung eines Merkmals mit Ausprägungen eines

anderen Merkmals zusammen, das mit derselben oder einer anderen

Methode erfasst wird?

(wir prüfen: gibt es unerwünschte zusammenhänge mit tests die etwas anderes messen ?) wenn ja : problem! dann misst der test vlt nicht nur das zielkonstrukt sondern auch etwas anderes mit)


• Gewissenhaftigkeit und Verträglichkeit in einer Verhaltensbeobachtung

(Annahme: geringer Zusammenhang)

(2 verschiedene konstrukte die nicht stark zusammenhängen sollten

wenn ein gewissenhaftigkeitstest zu stark mit vertäglichkeit korreliert ->dann ist die diskriminante validität schlecht)


• Empfohlen werden Koeffizienten r < .40 (CAVE!)

(ein niedriger zusammenhang wird erwartet - am besten unter r=40

CACE= achtung werte sind nicht absolut sondern kontextabhängig)


• ODER: Wie hoch ist die Korrelation des zu validierenden Testscores und

Testscores aus Verfahren, die weniger verwandte bzw. nicht verwandte Merkmale erfassen?

(ein anderer weg die frage zu prüfen: korriliert mein test zu stark mit tests für andere merkmale?

dann fehlt trennschärfe, diskrim. valid- ist nicht gut

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ Methode zur Bestimmung der konvergenten und diskriminanten Konstruktvalidität: Multitrait-Multimethod-Ansatz (Campbell & Fiske,

1959)


• MTMM - Methode zur Bestimmung der konvergenten und diskriminanten Konstruktvalidität: Multitrait-Multimethod-Ansatz (Campbell & Fiske,

1959)

(der MTMM ansatz ist ein verfahren um zu prüfen ob ein test tatsächlich das misst, was er messen soll (konvergente validität) und nicht etwas anderes (diskriminante valdität) dabei wird dasselbe merkmal mit verschiedenen methoden gemessen ).


dient zur Überprüfung der konvergenten und diskriminanten Validität eines

Testscores

(mit diesem ansatz kann man untersuchen, ob ein testwert tatsächlich zu ähnlichen werten führt wie andere tests, die dasselbe mermal messen (konvergent) und sich gleichzeitig deutlich von werten anderer, nicht verwandter merkmale unterscheidet (diskriminant)


• Grundgedanke: Ergebnisse von Messungen hängen auch von Methode ab ➜

Sichtbarmachen des Einflusses der Messmethode auf die Validität

(nicht nur das merkmal selbst sondern auch die art wie gemessen wird (zb fragebogen vs beobachtung ) kann die ergebnisse beeinflussen. MTMM hilft, diesen methodeneinfluss zu erkennen und zu kontrollieren )


• Korrelationen zwischen Testscores für mindestens 2 Traits, die mit mindestens

2 Methoden gemessen werde

(man misst mindestens 2 verschiedene merkmale (traits) zb extraversion und neurotizismus - und zwar mit mindestens 2 verschiedenen methoden zb selbsbericht und fremdbericht . dann vergleicht man alle kombinationen miteinander )


• Input: (Mindestens) vier Messwertreihen, z.B. Extraversion und Neurotizismus,

erhoben im Selbst- und Fremdbericht

(bsp : du misst extraversion per fragebogen (selbstbericht) UND per beobachtung (fremdberucht) und dasselbe auch für neurotizismus . du erhälst also 4 messungen, die du dann untereinander korrelierst )


• MTMM-Matrix: Tabellarische Darstellung der Korrelationen

(alle ergebnisse dieser messungen werden in einer tabelle (matrix) dargestellt, in der du sofort siehst , wo hohe oder niedrige korrelationen bestehen- also wie gut die tests konvergente oder diskriminante validität zeigen )


• Moderne Methoden der Konstruktvalidität nutzen SEM

(heute verwendet man für diese art der validitätsprüfung oft strukturgleichungsmodelle SEM das sind statistisch komplexe modelle, mit denen man gleichzeitig mehrere beziehungen zwischen variablen testen kann)


5. Testvalidierung

5.7 Konstruktvalidität: MTMM

was ist die MTMM matrix

wie liest man die matrix auf der folie

die MTMM matrix zeigt wie stark verschiedene merkmale (traits) mit verschiedenen methoden zusammenhängen. damit prüft man 2 arten von validität

konvergente validität= misst ein test dasselbe konstrukt wie ein anderer test ?

diskriminante validität= misst der test nicht etwas anderes ?

wie liest man die matrix auf der folie?

oben siehst du methode a und b (zb selbstbericht und fremdbericht )

in den zeilen und spalten stehen 3 traits zb ängstlichkeit reizbarkeit und depression

farben und bedeutung

grün , bedeutung: mono trait hetero method (derselbe trait unterschiedliche methoden , wichtig für konvergen. valid. )

rot, bedeutung: hetero trait mono method , verschiedene tarits, gleiche methode , wichtig für diskrim. valid.)

grau bedetung: hetereo trait hetero method (verschiedene traits, verschiedene methoden) wichtig füt diskrim. valid )

forderungen von Campbell , fiske :

r(MTHM)>0 = die grüne korrelation sollte hoch sein—>zeigt dass der trait durch beide methoden gleich gemessen wird

r(HTMM)< r (MTHM) = die rote korrelationen sollten kleiner sein. zeigt dass unterschiedliche traits trotz gleicher methode nicht stark korrelieren )

r(HTHM)<r(MTHM) die grauen korrelationen sollten auch kleiner sein

gleiches muster = die struktur sollte sich wiederholen dh konvergente korrelationen sind immer stärker als diskriminante

bsp:

du misst ängstlichkeit per selbstbericht und fremdbericht

die grüne zeile (mono trait , hetero method) zeigt dir wie stark beide methoden denselben trait messen. je höher desto besser!

wenn dagegen ängstlichkeit mit depression stark korreliert (rot oder grau) ist das schlecht- denn dann misst der test evtl- nicht “rein”

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ Monomethod-Blöcke

▪ Heteromethod-Blöcke

▪ Monomethod-Blöcke enthalten die Korrelationen zwischen Testscores

unterschiedlicher Traits, die mit derselben Methode erfasst wurde

(das bedeutet in diesen blöcken wird geschaut wie stark angst und reizbarkeit zb miteinander zsmhängen - wenn beide mit der gleichen methode (zb nur selbstbericht) erhoben wurden. diese korrelationen helfen dabei zu prüfen, ob verschiedene merkmale auch wirklich verschieden sind (wichtig für diskriminante validitiät )


• Reliabilitätsdiagonale: Hauptdiagonale der Matrix; Reliabilitäten der einzelnen

Testscores (Monotrait-Monomethod-Werte)

(die diagonalen werte in der matrix ( von oben links nach unten rechts ) zeigen an wie zuverlässig ein einzelner test ein merkmal misst . das sidn vergleiche desselben merkmals mit sich selbst zb angst im selbstbericht mit angst im selbstbericht —>perfekte übereinstimmung—> r=1 )


• Heterotrait-Monomethod-Dreieck: Korrelationen der Testscores verschiedener

Traits, gemessen mit derselben Methode

(hier vergleicht man zb angst und reizbarkeit - beides mit selbstbericht. wenn diese werte niedrig sind, ist das gut es zeigt dass die methode zb fragebogen nicht einfach alles gleich bewertet . diese werte prüfen also, ob die merkmale (traits) unterschiedlich genug sind, obwohl sie mit der gleichen methode gemessen wurden (diskrm. valit.)



▪ Heteromethod-Blöcke enthalten die Korrelationen zwischen

Testscores derselben Traits, die mit unterschiedlichen Methoden

erfasst wurden

(hier geht es zb um angst im selbstbericht vs angst im fremdbericht. also gleiches merkmal , unterschiedliche methoden. diese werte zeigen, ob verschiedene methoden zu ähnlichen ergebnissen kommen , wichtig für die konvergente validität)


• Validitätsdiagonale: Korrelationen der Tesscores derselben Traits, gemessen

mit verschiedenen Methoden (Monotrait-Heteromethod-Werte)

(das ist die entscheidene diagonale , wenn es um validität geht: wenn zb angst in selbst-und fremdbericht gut zusammenhängt heißt das , das der test wirklich angst misst egal wie. hohe werte hier = gute konvergen. validt)


• Heterotrait-Heteromethod-Dreiecke: Korrelationen der Testscores

verschiedener Traits, gemessen mit verschiedenen Methoden

(bsp angst (selbsbericht) vs reizbarkeit (fremdbericht) also: verschiedene merkmale , verschiedene methoden.

hier sollten die werte möglichst niedrig sein, damit man sicher ist dass tests nicht einfach alles irgendwie messen.

niedrige werte= gute diskriminante validität)


5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ Konvergente Validität

▪ Diskriminante Validität

▪ Konvergente Validität

• Werte der Validitätsdiagonalen

sollten signifikant von Null

verschieden und hinreichend groß

sein

(die validitätsdiagonale meint die korrelation derselben merkmale aber mit verschiedenen methoden (zb angst im selbstbericht und fremdbericht. wenn die korrelation hoch ist (zb r>.50) zeigt das dass die verschiedenen methoden tatsächlich dasselbe konstrukt messen.

signifikant von null verschieden heißt= die korrelation ist nicht zufällig sondern bedeutet wirklich etwas.)

▪ Diskriminante Validität

• Werte der Validitätsdiagonalen (Monotrait-Heteromethod) sollten höher

sein als Heterotrait-Monomethod-Korrelationen (derselben Variablen)

(das sagt: die korrelation von angst (selbstbericht) mit angst (fremdbericht) sollte höher sein als zb die korrelation von angst (selbstbericht) mit reizbarkeit (selbstbericht) . es soll klar sein, welches merkmal gemessen wird und nicht bloß dass es dieselbe methode ist )

• Werte der Validitätsdiagonalen (Monotrait-Heteromethod) sollten höher

sein als die Werte in der gleichen Zeile und Spalte des jeweiligen

Heterotrait-Heteromethod-Blocks

(jetzt wirds etwas komplexer: die korrelation von angst (selbst ) mit angst (fremd) soll höher sein als zb angst (selbst) mit reizbarkeit (fremd) oder reizbarkeit (selbst) mit angst (fremd)

es soll zeigen dass merkmale unterscheidbar sind. auch über methoden hinweg )

• Interkorrelationen zwischen Testscores verschiedener Traits sollten in den

Mono- und Heteromethod-Blöcken ein ähnliches Muster aufweisen

(wenn du dir die matrix anschaust: die zusammenhänge zwischen verschiedenen merkmalen (zb angst vs reizbarkeit sollen ähnlich stark oder schwach sein egal ob selbstbericht oder fremdbericht . das zeigt dass nicht die methode den ausschlag gibt sondern die merkmale wirklich unterschiedlich sind. wichtig für diskriminante validität)

kam dran

5. Testvalidierung

5.7 Konstruktvalidität: MTMM [ÜBUNG]

was ist das ziel der MTMM matrix?

sie soll zeigen, ob ein test wirklich das misst, was er messen solll- also seine konstruktvalidität.

dabei unterscheiden wir:

konvergente validität: misst der test dasselbe merkmal (zb extraversion) auch mit anderen methoden ähnlich ?

diskriminante validität= misst der test nur das merkmal das er soll und nicht andere ?

was ist dargestellt?

Traits (merkmale)

N= Neurotizismus

E=Extraversion

G=Gewissenhaftigkeit

methoden:

M1= selbstbericht

M2=Bekannter 1

M3= bekannter 2

du siehst korrelationen zwischen diesen kombinationen (zb N mit E oder G mit G ) mit verschiedenen methoden.

wie ließt man die matrix?

1.werte in klammern (zb (.86) das sind reliabilitäten : wie zuverlässig misst eine skala sich selbst. bsp: (.86) bei M1-N heißt: Neurotizismus im selbstbericht ist sehr zuverlässig

2.die farbigen kästchen

blau=positive korrelation (mermale hängen positiv zsm)

rot= negative korrelationen

nur werte mit r>.14 sind signifikant (steht unten )

wie erkenne ich konvergente Validität?

gleicher trait, unterschiedliche methoden —>sollten hoch korrelieren das nennt man validitätsDIAGONALE (beim lesen drauf achten der werte )

beispiele: N (M1) mit N (M2) = .52 —> gut!

ALSO NEOROTIZISMUS MIT METHODE UND 2

E (M1) MIT E(M2) =.46

G(M1) mit G(M2) = .39

diese werte sind mittel bis hoch, also ein hinweis : diese merkmale werden über verschiedene methoden hinweg ähnlich erfasst —>konvergente validität vorhanden

wie erkenne ich diskriminante validität?

unterschiedliche traits sollten niedrig miteinander korrelieren - egal ob gleiche oder verschiedene methoden

beispiel

N(M1) MIT E (M2) =.39

N (M2) mit G (M2)= .09

E (M3) mit G (M3) = .16

diese werte sind klein oder sogar negativ. das spricht für gute diskriminante validität.

was ist die idee hinter dieser tabelle?

man will sehen: sind korrelationen innerhalb eines traits höher als zwischen verschiedenen traits ?

sind gleiche traits über verschiedene methoden konsistent? wenn ja spricht das für einen valide konstruierten test

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ Nachteile MTMM

▪ Nachteile MTMM

• Forderungen nach Campbell und Fiske (1959) nur schwer prüfbar, wenn die

Methoden sich hinsichtlich ihrer Reliabilitäten unterscheiden

(campbell und fiske sagen wie hoch bestimmte korrelationen idealerweise sein sollten. problem: wenn die verwendeten methoden unterschiedlcih zuverlässig (reliabel) sind, kann man diese idealwerte schlecht anwenden, weil geringe korrelationen auch nur unreliablen messmethoden liegen könnten- und nicht daran, dass zb 2 traits nichts miteinander zu tun haben )



− Gefahr, dass Korrelationsunterschiede nur Reliabilitätsunterschiede widerspiegeln

(wenn eine methode sehr ungeau misst, wird die korrelation automatisch kleiner. das kann fälschlich wie eine geringe validität aussehen, obwohl das problem in der messgenauigkeit (reliabilität ) liegt.



• Methode basiert nur auf der visuellen Inspektion der MTMM-Matrix

(man schaut sich die matrix nur an und prüft mit dem auge ob die korrelationen so aussehen wie sie sollten. das ist subjektiv und nicht statistisch abgesichert )


− statistische Überprüfung spezifischer Hypothesen selten

(es wird selten mathematisch gerüft ob die hypothesen (zb r(MTMM) >r(HTMM) tatsächlich gelten. meistens bleibt es beim bloßen hingucken auf die korrelationen )


– Möglichkeit über Permutationstest von unerwarteten Reihenfolgen (Sawilowsky, 2002),

allerdings nur sehr globaler Test

(ein permutationstest kann zufällige reihenfolgen durchtesten um zu sehen ob das muster wirklich sinnvoll ist. aber: das ist nur ein grober test, keine feine oder genaue analyse. er zeigt nicht genau, WO das problem liegt, nur DASS es eins geben könnte).


• keine Erklärung der MTMM-Matrix durch ein statistisches Modell

(die MTMM Matrix ist nur eine tabelle mit korrelationen. sie gibt keine mathematische erklärung woher die werte genau kommen )


− ohne Erklärungsmodell keine Trennung möglich von Trait- und Methodeneinflüssen

und von Variablen, die diese Einflüsse repräsentieren

(ohne ein modell kann man nicht unterscheiden, ob ein messwert durch das gemessene merkmal (trait) oder durch die verwendetete methode oder durch andere störfaktoren beeinflusst ist.)


− bessere Modellierung durch Verwendung konfirmatorischer Faktorenanalysen

möglich

(man kann die einflüsse von traits und methoden trennen, wenn man moderne statistische verfahren wie konfirmatorische faktorenanalyse (CFA) verwendet. das macht die analyse genauer, objektiver und interpretierbarer.

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

▪ Beispieldaten SEM (CTCM)

jetzt siehst du ein beispiel für ein statistsiches modell zur auswertung von MTMM daten - ein sogenanntes CTCM-Modell (correlated trait - correlated method) :

was zeigt die grafik jetzt?

ein strukturgleichungsmodell (SEM) das Trait - und Methodeneinflüsse trennt. du siehst hier wie 3 traits (merkmale) und 3 methoden zusammenhängen.

1.die kreise : latente variablen

unten (hell): traits (merkmale:)

N=neurotizismus

E=extraversion

G=Gewissenhaftigkeit

oben (dunkler): methoden:

M1, M2, M3= verschiedene messmethoden (zb selbstbericht , bekannter 1 , bekannter 2)

2.die kästchen: beobachtete (gemessene ) testwerte

beispiel:

N_M1= testwert für neurotizismus mit methode 1

E_M2=testwert für extraversion mit methode 2

usw

diese kästchen sind die tatsächlichen antwortwerte die erhoben wurden.

3.pfeil von den kreisen zu den kästchen

von trait-kreisen zu den kästchen: zeigen wie stark ein trait auf die gemessenen werte wirkt

zb pfeil von N zu N_M1 zeigt wie stark neurotizismus den testwert N_M1 beeinflusst.

von methoden-kreisen zu den kästchen:

zeigen den einfluss der methoden auf das ergebnis

zb m1—> N_M1,

E_M1

G_M1

das zeigt methode m1 beeinflusst alle drei merkmale weil es dieselbe erhebungsart ist

4.doppelpfeile : korrelationen

zwischen traits ( unten ) : zb r=.69 zwischen neurotizismus und extraversion

zwischen methoden (oben ): zb r=-.33 zwischen methode 1 und 2

methoden können auch zusammenhängen, zb wenn bekannter 1 und selbstbericht ähnlich ticken”.

wozu das ganze?

das modell trennt sauber auf wie stark ein ergebniss vom eigentlichen merkmal (trait) abhängt.

und wie stark es durch die art der erhebung (methode) beeinflusst wird.

man sieht also klarer, ob ein test wirklich misst was er messen soll unabhängig bon der methode

5. Testvalidierung

5.7 Konstruktvalidität: MTMM

hier wird das strukturgleichungsmodell SEM aus der vorherigen folie interpretiert

Beispieldaten Abbildungen wird hier erklärt

▪ SEM für Beispieldaten

• Neurotizismus hat hohen Anteil

an Methodenvarianz

(die methode zb selbstbericht vs bekannter) hat beim merkmal neurotizismus N einen großen einfluss auf das testergebniss. das sieht man daran, dass die pfeile von M1-m3 Zu den N-kästchen (n_m1, n_m2, n_M3 ) RELATIV STARK SIND.

gelcihzeitg sind die pfeile von trait N zu diesen kästchen schwächer. ergebnisse hängen hier mehr von der methode als vom eigentlichen merkmal ab —>problematisch )

• Methodenvarianz bei N höher

als Traitvarianz, bei E und G ist

es deutlich weniger

(bei neurotizismus N = methoden wirken sträker als merkmal selbst (also schwache traitladungen ) , starle methodenladungen )

• Bei E und G gute konvergente

Validitäten, bei N auch

(konvergente validität heißt verschiedene methoden, aber gelcihes merkmal—> sollten gut zsmpassen (hohe korrelation) das ist bei E und G der fall (gute übereinstimmung trotz unterschiedlicher methoden ) bei N auch noch okay aber durch die methoden varianz mit vorsicht zu betrachten

• Diskriminante Validitäten auch

OK

(diskriminante validität heißt: unterschiedliche merkmale sollen nicht stark korrelieren auch wenn gleiche methode

hier sind die korrelationen zwischen zb N unterstrich m1 und e unterstrich m1 eher niedirg also gut

• Vorsicht bei genesteten Daten

(CTCM-1 Ansätze besser)

getestete daten heißt zb mehrere personen beantwroten denselben test über eine zielperson (zb mehrere bekannte)

das kann zusätzliche verzerrungen bringen (zb ähmliche meinung ) die das modell nicht trennt

CTCM-1 modelle (eine moderne SEM variante) können solche strukturprobleme besser berücksichtigen )

Author

Nipu D.

Information

Last changed