5. Testvalidierung
Übersicht
5.1 Einführung
5.2 Vorgehen
5.3 Faktorielle Validität
5.4 Konstruktreliabilität
5.5 Skalierbarkeit
5.6 Kriteriumsvalidität: Diagnostische Validität
5.7 Konstruktvalidität: MTMM
5.8 Synopsis
▪ Lehrziel
• Breiteres Verständnis des Konzepts der Reliabilität, Validität und Skalierbarkeit
▪ Verwendung des Begriffs Validierung im weitesten Sinne
Was bedeutet “Validierung” im weiten Sinne und wie wird sie laut kemper et al 2015 verstanden ?
▪ Verwendung des Begriffs Validierung im weitesten Sinne:
➜ es geht nicht nur um die Validität des Testwerts
(Validierung bedeutet hier nicht nur, zu prüfen , ob ein test das misst, was er messen soll (validität) sondern umfasst allgemein die bewertung der qualität eines tests).
▪ Unter Validierung wird … ein Prozess verstanden, in dem man die psychometrischen Gütekriterien des Testwerts eines neu entwickelten Tests ermittelt und beurteilt (Kemper et al., 2015)
(validierung ist ein forlaufender prozess. es geht darum, bei einem neuen test die verschiedenen gütekriterien (zb objektivität, reliabilität, validität) zu untersuchen und zu bewerten).
▪ Haupt- und Nebengütekriterien werden ermittelt und vor dem
Hintergrund des Messziels und Anwendungszwecks beurteilt
(man schaut sich die wichtigsten und ergänzenden qualitätsmerkmale des tests an und bewertet sie- immer in bezug darauf, WOFÜR DER TEST GEDACHT IST (zb diagnostik, forschung) und WAS ER MESSEN SOLL)
Psychometrische Gütekriterien
nach Kemper, Ziegler, Krumm, Heene & Bühner (2015)
Welche psychometrischen gütekriterien unterscheiden kemper et al. 2015 und wie lassen sie sich gliedern ?
kemper et al 2015 unterscheiden Hauptgütekriterien und nebengütekriterien :
hauptgütekriterien:
Objektivität: Durchführung, auswertung, interpretation
reliabilität: retest-reliabilität, paralleltest-reliabilität, interne konsistenz, konstrukt -und skalenreliabilität)
validität: inhalts-, kriteriums-, konstruktvalidität, skalierbarkeit
nebengütekriterien:
ökonomie
nützlichkeit
normierung
vergleichbarkeit
diese gliederung hilft die qualität und eignung eines tests differenziert zu bewerten.
Welche sprachlichen Regelungen sollte man bei der beschreibung von gütekriterien beachten ?
Einige Sprachregelungen sind wichtig
▪ Kennwerte für quantifizierbare Gütekriterien sind Schätzwerte
(das bedeutet , dass zb reliabilität oder validität keine absolut “feststehenden” werte sind, sondern nur geschätzt werden können. )
➜ Konsequenz für Sprache: Reliabilitätsschätzung, Validitätsschätzung
(man sollte also sprachlich betonen, dass es sich um schätzungen handelt - nicht um sichere fakten )
▪ Testergebnisse sind Interpretationen des Testwerts, die sich auf Daten beziehen, die unter bestimmten Bedingungen erhoben wurden
(der testwert ist nicht die wahrheit über eine person , sondern eine interpretation , die unter gewissen bedingungen zustande kam)
Konsequenzen für Sprache: apodiktische Zuschreibung nicht legitim !!
(apodiktisch= absolut/unumstößlich . man darf nicht sagen “der test ist reliabel/ valide)
Es ist daher letztlich falsch zu sagen:
- der Test ist reliabel
-der Test ist valide
(weil diese aussagen sind zu absolut und ignorieren, dass validität und reliabilität immer kontextabhängig sind. )
➜ besser: „Der Testwert ist reliabel/valide für die angestrebten Ziele“
(so formuliert man korrekt: denn testgütekriterien gelten immer nur im jeweiligen anwendungsrahmen )
was sind die drei schritte des vorgehens bei der testvalidierung?
1. Ableitung von Annahmen aus dem nomologischen Netz und dem Anwendungszweck des Tests a priori
➜ vor der Validierung, Grundlage
(schon vor der eigentlichen validierung überlegt man sich, was der test messen soll, wie das konstrukt tehoretisch eingebettet ist (nomologisches netzt) und welchem praktischen zweck der test dienen soll. das bildet die grundlage der validerung).
2. Erhebung einer Validierungsstichprobe und Datenanalyse
(man erhebt daten mit einer passenden stichprobe (zb zielgruppe) und wertet aus , ob die annahmen aus schritt 1 sich empirisch bestätigen).
3. Evaluation der Validierungsergebnisse
➜ Hält der Test, was Autor/in versprechen?
(man überprüft ob der test das hält was die autorin oder der autor ursprünglich versprochen hat. dh passt das ergebnis zur testabsicht ? funktioniert der test wie geplant?
Was bedeutet überhaupt Testvalidierung ?
Testvalidierung bedeutet, dass man systematisch überprüft , ob ein test tatsächlich das misst, was er zu messen vorgibt- also ob er gültig ist. ABER die testvalidierung geht über die validität hinaus. es ist ein ganzer prozess, in dem alle psychometrischen gütekriterien (objektivität, reliabilität, validität ggf auch nebengütekriterien ) eines tests ermittelt und beurteilt werden - und zwar im hinblick auf das messziel und den anwendungskontext (zb auswahlverfahren , diagnosezweck etc)
die testvalidierung prüft also die qualität und aussagekraft eines tests - wissenschaftlich fundiert und kontextbezogen.
Was ist der erste schritt im vorgehen der testvalidierung laut dem ABC der testkonstruktion? =
=Die Ableitung von Annahmen aus dem nomologischen Netz und dem Anwendungszweck des Tests (➜ ABC der Testkonstruktion)
( vor dem Start einer validierung überlegt man sich auf grundlage der theorie (nomologisches netz) und des zwecks des tests, wie sich personen mit bestimmten testwerten typischerweise verhalten sollen )
• Annahmen über das Verhalten von Testpersonen mit unterschiedlichen Messwerten
( es wird angenommen, dass personen mit unterschiedlichen testwerten sich auch im verhalten unterscheiden (zb optimistisch vs nicht optimistisch )
• Beispiel einer Validierungshypothese
− Wenn die Testwert der SOP-2 tatsächlich Optimismus erfasst,
− und Optimismus positive Erwartungen an die eigene Zukunft beinhaltet (siehe
Konstruktdefinition),
➜ dann sollte der Testwert der SOP-2 mit der Einschätzung von Risiken zusammenhängen
(z.B. Opfer einer Naturkatastrophe zu werden)
(hier wird gezeigt, wie man prüft, ob der test wirklich das misst, was er messen soll (zb ob optimisten geringere risiken erwarten) das ist eine konkrete hypothese , die man empirisch testen kann ).
• Annahmen für alle (quantifizierbaren) Gütekriterien möglich und empirisch überprüfbar, z.B. auch faktorielle Validität
(alle testtheoretischen qualitätsmerkmale (zb wie gut die teststruktur ist ) lassen sich ebenfalls mit daten prüfen)
• Blinder Empirismus (Anastasi, 1986)
(warnung davor , einfach nur daten zu sammeln ohne vorher sinnvolle theoretische überlegungen gemacht zu haben. eine gute validierung braucht theorie als grundlage.)
▪ Datenerhebung
Was ist bei der datenerhebung im rahmen der testvalidierung wichtig?
• Die Validierungsstichprobe sollte …
− Personen enthalten, auf die der Test später angewendet werden soll (Zielgruppe)
− unter Bedingungen erhoben werden, die den Bedingungen, unter denen der Test
später angewendet werden soll, möglichst ähnlich sind (Anwendungszweck)
➜ ABC der Testkonstruktion
(Die stichprobe muss zur zielgruppe passen, für die der test gedacht ist. wenn du zb einen test für schüler entwickelst , solltest du ihn auch an schülern prüfen- nicht an erwachsenen.
außerdem: die testbedingungen sollen dem späteren einsatz möglichst ähneln, zb einzeltestung vs gruppentestung - das sichert die praxisnähe) .
• Optimal: auch Normierung anhand der Validierungsstichprobe
➜ Schluss vom Verhalten im Test auf Verhalten in realer Situation
(es ist ideal, wenn man normwerte also zb durchschnitsswerte, standardabweichung direkt aus der validierungsstichprobe ableitet. dann man man mit den ergbenissen besser auf das verhalten im alltag schließen. zb jemand mit einem hohen testwert zeigt wahrscheinlich auch im alltag viel… x)
• Prinzip der Kreuzvalidierung: Strikte Trennung von Konstruktion- und Validierungsstichproben
− Capitalizing on chance
− Schätzung und Anwendung der Modellparameter an derselben Stichprobe
− ”If you torture the data long enough, they will eventually confess
(man darf nicht dieselbe stichprobe für die entwicklung UND überprüfung des tests nutzen. das führt zu überanpassung (“overfitting”)
das nennt man “capitalizing on chance”- man passt sein modell zu sehr auf zufälligkeiten im datensatz an.
die letzte zeile meint ironisch: wenn man daten zu lange manipuliert , sagen sie irgendwann allleeeesss was du willst, auch wenn es nicht stimmt. deshalb : unabhängige prüfung
(validierungsstichprobe ist die gruppe von personen , mit der du prüfst, ob ein test wirklich das misst, was er messen soll)
Was ist eigentlich der Unterschied zwischen der Testevaluation und der Testvalidierung?
Der unterschied zwischen der Testevaluation und der testvalidierung liegt im ziel und zeitpunkt im testentwicklungsprozess
Testvalidierung:
—>wie gut misst ein test das, was er messen soll?
ziel: überprüfung , ob ein test valide ist, also ob der testwert wirklich das gewünschte konstrukt erfasst.
fokus: bezieht sich stark auf die validität (aber auch auf andere gütekriterien) ( aber bei der testvalidierung geht es zwar hauptsächlich um die validität , aber: ja auch andere psychometrische gütekriterien wie reliabilität und objektivität werden mitbetrachtet - einfach weil sie voraussetzung dafür sind, dass ein test überhaupt valide sein kann ).
zeitpunkt: NACH der konstruktion eines tests , oft im forschungsprozess.
beispiel: du hast einen depressionsfragebogen entwickelt - jetzt überprüftst du mit daten, ob der test wirklich depressibe symptome misst ( zb durch zusammenhänge mit klinischen diagnosen )
Testevaluation:
—>wie brauchbar und qualitätsvoll ist ein test insgesamt?
ziel: Gesamtbeurteilung eines tests inkl. aller gütekriterien (objektivität, reliabilität, validität etc)
fokus: alle qualitätsaspekte und praktische anwendbarkeit (zb fairness, normen, nützlichkeit)
zeitpunkt: kann nach der konstruktion erfolgen, oft von externen fachgremien (zb DIN 33430, TBS-TK)
beispiel: du willst wissen, ob ein intelligenztest geeignet ist für die bewerberauswahl - also schaust du dir die evaluation zb durch das testkuratorium an .
kurz gesagt
testvalidierung: fokus auf inhaltliche qualität vor allem validität
testevaluation= gesamte qualitätsbeurteilung inkl. anwendungstauglichkeit
testevaluation
Was muss man bei der Testevaluation im rahmen der testvalidierung beachten ?
oder anders gefragt: wie bewerte ich die qualität eines tests, wenn ich ihn validiere?
• Testentwickler/in muss entscheiden, ob
Arbeit erfolgreich war
(die person, die den test erstellt hat, muss bewerten, ob das ziel des tests ereicht wurde)
• Interpretation der empirisch ermittelten
Schätzwerte für die Gütekriterien vor dem
Hintergrund des primären Anwendungs-
zwecks und des Messziels des Test-
verfahrens
(Zahlenwerte (zb reliabilität , validität) müssen im kontext des einsatzbereichs des tests interpretiert werden)
• Komplexer Entscheidungsprozess
(die bewertung erfordert mehr als das bloße ablesen von werten - sie muss differenziert und zweckorientiert erfolgen )
− Richtwerte für quantifizierbare
Gütekriterien (es gibt orientierungshilfen, zb was als gut gilt)
− Fixe Grenzwerte nicht (!!!) begründbar (z.B.
Kersting. 2006) (starre schwellenwerte sind nicht sinnvoll, weil sie nicht alle kontexte abbilden können )
• Details im nächsten Abschnitt der VL
5.3 Faktorielle Validität – Einführung
was versteht man unter faktorieller validität und wie wird sie geprüft?
▪ Faktorielle oder strukturelle
Validität: Faktorenanalytische
Untersuchung der testinternen
Struktur
(dabei wird geschaut, wie die aufgaben innerhalb des tests miteinander zusammenhängen. man benutzt dafür faktorenanalysen , um herauszufinden, welche gemeinsamen dimensionen (faktoren ) hinter den antworten stecken.)
▪ Frage: Welche Struktur liegt
dem Testwert zugrunde? Wie
ist das latente Merkmal
strukturiert, das er abbilden
soll?
(es geht darum zu prüfen, ob der test tatsächlich das misst, was er messen soll, zb ob ein intelligenztest nur ein oder mehrere teilbereiche (zb sprachlich , logisch ) erfasst.
latentes merkmal= eigenschaft, die nicht direkt beobachtbar ist (zb intelligenz, extraversion) sondern durch den test erschlossen wird.
• KTT vs. PTT
(gemeint ist der unterschied zwischen klassischer testtheorie (KTT) und Probabilistischer testtheorie (PTT)
KTT= Fokus auf gesamttestwerte und reliabilität
PTT= betrachtet einzelne items und deren zusammenhang mit dem latenten merkmal (zb mit rasch-modellen )
▪ Form der Konstruktvalidität
(die faktorielle validität ist ein teilbereich der konstruktvalidität. sie prüft, ob die struktur des tests mit der theoretischen struktur des konstrukts übereinstimmt. )
Abbildungen erklärt merken! und abbildungen dazu merken
Spearman (1904) - g- Faktor - Modell:
Was ist ein “allgemeiner faktor (g)?”
der g-faktor steht für allgemeine intelligenz. spearman hat herausgefunden : wer in einem intelligenztest gut ist, ist meistens auch in anderen tests gut.
beispiel: wenn person a gut im rechnen ist, gut räumlich denken kann, sich gut sachen merken kann, dann liegt das (nach spearman) daran, dass sie einen hohen g-faktor hat.
das bedeutet: es gibt eine übergeordnete fähigkeit, die alle diese teilleistungen beeinflusst - das ist der g-faktor = allgemeine intelligenz.
was zeigt die grafik 1? jeder kreis ist ein test (zb rechnen, sprachverständnis)
jeder test hat einen spezifischen anteil (s) den er ALLEIN MISSt (zb speziell nur mathe)
alle tests haben aber zusätzlich einen anteil g, also die allgemeine intelligenz, die immer mitschwingt.
Thurstone (1938) - kein g-faktor
was ist hier anders?
thurstone sagte: es gibt nicht “ die eine inteligenz” (g)
stattdessen gibt es mehrere gleichwertige teilfähigkeiten
beispiel: eine person kann sehr gut in mathe sein (numerische fähigkeit) aber gleichzeitig schlecht im schreiben (sprachliche fähigkeit) - und das ist okay. weil das zwei getrennte fähigkeiten sind.
Jäger (1987) berliner intelligenzstrukturmodell (BIS)
Was macht er?
jäger kombiniert beide ansätze:
es gibt einen g-faktor (allgemeine intelligenz) , UND es gibt mehrere teilfähigkeiten , eingeteilt nach:
INHALTEN (sprachlich, numerisch, bildhaft)
OPERATIONEN (wie man mit informationen umgeht , zb merken , vergleichen , schnell reagieren )
zb eine aufgabe bei der man sich zahlen merken muss:
numerisch (inhalt) und merkfähigkeit (operation )
was ist die faktorielle validität und wie wird sie untersucht?
/wie wird die faktorielle validität im rahmen der testkonstruktion überprüft und welche methoden kommen dabei in welcher phase zum einsatz? =
▪ =Faktorielle oder strukturelle validität bezeichnet die faktorenanalytische untersuchung der testinternen struktur eines tests - also wie viele dimensionen oder teilaspekte das zu messende konstrukt hat.
zwei methoden innerhalb der klassischen testtheorie (ktt) helfen dabei: Explorative Fakotorenanalyse (EFA): wird in der konstruktionsphase verwendet, wenn noch keine annahmen zur struktur bestehen. sie erkundet, wie viele faktoren es geben könnte.
Konfirmatorische faktorenanalyse (CFA) : wird in der validierungsphase eingesetzt, um eine vorher angenommene struktur statistisch zu bestätigen . die CFA wird also genutzt um die angenommene struktur inferenzstatistisch abzusichern, also zu prüfen, ob die struktur wirklich vorhanden ist- nicht nur zufällig in den daten.
(das war die antwort zur letzten frage)
folie:
vorgehen: Annahmen über die Struktur des Konstrukts formulieren (in der Regel a priori) und empirisch testen
(man überlegt sich VORAB, wie die struktur des zu messenden merkmals aussieht (zb ob es mehrere teilbereiche gibt) und überprüft das mit daten.
▪ Zwei Methoden (innerhalb der KTT)
(die KTT=kLASSISCHE TESTTHEORIE . innerhalb dieser theorie gibt es 2 methoden, um die struktur eines tests zu untersuchen:
Explorative Faktorenanalyse (EFA) ➜ EFA Exkurs
(wird genutzt, wenn man noch keine konkrete vorstellung hat, wie viele faktoren es geben sollte. man “lässt die daten sprechen”.
Konfirmatorische Faktorenanalyse (CFA)
(wird genutzt , wenn man eine konkrete struktur schon angenommen hat und schauen will, ob die daten diese struktur bestätigen ).
▪ Verwendung in unterschiedlichen Phasen der Testkonstruktion
(die methoden werden zu verschiedenen zeitpunkten eingesetzt:
Konstruktionsphase: EFA
(am anfang, (bei der testentwicklung) um herauszufinden, wie der test strukturiert ist.)
Validierungsphase: CFA
(später, um zu prüfen, ob die vermutete struktur wirklich stimmt )
▪ Prüfung, d.h. inferenzstatistische Absicherung der angenommenen
Struktur, üblicherweise mittels CFA
(die CFA wird genutzt, um die angenommene struktur statistisch zu bestätigen. inferenzstatistisch bedeutet man prüft ob sich das ergebniss verallgemeinern lässt, also ob es nicht nur zufällig so aussieht.
5.3 Faktorielle Validität – CFA
Was überprüft die Konfirmatorische Faktorenanalyse (CFA) im Rahmen der faktoriellen Validität?
(Die Konfirmatorische Faktorenanalyse (CFA) prüft die übereinstimmung der “daten” mit theoretisch oder empirisch fundierten methoden (annahmen über die struktur)
(daten= mit daten meint man hier die antworten der testpersonen auf die einzelnen testaufgaben. aus diesen daten wird dann zb eine korrelationsmatrix berechnet, die zeigt, wie stark die untertests miteinander zusammenhängen ).
(es folgt ein vergleich der vom modell angenommenen Populations-varianz-kovarianzmatrix und der aus den empirischen daten geschätzten populations-varianz-kovarianzmatrix. )
(=hier passiert also folgendes: 1. du hast ein modell, in dem du voraussetzt, wie die testaufgaben oder subtests zusammenhängen sollen (zb diese aufgaben gehören zu faktor a , diese zu faktor b…) —>daraus lässt sich eine modell-kovarianz-matrix berechnen (=theoretische erwartung)
2.du hast echte daten von den testpersonen und daraus wird die empirische kovarianzmatrix berechnet (=realität)
mit der CFA vergleichst du diese beiden matrizen : passt das, was du theoretisch erwartest, zu dem , was du in der realität beobachtet hast?
wenn modell-matrix (gewelltes gleichzeichen)= empirische matrix dh ungefähr gleich / stimmt weitgehend überein dann :
gute faktorielle validität, weil der test wirklich das misst, was er laut theorie messen soll.
kurz gesagt: die CFA prüft, ob das, was du denkst , was dein test misst, auch wirklich durch die antworten der tespersonen bestätigt wird.
Folie:
▪ Structural Equation Modelling (SEM) / Strukturgleichungsmodellierung ist der Oberbegriff für CFA und Pfadanalysen
(Das SEM ist ein übergeordnetes statistisches verfahren, unter dem sowohl die Konfirmatorische faktorenanalyse (CFA) als auch Pfadanalysen fallen. es dient dazu, komplexe zusammenhänge zwischen variablen modellbasiert darzustellen und zu prüfen. )
▪ Analysiert wird die Varianz/Kovarianz-Matrix bzw. die Korrelations- matrix der Indikatoren (Testitems)
(es wird untersucht , wie stark die die testfragen (items) miteinander zusammenhängen . diese zusammenhänge werden in der sogenannten Varianz-Kovarianz-oder Korrelationsmatrizen dargestellt.)
▪ Die CFA prüft die Übereinstimmung der „Daten“ mit theoretisch oder empirisch fundierten Modellen (Annahmen über die Struktur)
(man schaut, ob die tatsächlich gemessenen werte zu dem theoretischen modelll passen, das man vorher aufgestellt hat- also ob die vermutete struktur (zb ein faktor “intelligenz”) in den daten wirklich so vorkommt):
➜ Vergleich der vom Modell angenommen Populations-Varianz-
Kovarianzmatrix und der aus den empirischen Daten geschätzten
Populations-Varianz-Kovarianzmatrix
(es wird also geprüft, ob die modellstruktur (zb wie viele faktoren , welche items zu welchem faktor gehören ) mit dem übereinstimmt was man aus den real erhobenen daten ableiten kann.
Roter kasten erklärung;
Ganz oben H0…. = das ist die sogenannte nullhypothese der CFA
was bedeuten die symbole?
das erste mit modell= die kovarianzmatrix, die dein modell theoretisch voraussagt (also was eigentlich rauskommen müsste , wenn das modell stimmt)
das zweite mit empirisch= die kovarianzmatrix die man aus den echten (empirischen ) daten berechnet (also was tatsächlich in der stichprobe beobachtet wurde)
was bedeutet die gleichung dann ?= ho…= ganz oben das ist die hypothese. =das modell passt zu den daten.
man testet also: stimmen die erwartungen aus dem modell mit der realität (den daten ) überein ?
also zeichen mit model= erwartete zusammenhänge laut deinem modell
zeichen mit empirisch= tatsächlich beobachtete zusammenhänge aus der stichprobe
ho= diese beiden sidn gleich = also das modell ist passend und stimmt mit den daten überein
wenn die Ho nicht abgelehnt wird dann ist das ein hinweis auf gute faktorielle validität, weil das modell mit den daten übereinstimmt.
( diese abbildung zeigt
N2, N7, N12 sind Items (Fragen) aus einem Persönlichkeitsfragebogen.
Die personen beantworten diese aussagen auf einer skala von starker ablehnung bist starker zustimmung.
Alle drei items sollen das konstrukt extraversion messen.
die verbindungspfeile mit (zeichen lambda) (neben den schwarzen kästen n2 rechts davon die pfeile weißer kasten .. usw) zeigen die faktorenladungen - also wie stark ein item mit dem faktor extraversion zusammenhängt.
fehlerquellen (graue kreise) sind ebenfalls modelliert, weil nie alles perfekt gemessen werden kann.
wichtige punkte:
die CFA Konfirmatorische faktorenanalyse überprüft: passen die daten zu der annahme, dass N2 , N7 und N12 alle extraversion messen?
der rote pfeil (mit dem X) zeigt, dass zb der zusammenhang von N2 mit extraversion möglicherweise nicht passt. das könnte heißen: dieses item misst vielleicht etwas anderes oder passt nicht gut ins modell.
deshalb testet man mit der CFA Konfirmatorischen faktorenanalyse, ob die strukturierte zuordnung der items zu einem faktor wirklich stimmt.
kurz gesagt: diese abbildung zeigt wie man mit der CFA Konfirmatorischen faktorenanalyse prüft, ob mehrere aussagen tatsächlich ein gemeinsames konstrukt (zb extraversion ) messen - und ob alle items sinnvoll dazugehören.
Diese Abbildung zeigt, wie mehrere testitems durch eine gemeinsame latente variable erklärt werden können- und dass ihre korrelationen verschwinden, wenn man diese variable konstant hält.
das ist quasi der beweis dafür, dass alle items dasselbe konstrukt messen- also ein nachweis für die faktorielle validität.
diese grafik zeigt, wie die CFA (Konfirmatorische Faktorenanalyse) funktioniert- in 3 aufeinanderfolgenden schritten.
die items hängen miteinander zusammen (korrelieren)
beispiel: du hast 3 fragen zum thema extraversion:
-ich bin gerne unter leuten
-ich rede viel
-ich gehe gerne auf partys
die meisten leute, die die erste frage bejahen, stimmen auch bei den anderen zu —> das nennt man: die items korrelieren.
warum korrelieren die? vielleicht, weil sie alle ein gemeinsames merkmal messen - nämlich extraversion. dieses “merkmal” nennt man latente variable.
diese latente variable “erklärt” die zusammenhänge der items
du stellst also ein modell auf: “die items hängen zusammen weil sie alle von extraversion beeinflusst sind”
und das prüft man mit der CFA konfirmatorischen faktorenanalyse.
was passiert, wenn man die latente variable konstant hält?
jetzt stell dir vor, alle leuten hätten denselben extraversion-wert zb 100. dann gibts keine unterschiede mehr zwischen den personen- und die items korrelieren nicht mehr.
warum? weil die unterschiede in den antworten vorher durch unterschiede in der extraversion entstanden sind. wenn alle gleich extravertiert sind—> dann sind alle unterschiede weg —>keine korrelationen mehr.
wenn du mit der CFA Konfirmatorischen faktorenanalyse zeigen kannst “die items korrelieren , weil sie alle ein gemeinsames konstrukt messen “ dann ist ein test faktoriell valide.
▪ Was wird bei einer CFA Konfirmatorischen faktorenanalyse geschätzt?
▪ Was wird bei einer CFA geschätzt?
• Im Rahmen der konfirmatorischen Faktorenanalyse (CFA) werden nur
theoretisch begründete Ladungen geschätzt
(man prüft nur, ob ganz bestimmte , vorher angenommene zusammenhänge zwischen items und faktoren tatsächlich passen. alles basiert auf einer klaren theorie! )
• Bei der exploratorischen Faktorenanalyse (EFA) wird für jedes Item auf jedem
Faktor eine Ladung zugelassen und geschätz
(hier wird noch NICHT VORHER FESTGELEGT welche items zu welchen faktoren gehören. die software probiert alle verbindungen aus und zeigt, welche struktur in den daten steckt.
was zeigt die abbildung ?
links sieht man die CFA Konfirmatorische faktorenanalyse: NUR GEZIELTE VERBINDUNGSLINIEN zwischen items und faktoren gemäß hypothese.
rechts sieht man die EFA exploratorische faktorenanalyse: ALLE ITEMS SIND MIT ALLEN FAKTOREN VERBUNDEN - hier wird noch exploriert was wohin gehört.
Mit “Faktoren “ meint man in der faktorenanalyse oft mehrere latente dimensionen- also unterkategorien eines übergeordneten konstrukts.
beispiel: stell dir vor, ein test misst intelligenz . dann könnten die faktoren zum beispiel sein: sprachliche intelligenz, logisches denken, räumliches vorstellungsvermögen
das sind 3 faktoren, also 3 latente variablen, die man innerhalb des konstrukts “intelligenz” analysiert.
was bedeutet das nun für die abbildung?
linke seite CFA Konfirmatorische faktorenanalyse: man hat VORHER FESTGELEGT , welches item zu welchem faktor gehört. es wird zb angenommen: item 1 misst sprachliche intelligenz- und NUR die. Deshalb gibt es NUR EINE VERBINDUNG von item 1 zu einem faktor.
rechte seite EFA Exploratische faktorenanalyse
jedes item (frage, aufgabe) DARF AUF JEDEN FAKOR laden.
heißt: man schaut, ob zb item 1 sowohl mit sprachlicher als auch mit logischer intelligenz zu tun haben könnte. die software testet alle möglichen verbindungen- ES GIBT NOCH KEINE THEORIE, welche items zu welchen faktoren gehören.
kurz gesagt: in der abbildung rechts EFA meint “faktoren” NICHT NUR EIN KONSTRUKT wie intelligenz sondern mehrere unterfaktoren , die zusammen zb intelligenz beschreiben. und alle items dürfen mit ALLEN dieser faktoren verbunden sein- völlig offen.
Was passiert in der CFA wenn eine im modell nicht spezifizierte ladung in den empirischen daten doch vorhanden ist?
▪ (Dann weicht die empirisch beobachtete varianz-kovarianzmatrix von der durch das modell erwarteten matrix ab.
—>das modell passt schlechter zu den daten, weil es zusammenhänge nicht berücksichtigt , die in der realität dann DOCH existieren )
folie
Die CFA nimmt an, dass Ladungen, die nicht spezifiziert werden, den Wert Null annehmen
(bei der konfirmatorischen faktorenanalyse (CFA) sagt man dem modell vorher: “dieses item gehört zu diesem faktor - und zu keinem anderen “. alle anderen möglichen verbindungen (die NICHT angegeben werden) behandelt das model automatisch so, als wären sie NULL, also NICHT vorhanden)
▪ Je stärker die nicht spezifizierten Ladungen von Null abweichen, …
• desto größer ist die Abweichung der empirischen von der durch das Modell
implizierten Varianz-Kovarianzmatrix bzw. Korrelationsmatrix und
(das bedeutet das modell “erwartet” bestimmte zusammenhänge zwischen den items ( die durch die faktoren erklärt werden )
wenn die echten daten andere zusammenhänge zeigen, dann passt das modell nicht gut zu den daten- es gibt also abweichungen in den korrelationen bzw varianzen )
• desto schlechter beschreibt das Modell die Daten
(je mehr abweichungen zwischen modell und daten, desto ungenaurer ist das modell. dann muss man das modell eventuell überarbeiten- vielleicht ist eine weitere verbindung notwendig.
abbildung unten:
links: klassische CFA Konfirmatorische faktorenanalye: nur eine verbindung pro item, alles andere= 0.
rechts= hier sieht man , dass ein item DOCH AUCH auf einen anderen faktor lädt (rote gestrichelte linie mit a= 0.7)
das zeigt, dass die reale struktur komplexer ist als gedacht.
also die CFA Konfirmatorische faktorenanalyse prüft also ob die theoretische struktur wirklich mit der realität übereinstimmt. wenn ein item zb doch auf zwei faktoren lädt, obwohl man nur eine ladung angenommen hat, stimmt das modell nicht mit den daten überein. und das wird im modell sichtbar gemacht.
Was passiert hier bei der Konfirmatorischen Faktorenanalyse (CFA) ?
Stell dir vor , du hast eine persönlichkeitstest mit 24 items zb zu extraversion und neurotizismus. viele leute beantworten den test,
links: Empirische Korrelationsmatrix
das ist eine große tabelle mit werten, die zeigt, wie stark die einzelnen items in der realität zusammenhängen.
beispiel: wenn leute die “gern im mittelpunkt stehen “ auch oft “leicht kontakte knüpfen” dann ist die korrelation zwischen diesen beiden items hoch.
rechts:
modellbasierte korrelationsmatrix
diese basiert auf der theorie, wie die items zusammenhängen SOLLTEN, wenn das modell stimmt.
beispiel: das modell sagt , dass 10 items zur extraversion und 14 zur neorotizismus gehören. daraus ergibt sich ein erwartungswert für die zusammenhänge.
vergleich (pfeil in der mitte)
jetzt prüft die CFA konfirmatorisch faktorenanalyse: passen die echten zusammenhänge (links) zu den erwarteten (rechts)?
ja —> dein / das modell ist gut !
nein —> dein / das modell erklärt die realität schlecht, es muss angepasst werden.
die abbildung zeigt wie die CFA Konfirmatorische fakotorenanalyse prüft ob deine theorie zu den echten daten passt, indem sie zwei matrizen vergleicht : empirisch vs theoretisch erwartet.
Welche Vorteile bieten Strukturgleichungsmodelle bzw CFAs konfirmatorische faktorenanalysen zur prüfung der faktoriellen validität eines tests?
▪ Vorteile von Strukturgleichungsmodellen bzw. CFAs:
• Theorien lassen sich umfassend überprüfen (inferenzstatistisch absichern)
( Mit der CFA Konfirmatorischen faktorenanalyse kann man prüfen , ob die theoretisch angenommene struktur des konstrukts auch wirklich zu den empirischen daten passt. man testet also: stimmt die theorie?)
• Konstrukte und ihre Indikatoren werden explizit getrennt
(man unterscheidet klar zwischen dem, WAS GEMESSEN WERDEN SOLL (zb intelligenz = latente variable) und den ITEMS , die das erfassen sollen (zb testfragen = indikaotren ).
− Messmodell vs. Strukturmodell
(messmodell= wie messen die items das konstrukt
strukturmodell= wie hängen die latenten variablen untereinander zusammen)
• Messfehler werden explizit berücksichtigt
(die CFA berücksichtigt dass jede messung fehleranfällig ist (also nicht 100% exakt)
➜ Korrelationen zwischen latenten Variablen im Modell werden
automatisch minderungskorrigiert (i.e. um den Messfehler bereinigt): (dh man rechnet den messfehler raus, um die “wahre” beziehung zu sehen —->
Konstruktreliabilität wird genauer erfasst
▪ Inferenzstatistische Absicherung mittels CFA ist wichtig, um faktorielle
Validität eines Testwerts zu belegen!
( man braucht die CFA um statistisch nachzuweisen, dass die struktur des tests wirklich das misst, was sie messen soll (also valide ist)
Strukturgleichungsmodell=CFA?
die konfirmatorische faktorenanalyse CFA ist ein spezialfall bzw. ein teilbereich von strukturgleichungsmodellen (structual equation modeling, SEM). Man kann es so zusammenfassen:
die CFA ist eine spezielle form des strukturgleichungsmodells, bei dem es ausschließlich um die messung der beziehungen zwischen latenten variablen (faktoren ) und deren indikatorischen items geht.
SEM= überbegriff, der sowohl messmodelle zb CFAs als auch Strukturmodelle (beziehungen zwischen latenten variablen umfasst)
CFA= untersucht nur den teil des modells, der beschreibt, wie items auf latente faktoren laden (=das messmodell)
5.4 Konstruktreliabilität – Wiederholung von Kernbegriffen
Womit beschäftigt sich die Persönlichkeitspsychologie in bezug auf testvalidierung?
was ist eine disposition?
was ist ein trait und wie unterscheidet er sich vom begriff disposition ?
warum findet die messung von traits immer in einem situativen bedingungsgefüge statt?
welche fehler können bei der trait-messung auftreten?
was bedeutet state-varianz in itemantworten ?
die persönlichkeitspsychologie interessiert sich dafür, wie und warum menschen unterschieldich sind- zum beispiel in bezug auf eigenschaften wie extraversion. wenn man solche unterschiede messen will, braucht man tests, die diese merkmale zuverlässig und gültig erfassen. deshalb ist die testvalidierung so wichtig: man will sicherstellen , dass der test wirklich das misst , was er vorgibt zu messen und dass die ergebnisse vergleichbar sind- also unterschiede zwischen menschen korrekt abbilden.
weil sitautive faktoren (zb stimmung, umgebung) die antworten beeinflussen können- unabhängig vom eigentlichen trait.
▪ Die Persönlichkeitspsychologie beschäftigt sich mit der Messung von interindividuellen Unterschieden
(persönlichkeitspsychologie untersucht, worin sich menschen in ihrer persönlichkeit voneinander unterscheiden (zb extraversion , gewissenhaftigkeit) usw.
▪ Disposition:
Überdauerndes Merkmal, in dem sich Personen unterscheiden
(eine disposition ist ein stabiles persönlichkeitsmermal , das über die zeit hinweg besteht (zb jemand ist generell eher ängstlich oder optimistisch ).
▪ Eigenschaft („trait“)
Synonym zu Disposition, jedoch häufig in einem anderen Zusammenhang gebraucht, um darauf hinzuweisen, dass es hier um überdauernde Eigenschaften geht („trait“ ➜ transsituative Konsistenz und zeitliche Stabilität) in Abgrenzung zu situativen Merkmalen („state“)
(trait= stabile eigenschaft, die sich über verschiedene situationen und zeitpunkte hinweg zeigt. gegensatz dazu: state=momentane , situationsabhängige zustände (zb aktuelle angst vs generelle ängstlichkeit)
▪ Wenn wir Traits messen, passiert dies immer in einem situativen Bedingungsgefüge
• Situative Faktoren beeinflussen Messung
(die umgebung oder situation zb stress tagesform also situative faktoren) kann die antworten auf persönlichkeitsfragen beeinflussen , obwohl man stabile traits erfassen will. )
• unsystematische und systematische Fehler bei der Messung
(es können zufällige fehler (unsystematisch) oder verzerrte einflüsse (systematisch) bei der erfassung entstehen.
• State-Varianz in Itemantworten ➜ vgl. Latent State Trait Modell
(auch in antworten zu Trait Fragen steckt state-varianz (situative schwankung) die zb im latent state trait modell berücksichtigt wird- es trennt trait- von state -anteilen in den antworten.
dh auch wenn wir mit einem test ein trait also eine stabile eigenschaft messen wollen- zum beispiel extraversion -können die antworten auf einzelne items trotzdem durch situative einflüsse (states) mitbeeinflusst sein. zb ist eine person eigentlich extravertiert (trait) aber sie hatte heute einen schlechten tag oder ist müde (state) . dann könnte sie die frage “ich bin gern unter leuten” mit weniger zustimmung antworten - nicht weil sie plötzlich introvertiert ist, sondern weil die situation (der zustand = state) sie beeinflusst hat.)
▪ Reliabilität
Was ist Reliabilität?
Welche implikationen (folgen) hat eine geringe reliabilität eines testwertes?
was ist der anteil der varianz der wahren werte an der varianz der beobachteten werte? (dh die frage bezieht sich direkt auf die reliabilität- stell dir vor, du misst etwas zum beispiel intelligenz mit einem test. der beobachtete wert ist das, was im test rauskommt. aber dieser wert besteht aus zwei teilen: 1. wahrer wert= das , was du wirklich messen willst
2.messfehler= zufällige störungen, die das ergebnis verfälschen. die reliabilität sagt dir, wie viel vom testergebnis (beobachtete varianz) tatsächlich auf den wahren wert zurückgeht- also wie zuverlässig der test ist. zb wenn die reliabilität 0,80 ist heißt das 80% der unterschiede in den testergebnissen kommen von echten unterschieden (wahrer wert) und 20% kommen von messfehlern.
wie berechnet man die reliabilität?
• 1. was ist reliabiltät
Grad der Genauigkeit mit der eine Eigenschaft gemessen wird
(reliabilität beschriebt, wie zuverlässig ein test misst. wenn ein test hohe reliabilität hat, liefert er bei wiederholter messung ähnliche ergebnisse, also wenig zufallsrauschen. )
• 2. Implikationen von geringer Reliabilität eines Testwertes
− Geringe Messpräzision in der Einzelfalldiagnostik (➜ Qualität von Schlussfolgerungen)
− Reliabilität begrenzt die Höhe, in der Tests miteinander korrelieren können (➜ Testvalidierung)
(Wenn die reliabilität niedrig ist, ist der test ungenau, dh einzelne ergebnisse sind nicht verlässlich , was zu falschen diagnosen oder einschätzungen führen kann. außerdem: wenn ein test unzuverlässig misst, kann er kaum mit anderen tests sinvoll zusammenhängen, was die validierung erschwert)
• 3.Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte
− Bsp.: Reliabilität von rtt = .50 bedeutet, die systematische Varianz beträgt 50
Prozent und der Varianzanteil des Messfehlers 50 Prozent
(ein beobachteter wert setzt sich aus dem wahren wert + messfehler zusammen. wenn die reliabilität zb .50 ist, heißt das : nur die hälfte der beobachteten unterschiede kommt von tatsächlichen unterschieden - die andere hälfte ist messfehler. )
berechnung der reliabilitä siehe abbildung
▪ Schätzung der Reliabilität in der KTT
Wie wird die Reliabilität in der KTT mithilfe von Retest , Paralleltest oder testhalbierung geschätzt?
2.was sagt die iteminterkorrelation über die interne konsistenz eines tests aus?
1. Korrelation von Messwerten aus unterschiedlichen Testungen (Retest, Paralleltest) bzw. Testteilen (Testhalbierung)
(die reliabilität wird geschätzt, indem man die übereinstimmung der testwerte bei wiederholungen (retest) , inhaltlich gleichen tests (paralleltest) oder zwischen testhälften (testhalbierung) betrachtet. je höher die korrelation desto zuverlässiger misst der test.
Iteminterkorrelationen (interne Konsistenz)
2.(bei der internen konsistenz schaut man, wie stark die einzelnen items eines tests miteinander zusammenhängen. hohe korrelationen zwischen items zeigen, dass sie vermutlich dasselbe konstrukt messen.
▪ 3. Höhe von Korrelationen (und somit die Reliabilität) hängt von der systematischen Varianz in beiden Messwertreihen bzw. deren Kovarianz ab
(die korrelation und damit die reliabilität ist nur hoch wenn in beiden messungen ein systematischer zusammenhang steckt. das bedeutet nur wenn beide messreihen ihaltlich “das gleiche” messen und nicht zufällig schwanken, ergibt sich eine hohe reliabilität .
gleichung :
(die formel beschreibt die pearson-korrelation, sie misst den zusammenhang zwischen zwei variablen (Zb zwei testergebnissen)
r= korrelationskoeffizient —> zeigt die stärke und richtung des zusammenhangs zwischen den variablen x und y. werte liegen zwischen -1 (perfekter negativer zusammenhang und +1 perfekter positiver zusammenhang , 0 bedeutet kein zusammenhang.)
cov (x,y) = kovarianz zwischen x und y
zeigt wie stark die beiden variablen gemeinsam variieren. wenn hohe werte bei x mit hohen werten bei y einhergehen, ist die kovarianz positiv . ist sie negativ heist das : wenn x hoch ist , ist y tendenziell niedrig.
sx und sy = standardabweichung von x bzw y.
zeigt wie stark die werte um ihren mittelwert streuen. sie dienen hier als normierung , damit man die kovarianz unabhängig von der maßeinheit interpretieren kann.
die formel vergleicht die gemeinsame variation (kovarianz) mit der gesamtstreuung der beiden variablen- so erhält man eine standardisierte maßzahl, die für alle skalen vergleichbar ist.
kovarianz= wenn zwei werte gleichzeitig steigen oder fallen, ist die kovarianz positiv.
wenn einer steigt und der andere fällt , ist sie negativ
wenn keine erkennbare beziehung besteht, ist die kovarianz nahe null.
kovarianz= stell dir vor du misst an mehreren tagen:
stunden gelernt x
punkte im test y
wenn du an tagen mit mehr lernzeit auch mehr punkte erzielst, dann “gehen” x und y gemeinsam nach oben—>positive kovarianz
wenn du mehr lernst aber wneige punkte bekommst wäre die kovarianz negativ.. (was komisch wäre- oder der test ist schlecht)
die kovarianz sagt nur die richtung nicht die stärke. eine hohe kovarianz bedeutet nicht automatisch einen starken zusammenhang , weil sie nicht standardisiert ist.
deshalb benutzt man oft die korrelation (r) weil sie die kovarianz normiert und dadurch vergleichbar macht.
welche arten von messfehlern beeinflussen die reliabilität eines tests und wie unterscheiden sie sich?
▪ Höhe von Korrelationen (und somit die Reliabilität) hängt außerdem von unterschiedliche Arten von Messfehlern ab
• Zufällige (unsystematische) Fehler
(diese treten unvorhersehbar auf und verändern das messergebnis , ohne ein klares muster. beispiel: eine person ist bei der testdurchführung müde, abgelenkt oder gestresst - das beeinflusst das ergebnis zufällig)
-innerhalb eines Erhebungszeitpunkts (z.B. durch unterschiedliche Müdigkeit)
• Systematische Fehler:=
(diese haben ein muster , sind als nicht zufällig - und können reliabilität verzerren. )
- Übungseffekte (wenn personen bei wiederholtem test besser abschneiden, weil sie den test schon kennen )
-Erinnerungseffekte
(wenn personen sich an frühere antworten erinnern - etwa bei einem retest - und deshalb ähnlich oder gleich antworten )
-.Antworttendenzen (z.B. Neigung zu extremen Antworten)
(stimme überhaupt nicht zu oder stimme voll zu - unabhängig vom inhalt der frage)
▪ Annahmen der KTT
Welche Annahmen macht die klassische testtheorie (KTT) über messfehler - und was ist eine mögliche folge dieser annahmen ?
• Laut KTT darf es nur zufällige Messfehler geben
(in der klassichen testtheorie (KTT) wird angenommen, dass messfehler rein unsystematisch sind, also zufällig entstehen.)
• vernachlässigt wird ein möglicher systematischer Einfluss des
Messinstruments, der Messsituation, des Versuchsleiters, … , auf die Testwerte
(die Klassische testtheorie ignoriert bewusst fehler , die nicht zufällig sind zb wenn der versuchsleiter durch seine art das verhalten beeinflusst oder die testumgebung immer denselben effekt hat ).
➜ Da es diese Einflüsse aber gibt und sie meistens systematisch sind, kann es zu einer Überschätzung der Reliabilität durch die Schätzverfahren der KTT
kommen
(weil systematische fehler real existieren aber in der klassischen testtheorie nicht berücksichtigt werden, kann die geschätzte reliabilität zu hoch ausfallen - also besser wirken , als sie in wirklichkeit ist.)
5.4 Konstruktreliabilität – Einführung
worin besteht der unterschied zwischen der reliabilitätsschätzung in der KTT und in der kongenerischen testtheorie?
▪ Neuere Methode der Reliabilitätsschätzung
(es geht hier um eine modernere art die genauigkeit von messungen zu bestimmen- also wie verlässlich ein test ist. )
▪ Basiert auf einer Erweiterung der KTT: Kongenerische Testtheorie
(McDonald, 1999)
(diese methode baut auf der klassischen testttheorie KTT auf, geht aber davon aus, dass die testitems unterschiedlich stark mit dem merkmal zusammenhängen dürfen (alos keine strikte gleichheit der ladungen )
▪ Reliabilitätsschätzung wie in KTT über das Verhältnis von Varianz der wahren Werte und Varianz der beobachteten Werte
(auch hier berechnet man reliabilität so: wie viel von dem, was man im test beobachtet , stammt aus “echter” merkmalsausprägung (wahre werte) und wie viel ist messfehler? )
➜ Aber die Varianz der wahren Werte wird anders definiert als in der KTT!
(die moderne theorie denkt “wahrer wert” etwas anders- nicht mehr so streng und systematisch wie die KTT
• Nicht mehr nur über Systematik in der Varianz!
( es zählt nicht nur, ob etwas systematisch wiederholt wird, sondern auch , wie stark die items individuell mit dem konstrukt Zusammenhänge
abbildung erklären
wie setzt sich die gesamtvarianz eines testitems nach der KTT zusammen?
=antwort: aus der Traitvarianz (wahrer wert) und dem messfehler.
die abbildung zeigt wie sich die gesamtvarianz eines testitems (zb ich tanze gerne auf der diskobox) aufteilt- und zwar nach der klassischen testtheorie KTT:
gesamtvarianz eines Testitems
=das ist die gesamte streuung (also die unterschiede) in den antworten der tespersonen auf das item.
Trait Extraversion + X= das x in der abbildung steht für alles was zusätzlich zur eigentlichen extraversion die itemantwort beeinflusst- also messfehler. das können zb situative einflüsse sein wie müdigkeit, schlecht laune ) oder auch ungenaue formulierungen im item selbst )
=Traitvarianz +Messfehler
1.Traitvarianz / Varianz der wahren werte
(der anteil der varianz, der wirklich auf das zu messende merkmal zurückgeht - hier zb extraversion.
also manche sagen “ja” weil sie extravertierter sind - das ist die “wahre “ varianz.
messfehler
=alles was NICHT durch das merkmal erklärbar ist zb tagesform, ablenkung, frage nicht verstanden etc
das ist “stör-varianz”
das item ich tanze gerne auf der disco box misst idealerweise extraversion. aber die testantwort enthält neben dem tatsächlichen persönlichkeitsmerkmal (trait) auch fehlervarianz. je kleiner der fehleranteil, desto höher die reliabilität.
Wie unterscheidet sich die zusammensetzung der gesamtvarianz eines testitems in der klassischen testtheorie (KTT) und der kongenerischen testtheorie?
Die Gesamtvarianz eines testitems ist tatsächlich die streuung der beobachteten antworten also wie unterschiedlich haben verschiedene personen auf ein bestimmtes item geantwortet ?
diese unterschiede (also die gesamtvarianz) können aber verschiedene ursachen haben:
in der klassichen testtheorie (KTT)
=Ein teil dieser unterschiede (=varianz) ist auf den wahren wert zurückzuführen , also zb wie extravertiert jemand ist .
der rest wird einfach als messfehler bezeichnet - ganz egal, woher er kommt.
in der kongenerischen testtheorie (erweiterte sicht) :
die unterschiede in den antworten (also die gesamtvarianz) werden feiner aufgeteilt:
Traitvarianz= der teil der wirklich mit dem merkmal (zb extraversion ) zu tun hat
spezifität= systematische einflüsse die nicht zum merkmal gehören (zb jemand antwortet immer extrem)
messfehler= der unsystematische zufallsteil (zb müdigkeit)
die gesamtvarianz = beobachtete unterschiede , und theorien wie KTT oder kongenerische TT überlegen sich, woher diese unterschiede kommen.
Was ist der Grundgedanke der kongenerischen testtheorie zur schätzung der reliabilität?
=grundgedanke der erweiterung ist es, die reliabilität genauer dh realistischer zu schätzen
(die klassische testtheorie (KTT) berücksichtigt nur zufällige fehler , also unsystematische varianz. die kongenerische testtheorie (erweiterung) geht weiter: sie teilt die messfehler auf in systematische komponenten (zb antwortstile, übungsefffekte = spezifität) und zufällige fehler.
dadurch wird die reliabilität nicht übershcätzt sondern realitätsnäher berechnet.
formel erklärung:
die formel zeigt das die reliabilität umso höher ist, je größer der anteil der wahren werte an der gesamtvarianz ist. in der erweiterung zählt zur gesamtvarianz auch spezifität (sytematische fehler) , wodurch die schätzung realistischer wird.
zufällige messfehler/ alos unsystematische varianz= diese dinge passieren unreglemäßig und nicht systematisch bei allen personen oder tests zb tagesform, ablenkung, zufälliges ratne. technikprobleme ) dh sie treten mal so, mal so auf, ohen system und gleichen sich über viele messungen hinweg aus.
systematische fehler sind regelmäßige , vorhersagbare verzerrungen in den messungen. sie treten nicht zufällig , sondern immer nach demselben muster auf, das macht sie besonders problematisch , weil sie sich nicht von allein ausgleichen. zb antworttendenzne, übungseffekte , erinerungseffekte …)
KTT = Klassische testtheorie berücksichtigt nur zufällige (unsystematische ) fehler
erweiterung (zb kongenerische testtheorie ) berücksichtigt auch systematische fehler
was misst Mcdonalds Omega und warum gilt es als moderner schätzer der konstruktreliabilität ?
=Mcdonalds omega schätzt den anteil der gesamtvarianz der testitems, der auf das zu messende konstrukt zurückgeht. es berücksichtigt die individuellen faktorladungen der items und liefert dadurch eine genauere , realistischere einschätzung der konstruktreliabilität als cronbachs alpha.)
folie ▪ McDonalds Omega (1999) bzw. das gewichtete Omega (Hancock &
Mueller, 2001) wird als Schätzer für die Konstruktreliabilität
vorgeschlagen (Coefficient H)
▪ Anteil der Gesamtvarianz aller Indikatoren, die nur auf das zu
messende Konstrukt zurückgeht
=(Mcdonalds Omega ist ein modernes maß für die zuverlässigkeit (reliabilität) eines tests als zb cronbachs alpha.
es berücksichtigt wie stark jedes item tatsächlich mit dem konstrukt (faktor) zusammenhängt, das man messen will. dh wenn ein item sehr gut zu dem passt, was gemessen werden soll (zb extraversion ) zählt es MEHR- wenn es schlechter passt , zählt es weniger).
der bruch (die formel ) zeigt wie viel der gesamtvarianz der testantworten wirklich durch das zu messende konstrukt erklärt wird (statt durch fehler oder irrelevantes zeug)
zeichen folie gucken= ist die quadrierte standardisierte faktorladung von item j . also wie viel das item wirklich mit dem konstrukt zu tun hat.
Was ist McDonalds Omega ?
Mcdonalds omega ist ein maß für die konstruktreliabilität- also dafür, wie zuverlässig ein test ein bestimmtes konstrukt misst (zb extraversion , intelligenz etc).
stell dir vor, du hast einen fragebogen mit mehreren items zb ich bin gerne unter leuten, ich rede viel…
diese items sollen alle das GLEICHE KONSTRUKT messen zb extraversion.
Mcdonalds omega sagt dir, wie viel der gesamtvarianz dieser items wirklich durch extraversion erklärt wird- also durch das, was du eigentlich messen willst - und nicht durch zufall oder andere störquellen.
im unterschied zur klassischen testtheorie: die ktt (mit cronbachs alpha) geht davon aus, dass alle items gleich gut das konstrukt messen. Mcdonalds omega ist moderner, weil es die tatsächlichen faktorladungen berücksichtigt also wie stark jedes einzelne item wirklich mit dem konstrukt zusammenhängt.
wie wird Mcdonalds omega berechnet und was zeigt es an?
(man berechnet omega indem man die quadrierten standardisierten faktorladungen aller items einsetzt. die formel zeigt, wie viel der gesamtvarianz aller items auf das zu messende konstrukt zurückgeht- also die konstruktreliabilität.)
▪ Wie gehen wir bei der Berechnung vor?
• Separierung der Varianzanteile – Identifikation von Trait- und Spezifitäts-Anteil
per CFA bzw. EFA
• Faktorladungen in Formel einsetzen
• Omega berechnen
(=zuerst: man nutzt zb eine konfirmatorische faktorenanalyse (CFA) um herauszufinden, wie stark jedes item mit dem faktor (zb extraversion) zusammenhängt.
diese stärke wird als faktorladung bezeichnet. wenn man sie quadriert (hoch 2) bekommt man den anteil der varianz des items, der durch den gemeinsamen faktor erklärt wird.
dann setzt man diese werte in die omega-formel ein, um zu berechnen, wie viel der gesamtvarianz wirklich vom konstrukt kommt.
je höhe omega, desto höher die konstruktreliabilität).
5.4 Konstruktreliabilität / bzw interne konsistenz erklären
konstruktreliabilität (auch: interne konsistenz genannt) beschreibt wie stark die einzelnen items eines tests miteinander zusammenhängen , weil sie dasselbe kosntrukt messen. je stärker die items untereinander korrelieren , desto höher ist die zuberlässigkeit des tests in hinblick auf dieses eine konstrukt )
ZB Wenn ein test das konstrukt gewissenhaftigkeit misst, sollten die items wie ich arbeite sehr genau, ich erledige aufgaben pünktlich miteinander zusammenhängen - weil sie alle auf das gleiche konstrukt abzielen ).
▪ Ein Anwendungsbeispiel
(Brunner & Süß, 2007)
was wurde im anwendungsbeispiel von brunner , süß 2007 im rahmen des BIS -4 gemessen und wie wurde die konstruktreliabilität geschätzt ?
=es wurde die konstruktreliabilität des BIS-4 gemessen, basierend auf dem berliner intelligenzstrukturmodell von jäger . zur schätzung wurden cronbachs alpha , omega und das gewichtete omega (omega(klein t unten) w) verwendet. )
das beispiel zeigt eine praktische anwendung der realibilitätsmessung. 910 schüler haben den intelligenztest BIS 4 bearbeitet. dieser test basiert auf dem berliner intelligenzstrukturmodell von jäger, das intelligenz in einer kombination aus operationen(das sind kognitive prozesse also wie man denkt und informationen verarbeitet) (zb bearbeitungsgeschwindigkeit, merkfähigkeit) und inhalten (zb verbal, numerisch , figural ) misst.
in der auswertung wurden dann verschiedene maße für die konstrukt bzw interne konsistenz berechnet:
cronbachs alpha= klassischer reliabilitätskoeffizient aus der KTT
Mcdonalds omega= moderneres maß , berücksichtigt die faktorenstruktur besser
omega(klein t) w (gewichtetes omega)= noch differenzierter- bezieht sich speziell auf die reine trait varianz (also nur der anteil der varianz , der auf das gemeinsame konstrukt zurückgeht)
▪ Ein Anwendungsbeispiel (Brunner & Süß, 2007): Zur Schätzung
genutzte Modelle
modell links
hier sieht man ein hierarchisches modell:
ganz oben steht der allgemeine intelligenzfaktor (g)
darunter kommen 3 inhaltsfaktoren :
F für Figural
V für Verbal
N für Numerisch
darunter liegen die einzelnen items (zb F1, V2, N3) die jeweils zu einem inhaltsfakor gehören.
bedeutung: das modell geht davon aus, dass jede aufgabe durch den allgemeinen intelligenzfaktor g beeinflusst ist, aber zusätzlich auch durch einen spezifischen inhaltsfakor (F, V, N). Man spricht hier auch von einem hierarchischen modell.
modell b (rechts)
das ist ein einfacheres g-faktor modell:
alle items (b1 und k5) laden direkt auf einen einzigen allgemeinen intelligenzfaktor g.
es gibt keine zwischenebene mit spezifischen inhaltsfakoren.
hier geht man davon aus dass alle aufgaben durch denselben , einzigen intelligenzfaktor erklärt werden. also nur g, keine inhaltliche differenzierung .
modell a links= intellugenz besteht aus g + inhaltsspezifischen komponenten
modell b rechts= intelligenz ist NUR g
▪ Ein Anwendungsbeispiel (Brunner & Süß, 2007): Ergebnisse
in dieser tabelle siehst du wie unterschiedliche maße der konstrukt und gesamtzuverlässigkeit für verschiedene skalen des BIS -4 (berliner intelligenzstrukturtest) Abschneiden.
was zeigt die tabelle ?
bei g (gesamt) sind alle werte sehr hoch —> das gesamte intelligenzmaß ist sehr reliabel und konstruktvalide
bei den einzelskalen ( b, m , v usw) sieht man: DIE KLASSISCHEN MAßE (ALPHA) SIND meist höher als (umgedrehtes u) —>klassische methoden überschätzen manchmal die reliabilität-
reliabilität ist nicht gleich reliabilität- cronbachs alpha kann zu optimistisch sein
moderne maße wie omega liefern ein differenziertes bild
nicht jede fähigkeit hängt gleich stark mit der allgemeinen intelligenz (g) zusammen
▪ Ein Anwendungsbeispiel (Brunner & Süß, 2007)
warum kann eine skala trotz hoher interner konsistenz (alpha) eine niedrige konstruktvalidität (omega) haben?
= weil alpha nur die homogenität (items ähneln sich ) der items misst, aber nicht, ob sie wirklich ein gemeinsames konstrukt erfassen. omega berücksichtigt die faktorladungen und ist daher genauer. wenn zb der g-faktor viel varianz erklärt, bleibt wenig für die facette selbst übrig.
• Interne Konsistenzen nach Alpha sehr schön
(die items innerhalb einer skala (zb verbale fähigkeit) hängen gut miteinander zusammen- das zeigt cronbachs alpha. das sieht erstmal positiv aus. )
• Konstruktreliabilitäten (Omega) zum Teil sehr niedrig
( auch wenn die items gut zusammenpassen , heißt das nicht automatisch , dass sie wirklich das gemeinsame konstrukt messen. omega ist hier realistischer und zeigt: manche skalen sind nicht besonders konstruktvalide. )
• Je mehr Varianz durch g erklärt wird, desto geringer ist der spezifische Anteil,
also sinkt auch die Konstruktreliabilität der Facette
(wenn ein großer teil der testergebnisse durch den allgemeinen intelligenzfaktor g erklärt wird, bleibt weniger übrig, was durch die einzelne fähigkeit zb merkfähigkeit erklärt wird.
Testvalidierung
Konstruktreliabilität
Rechenbeispiel
5.4 Konstruktreliabilität – Synopsis
was bedeutet konstruktreliabilität ?
womit kann man die konstruktreliabilität angeben?
warum ist McDonalds Omega w besser als Cronbachs Alpha und sollte bei jeder testvalidierung berichtet werden?
warum steht hier erst Konstruktreliabilität als Überschrift- die ganze folie fasst das Thema Konstruktreliabilität zusammen. Und Omega w ist ein maß, mit dem man diese Konstruktreliabilität quantitativ schätzt.
also: Konstruktreliabilität ist das Konzept: —>wie verlässlich misst ein test das latente konstrukt, das er messen soll (zb intelligenz, extraversion)? also wie gut misst ein test tatsächlich das zu erfassende konstrukt?
Omega w ist das instrument / zahl , mit dem man diese konstruktreliabilität angibt.
deshalb heißt die folie Konstruktreliabilität- weil es darum geht wie man sie schätzt und interpretiert.
3.frage antwort: (weil omega w auf der modellstruktur basiert, also auf der faktoriellen validität. es macht stärkere annahmen und liefert daher eine genauere schätzung der konstruktvalidität, während cronbach alpha nur die homogenität der items prüft. )
▪ Konstruktreliabilität: als oberthema
die punkte die jetzt kommen beziehen sich alle auf Omega w : (auch wie man es berechnet)
• vergleichsweise leicht zu berechnen
(wenn man zb CFA oder EFA gemacht hat, kann man die faktorladungen nehmen und relativ einfach Omega w berechnen)
• Prüfung der faktoriellen Validität als Vorbedingung sowieso meist Standard
(man muss zuerst wissen, ob die struktur stimmt - also ob zb alle items auch wirklich ein gemeinsames konstrukt messen (zb intelligenz oder extraversion ). das ist die faktorielle validität. ohne sie wäre omega nicht sinnvoll. )
• Ergebnis wesentlich aussagekräftiger als Cronbach Alpha, da stärkere
Annahmen
(cronbach alpha schaut nur, ob die items miteinander zusammenhängen (homogenität) , nicht aber ob wirklich EIN GEMEINSAMES KONSTRUKT zb (merkfähigkeit ) dahintersteckt. )
• „Omega w“ sollte bei jeder (!) Testvalidierung berichtet werden
(weil omega w die konstruktvalidität realistischer schätzt, wird es inzwischen als standard empfohlen , nicht nur cronbach alpha. )
1.was versteht man unter dem Gütekriterium Skalierbarkeit?
2.Was ist der Unterschied zwischen der KTT Klassische testtheorie und PTT Probabilistische Testtheorie in Bezug auf die Skalierbarkeit ?
▪ Skalierbarkeit: Das Gütekriterium der Skalierbarkeit bedeutet, dass die Bildung eines Testwerts durch eine gültige Verrechnungsvorschrift vorgenommen wird (Bühner, 2011)
(Skalierbarkeit prüft, ob man die Einzelleistungen der testpersonen (zb items) sinnvoll zusammenrechnen darf, um einen gesamtwert (testscore) zu bilden. die “gültige verrechnungsvorschrift “ meint: es muss theoretisch und empirisch gerechtfertig sein, dass die summenbildung auch tatsächlich das konstrukt abbildet.
Skalierbarkeit ist ein gütekriterium . es prüft: “darf man die antworten auf einzelne testfragen einfach zusammenzählen , um einen gesamtwert (testscore) zu bilden ?” damit ist gemeint: ist es sinnvoll und theoretisch korrekt dass zb jemand der 18 punkte erriecht auch wirklich “mehr “ von dem gemessenen merkmal hat als jemand mit 14 punkten?)
(testscore = gesamtwert, den eine person im test erreicht )
KTT Klassische testtheorie vs PTT Probabilistische testtherie - unterschied bei der skalierbarkeit
▪ Unterschied zwischen KTT und PTT
• KTT (klassische testtheorie)
− Bildung von Testscores über die trivial scoring function
(summenbildung, man zählt einfach die antworten der items zusammen - OHNE zu prüfen, ob das wirklich gerechtfertig ist)
− Einheitsgewichtung: Annahme, dass alle Items gleich gute Indikatoren für die latente Eigenschaft sind
(man geht davon aus, dass ALLE ITEMS GLEICH WICHTIG / GUT sind für das merkmal (zb intelligenz)
− Gültigkeit der Verrechnungsvorschrift wird nicht explizit geprüft
(es wird NICHT UNTERSUCHT , ob diese summenbildung überhaupt theoretisch oder empirisch passt. )
− Analysiert werden Item-Varianzen und Item-Kovarianzen
(es wird nur geschaut, wir stark sich die items voneinander unterscheiden und zusammenhängen )
• PTT Probabilistische testtheorie
− Bildung von Testscores basiert auf einem prüfbaren Messmodell
(score basiert auf prüfbarem modell - hier wird ein mathematisches modell verwendet zb das rasch-modell das überprüft werden kann)
− Gültigkeit der Verrechnungsvorschrift wird explizit geprüft
(es wird empirisch getestet, ob man die items so kombinieren darf)
− Analysiert werden Antwortmuster der Testpersonen auf den Testitems
(es wird geschaut wie die personen auf die items antworten, nicht nur wie viele punkte sie haben).
Gedanken dazu: Ja du hast recht, der testscore ist oft einfach die summe der richtigen antworten. das ist die klassische vorgehensweise zb bei einem wissenstest: 3 richtige antworten = 3 punkte.
ABER: UND DAS IST JETZT WICHTIG: die theorie dahinter fragt : ist das wirklich sinnvoll? und skalierbarkeit prüft genau das: ist es gerechtfertigt, die antworten einfach zu addieren? denn nicht alle antworten (items) sind automatisch gleich gut darin, das zu messen, was man will.
Unterschied bei den theorien :
KTT Klassische testtheorie :
wie wird der testscore gebildet= einfach addieren der items (zb richtige antworten ) - alle items zählen gleich viel.
wird geprüft ob es sinnvoll ist? nein, es wird angenommen, dass das passt.
PTT (Modern) Probabilistische testtheorie:
wie wird der testscore gebildet?= auch ein score - ABER vorher wird mathematisch überprüft, ob jedes item auch WIRKLICH GLEICH GUT GEEIGNET IST.
wird geprüft ob es sinnvoll ist?= ja .
Tau -äquivalentes modell
kongenerisches modell )
beim tau-äquivalenten modell wird angenommen, dass alle items das konstrukt mit gleicher stärke messen (gleiche ladungen )
beim kongenerischen modell dürfen die items das gleiche konstrukt mit unterschiedlicher stärke messen (unterschiedliche ladungen )
das kongenerische modell ist realistischer und grundlage von McDonalds Omega )
▪ Rasch-Modell (RM) ist das wichtigste probabilistische Testmodell
(das rasch modell gehört zur probabilistischen testtheorie (PTT). es beschreibt nicht nur, wie viele aufgaben richtig gelöst wurden, sondern wie wahrscheinlich es ist, dass eine person eine bestimmte aufgabe richtig löst- abhängig von zwei parametern. )
• Es macht die Annahme, dass die Lösung eines Items abhängt von…
(was nimmt das Rasch-modell an? die lösung eines items hängt ab von:
− einem Personenparameter (θ = Theta = Ausprägung der Personenfähigkeit) (steht für die fähigkeit der testperson zb intelligenz, extraversion )
und einem Itemparameter (σ = Sigma = Schwierigkeit eines Item) (steht für die schwierigkeit des items)
erklärung der skala:
• Werte für θ (fähigkeit) und σ (schwierigkeit) reichen theoretisch von plus bis minus Unendlich und
liegen in der Regel zwischen -3 (niedrig) und +3 (hoch)
• Ein hoher Wert (+3) für θ und σ drückt eine hohe Fähigkeit bzw. hohe Itemschwierigkeit aus
• Item- und Personenparameter haben dieselbe Einheit ➜ können direkt miteinander verrechnet werden
(die werte für θ (fähigkeit) und σ (schwierigkeit) sind auf derselben skala - das ist wichtig, weil man sie direkt miteinander vergleichen kann. )
(was bedeutet das inhaltlich? wenn eine person einen θ wert (fähigkeit) von +3 hat und das item eine schwierigkeit σ von 0, ist die wahrscheinlichkeit ,dass die person das item RICHTIG löst, sehr hoch. )
(wenn die schwierigkeit höher ist als die fähigkeit, sinkt die lösungschance).
erklärung der formel:
gibt die Wahrscheinlichkeit an , dass die person eine aufgabe (x=1) richtig löst, abhängig von :
θ =personenfähigkeit
σ =item schwierigkeit
der unterschied ist θ - σ entscheidend:
wenn θ = σ —>p= 0.5 dh die wahrscheinlichkeit, das item richtig zu lösen liegt bei 50%. dh die fähigkeit der person entspricht genau der schwierigkeit des items.
wenn θ > σ —>p steigt über 0.5 dh die wahrscheinlichkeit ist größer als 50% dh die person ist besser als das item schwer its —> gut.
wenn θ < σ —>p fällt unter 0.5 dh die wahrscheinlichkeit ist kleiner als 50% dh : die person ist nicht so fähig wie das item schwierig ist—>schlecht)
(p steht für die wahrscheinlichkeit, dass eine bestimmte person (mit fähigkeit) ein bestimmtes item (mit schwierigkeit) richtig beantwortet.
was bestimmt laut rasch modell ob eine person ein item löst oder nicht, und wie verläuft die beziehung zwischen fähigkeit und lösungswahrscheinlichkeit?
Was zeigt die Abbildung
=(ob eine person ein item löst, hängt von der differenz zwischen ihrer fähigkeit und der schwierigkeit des items ab: je größer die differenz zwische der fähigkeit- schwierigkeit des items desto höher die wahrscheinlichkeit p das sie das item richtig löst. die beziehung ist probabilistisch dh sie foltg einer logistischen funktion ( s kurve) - nicht deterministisch.
bei fähigkeit = item schwierigkeit liegt die wahrscheinlichkeit genau bei 50%. )
▪ Die Ausprägung von θv (fähigkeit) und σi (itemschwierigkeit) bestimmen, ob ein Proband v ein Item i löst oder nicht
(ob eine person ein item richtig beantwortet hängt davon ab, wie gut sie ist und wie schwer das item ist. beides wird in zahlenwerten dargestellt. diese bestimmen zusammen die lösungschance)
• Die Wahrscheinlichkeit, ein Item zu lösen (p1) steigt, je mehr die Personenfähigkeit θv die Itemschwierigkeit σi übersteigt: θv – σ i
(wenn die person fähiger ist als das item schwer ist, ist es wahrscheinlicher, dass sie das item richtig löst)
• Die Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit
ist wegen der logistischen Funktion probabilistisch
(die wahrscheinlichkeit verläuft NICHT LINEAR sondern in einer s kurve (logistisch )
das bedeutet: eine sehr gerine fähigkeit führt fast nie zur richtigen antwort.
eine sehr hohe fähigkeit führt fast immer zur richtigen antwort.
in der mitte also fähigkeit= itemschwierigkeit liegt die wahrscheinlichkeit bei 0.5 (50%) das item richtig zu lösen
abbildung:
die abbildung zeigt , wie die wahrscheinlichkeit , ein item richtig zu lösen, mit steigender fähigkeit (theta) gemäß dem rasch-modell sigmoid (s förmig) ansteigt.
Was bedeutet es wenn das RASCH MODELL gilt?
woher weiß man, ob die daten zum rasch-modell passen ?
was bedeutet rasch konforme aufgabne?
▪ Modellparameter, d.h. Itemparameter und Personenparameter,
werden z.B. mit der conditional-Likelihood-Methode (cL) geschätzt
(das bedeutet: man nutzt eine spezielle statistische methode (cL) um die schwierigkeit eines items (itemparameter) und die fähigkeit einer person (personenparameter) zu bestimmen)
▪ Modelltest dienen zur inferenzstatistischen Absicherung des Modells
(man prüft mit statistischen verfahren, ob das rasch-modell gut zu den erhobenen daten passt )
▪ Wenn das Modell gilt, dann
(dh: nur wenn die daten wirklich gut zum rasch-modell passen, gelten die folgenden aussagen:)
• … sind die Testitems eindimensional
(alle items messen dasselbe merkmal zb nur mathematische fähigkeit)
• … ist der Summenwert eine erschöpfende Statistik der Personenfähigkeit
(der gesamtwert aus den richtig gelösten aufgaben reicht aus, um die fähigkeit zu beschreiben - mehr infos braucht man nicht.
➜ Betrachtung des Antwortmusters einer Testperson erübrigt sich
(man muss nicht mehr anschauen, welche aufgaben genau gelöst wurden- nur wie viele)
• … gilt spezifische Objektivität der Vergleiche
(man kann faire vergleiche machen- unabhängig davon, welche items verwendet wurden oder welche person man betrachtet)
− Unterschiede zwischen Personen in der Eigenschafts- oder Fähigkeitsausprägung
ändern sich bis auf Messfehler nicht, unabhängig davon, welche Items eines Rasch-
homogenen Tests vorgegeben werden
(wenn zwei personen verglichen werden, bleibt der unterschied gleich - egal welche rasch-konformen aufgaben sie bekommen )
− Unterschiede zwischen Itemparametern bzw. Schwierigkeitsunterschiede sind
unabhängig von der Merkmalsausprägung der Personen
(auch die schwierigkeit der aufgaben verändert sich nicht je nach person- sie bleibt konstant.)
➜ … ist die Skalierbarkeit gegeben!
(der test erfüllt dann das gütekriterium der skalierbarkeit dh es ist sinnvoll, aus den einzellösungen eine gesamtsumme zu machen)
(woher weiß man ob die daten zum rasch modell passen?
=das prüft man durch einen modelltest, also einen sogenannten fit-test. dabei wird geschaut: passen die tatsächlichen antwortdaten (wie die testpersonen auf die items geantwortet haben ) zu dem, was das rasch modell vorhersagt?
ein bekanntes verfahren daür ist zb der Likelihood - ratio-test (zb andersen test). er vergleicht die beobachteten mit den modelbasierten wahrscheinlichkeiten.
was bedeutet rasch konforme aufgaben ?
das sind testaufgaben, die die annahmen des rasch-modells erfüllen . genau gesagt: die items unterscheiden sich NUR IN IHRER SCHWIERIGKEIT (nicht zb im diskriminationsvermögen )
alle items müssen auf DASSELBE EINDIMENSIONALE MERKMAL (zb mathematische fähigkeiten ) abzielen .
die wahrscheinlichkeit , ein item zu lösen, hängt nur von der differenz zwischen personenfähigkeit und itemschwierigkeit ab.
wenn das für alle items im test zutriftt , sagt man : die aufgaben sind rasch-konform)
▪ Zahlreiche Modelle der PTT Probabilistischen testtheorie
• Rasch-Modell
(alle items haben die gleiche trennschärfe dh sie unterscheiden gleich gut zwischen personen mit unterschiedlicher fähigkeit)
• 2-PL-Modell (2 paramter logistisches modell)
(berücksichtigt itemschwierigkeit und trennschärfe. items können sich darin unterscheiden , wie gut sie zwischen personen mit unterschiedlicher fähigkeit trennen )
• 3-PL-Modell (3 parameter logistisches modell)
(wie das 2pl modellzusätzlich: ratewahrscheinlichkeit, (man kann ein item mit gewisser wahrscheinlichkeit zufällig richtig beantworten - wichtig zb bei MSC)
• dichotomes Mixed-Rasch-Modell
(kombiniert mehrere gruppen von personen, für die unterschiedliche rasch modelle gelten können. zb gruppe a interpreziert die items anders als gruppe b —> zwei verschiedene itemschwierigkeiten
• ordinales Rasch-Modell (PCM)
(partial credit model) für items mit mehr als 2 antwortkategorien (nicht nur richtig , falsch sondern zb schulnote oder likert skalen ) jede kategorie hat eigene schwellen (stufen ) die überwunden werden müssen.)
• ordinales Mixed-Rasch-Modell
(kombination aus ordinalem modell und verschiedenen latenten gruppen (ähnlich wie das dichotome mixed modell , aber für ordinale items)
▪ Das dichotome Mixed-Rasch-Modell (MRM)
was ist das dichotome mixed - rasch - modell (MRM) und wann wird es angewendet?
(Das mixed rasch modell (mrm) ist eine erweiterung des rasch modells, die zusätzlich latente klassen berücksichtigt. es wird angewendet , wenn in der stichprobe unterschiedliche personengruppen mit unterschiedlichem antwortverhalten vermutet wird. jede person wird einer klasse zugewiesen, und innerhalb dieser klasse wird ihre fähigkeit nach dem rasch modell geschätzt.)
Das dichotome Mixed-Rasch-Modell (MRM)
• Erweiterung des RM um latente Klassen
(das MRM Mixed rasch modell baut auf dem rasch modell auf , ergänzt aber zusätzlich latente (verborgene) gruppen von personen, zb unterschiedliche kulturelle gruppen, die verschieden auf items reagieren )
• Kombination aus RM und Latenter Klassenanalyse (LCA)
(man kombiniert zwei methoden: rasch modell (für personenfähigkeit & itemschwierigkeit )
latente klassenanalyse (um gruppen mit ähnlichem antwortverhalten zu identifizieren )
• Anwendung bei vermuteter Personenheterogenität in der
Stichprobe/Population
(wenn man nicht davon ausgeht, dass alle personen gleich “ticken “ sondern zb kulturelle, sprachliche oder bildungsbedingte unterschiede bestehen, nutzt man das MRM Mixed rasch modell.)
• Das Mixed-Rasch-Modell (Rost, 2004) geht davon aus, dass
− …es unterschiedliche Klassen von Personen gibt, in denen jeweils das Rasch-Modell
gilt
− …die Klassen sich aber in den Itemparametern unterscheiden
(innerhalb jeder klasse passt das rasch modell - aber: die schwierigkeit der items kann je nach klasse unterschiedlich sein. zum beispiel kann dieselbe farge für US-Studierende leichter sein als für britische. )
• Beispiel Watzlawick: Interkult. Unterschiede beim Flirten (USA vs. GB)
(das beispiel zeigt : verschiedene gruppen (kulturen ) können gleiche fragen unterschiedlich bewerten, weil sie eine andere sichtweise haben- und das erkennt man mit dem MRM Mixed rasch modell).
• Somit werden im MRM Itemparameter, quantitative und qualitative
Personenparameter simultan geschätzt
➜ jede Testperson wird einer Klasse zugewiesen und dann innerhalb dieser
Klasse skaliert, d.h. die Personenfähigkeit wird ermittelt
(man schätzt gleichzeitig: welche klasse eine person gehört (qualititativ)
-wie fähig sie ist (quantitativ) dann wird sie innerhalb ihrer klasse nach dem rasch modell “skaliert” also bewertet.
Die Formel für das Mixed-Rasch-Modell enthält neben Personenparameter θv und
Itemparameter σi was?
und was kann man mit der formel für das mixed rasch modell berechnen ?
• Die Formel für das Mixed-Rasch-Modell enthält neben Personenparameter θv und
Itemparameter σi zusätzlich einen Klassengrößeparameter (πg).
die formel berechnet die wahrscheinlichkeit, dass eine person v ein bestimmtes item i richtig 1 oder falsch 0 beantwortet- unter der annahme, dass es in der gesamtgruppe verschiedene gruppen von personen gibt, sogenannte latente klassen. diese gruppen erkennt man nicht direkt , sondern sie werden aus den antwortmustern geschätzt.)
was bedeutet hier klasse oder gruppe? (unterschiedliche subgruppen von testpersonen die sich zum beispiel in ihrer kösungsstrategie , ihrem vorwissen oder kulturellen hintergrund unterscheiden )
im mixed rasch modell wird angenommen, dass jede tesperson zu genau einer dieser gruppen gehört (das wird geschätzt)
sich die gruppen vor allem in den intemschwierigkeiten unterscheiden (also dieselbe aufgabe ist für eine gruppe schwerer als für die andere )
also das Mixed rasch modell berechnet (die formel) wie wahrscheinlich es ist dass eine person aus einer bestimmten (versteckten , latenten ) gruppe ein item richitg löst abhängig von ihrer fähigkeit, schwierigkeit der items und der größe der gruppe , zu der sie gehört)
▪ Anwendung des Mixed-Rasch-Modells: I-S-T 2000 R
wo findet das mixed rasch modell MRM in der praxis anwendung?
• anwendung im Beispiel Intelligenztest I-S-T 2000 R :
Die Aufgabe besteht darin, Teile von Figuren zu einem
Gesamtbild zusammenzufügen ➜ Person entscheidet, welcher Figur von vier
vorgegebenen Figuren die zusammengesetzten Einzelteile entsprechen
• Um solche Aufgaben zu lösen, können unterschiedliche Strategien eingesetzt
werden
• in der nachfolgenden Grafik sind Profilverläufe der Itemparameter von drei
Klassen aufgezeichnet
was ist das beispiel für eine aufgabe?
(die testperson soll ein gesamtbild aus mehreren einzelteilen zusammensetzen. dazu gibt es 4 antwortmöglichkeiten, von denen eine richtig ist. beispiel: welches dieser 4 teile passt am besten zur zusammengesetzten figur?
warum passt hier das mixed rasch modell?
(weil verschiedene personen für dieselbe aufgabe unterschiedliche stratgien verwenden können. das modell geht also davon aus, dass unterschiedliche gruppen von personen existieren , die auf verschiedene arten an die lösung herangehen.
zb eine person sucht nach visuellen mustern
eine andere zählt die ecken und kanten
▪ Anwendung des Mixed-
Rasch-Modells: im intelligentest I-S-T 2000 R
• Klasse 1 zeichnet sich
dadurch aus, dass die Items
durch Zusammenschieben
der Einzelteile gelöst
• Für einige Items ergeben
sich in dieser Klasse sehr
geringe Itemschwierig-
keiten, da es sich dabei um
Items handelt, bei der sich
die Lösung durch einfaches
Zusammenschieben sehr
schnell ergibt
worum gehts ? die folie zeigt wie unterschiedliche klassen von testpersonen (laut mixed rasch modell) dieselben testaufgaben (items) unterschiedlich lösen-weil sie verschiedene strategien verwenden.
was zeigt die grafik?
die grafik stellt 3 klassen dar
auf der y-achse : itemparameter (zeigt die schwierigkeit eines items für die jeweilige klasse)
jeder punkt zeigt wie schwer ein item für diese klasse war
was bedeuten klassen ?
klasse 1 nutzt eine strategische methode: sie erkennt schnell, wie die figurenteile zusammengeschoben werden müssen.
dadurch erscheinen manche aufgaben sehr leicht (itemparameter stark negativ)
klasse 2 und 3:
verwenden andere, möglicherweise weniger effiziente strategien.
für sie sind dieselben aufgaben deutlich schwieriger- die itemparamter sind höher
was zeigt das ? testpersonen können in unterschiedliche lösungstrategien -klassen eingeteilt werden.
das mixed - rasch -modell erkennt diese unterschiede und weist jeder person eine klasse zu.
dadurch können leistungen realistischer beurteilt werden-passend zur jeweiligen strategie
klassen / gruppen im mixed rasch modell allgemein:
klassen sind grupen von personen die sich in einem bestimmten merkmal ähnlich verhalten , ähnlich denken oder ähnlich lösen aber: sie unterscheiden sich nicht in der fähigkeitshöhe sondern in der art wie sie aufgaben lösen (strategien, denkweisen )..
zb strategieklassen, kulturelle klassen,(gruppen aus verschiedenen kulturen interpretieren items unterschiedlich) entwicklungsstufen ..)
5.6 Kriteriumsvalidität: Diagnostische Validität (diagn. vali- ist spezielle form der kriteriumsvalidität)
Was ist die Kriteriumsvalidität und welche formen werden unterschieden?
▪ Definition Kriteriumsvalidität: Zusammenhang der Testleistung mit einem oder mehreren Kriterien (z.B. Schulnoten), mit denen der Test aufgrund seines Messanspruchs korrelieren sollte (Bühner, 2011, S. 63)
(Kiteriumsvalidität bezeichnet den zusammenhang zwischen der testleistung und einem äußeren Kriterimúm zb schulnote das der test vorhersagen oder erklären soll.) (sie wird meist über korrelationskoeffizienten quantifiziert)
▪ Quantifizierung meist über Korrelationskoeffizienten
man unterscheidet:
• Prädiktor: Testwert, z.B. Intelligenz
• Kriterium (ordinal oder metrisch): Schulnoten
▪ Unterschiedliche Arten / die 4 arten der kriteriumsvalidität
• Konkurrente vs. prädiktive Validität
• Inkrementelle Validität
• Diagnostische Validität
− Kriterium dichotom
− Gruppenzugehörigkeit, z.B. Gesunde vs. Kranke, Geeignete vs. Nicht-Geeignete
Konkurrente Validität )
= der test und das kriterium zb schulnote , diagnose werden zur gleichen zeit erhoben.
zb ein intelligenztest wird gemacht und gleichzeitig werden schulnoten erfasst. man schaut: wie gut hängen sie zusammen ? )
Prädiktive Validität:
der test wird vor dem kriterium gemacht. es geht darum , zukünftige leistung. vorherzusagen. zb ein eigungstest für ein studium wird jetzt gemacht- die späteren studiennoten zeigen ob der test richtig lag.
inkrementelle validität= der test erklärt zusätzlich etwas, das andere tests nicht erklären.
zb ein neuer konzentrationstest sagt etwas über die schulleistung aus auch wenn man schon die intelligenz kennt- Zusätzlicher nutzen.
diagnostische validität
=der test soll zwischen gruppen unterscheiden zb gesund vs krank
zb ein depressionsfragebogen soll zwischen depressiven und nicht-depressiven personen unterscheiden können.
▪ Diagnostische Validität
• Zentrale Frage: Wie gut kann ein Testwert die Zugehörigkeit zu einer Gruppe
vorhersagen?
was überorüft die diagnostische validität?
= (ob ein testwert die zugehörigkeit zu einer bestimmten gruppe zuverlässig vorhersagen kann (zb gesund / krank, geeignet / nicht geeignet )
vorhersagen? (zb krank vs gesund, geeiignet vs nicht geeignet)
• Prädiktor: Testwert
(der testwert, also zb resilienz, gewissenhaftigkeit , intelligenz)
• Kriterium: Gruppenzugehörigkeit
(die gruppenzugehörigkeit zb burnout vorhanden oder nicht)
• Beispiele
− Resilienz ➜ Burnout (liegt vor/liegt nicht vor) (sagt vorher , ob jemand burnout hat oder nicht)
− Gewissenhaftigkeit oder Intelligenz ➜ Eignung für eine Stelle (liegt vor/liegt nicht vor)
(sagt ob jemand für eine stelle geeignet ist oder nicht)
− Angstsymptomatik ➜ Interventionsbedarf (liegt vor/liegt nicht vor)
(zeigt ob jemand eine intervention braucht oder nicht )
Wozu dient sie
erkläre die tabellle
was bedeutet in der diagnostischen validität ein “falsch positiver “ test ?
(das ist eine besondere form der kriteriumsvalidität. sie fragt: wie gut kann ein test zwischen 2 gruppen unterscheiden - zb zwischen gesunden und kranken ) also die diagnostische validität prüft ob ein test in der lage ist, personen korrekt in gruppen einzuteilen. zum beispiel krank vs gesund.
wie macht sie das?= durch den vergleich des testurteils mit einer bekannten realität also: man kennt die tatsächliche gruppenzugehörigkeit (zb durch ärztliche diagnose, beobachtung) , man hat das ergebnis des tests (zb jemand bekommt einen hohen oder niedrigen punktwert) dann vergleicht man wie oft hat der test richtig zugeordnet? wie oft hat er falsch zugeordnet?
dafür benutzt man maße wie sensitivität (wie gut erkennt der test zb kranke also die gruppe )
spezifität (wie gut ekrennt der test zb gesunde also die andere gruppe)
oder auch trefferquotem fehlerraten , vorhersagewerte —>all das basiert auf der 4 feldertafel
die diagnostische validität prüft also wie verlässlich ein test die richtigen entscheidungen über eine gruppenzugehörigkeit treffen kann. )
• Erlaubt eine Aussage über die Güte von Zuordnungsregeln bzw. Entscheidungen, die auf der Grundlage eines Tests/Testwertes getroffen werden
(man will wissen : wie gut funtioniert die entscheidung, die wir mit dem testergebnis treffen? also: lag die entscheidung richtig oder falsch? zb ein test sagt, jemand ist krank. war das wirklich so?
• Klinische Praxis: Wie gut identifiziert der Test Kranke bzw. Gesunde?
(in der medizin aber auch in der psychologie geht es oft darum, menschen richtig zu diagnostizieren:
wird jemand , der krank ist, auch wirklich als krank erkannt?
wird jemand, der gesund ist, auch wikrlich als gesund erkannt?
die tabelle zeigt was der test sagt (diagnose) im vergleich zur wahrheit (was die person wirklich ist):
valide positiv (VP) = Der test hat die krankheit richtig erkannt.
falsch negativ (FN) = der test hat eine kranke person NICHT ERKANNT.
falsch positiv (FP)= der trst sagt “krank”, aber die person ist gesund.
valide negativ (VN)= Der test erkennt richtig: person ist gesund.
was bedeutet in der diagnostischen validität ein “falsch positiver “ test ?= der test sagt , die person sei krank (positiv) aber in wirklich ist sie gesund (negativ)
▪ Diagnostische Validität:
Gütekriterien
Wie hängen die Gütekriterien mit der diagnostischen validität zusammen ?
um welche gütekriterien handelt es sich?
(die diagnostische validität fragt: wie gut kann ein test vorhersagen, ob jemand zu einer bestimmten gruppen gehört?
(zb krank vs gesund, geeignet vs nicht geeigent) damit man das beurteilen kann, braucht man messgrößen, die zeigen, wie gut der test unterscheidet. genau dafür sin die gütekriterien da:
Gütekriterien:
• Sensitivität = Wahrscheinlichkeit,
mit der ein vorliegender positiver
Zustand (z.B. krank) als solcher
erkannt wird
(wie gut erkennt der test wirklich kranke als krank?) zb 100 leute sind wirklich krank- wenn der test bei 90 davon “krank” sagt, liegt die sensitivität bei 90%). (also die wahrscheinlichkeit mit der ein tatsächlich positiver zustand (zb krank) als solcher erkannt wird)
• Spezifität = Wahrscheinlichkeit, mit
der ein vorliegender negativer
Zustand (z.B. gesund) als solcher
(wie gut erkennt der test wirklich gesund als gesund? )
ist also die wahrscheinlichkeit mit der ein tatsächlich negativer zustand (Zb gesund) korrekt erkannt wird).
• Positiver Prädiktionswert =
Wahrscheinlichkeit, mir der eine
positive Diagnose zutreffend ist
(wenn der test “krank” sagt wie sicher ist es, dass die person wirklich krank ist ? (also sagt wie wahrscheinlich es ist dass jemand mit positiver diagnose auch tatsächlich betroffen ist )
• Negativer Prädiktionswert =
negative Diagnose zutreffend ist
(die wahrscheinlichkeit dass jemand mit negativer diagnose auch wirklich nicht betroffen ist )
also :
(sensitivität= zeigt erkennt der test tatsächlich kranke?
spezifität= zeigt erkennt der test tatsächlich gesunde ?
positiver prädiktionswert: zeigt wenn der test sagt: krank , stimmt das dann auch ?
negativer prädiktionswert: zeigt : wenn der test sagt: gesund, stimmt das dann auch ?
erklärung der formeln und grafik
denk dran: gesund und krank sind nur beispiele für gruppen - du kannst diese begriffe durch jede andere gruppenzugehörigkeit ersetzen. zb geeignet vs nicht geeignet.
formeln:
• Sensitivität = VP / (VP + FN)
( wie gut erkennt der test die kranken ? von allen, die wirklich krank sind, wie viele wurden korrekt als krank erkannt?)
• Spezifität = VN / (VN + FP)
(wie gut erkennt der test die gesunden? von allen die wirklich gesund sind, wie viele wurden als korrekt gesund erkannt?)
VP / (VP + FP)
(wie zuverlässig ist ein positives testergebnis? von allen die krank eingestuft wurden, wie viele sind es wirklich ?)
VN / (VN + FN)
(wie zuverlässig ist ein negatives testergebnis? von allen, die als gesund eingestuft wurden, wie viele sind es wirklich ?)
abbildung
die grafik zeigt wie der test personen aufgrund eines cutoffs in gruppen aufteilt zb gesund vs krank
x-achse = testwert (zb resilienz )
links : niedriger testwert (zb geringe resilienz)
rechts : hoher testwert
y-achse= kriterium (zb tatsächlich symptomlast)
(=
unten : gesund
oben: krank
der cutoff ist die schwelle ab der man entscheidet: krank oder gesund.
felder bedeutung in der grafik:
valide positive (VP)= test sagt “krank” —> person ist wirklich krank
falsch negative (FN) = test sagt “gesund” person ist aber krank (test übersieht krankheit)
valide negative (VN)
=test sagt “gesund” —>person ist wirklich gesund
falsch positive (FP)
= test sagt “krank” —>person ist gesund (fälschlicherweise auffälig )
(sensitivität= bezieht sich auf die gruppe mit dem merkmal (zb krank, geeignet , belastet ) frage: wie viele von denen erkennt der test richtig?
zb wie viele wirklich kranke erkennt der test auch als krank ?
spezifität= bezieht sich auf die gruppe ohne das merkmal zb gesund , nicht geeignet ..) frage: wie viele erkennt der test ricitig als ohne merkmal? zb wie viele wirklich gesunde erkennt der test als gesund.
(testwert= das ergebnis, das jemand in einem psychologischen test bekommt. zb ein fragebogen zu depression ergibt hoch, also der test sagt: diese person wohl depressiv.
kriterium= das , was wirklich zutrifft - unabhängig vom test
beispiel: ein arzt stellt die diagnose depression oder eben nicht. das ist das kriterium. )
und was vergleicht man jetzt?= man schaut sagt der test das gleiche wie das kriterium? zb der test sagt depressiv —>arzt sagt ja despressiv —>passt zusammen —>valide
test sagt nicht depressiv —>passt nicht—>nicht valide
ein test macht nur sinn, wenn er auch wirklich das erkennt , was erkennen soll. und das prüft man mit dem kriterium
(beispiel:
testwert
▪ Wann sprechen wir von
einer guten Sensitivität bzw.
Spezifität eines Testwertes?
was ist sensitivität ?= sagt wie gut ein test kranke personen erkennt.
in der grafik:
die y-achse zeigt das kriterium. zb ob jemand wirklich krank (oben) oder geusnd (unten ) ist.
die x-achse zeigt den testwert , zb ein fragebogenwert für resilienz.
wenn jemand krank ist (also oben in der grafik) und der testwert auch krank anzeigt (rechts vom cutoff ) dann ist das ein valides positives ergebnis (VP)
sensitivität bedeutet also : wie viele von den wirklich kranken landen im feld VP (Und nicht fälschlich im feld FN = Falsch negativ
was ist spezifität
=spezifität sagt wie gut ein test gesund personen richtig erkennt.
in der grafik: wenn jemand gesund ist (also unten in der grafik) und der testwert auch gesund anzeigt (links vom cut off ) dann ist das ein valides negatives ergebnis (VN)
spezifität bedeutet also : wie viele von den wirklich gesunden landen im feld VN (und nicht fälschlich im feld FP= falsch positiv )
wann ist ein test gut? wenn VP valide positiv un VN valide negativ groß sind, dann erkennt der test kranke richtig (gute sensitivität) und schließt gesunde richtig aus (gute spezifität )
gute sensitivität : viele VP Valide positiv oben rechts und wenige FN falsch negative ( oben links )
wann ist ein testwert sensitiv bzw spezifisch gut? wenn er viele kranke korrekt als krank erkennt (sensitvität) und viele gesunde korrekt als gesund ausschließt (spezifität)
gesund und krank nur beispiel- kannst alle anderen gruppen auch nehmen zb geeignet
zusammenfassung
sensitivität = VP / (VP+FN)
ANTEIL DER WIRKLICH KRAnken, die der test richtig erkennt.
grafik: VP Valide positiv : oben rechts (krank + richtiger testwert)
FN falsch negativ : oben links (krank, aber test sagt gesund )
—>viele VP und wenige FN = gute sensitivität
spezifität = VN / (VN+FP)
—->anteil der wirklich gesunden die der test richtig ausschließt.
grafik: VN (Valide negative : unten links (gesund + richtiger testwert )
FP (falsch positive) : unten rechts (gesund, aber test sagt krank )
—>viele VN , wenige FP = gute spezifität
zusammenhang mit der grafik:
y-achse: kriterium = tatsächlicher zustand zb krank , gesund
x-achse: testwert = wie test entscheidet (ausgewählt / nicht ausgewählt)
cutoffs= trennen die gruppen
die vier felder zeigen richtig vs falsch zugeordnete personen
je näher die punkte bei VP und VN liegen (grün) desto besser die diagnostische qualität des tests. )
Was bedeutet das ?
cut off ist die gelbe linie - die festlegt ab wann ein testwert positiv ist. also zb jemand als krank eingestuft wird
selektionsquote meint wie streng oder locker wählt man aus
sensitivität und spezifität hängen davon ab wo du den cut off setzt. je nach zielsetzung (zb nichts übersehen oder keine flaschen diagnosen machen ) passt man den cutoff an. )
Wann sprechen wir von
(anteil der tatsächlich kranken, die vom test richtig erkannt wurden )
(anteil der tatsächlich gesunden, die vom test korrekt ausgeschlossen wurden )
• Werte sind anhängig von
Cutoff bzw. Selektionsquote
(cutoff= wo wird die grenze gesetzt ab wann en testwert positiv ist?
selektionsquote = wie viele personen sollen (nicht ) ausgewählt werden ?
➜ Je nachdem welcher Cutoff
für den Testwert verwendet
wird, verändern sich Sensitivität
und Spezifität
(wird der cutoff verschoben, dann verändert sich das verhältnis von VP, FN, VN, FP und somit die gütekennwerte
je weiter links der cutoff —> mehr VP, Weniger FN —>Sensitivität steigt , spezifität sinkt
je weiter rechts der cutoff —> mehr VN , WENIGER FP spezifität steigt und sensitiviät sinkt
also wird der cutoff gesenkt steigt die sensitivität aber die spezifität sinkt - und umgekehrt
▪ Receiver Operating Characteristic
(ROC; Signalentdeckungstheorie,
Swets & Green, 1969)
▪ Zeigt Zusammenhang zwischen
Sensitivität/Spezifität und Cutoff
Was zeigt die Grafik?
(sie zeigt den zusammenhang zwischen Sensitivität und Spezifität bei verschiedenen Cutoff-werten (also schwellenwerten, ab wann man zb “krank” (ist nur ein beispiel) ist )
y-achse: sensitivität (anteil korrekt erkrankter kranker = trefferqoute)
x-achse: fehlerquote = 1 - spezifität (je weiter rechts desto mehr falsch-positiv)
was bedeutet das ?
-cut off a (weiter links) : höhere sensitivität , aber geringere spezifität —>viele kranke erkannt, aber auch viele gesunde fälschlich als krank eingestuft
cutoff b weiter rechts: höhere spezifität , aber geringere sensitivität —>weniger falsch-positive, aber mehr kranke bleiben unerkannt.
wofür ist das gut?
die ROC-Kurve hilft den optimalen cutoff wert zu bestimmen. also den besten kompromiss zwischen: “kranke” erkennen (sensitivität) und gesunde nicht fälschlich diagnostizieren (spezifität)
auf dieser folie sieht man jetzt 2 grafiken nebeneinander die direkt zusammenhängen :
linke grafik: zusammenhang zwischen testwert und kriterium
y-achse: zb tatsächliche symptombelastung (kriterium)
x-achse: testwert (zb aus resilienztest)
cutoff (vertikale linie): schwellenwert im test, ab dem zb eine person als “ausgewählt” bzw “krank” gilt
die einteilung in;
VP (valide positiv)= krank + test sagt “krank”
VN (valide negativ) = gesund + test sagt "gesund”
FN(falsch negativ ) : krank + test sagt “gesund”
Fp ( Falsch positiv) gesund+test sagt “krank”
rechte grafik Roc Kurve;
hier sieht man wie sich verschiedene cutoff werte /zb cutoff a und b) auf die sensitivität und spezifität auswirken: je niedriger der cutoff, desto mehr personen werden als positiv eingestuft —> höhere sensitivität aber mehr falsch -positive —> spezifität sinkt
je höher der cutoff desto weniger falsch-positive aber auch mehr falsch-negative —>sensitvität sinkt
wie hängen die beiden grafiken zusammen ?
die linke grafik zeigt was beim verschieben des cutoffs konkret im test passiert. die rechte grafik (roc) zeigt dann grapfisch wie sich dadurch sensitivität und spezifität verändern.
ziel: einen cutoff finden der beide werte möglichst gut ausbalanciert- das wäre der punkt nahe der linken oberen ecke der roc-kurve.
▪ Maß für diagnostische Validität
(Genauigkeit) des Testscores: Area
under the curve (AUC) nach Fischer
et al. (2003)
auf dieser folie geht es um ein Maß zur bewertung der diagnostischen qualität eines tests nämlich:
Area under the curve (AUC)
Die AUC gibt an, wie gut ein test zwischen zwei gruppen unterscheiden kann, zb zwischen krank und gesund. sie wird aus der ROC-Kurve (rechts in der grafik) berechnet.
was bedeutet die AUC genau?
die Roc kurve zeigt, wie sich sensitivität und spezifität mit verschiedenen cutoffs verändern.
die AUC ist einfach die fläche unter dieser kurve- je größer die fläsche desto besser trennt der test zwischen den gruppen.
interpretation der AUC-WERTE
• .50 = Vorhersage auf Zufallsniveau (DH Keine trennschärfe, zufallsniveau)
• .50 - .70 = geringe diagnostische güte
• .70 - .90 = moderate diagnostische güte
• > .90 = hohe diagnostische güte
merksatz: je näher die AUC an 1.0 desto besser ist der test darin die gruppen korrekt zu unterscheiden
das ist eine klassische kreuztabelle zur diagnostischen validität
sie zeigt wie gut ein test bei verschiedenen cutoff werten zwischen zwei gruppen unterscheidet (zb krank vs gesund)
was siehst du hier?
es gibt 4 tabellen - jede gehört zu einem anderen cutoff wert von s100b (das ist ein diagnostischer marker)
s100b <0.1
s100b<0.14
s100b<0.2
s100b<0.4
in jeder tabelle stehen die testurteile (positiv/ negativ) gegen das tatsächliche ergebnis (ja= zb krank , nein = geusnd)
was bedeuten die werte unten in jeder tabelle?
das sind ergebnisse des chi quadrat tests (xhoch2) und weitere maße :
xhoch 2 chi qadrat zeigt ob ein signifikanter zusammenhang zwischen testurteil und tatsächlichem ergbnis besteht.
df=1 freiheitsgrad (weil es eine 2x2 tabelle ist )
(o mit strich in der mitte) phi koeffizient : effektstärke , also wie stark der zusammenhang ist (0= kein zusammenhang, 1= maximaler zusammenhang)
p wert = gibt an, ob das ergebniss statistisch signifikant ist . wenn p <.05 ist der zusammenhang signifikant.
wie ließt man das praktisch ?
je höher der chi quadrat wert (xhoch 2) und je niedriger der p wert desto besser trennt der test zwischen dem jeweiligen cutoff zwischen den gruppen.
zb s100b <0.2
xhoch2= 20.206
o mitte strich durch=0.442 und p= .000
das ist ein starker und signifikanter zusammenhang also ein guter cutoff
man testet also verschiedene cutoffs um zu sehen bei welchem die trennung (diagnostische validität) am besten ist dabei helfen die maße. chi quadrat , p und o durch mitte zeichen
▪ Wie können wir die diagnostische Validität eines Testscores evaluieren?
(was ist die doagnostische validität?= sie zeigt wie gut ein test zwischen zwei gruppen unterscheiden kann zb gesund vs krank. und wie ? durch die treffsicherheit des tests )
• AUC berechnen und mit Richtwerten nach Fischer vergleichen
(die AUC Area under the curve zeigt wie gut ein test kranke und gesunde personen unterscheiden kann. man vergleicht sie mit wissenschaftlichen richtwerten (zb von fischer) um zu sehen, ob der test gut genug ist.
− Trefferquote (Anteil korrekt klassifizierter Fälle) sollte immer besser als Zufallsauswahl
sein
(ein guter test erkennt mehr “richtige” kranke und gesund als wenn man einfach nur raten würde. also besser als 50% trefferquote. )
• AUC berechnen und mit alternativen Verfahren vergleichen
(man vergleicht den test mit anderen bereits existierenden tests,, um zu schauen ob er genauer ist )
− Trefferquote sollte besser sein als bei verfügbaren alternativen Verfahren
(der test soll kranke und gesunde personen besser unterscheiden als frühere methoden )
• Gewünschte Sensitivität und/oder Spezifität festlegen und prüfen, ob diese mit
dem Test realisierbar ist
(man legt vorher fest was der test mindestens leisten soll (zb 80% der kranken erkennen = hohe sensitivität ) und überprüft dann ob er das schafft )
− Bsp. Sucht-Screening soll 80% der Alkoholabhängigen aus der Bevölkerung korrekt
identifizieren
(in diesem beispiel will man, dass der test mindestens 80% der betroffenen erkennt. das wäre dann eine klare zielvorgabe an die sensitivität.
• Inhaltlich begründeten Cutoff festlegen und
prüfen, ob Sensitivität und Spezifität für den
Anwendungszweck ausreichend sind
(man bestimmt einen sinnvolle grenze (cutoff) ab wann jemand zb als krank gilt und prüft ob der test damit zuverlässig arbeitet )
− Bsp. Cutoff für Resilienz in
Allgemeinbevölkerung (z.B. Vorschlag
der Testautoren) soll auf spezielle
Stichprobe (z.B. Patienten) übertragen
(ein grenzwert der für die allgemeinbevölkerung passt muss nicht unbedingt auch für spezielle gruppen (zb kranke menschen ) passend sein- das muss man extra prüfen. )
02.12.2024
was wurde gemacht ?
es wurde untersucht, wie gut der GAD-2 angststörungen erkennt. dazu wurde getestet wie viele personen mit tatsächlicher angststörung vom GAD-2 korrekt erkannt wurden. —->sensitivität. und wie viele gesunde korrekt ausgeschlossen wurden —>spezifität
außerdem wurde ein sogenannter cutoff wert (schwellenwert) von >3 punkten verwendet, ab dem man sagt : diese person könnte betroffen sein.
was bedeuten die zahlen ?
störung: generalisiert angststörung, sensitivität 86%
spezifität 83%
soziale phobie : sensitivität 76%
spezifität 59%
panikstörung: sensitivität: 90%
spezifität: 70%
ptbs sensitvität: 81%
spezfität: 80%
sensitivität bedeutet : wie gut erkennt der GAD-2 die jeweilige störung bei menschen, die wirklich betroffen sind?
spezifität bedeutet wie gut erkennt der GAD-2 menschen, die nicht betroffen sind ?
was sagt und das?
sehr gute werte bei GAS (ZB 86% Sensitivität heißt 86% der betroffenen werden erkannt)
der test eignet sich also besonders gut als screeningverfahren um möglichst wenige fälle zu übersehen
etwas niedrigere spezifität bei sozialer phobie zeigt: es gibt mehr falsch positive (personen die als auffällig eingestuft werden obwohl sie gesund sind )
5.6 Kriteriumsvalidität: Diagnostische Validität [ÜBUNG]
das ist eine klassische kontingenztafel zur diagnostischen validität , hier angewendet auf den GAD-2
die tabelle vergleicht 2 dinge:
1.tatsächliche gruppenzugehörigkeit
—>ermittelt zb durch ein strukturiertes interview (also “objektiv “ , klinische einschätzung)
diagnostische entscheidung
—>wie der GAD-2 test die person einordnet (positiv / negativ)
felder:
Valide positiv (VP) test sagt, die person ist “krank”
wirklichkeit: die person ist wirklich krank
test hat richtig erkannt , dass jemand zur zielgruppe gehört ( zb angststörung hat) das ist ein richtiger treffer
falsch negativ (FN)
test sagt: die person ist gesund
wirklichkeit: die person ist aber krank
der test hat die person übersehen . das ist gefährlich, weil jemand hilfe bräuchte aber durch den test nicht erkannt wird
das ist ein fehlalarm nach unten
falsch positiv (FP)
test sagt : die person ist krank.
wirklichkeit: die person ist gesund
der test schlägt fälschlich an, die person wird unnötig weiter untersucht oder verunsichert
das ist ein fehlalarm nach oben
valide negativ (VN)
wirklichkeit: die person ist wirklich gesund —> alles korrekrt erkannt - die person gehört nicht zur zielgruppe und wurde vom test auch so eingeschätzt
das ist ein richtiger ausschluss
berechnungen anhand der maße:
sensitvität wie gut erkennt der test die kranken
VP
bruch
VP+ FN
anteil der richtig erkrannten kranken an allen tatsächlichen kranken
spezifität
wie gut erkennt der test die gesunden ?
VN
BRUCH
VN+FP
anteil der rcihtig erkannten gesunden an allen tatsächlichen gesunden
3.positiver prädiktionswert (PPV)
wie wahrscheinlich ist es, dass jemand wirklich krank ist , wenn der test positiv ist ?
PPV = vp
Vp+fp
anteil der wirklich kranken an allen mit poriven testergebnis
4.negativer prädiktionswert (NPV)
wie wahrscheinlich ist es dass jemand wirklich gesund ist wenn der test negativ ist ?
NPV= VN
Vn +Fn
anteil der wirklich gesunden an allen mit negativem testergebnis
das kam dran
▪ Konstruktvalidität
▪ Konstruktvalidität = wichtigstes gütekriterium
(=das wichtigste gütekriterium. Weil die Konstruktvalidität ist entscheidend , wenn man wissen will, ob ein test tatsächlich das misst , was er messen soll - zb ob ein intelligenztest wirklich intelligenz erfasst und nicht etwas anderes wie konzentration oder motivation ).
• Gibt dem Testwert, der ein latentes Konstrukt abbilden soll, eine Bedeutung
(ein testwert (zb 115 beim IQ-test) ist erstmal nur eine zahl. erst durch die konstruktvalidität weiß man, welches konstrukt (zb intellugenz) hinter diesem wert steht. ohne das wäre die zahl bedeutungslos. )
• Vorgehen
− Ableitung von Annahmen aus Theorie und Empirie über das Konstrukt, das der Test
messen soll
(man überlegt sich theoretisch (und anhand früherer forschung ) was das konstrukt ausmacht, wie es sich zeigt und wie es sich von anderen konstrukten abgrenzt)
− Empirische Prüfung und Evaluation
(dann wird in studien überprüft ob sich der test tatsächlich so verhält wie das konstrukt zb sollte ein depressionsfragebogen mit einem anderen depressionsmaß hoch korrelieren aber nicht mit einem intelligenztest )
▪ welche Methoden gibt es um die Konstruktvalidität (im weitesten Sinne) zu
bestimmen (Cronbach & Meehl, 1955)
merken
• Analyse intra- oder interindividueller Unterschiede in den Testwerten
(man schaut wie sich personen in einem test unterscheiden , intraindividuell= innerhalb einer person, interindividuell= zwischen personen. wenn ein test zb zwischen hoch und niedrig-ausgeprägten zuverlässig unterscheidet spricht das für validität )
• Korrelation des Test mit externen Kriterien
(man prüft ob der test mit etwas zusammenhängt, was theoretisch sinnvoll ist (zb sollte ein depressions test mit arzt diagnosen korrelieren . das ist ein hinweis darauf das der test tatsächlich das konstrukt misst, das er vorgibt zu messen )
• Korrelation des zu validierenden Tests mit Tests, die verwandte oder weniger
verwandte bzw. nicht verwandte Merkmale erfassen
(konvergente validität: hohe korrelation mit tests , die ähnliche konstrukte messen. diskriminante validität= geringe korrelation mit tests die nicht das gleiche messen , das ist genau der kern des MTMM ansatzes )
• Faktorenanalyse der Testitems
(man schaut ob sich die items (einzelfragen ) des tests zu einem gemeinsamen faktor zusammenfassen lassen - also ob sie alle dasselbe konstrukt messen. zb sollten bei einem konzentrationstest alle items auf einen konzentrationsfaktor laden)
• Gemeinsame Faktoranalyse des Tests mit Tests, die verwandte oder weniger
(hier schaut man nicht nur auf einen test sondern kombiniert mehrere tests und analysiert ob sich gemeinsame oder getrennte faktoren ergeben. das hilft zu prüfen ob zb ein neuer motivationstest eigenständig misst oder mit anderen konstrukten vermischt)
▪ Konstruktvalidität im engeren Sinne
• Konvergente und diskriminante Validität
(konvergent= der test korreliert hoch mit ähnlichen tests
diskriminant = der test korreliert nicht hoch mit unähnlichen tests )
diese beiden validitätsarten sind der kern der konstruktvalidität im engeren sinn- besonders gut überprüfbar mit dem MTMM anstatz (Multitrait multimethod ansatz
▪ Konvergente Validität
• Zentrale Frage: Was misst der Testwert?
(wir wollen wissen ob der testwert wirklich das konstrukt misst das er messen soll)
• Wie hoch hängt die Ausprägung eines Merkmals mit Ausprägungen desselben
Merkmals zusammen, das mit einer anderen Methode erfasst wird?
(das ist der kern der konvergenten validität : misst eine andere methode dasselbe konstrukt ähnlich ? die ergebnisse sollten korrelieren wenn beide tatsächlich gewissenhaftigkeit messen
)
• Gewissenhaftigkeit mit Selbstbericht vs. Fremdbericht
(das ist konkretes bsp: wenn du einen test zur selbstbeschreibung machst und jemand anders dich unabhängig einschätzt und beide ergebnisse stimmen überein dann spricht das für eine konvergente valdität )
• Empfohlen werden Koeffizienten r >.50
(korrelationskoeffizient r: je näher an 1,0 desto stärker der zusammenhang. r >.50 gilt als recht stark und ein hinweis auf gute konvergente validität. achtung: cutoffs sind nicht starr sondern richtwertabhängig vom kontext )
− Achtung bei solchen Cutoffs!
• ODER: Wie hoch ist die Korrelation des zu validierenden Testscores und
Testscores aus anderen Verfahren, die verwandte Merkmale erfassen?
(auch wenn es nicht dieselben konstrukte sondern verwandte konstrukte sind sollte es eine gewisse korrelation geben. zb test impulskontrolle und test selbstregulation
▪ Diskriminante Validität
• Zentrale Frage: Was misst der Testwert nicht?
(hier geht es darum sicherzustellen, dass der test nicht mit völlig anderen merkmalen verwechselt wird. der testwert soll nicht mit etwas korrelieren das inhaltlich nichts (oder wenig ) damit zu tun hat. )
• Wie hoch hängt die Ausprägung eines Merkmals mit Ausprägungen eines
anderen Merkmals zusammen, das mit derselben oder einer anderen
Methode erfasst wird?
(wir prüfen: gibt es unerwünschte zusammenhänge mit tests die etwas anderes messen ?) wenn ja : problem! dann misst der test vlt nicht nur das zielkonstrukt sondern auch etwas anderes mit)
• Gewissenhaftigkeit und Verträglichkeit in einer Verhaltensbeobachtung
(Annahme: geringer Zusammenhang)
(2 verschiedene konstrukte die nicht stark zusammenhängen sollten
wenn ein gewissenhaftigkeitstest zu stark mit vertäglichkeit korreliert ->dann ist die diskriminante validität schlecht)
• Empfohlen werden Koeffizienten r < .40 (CAVE!)
(ein niedriger zusammenhang wird erwartet - am besten unter r=40
CACE= achtung werte sind nicht absolut sondern kontextabhängig)
Testscores aus Verfahren, die weniger verwandte bzw. nicht verwandte Merkmale erfassen?
(ein anderer weg die frage zu prüfen: korriliert mein test zu stark mit tests für andere merkmale?
dann fehlt trennschärfe, diskrim. valid- ist nicht gut
▪ Methode zur Bestimmung der konvergenten und diskriminanten Konstruktvalidität: Multitrait-Multimethod-Ansatz (Campbell & Fiske,
1959)
• MTMM - Methode zur Bestimmung der konvergenten und diskriminanten Konstruktvalidität: Multitrait-Multimethod-Ansatz (Campbell & Fiske,
(der MTMM ansatz ist ein verfahren um zu prüfen ob ein test tatsächlich das misst, was er messen soll (konvergente validität) und nicht etwas anderes (diskriminante valdität) dabei wird dasselbe merkmal mit verschiedenen methoden gemessen ).
dient zur Überprüfung der konvergenten und diskriminanten Validität eines
Testscores
(mit diesem ansatz kann man untersuchen, ob ein testwert tatsächlich zu ähnlichen werten führt wie andere tests, die dasselbe mermal messen (konvergent) und sich gleichzeitig deutlich von werten anderer, nicht verwandter merkmale unterscheidet (diskriminant)
• Grundgedanke: Ergebnisse von Messungen hängen auch von Methode ab ➜
Sichtbarmachen des Einflusses der Messmethode auf die Validität
(nicht nur das merkmal selbst sondern auch die art wie gemessen wird (zb fragebogen vs beobachtung ) kann die ergebnisse beeinflussen. MTMM hilft, diesen methodeneinfluss zu erkennen und zu kontrollieren )
• Korrelationen zwischen Testscores für mindestens 2 Traits, die mit mindestens
2 Methoden gemessen werde
(man misst mindestens 2 verschiedene merkmale (traits) zb extraversion und neurotizismus - und zwar mit mindestens 2 verschiedenen methoden zb selbsbericht und fremdbericht . dann vergleicht man alle kombinationen miteinander )
• Input: (Mindestens) vier Messwertreihen, z.B. Extraversion und Neurotizismus,
erhoben im Selbst- und Fremdbericht
(bsp : du misst extraversion per fragebogen (selbstbericht) UND per beobachtung (fremdberucht) und dasselbe auch für neurotizismus . du erhälst also 4 messungen, die du dann untereinander korrelierst )
• MTMM-Matrix: Tabellarische Darstellung der Korrelationen
(alle ergebnisse dieser messungen werden in einer tabelle (matrix) dargestellt, in der du sofort siehst , wo hohe oder niedrige korrelationen bestehen- also wie gut die tests konvergente oder diskriminante validität zeigen )
• Moderne Methoden der Konstruktvalidität nutzen SEM
(heute verwendet man für diese art der validitätsprüfung oft strukturgleichungsmodelle SEM das sind statistisch komplexe modelle, mit denen man gleichzeitig mehrere beziehungen zwischen variablen testen kann)
was ist die MTMM matrix
wie liest man die matrix auf der folie
die MTMM matrix zeigt wie stark verschiedene merkmale (traits) mit verschiedenen methoden zusammenhängen. damit prüft man 2 arten von validität
konvergente validität= misst ein test dasselbe konstrukt wie ein anderer test ?
diskriminante validität= misst der test nicht etwas anderes ?
wie liest man die matrix auf der folie?
oben siehst du methode a und b (zb selbstbericht und fremdbericht )
in den zeilen und spalten stehen 3 traits zb ängstlichkeit reizbarkeit und depression
farben und bedeutung
grün , bedeutung: mono trait hetero method (derselbe trait unterschiedliche methoden , wichtig für konvergen. valid. )
rot, bedeutung: hetero trait mono method , verschiedene tarits, gleiche methode , wichtig für diskrim. valid.)
grau bedetung: hetereo trait hetero method (verschiedene traits, verschiedene methoden) wichtig füt diskrim. valid )
forderungen von Campbell , fiske :
r(MTHM)>0 = die grüne korrelation sollte hoch sein—>zeigt dass der trait durch beide methoden gleich gemessen wird
r(HTMM)< r (MTHM) = die rote korrelationen sollten kleiner sein. zeigt dass unterschiedliche traits trotz gleicher methode nicht stark korrelieren )
r(HTHM)<r(MTHM) die grauen korrelationen sollten auch kleiner sein
gleiches muster = die struktur sollte sich wiederholen dh konvergente korrelationen sind immer stärker als diskriminante
bsp:
du misst ängstlichkeit per selbstbericht und fremdbericht
die grüne zeile (mono trait , hetero method) zeigt dir wie stark beide methoden denselben trait messen. je höher desto besser!
wenn dagegen ängstlichkeit mit depression stark korreliert (rot oder grau) ist das schlecht- denn dann misst der test evtl- nicht “rein”
▪ Monomethod-Blöcke
▪ Heteromethod-Blöcke
▪ Monomethod-Blöcke enthalten die Korrelationen zwischen Testscores
unterschiedlicher Traits, die mit derselben Methode erfasst wurde
(das bedeutet in diesen blöcken wird geschaut wie stark angst und reizbarkeit zb miteinander zsmhängen - wenn beide mit der gleichen methode (zb nur selbstbericht) erhoben wurden. diese korrelationen helfen dabei zu prüfen, ob verschiedene merkmale auch wirklich verschieden sind (wichtig für diskriminante validitiät )
• Reliabilitätsdiagonale: Hauptdiagonale der Matrix; Reliabilitäten der einzelnen
Testscores (Monotrait-Monomethod-Werte)
(die diagonalen werte in der matrix ( von oben links nach unten rechts ) zeigen an wie zuverlässig ein einzelner test ein merkmal misst . das sidn vergleiche desselben merkmals mit sich selbst zb angst im selbstbericht mit angst im selbstbericht —>perfekte übereinstimmung—> r=1 )
• Heterotrait-Monomethod-Dreieck: Korrelationen der Testscores verschiedener
Traits, gemessen mit derselben Methode
(hier vergleicht man zb angst und reizbarkeit - beides mit selbstbericht. wenn diese werte niedrig sind, ist das gut es zeigt dass die methode zb fragebogen nicht einfach alles gleich bewertet . diese werte prüfen also, ob die merkmale (traits) unterschiedlich genug sind, obwohl sie mit der gleichen methode gemessen wurden (diskrm. valit.)
▪ Heteromethod-Blöcke enthalten die Korrelationen zwischen
Testscores derselben Traits, die mit unterschiedlichen Methoden
erfasst wurden
(hier geht es zb um angst im selbstbericht vs angst im fremdbericht. also gleiches merkmal , unterschiedliche methoden. diese werte zeigen, ob verschiedene methoden zu ähnlichen ergebnissen kommen , wichtig für die konvergente validität)
• Validitätsdiagonale: Korrelationen der Tesscores derselben Traits, gemessen
mit verschiedenen Methoden (Monotrait-Heteromethod-Werte)
(das ist die entscheidene diagonale , wenn es um validität geht: wenn zb angst in selbst-und fremdbericht gut zusammenhängt heißt das , das der test wirklich angst misst egal wie. hohe werte hier = gute konvergen. validt)
• Heterotrait-Heteromethod-Dreiecke: Korrelationen der Testscores
verschiedener Traits, gemessen mit verschiedenen Methoden
(bsp angst (selbsbericht) vs reizbarkeit (fremdbericht) also: verschiedene merkmale , verschiedene methoden.
hier sollten die werte möglichst niedrig sein, damit man sicher ist dass tests nicht einfach alles irgendwie messen.
niedrige werte= gute diskriminante validität)
• Werte der Validitätsdiagonalen
sollten signifikant von Null
verschieden und hinreichend groß
(die validitätsdiagonale meint die korrelation derselben merkmale aber mit verschiedenen methoden (zb angst im selbstbericht und fremdbericht. wenn die korrelation hoch ist (zb r>.50) zeigt das dass die verschiedenen methoden tatsächlich dasselbe konstrukt messen.
signifikant von null verschieden heißt= die korrelation ist nicht zufällig sondern bedeutet wirklich etwas.)
• Werte der Validitätsdiagonalen (Monotrait-Heteromethod) sollten höher
sein als Heterotrait-Monomethod-Korrelationen (derselben Variablen)
(das sagt: die korrelation von angst (selbstbericht) mit angst (fremdbericht) sollte höher sein als zb die korrelation von angst (selbstbericht) mit reizbarkeit (selbstbericht) . es soll klar sein, welches merkmal gemessen wird und nicht bloß dass es dieselbe methode ist )
sein als die Werte in der gleichen Zeile und Spalte des jeweiligen
Heterotrait-Heteromethod-Blocks
(jetzt wirds etwas komplexer: die korrelation von angst (selbst ) mit angst (fremd) soll höher sein als zb angst (selbst) mit reizbarkeit (fremd) oder reizbarkeit (selbst) mit angst (fremd)
es soll zeigen dass merkmale unterscheidbar sind. auch über methoden hinweg )
• Interkorrelationen zwischen Testscores verschiedener Traits sollten in den
Mono- und Heteromethod-Blöcken ein ähnliches Muster aufweisen
(wenn du dir die matrix anschaust: die zusammenhänge zwischen verschiedenen merkmalen (zb angst vs reizbarkeit sollen ähnlich stark oder schwach sein egal ob selbstbericht oder fremdbericht . das zeigt dass nicht die methode den ausschlag gibt sondern die merkmale wirklich unterschiedlich sind. wichtig für diskriminante validität)
kam dran
5.7 Konstruktvalidität: MTMM [ÜBUNG]
was ist das ziel der MTMM matrix?
sie soll zeigen, ob ein test wirklich das misst, was er messen solll- also seine konstruktvalidität.
dabei unterscheiden wir:
konvergente validität: misst der test dasselbe merkmal (zb extraversion) auch mit anderen methoden ähnlich ?
diskriminante validität= misst der test nur das merkmal das er soll und nicht andere ?
was ist dargestellt?
Traits (merkmale)
N= Neurotizismus
E=Extraversion
G=Gewissenhaftigkeit
methoden:
M1= selbstbericht
M2=Bekannter 1
M3= bekannter 2
du siehst korrelationen zwischen diesen kombinationen (zb N mit E oder G mit G ) mit verschiedenen methoden.
wie ließt man die matrix?
1.werte in klammern (zb (.86) das sind reliabilitäten : wie zuverlässig misst eine skala sich selbst. bsp: (.86) bei M1-N heißt: Neurotizismus im selbstbericht ist sehr zuverlässig
2.die farbigen kästchen
blau=positive korrelation (mermale hängen positiv zsm)
rot= negative korrelationen
nur werte mit r>.14 sind signifikant (steht unten )
wie erkenne ich konvergente Validität?
gleicher trait, unterschiedliche methoden —>sollten hoch korrelieren das nennt man validitätsDIAGONALE (beim lesen drauf achten der werte )
beispiele: N (M1) mit N (M2) = .52 —> gut!
ALSO NEOROTIZISMUS MIT METHODE UND 2
E (M1) MIT E(M2) =.46
G(M1) mit G(M2) = .39
diese werte sind mittel bis hoch, also ein hinweis : diese merkmale werden über verschiedene methoden hinweg ähnlich erfasst —>konvergente validität vorhanden
wie erkenne ich diskriminante validität?
unterschiedliche traits sollten niedrig miteinander korrelieren - egal ob gleiche oder verschiedene methoden
beispiel
N(M1) MIT E (M2) =.39
N (M2) mit G (M2)= .09
E (M3) mit G (M3) = .16
diese werte sind klein oder sogar negativ. das spricht für gute diskriminante validität.
was ist die idee hinter dieser tabelle?
man will sehen: sind korrelationen innerhalb eines traits höher als zwischen verschiedenen traits ?
sind gleiche traits über verschiedene methoden konsistent? wenn ja spricht das für einen valide konstruierten test
▪ Nachteile MTMM
• Forderungen nach Campbell und Fiske (1959) nur schwer prüfbar, wenn die
Methoden sich hinsichtlich ihrer Reliabilitäten unterscheiden
(campbell und fiske sagen wie hoch bestimmte korrelationen idealerweise sein sollten. problem: wenn die verwendeten methoden unterschiedlcih zuverlässig (reliabel) sind, kann man diese idealwerte schlecht anwenden, weil geringe korrelationen auch nur unreliablen messmethoden liegen könnten- und nicht daran, dass zb 2 traits nichts miteinander zu tun haben )
− Gefahr, dass Korrelationsunterschiede nur Reliabilitätsunterschiede widerspiegeln
(wenn eine methode sehr ungeau misst, wird die korrelation automatisch kleiner. das kann fälschlich wie eine geringe validität aussehen, obwohl das problem in der messgenauigkeit (reliabilität ) liegt.
• Methode basiert nur auf der visuellen Inspektion der MTMM-Matrix
(man schaut sich die matrix nur an und prüft mit dem auge ob die korrelationen so aussehen wie sie sollten. das ist subjektiv und nicht statistisch abgesichert )
− statistische Überprüfung spezifischer Hypothesen selten
(es wird selten mathematisch gerüft ob die hypothesen (zb r(MTMM) >r(HTMM) tatsächlich gelten. meistens bleibt es beim bloßen hingucken auf die korrelationen )
– Möglichkeit über Permutationstest von unerwarteten Reihenfolgen (Sawilowsky, 2002),
allerdings nur sehr globaler Test
(ein permutationstest kann zufällige reihenfolgen durchtesten um zu sehen ob das muster wirklich sinnvoll ist. aber: das ist nur ein grober test, keine feine oder genaue analyse. er zeigt nicht genau, WO das problem liegt, nur DASS es eins geben könnte).
• keine Erklärung der MTMM-Matrix durch ein statistisches Modell
(die MTMM Matrix ist nur eine tabelle mit korrelationen. sie gibt keine mathematische erklärung woher die werte genau kommen )
− ohne Erklärungsmodell keine Trennung möglich von Trait- und Methodeneinflüssen
und von Variablen, die diese Einflüsse repräsentieren
(ohne ein modell kann man nicht unterscheiden, ob ein messwert durch das gemessene merkmal (trait) oder durch die verwendetete methode oder durch andere störfaktoren beeinflusst ist.)
− bessere Modellierung durch Verwendung konfirmatorischer Faktorenanalysen
möglich
(man kann die einflüsse von traits und methoden trennen, wenn man moderne statistische verfahren wie konfirmatorische faktorenanalyse (CFA) verwendet. das macht die analyse genauer, objektiver und interpretierbarer.
▪ Beispieldaten SEM (CTCM)
jetzt siehst du ein beispiel für ein statistsiches modell zur auswertung von MTMM daten - ein sogenanntes CTCM-Modell (correlated trait - correlated method) :
was zeigt die grafik jetzt?
ein strukturgleichungsmodell (SEM) das Trait - und Methodeneinflüsse trennt. du siehst hier wie 3 traits (merkmale) und 3 methoden zusammenhängen.
1.die kreise : latente variablen
unten (hell): traits (merkmale:)
N=neurotizismus
E=extraversion
oben (dunkler): methoden:
M1, M2, M3= verschiedene messmethoden (zb selbstbericht , bekannter 1 , bekannter 2)
2.die kästchen: beobachtete (gemessene ) testwerte
beispiel:
N_M1= testwert für neurotizismus mit methode 1
E_M2=testwert für extraversion mit methode 2
usw
diese kästchen sind die tatsächlichen antwortwerte die erhoben wurden.
3.pfeil von den kreisen zu den kästchen
von trait-kreisen zu den kästchen: zeigen wie stark ein trait auf die gemessenen werte wirkt
zb pfeil von N zu N_M1 zeigt wie stark neurotizismus den testwert N_M1 beeinflusst.
von methoden-kreisen zu den kästchen:
zeigen den einfluss der methoden auf das ergebnis
zb m1—> N_M1,
E_M1
G_M1
das zeigt methode m1 beeinflusst alle drei merkmale weil es dieselbe erhebungsart ist
4.doppelpfeile : korrelationen
zwischen traits ( unten ) : zb r=.69 zwischen neurotizismus und extraversion
zwischen methoden (oben ): zb r=-.33 zwischen methode 1 und 2
methoden können auch zusammenhängen, zb wenn bekannter 1 und selbstbericht ähnlich ticken”.
wozu das ganze?
das modell trennt sauber auf wie stark ein ergebniss vom eigentlichen merkmal (trait) abhängt.
und wie stark es durch die art der erhebung (methode) beeinflusst wird.
man sieht also klarer, ob ein test wirklich misst was er messen soll unabhängig bon der methode
hier wird das strukturgleichungsmodell SEM aus der vorherigen folie interpretiert
Beispieldaten Abbildungen wird hier erklärt
▪ SEM für Beispieldaten
• Neurotizismus hat hohen Anteil
an Methodenvarianz
(die methode zb selbstbericht vs bekannter) hat beim merkmal neurotizismus N einen großen einfluss auf das testergebniss. das sieht man daran, dass die pfeile von M1-m3 Zu den N-kästchen (n_m1, n_m2, n_M3 ) RELATIV STARK SIND.
gelcihzeitg sind die pfeile von trait N zu diesen kästchen schwächer. ergebnisse hängen hier mehr von der methode als vom eigentlichen merkmal ab —>problematisch )
• Methodenvarianz bei N höher
als Traitvarianz, bei E und G ist
es deutlich weniger
(bei neurotizismus N = methoden wirken sträker als merkmal selbst (also schwache traitladungen ) , starle methodenladungen )
• Bei E und G gute konvergente
Validitäten, bei N auch
(konvergente validität heißt verschiedene methoden, aber gelcihes merkmal—> sollten gut zsmpassen (hohe korrelation) das ist bei E und G der fall (gute übereinstimmung trotz unterschiedlicher methoden ) bei N auch noch okay aber durch die methoden varianz mit vorsicht zu betrachten
• Diskriminante Validitäten auch
OK
(diskriminante validität heißt: unterschiedliche merkmale sollen nicht stark korrelieren auch wenn gleiche methode
hier sind die korrelationen zwischen zb N unterstrich m1 und e unterstrich m1 eher niedirg also gut
• Vorsicht bei genesteten Daten
(CTCM-1 Ansätze besser)
getestete daten heißt zb mehrere personen beantwroten denselben test über eine zielperson (zb mehrere bekannte)
das kann zusätzliche verzerrungen bringen (zb ähmliche meinung ) die das modell nicht trennt
CTCM-1 modelle (eine moderne SEM variante) können solche strukturprobleme besser berücksichtigen )
▪ Testvalidierung ist ein hypothesengelei-
teter Prozess, in dem die psycho-
metrischen Gütekriterien eines Testscores
ermittelt und beurteilt werden
▪ Prinzip der Kreuzvalidierung wichtig
▪ (Fortgeschrittene) Methoden der
Validierung: EFA/CFA, Konstruktreliabilität,
Mischverteilungs-Rasch-Modell zur
Prüfung der Skalierbarkeit, Gütekriterien
für den diagnostischen Prozess, MTMM-
Validierung
Zuletzt geändertvor 9 Tagen