Jede Wissenschaftliche Disziplin setzt sich für die Einhaltung wissenschaftlicher Qualitätsstandards ein. In der Psychokogischen Diagnostik existieren Gütekriterien.
Diese sind wichtig für die Beurteilung der Qualität diagnostischer Messinstrumente, sowie bei der Entwicklung von Testverfahren.
Sie ist mit sehr hohem Aufwand verbunden. Sind diese jedoch nicht hinreichend erfüllt, ist das Instrument nicht wissenschaftlich fundiert.
Was sind die Grundvoraussetzung für ein Messinstrumente?
Standardisierung: Testbedingungen sind standartisiert bzw werden konstant gehalten. Das Material und die Instruktionen sind gleich. Es gibt eine genaue Anleitung zur Durchführung und Auswertung
Differenzierung: Merkmalsträger sollten sich im diagnostisch relevanten Verhalten maximal unterschieden. Wir sollten mit den Items differenzieren können, ob die Person eine hohe Intelligenz hat(richtig bewertet) oder eine mittlere (falsch beantwortet)
Kommen wir nun zu den Hauptgütekriterien, welche 3 sind das?
Objektivität: Ausmaß, in dem die Ergebnisse eines Testverfahrens unabhängig von der Person des Untersuchungsleiters und der Untersuchungssituation sind.
Reliabilität: Ausmaß, in dem das Testverfahren das zu messende Konstrukt zuverlässig und genau misst.
Validität: Ausmaß, in dem das Testverfahren auch tatsächlich das Konstrukt misst, welches rer Test zu messer vorgibt. Übereinstimmung zwischen empirischer Messung und theoretischer Konstruktebene
Nenne die 4 Nebengütekriterien
Ökonomie: Der Test sollte möglichst wenig Ressourcen erfordern
Nützlichkeit: Untersuchung eines Merkmals sollte ein praktisches Bedürfnis existiert
Normierung: Ausmaß, in dem individuelle (Roh-) Testergebnisse representative Aussagen auf Basis einer Vergleichsgruppe (sog. Einstichprobe) zulassen.
Testfairness: Teilnehmer unterschiedlicher sozialen Gruppen sollen bei gleichen Merkmalsausprägungen gleiche Testergebnisse erzielen.
Erkläre den Grundgedanken der Klassischen und Probabimistischen Testtheorie.
Der Grundgedanke ist, das diemehrmalige Messung desselben Merkmals bei derseoben Person unter den selben Umständen (Objektivität) Ausschluss gibt über die Messgenauigkeit des Verfahrens.
Kommt es zu Abweichungen bei dieses Messungen, werden diese als Messfehler des Verfahrens betrachtet.
Messung: Je höher die Korrelation der Testergebnisse über verschiedene Messzeitpunkte hinweg, desto höher die Reliabilität. Eine Grundvoraussetzung ist die parallele Messung (es sollte sich also nicht verändert haben an den Merkmalen)
Schwerpunkt der KTT liegt auf der Betrachtung von Messfehlern.
Gebe die 4 Annahmen der KTT an und erkläre sie.
Der beobachtete Messwert (X) einer Person in einem Test setzt sich additiv zusammen aus einem wahren Wert T(true score) und einem Messfehler E. => X = T+E
Der Mittelwert des Messfehlers über unendliche Messungen hinweg bei derselben Person ist 0. Der Erwartungswert für einen Messfehler liegt deshalb auch bei 0 => E(E) =O
Die Messfehler sind unabhängig vom wahren Wert. Was bedeutet dass die Korrelation vom Testergebnis und dem Messfehler 0 ist. => Corr(E,T) = 0
Messfehler zweier Test, Testteile oder Items A und B sind auch unabhängig voneinand. => Corr(Ea, Eb) = O
Was ist an der KTT auszusetzen, was spricht trotzdem dafür Verfahren nach der KTT zu entwickeln?
Die Annahmen sind empirirsch leider schwer überprüfbar. Unendlich oft wiederholte Messungen ohne den wahren Wert zu beeinflussen ist unrealistisch (zb. Trainingseffekte)
Die Annahmen sind auch nicht völlig plausibel.
Die gleiche Messgenauigkeit in Randbereich zu erziehel (ab IQ 130) wie in der Mitte (100) ist unwahrscheinlich.
Messfehler sind in der Praxis nicht komplett zufällig. (Zb. Soziale erwünschtheit)
Die Kritik ist gravierend
Warum also doch?
Der Grund ist pragmatisch, viele Verfahren die nach der KTT entwickelt wurden haben sich bewährt in der Praxis)
Erkläre den Grundgedanken der Realibilitätskoeffizienten.
In der praxis ist die perfekte Parallele Messung nicht möglich.
Es ist realistisch dass sich bei mehreren Messungen das Merkmal bei derselben Person verändert -> Trainingseffekte, Ermüdung, etc.
Es entstehen unterschiedliche Verfahren um dennoch möglichst exakte Schätzung der Reliabilität abzugeben.
Welche Verfahren der Realibilitätskoeffizienten gibt es?
Erkläre die Retest-Reliabilität.
Dieselbe Messung wird an der selben Personenstichprobe zu zwei unterschiedliche Zeitpunkten durchgeführt. Die Korrelation der beiden Messungen ist der Schätzer für die Retest-Reliabilität.
Man setzt vorraus dass das Merkmal in diesem Zeitraum konstant ist. Herausforderungen sind natürlich Training, Ermüdung oder die Stabilität des Merkmals an sich.
Erkläre dir Paralleltest-Reliabilität
Hier wird nicht der gleiche Test wiederholt, sondern 2 verschiedene Varianten des Test (Paralleltest). Die Korrelation zwischen diesen beiden Test gilt als Schätzer für die Paralleltest-Reliabilität.
Herausforderung ist das 100% parallität bei zwei Test nicht realistisch ist. (Außnahme d2 Test).
Gewöhnung und Training kann auch bei unterschiedlichem Material auftauchen.
Erkläre dir Testhalbierungs-Reliabilität.
Stehen keine Paralleltest oder auch keine seperaten Messzeitpunkte zur Verfügung, kann man den Test ja auch einfach in der Hälfte aufteilen. Die Korrelation beider Hälften ist dann der Schätzer.
Typischer Weise odd even Methode. Hier wird der Test in gerade vs. ungerade Items, um Reihenfolgeefekkte möglichst gering zu halten. Alternativ Zufallsaufwahl.
Herausforderung dass lediglich die Reliabilität des halben Test gemessen wird.
(Lösung: Spearman Brown Formel)
Erkläre dir Interne Konsistenz.
Jedes Item wird hier als eigener paralleler Test verstanden. Was bedeutet, dass alle Items miteinander korreliert werden. Der Mittelwert dieser Korrelation ist unser Schätzer. Er wird auch Cronbach Alpha genannt.
Erkläre wozu man die Spearman Brown Formel benötigt.
Wenn wir nach der Annahme der KTT gehen, sollten sich die Fehler bei sehr often messen rausmitteln. Zwangsläufig steigt also die Reliabilität mit steigender Testlänge.
Die Formel korrigiert die Reliabilität bei Verlängerung des Tests.
Beschreibe den Grundsatz der Item Response Theorie.
Die IRT beschreibt eine alternative KTT.
Hier geht man davon aus, das Testitems Indikatoren sind für latente Fähigkeiten oder Persönlichkeitsmerkmale.
Zb. Die Antwort auf einem Item in einem Intelligenztest ist ein Indikator für die zugrundeliegende Fähigkeit des Probanden.
Dabei wir ein probabilistischer Zusammenhang zwischen Testscore und latenter Dimension angenommen. Es gibt einen deterministischen Zusammenhang, eer lediglich durch Messfehler zufällig verfälscht wir.
Erkläre die IRT-Probabilistisch
In der PTT wird für jede Antwort eine Lösungswahrscheinlichkeit p ermittelt, die abhängt von:
Fähigkeit/Merkmalsausprägung der Testperson
Schwierigkeitsgrad der Utems
Vorteil: Es müssen weniger Fragen gestellt werden im Vergleich zur KTT, da die Itemschwierigkeit im Modell berücksichtigt wird.
Nachteil: Aufwendige Testkonstruktion
Erkläre dir IRT - Deterministisch
Ein Spezialmodell der IRT ist die sog. Guttmann Skala für dichotome Items.
Annhame: Wird ein Item positiv beantwortet, werden alle vorgehenden/leichteren Items auch positiv beantwortet. Es wird lediglich der Kipppunkt in der Rangreihe der Items identifiziert.
Nachteil: Modellannzsinf häufig in der Praxis verletzt, keine idealtypische deterministische Rangreihung.
Wie hängen die 3 Gütekriterien zusammen? Warum sollten alle 3 gegenen sein?
Hohe Reliabilität ist nicht möglich wenn die Objektivität nicht gegeben ist. Der Test kann nicht genau messen, wenn es bereits an der Durchführung, Interpetation und der Auswertung hapert.
Geringe Reliabilität führt zwangsläufig zu einer verminderten Validität. Wenn ein Test nicht genau misst, ist es egal was er zu messen versucht. Das Ergebnis wird nicht aussagekräftig sein.
Validität
Bezeichnet die Gültigkeit einer Messung und ist daher auch das wichtigste der 3 Gütekriterien.
Was sind die “Arten” der Validität?
Erkläre die Inhaltsvalidität.
Logik: Das zu messende Konstrukt kann über eine theoretische Gesamtheit an Items (“Itemuniversum”) beschrieben werden. (Ein Beruf hat verschiedene Facetten). Eine hinreichend große, representative Teilmenge sollte gegenen sein, um Inhaltsvalidität feststellen zu können.
Die Inhaltsvalidität misst ob alle Komponenten des zu messenden Konstrukts erfasst wurden. Auch ob die gewählten Items geeignet sind, um die Konstrukte abzubilden.
Erkläre die Kriteriumsvalidität und ihre Messung.
Die Kriteriumsvalidität misst, ob eine Prognose durch den Test abgegeben werden kann. Das ist ein Verhalten in der Zukunft. (Krankheit, Berufserfolg, etc.)
Das Verhalten, welches man vorhersagt, wird Kriterium genannt.
Anders als bei der Inhaltsvalidität, kann man hier statistische Kennzahlen bestimmen. Reliabilität muss aber definitiv gegeben sein.
Man differenziert durch die zeitliche Verfügbarkeit des Kriteriums.
Übereinstimmunsvalidät/Konkurrente Validität
Hier ist das Kriterium bereits bei der Testung verfügbae (Abiturienten absolvieren gemeinsam mit dem Abi einen Intelligenztest)
Prädiktive/Prognostische Validität
Kriterium ist hier erst später verfügbar. (Intelligenztest bei Grundschülern soll Abi erfolg verhersagen)
Erkläre die Konstruktvalidität und wie man sie Messen kann.
Hier wird geprüft ob die empirirsch beobachteten Zusammenhänge des Konstrukts mit anderen Konstrukten zu den theoretischen Erwartungen passen.
Man unterscheidet zwei Arten der Konstruktvalidität:
Konvergente Validität: Inhaltlich ähnliche Merkmale sollten positive Korrelationen zum Testergebnis aufweisen
Diskriminante/Divergente Validität: Unverwandte Merkmale sollten keine korrelationen aufweisen und sich differenzieren.
Messing: MTMM- Mateix (Multi Trait Method Matrix)
Man Vergleicht Korrelationen mehrerer Traits über mehrere Methoden hinweg.
Erkläre die Augenscheinvalidität
Sie beschriebt die Transparenz des Testverfaherns. Ist also für den Laien auch verständlich was hier gemessen wird?
Das ist wichtig, da es die Kooperationsbereitschaft der Testperson erhöht. Aber man kann auch argumentieren dass ein hoher Wert die Ergebnisse verfälschen könnte.
Last changed2 years ago