Gütekriterien

Buffl

Diagnostik

von Lara V.

Was sind die Hauptgütekriterien?

Validität
Objektivität
Reliabilität

Was sind die Nebengütekriterien?

Testfairness
Normierung
Ökonomie
Verfälschbarkeit

Welche drei Arten von Objektivität gibt es und wie kann man sie sicherstellen?

Durchführungsobjektivität
- Die Messwerte sind unabhängig von der Person, die die Messung durchführt
- Schriftliche Instruktion mit Beispielitem für ein einheitliches Verständnis der Teilnehmer
- Standardisierte Antworten auf Rückfragen, sodass es keinen Unterschied macht, wer einen Test durchführt
- Möglichst vergleichbare Durchführungsbedingungen (Licht, Lärm)
Interpretationsobjektivität
- Die Interpretation der Messwerte ist unabhängig von der Person, die sie interpretiert
- Sicherstellung durch Normierung, also Vergleich eines Einzelwerts mit einer Referenzstichprobe
- Sicherstellung durch Fallbeschreibungen (wenn empirisch fundiert)
Auswertungsobjektivität
- Die Messwerte sind unabhängig von der Person, die die Messung auswertet
- Klare Auswertungsvorschriften (Auswertungsschablone, Umgang mit fehlenden Werten)
- Am einfachsten bei computergestützten Tests oder Online-Umfragen (keine Probleme mit der Übertragung der Werte etc.)

Wie stellt man die Objektivität im Fragebogen sicher?

· Verständliche Instruktion, über Inhalt es Fragebogens und wie das Beantworten funktioniert

· Beispiel-Item, das zeigt, wie der Fragebogen beantwortet wird

· Konkrete Auswertungsvorschriften, also welche Items wie zu einem Skalenwert zusammengefasst werden (ggf. umpolen bei negativ gepoolten Items)

· Normierung des Fragenbogens, sodass Sie später sinnvolle Rückmeldungen geben können

Was ist die Reliabilität?

=Definiert als Verhältnis von wahren zu beobachteten Werten/Unterschieden

· Reliabilität beschreibt also die Genauigkeit von individuellen Unterschieden

o Je größer der wahre Wert am beobachteten Wert, desto größer ist auch die Reliabilität

· T (wahrer Wert tau) und e (Messfehler) von dem Wert Y; Ziel: möglichst großes tau/wahrer Wert

Was ist wichtig bei der Realiabilität zu beachten?

· Reliabilität ist keine Eigenschaft eines Tests, sondern einer Zufallsvariable

· Reliabilitäten können sich daher zwischen Testdurchführungen und Stichproben unterscheiden

Reliabilität wird für jeden Skalenwert geschätzt, auch für Subskalen und für den Gesamtscore

Auf was hat die Realibilität einen EInfluss

Welche Methoden gibt es zur Schätzung der Reliabilität?

Was ist die Retestmethode und welche Voraussetzung hat sie?

· Dieselbe Variable wird zu 2 Messzeitpunkten korreliert

· Voraussetzung:

o 2 Messzeitpunkte

o Zeitliche Stabilität des Konstruktes (sonst wird die Reliabilität unterschätzt)

o Keine Erinnerungs- und Trainingseffekte (sonst wird die Reliabilität unterschätzt)

o Beide Variablen müssen zu beiden Zeitpunkten dasselbe messen (Parallelität der Variablen) und im gleichen Ausmaß Messfehler enthalten

Was macht die Split Half Methode und welche Voraussetzungen hat sie?

· 2 Testhälften werden korreliert miteinander

· Voraussetzung:

o Mehrere Items vorhanden

o Die Korrelation schätzt die Reliabilität einer Testhälfte

o Parallele Testhälften liegen vor

§ Gegeben bei kurzen Tests mit homogenen Items (ähnliche Breite, Schwierigkeit)

§ Es sollten pos. und neg. Items gleichermaßen verteilt sein und auch die Schwierigkeit (Intelligenztests: Items werden meistens schwerer)

Was muss man bei der Split Half Methode beachten?

· Da die Länge eines Tests die Reliabilität beeinflusst (je länger, desto reliabler), muss eine statistische Korrektur (Testverdopplung) durchgeführt werden. Die Reliabilität der Gesamtskala wird über die Spearman Brown Korrektur geschätzt:

Welche Methoden gibt es zum Bilden der Testhälften?

· first-second, odd-even, random, statistical twins, Locally Optimal Splits

Was ist die Methode der internen Konsistenz

· Interkorrelation der Items, um die Reliabilität zu schätzen

o Die interne Konsistenz ist kein direktes Maß der Reliabilität, weil die Homogenität/Eindimensionalität der Skala gemessen wird

o Daher ist die interne Konsistenz immer eine untere Grenze der Reliabilität; also die interne Konsistenz unterschätzt tendenziell die Reliabilität

· Skala wird in so viele Testhälften ausgeteilt, wie es Items gibt

· Annahme der Eindimensionalität: die Faktorladungen sind identisch und alle Items laden gleichermaßen auf den wahren Wert; wenn die Items unterschiedliche Ladungen haben, dann unterschätzt die interne Konsistenz die Reliabilität

Was ist die Voraussetzung für die Berechnung der internen Konsistenz?

· Voraussetzung:

o Unkorrelierte Fehler (eindimensionales Messmodell)

o Ist nur ein Punktschätzer, wenn die Items τ--äquivalent sind (also gleiche λ)

· Schätzer für die untere Schranke der Reliabilität, wenn die Items τ-kongenerisch sind (ungleiche λ)

Von welchen Faktoren hängt die Reliabilität einer Messung ab?

· Messinstrument: verschiedene Messinstrumente können in derselben Stichprobe unterschiedlich genau messen

· Stichprobe: dasselbe Messinstrument kann in unterschiedlichen Stichproben unterschiedlich genau messen

Wann ist eine Reliabilität gut, wann schlecht?

Welche Arten der Validität gibt es?

Kriteriumsvalidität
Konstruktvalidität
Inhaltsvalidität
soziale Validität

Was ist die Inhaltsvalidität? Und wie wird sie bestimmt?

· Gibt an, wie gut Items das Konstrukt abbilden

· Die Entwicklung der Items orientiert sich an einer bewährten Theorie oder einem bewährten Modell

· Die Inhaltsvalidität wird aufgrund fachlicher Überlegungen bestimmt

o Mit Bottom-up oder Top-Down Methoden kann man begründen, warum die Items eine Inhaltvalidität aufweisen

Welche Bottom Up und Top Down Ansätze gibt es die Inhaltsvalidität zu besitmmen?

Was ist die Konstuktvalidität?

· Anhand der Konstruktvalidität kann man erfassen, wie präzise Fragebogen das Konstrukt tatsächlich abbildet, das er abbilden soll

Zusammenhänge mit anderen Messungen bestimmen die Konstruktvalidität

Auf welche zwei Arten kann die Konstruktvalidität bestimmt werden?

· Konvergente Konstruktvalidität: Die Messung überlappt sich mit einer anderen Messung desselben Konstrukts/ zwei Variablen, die dasselbe oder etwas ähnliches messen sollen, hoch mit einander korrelieren

o z.B. Skalen zum Messen von Selbstwirksamkeitsüberzeugungen korrelieren hoch)

· Divergente Konstruktvalidität: Die Messung des Konstrukts lässt sich von anderen Konstrukten abgrenzen/ zwei Variablen, die etwas unterschiedliches Messen sollen, nur gering miteinander korrelieren

o z.B. Skalen zum Messen von Selbstwirksamkeitsüberzeugungen und Selbstwertgefühl

Welche Korrektur ist bei der Berechnung der Konstruktvalidität anzuwenden?

was ist die Kriteriumsvalidität?

· Beschreibt, wie gut die Messung des Konstrukts die Kriterien vorhersagen kann

o z.B. Selbstwirksamkeit kann Transfererfolg vorhersagen

· Kriterien sind idealerweise objektiv messbar (z.B. erreichter Bildungsabschluss)

· Oft das relevanteste Gütekriterium für die Praxis

o Kann ein Studierendenauswahltest vorhersagen, wer das Studium am besten abschließen wird

o Kann ein Persönlichkeitstest vorhersagen, wer besser mit Stress umgehen wird?

· Je größer die Varianzaufklärung (R²), desto größer die prädiktive Kriteriumsvalidität

Was ist die Test inkrementell valide?

· Eine Messung ist inkrementell prädiktiv valide, wenn sie über andere Variablen hinaus Varianz in einem Kriterium vorhersagen kann (von einer Variable zusätzlich erklärte Varianzanteile eines Kriteriums nach Berücksichtigung anderer Variablen)

Welche zwei Arten von Kriteriumsvaliditäten gibt es?

· Konkurrente vs. prädiktive Kriteriumsvalidität

o Für die Bestimmung der konkurrenten Kriteriumsvalidität werden Prädiktor (Test) und Kriterium gleichzeitig gemessen

o Für die Bestimmung der prädiktiven Kriteriumsvalidität wird zuerst der Prädiktor und zeitlich versetzt das Kriterium gemessen

o In der Regel ist die prädiktive Kriteriumsvalidität aussagekräftiger, da für viele Fragestellungen Verhalten oder Erfolg in der Zukunft relevant ist

o Werden Prädiktor (Test) und Kriterium zu zwei verschiedenen Zeitpunkten gemessen, ist auch die Gefahr geringer, dass beide Messungen von derselben Störquelle verzerrt werden und der Zusammenhang ein methodisches Artefakt ist (Einfluss einer Drittvariable); z.B. könnte eine Erkältung die Leistung in einem Konzentrationstest und bei einer Fahrprüfung verschlechtern

o Oft wird aus Pragmatismus nur die konkurrente Kriteriumsvalidität bestimmt

Wie unterscheidet sich ein Konstrukt von einem Kritierium?

o Konstrukte sind latent, nicht beobachtbar, z.B. Gewissenhaftigkeit, Intelligenz, Selbstwirksamkeitserwartungen, …

o Kriterien sind in der Regel manifest, beobachtbar und idealerweise messbar (einfacher zu erheben), z.B. Schulabschluss, Einkommen, Zahl der Krankheitstage, …

o Übergänge zwischen Konstrukten und Kriterien sind in der Literatur fließend

§ Unklar bei z.B. Lebenszufriedenheit oder selbsteingeschätzter Gesundheit

Was ist die soziale Validität?

· Die soziale Validität beschreibt, wie gut ein Verfahren von Anwendern (Kunden, Testpersonen) akzeptiert wird

o Eine hohe Akzeptanz erhöht die Wahrscheinlichkeit, dass ein Verfahren eingesetzt wird – Entscheidungen werden in der Praxis oft nicht von Psychometriker:innen getroffen

o Eine hohe Akzeptanz erhöht die Wahrscheinlichkeit, dass das Ergebnis einer Messung von den getesteten Personen akzeptiert wird; v.a. in der Intelligenzdiagnostik

o Problemlöseaufgaben (eingebettet in einen Kontext) sind oftmals akzeptierter als Rechenaufgaben

Wieso normiert man Messwerte?

Der Messwert einer einzelnen Person sagt noch nichts darüber aus, ob die Person eine hohe oder niedrige Ausprägung auf dem Konstrukt hat

Der Vergleich mit den Antworten anderer Personen ermöglicht eine Interpretation des „Rohwerts“

Im Vergleich zu anderen Personen ist die Leistung unterdurchschnittlich, durchschnittlich oder überdurchschnittlich

Durch die Normierung können Rohwerte in Standardwerte übersetzt werden

Was macht man wenn die Messwerte einer Stichprobe nicht normalverteilt sind?

· Sind die Werte einer Normstichprobe nicht normalverteilt, können Prozentränge berechnet werden

· Prozentränge geben die relative Position eines Messwerts an

· Ein Prozentrang von X bedeutet, dass eine Messung genauso hoch oder höher als X% der Normstichprobe ist

Welche Möglichkeiten zur Skalierung von Normwerten gibt es?

Was sind Zufallsstichproben und was sind Quotenstichproben?

· Zufallsstichproben werden gezogen, indem der Prozess der Ziehung gesteuert wird

o z.B. zweistufiges Verfahren: Zuerst werden Gemeinden mit einer Wahrscheinlichkeit proportional zur Zahl ihrer erwachsenen Einwohner ausgewählt, danach werden Personen aus den Einwohnermeldekarteien zufällig gezogen

o Es kann sein, dass manche Gruppen dann über- oder unterrepräsentiert sind

· Quotenstichproben werden gezogen, indem sichergestellt wird, dass die Verteilung bestimmter Variablen in der Stichprobe genauso ist wie in der Population, z.B. Alter, Geschlecht, Bildung, Muttersprache, Berufstätigkeit

Was versteht man unter Testfairness?

=Die Fairness eines Tests gibt Auskunft, ob ein Test für verschiedene Gruppen gleich gut geeignet ist (v.a. bei Leistungstests relevant)

Welche Möglichkeiten gibt es die Testfairness zu beurteilen?

Welche der drei Möglichkeiten um die Testfairness zu überprüfen ist die Beste?

· Mittelwertsunterschiede alleine sind kein guter Indikator dafür, ob eine Gruppe benachteiligt wird

o Werden nur Mittelwertsunterschiede betrachtet, ist unklar, ob der Test gegenüber bestimmten Gruppen unfair ist, oder ob tatsächlich Mittelwertsunterschiede vorliegen

§ Daher besser auf Mesinvarianz testen

Was ist die Testung auf Messinvarianz und Welche drei Verfahren gibt es?

=ermöglicht die formale Testung von Gruppenunterschieden (Sind die Faktorstrukturen zwischen zwei oder mehr Gruppen identisch?)

· Formale Testung mit Hilfe von Strukturgleichungsmodellen

Skalare Messinvarianz
Metrische Messinvarianz
Konfigurale Messinvarianz

Was ist die skalare Messinvarianz?

· Skalare Messinvarianz (am strengsten):

o Annahme: Intercepts (Schwierigkeit) und Faktorladungen (Bedeutung), Faktorstruktur der Items sind in unterschiedlichen Gruppen gleich

o Ein perfekt fairer Test, der sich über zwei Gruppen hinweg perfekt vergleichen lässt, weißt skalare Messinvarianz auf: er ist für beide Gruppen gleich schwierig und hat in beiden Gruppen gleiche Faktorladung und Faktorstruktur

Was ist die metrische Messinvarianz?

· Metrische Messinvarianz (etwas laxer):

o Annahme: Faktorladungen (Bedeutung) der Items sind in unterschiedlichen Gruppen gleich

o hier müssen die Faktorladungen Lambda hinreichend identisch sein

Was versteht man unter konfiguraler Messinvarianz?

· Konfigurale Messinvarianz (noch laxer):

o Die Faktorstruktur ist in unterschiedlichen Gruppen gleich

o hier spielen die Faktorladungen Lambda keine Rolle mehr, müssen nicht identisch sein

Wie kann die Vorhersagekraft eines Kritierums Auskunft über die Testfairness geben?

·· Unterscheiden sich Intercept und Steigung der Regressionsgeraden, bedeutet dies, dass dieselben Werte im Test in verschiedenen Gruppen unterschiedliche Leistungen vorhersagen

· Kann mit einer Regressionsanalyse mit den Prädiktoren Testwert, Gruppenzugehörigkeit (Moderatorvariable) und der Interaktion Testwert x Gruppenzugehörigkeit geprüft werden

o Interaktion Testwert x Gruppenzugehörigkeit sollte statistisch nicht bedeutsam sein

o Eine signifikante Interaktion Testwert x Gruppenzugehörigkeit weißt darauf hin, dass sich die Vorhersagekraft des Prädiktors eines Testwerts zwischen Gruppen verändert

Unterscheiden sich das Intercept und die Steigung der Regressionsgeraden , dann sagen dieselben Werten im Test in verschiedenen Gruppen unterschiedliche Leistungen vorher (erkennbar ist das in der Grafik an der blauen Linie: man sieht, dass bei Deutsch als Muttersprache ein höherer Wert auf dem Kriterium erreicht wurde als bei anderer Muttersprache)

Wie kann die Verfälschbarkeit eines Testes empririsch untersucht werden?

o Korrelation mit Skalen Sozialer Erwünschtheit

§ Mit Items wie „Ich bin immer höflich, auch zu unangenehmen Leuten“ oder „Im Streit bleibe ich stets sachlich und objektiv“

§ Hat sich nicht bewährt

o Experimentelle Überprüfung

§ Mit der Instruktion ehrlich zu antworten oder sich möglichst gut darzustellen

§ Vergleich von Personen, die einen Fragebogen zur Selbstreflektion vs. in einer Bewerbungssituation ausfüllen

§ Idee: Antworten dann vergleichen und prüfen, ob die sich je nach Instruktion unterscheiden

o Überprüfung einzelner Antwortmuster mit Modellen der Item-Response Theorie (IRT)

§ Voraussetzung: Die Items eines müssen sich mit einem IRT-Modell (z.B. Rasch-Modell skalieren lassen)

§ Für jede Person kann geprüft werden, wie wahrscheinlich ihr Antwortmuster ist

Annahme: Person mit bestimmten Fähigkeiten kann mindestens alle leichteren Items lösen

Wie erkennt man ob ein Test ökonomisch ist?

=beschreibt die Sparsamkeit eines Verfahrens

· Beanspruchung: Wie anstrengend ist der Test? Können danach weitere Tests durchgeführt werden? Kann man den Test mit bestimmten Personen durchführen, z.B. bei psychischen Erkrankungen?

· Dauer des Tests (v.a. relevant bei ACs oder klinischen Studien)

· Einzel- oder auch in Gruppentestungen möglich?

· Eigenständige Bearbeitung: Muss die Testleitung anwesend sein oder kann der Test auch selbstständig bearbeitet werden?

· Durchführung: Lizenzgebühren oder kostenlos?

Formel Konfidenzintervall

Mittelwert +- 1;96 * SD/ wurzel(n)

Beitreten

Vorschau

Author

Lara V.

Informationen

Zuletzt geändert
vor 2 Jahren

Kurs melden