Was sind die Hauptgütekriterien?
Validität
Objektivität
Reliabilität
Was sind die Nebengütekriterien?
Testfairness
Normierung
Ökonomie
Verfälschbarkeit
Welche drei Arten von Objektivität gibt es und wie kann man sie sicherstellen?
Durchführungsobjektivität
Die Messwerte sind unabhängig von der Person, die die Messung durchführt
Schriftliche Instruktion mit Beispielitem für ein einheitliches Verständnis der Teilnehmer
Standardisierte Antworten auf Rückfragen, sodass es keinen Unterschied macht, wer einen Test durchführt
Möglichst vergleichbare Durchführungsbedingungen (Licht, Lärm)
Interpretationsobjektivität
Die Interpretation der Messwerte ist unabhängig von der Person, die sie interpretiert
Sicherstellung durch Normierung, also Vergleich eines Einzelwerts mit einer Referenzstichprobe
Sicherstellung durch Fallbeschreibungen (wenn empirisch fundiert)
Auswertungsobjektivität
Die Messwerte sind unabhängig von der Person, die die Messung auswertet
Klare Auswertungsvorschriften (Auswertungsschablone, Umgang mit fehlenden Werten)
Am einfachsten bei computergestützten Tests oder Online-Umfragen (keine Probleme mit der Übertragung der Werte etc.)
Wie stellt man die Objektivität im Fragebogen sicher?
· Verständliche Instruktion, über Inhalt es Fragebogens und wie das Beantworten funktioniert
· Beispiel-Item, das zeigt, wie der Fragebogen beantwortet wird
· Konkrete Auswertungsvorschriften, also welche Items wie zu einem Skalenwert zusammengefasst werden (ggf. umpolen bei negativ gepoolten Items)
· Normierung des Fragenbogens, sodass Sie später sinnvolle Rückmeldungen geben können
Was ist die Reliabilität?
=Definiert als Verhältnis von wahren zu beobachteten Werten/Unterschieden
· Reliabilität beschreibt also die Genauigkeit von individuellen Unterschieden
o Je größer der wahre Wert am beobachteten Wert, desto größer ist auch die Reliabilität
· T (wahrer Wert tau) und e (Messfehler) von dem Wert Y; Ziel: möglichst großes tau/wahrer Wert
Was ist wichtig bei der Realiabilität zu beachten?
· Reliabilität ist keine Eigenschaft eines Tests, sondern einer Zufallsvariable
· Reliabilitäten können sich daher zwischen Testdurchführungen und Stichproben unterscheiden
Reliabilität wird für jeden Skalenwert geschätzt, auch für Subskalen und für den Gesamtscore
Auf was hat die Realibilität einen EInfluss
Welche Methoden gibt es zur Schätzung der Reliabilität?
Was ist die Retestmethode und welche Voraussetzung hat sie?
· Dieselbe Variable wird zu 2 Messzeitpunkten korreliert
· Voraussetzung:
o 2 Messzeitpunkte
o Zeitliche Stabilität des Konstruktes (sonst wird die Reliabilität unterschätzt)
o Keine Erinnerungs- und Trainingseffekte (sonst wird die Reliabilität unterschätzt)
o Beide Variablen müssen zu beiden Zeitpunkten dasselbe messen (Parallelität der Variablen) und im gleichen Ausmaß Messfehler enthalten
Was macht die Split Half Methode und welche Voraussetzungen hat sie?
· 2 Testhälften werden korreliert miteinander
o Mehrere Items vorhanden
o Die Korrelation schätzt die Reliabilität einer Testhälfte
o Parallele Testhälften liegen vor
§ Gegeben bei kurzen Tests mit homogenen Items (ähnliche Breite, Schwierigkeit)
§ Es sollten pos. und neg. Items gleichermaßen verteilt sein und auch die Schwierigkeit (Intelligenztests: Items werden meistens schwerer)
Was muss man bei der Split Half Methode beachten?
· Da die Länge eines Tests die Reliabilität beeinflusst (je länger, desto reliabler), muss eine statistische Korrektur (Testverdopplung) durchgeführt werden. Die Reliabilität der Gesamtskala wird über die Spearman Brown Korrektur geschätzt:
Welche Methoden gibt es zum Bilden der Testhälften?
· first-second, odd-even, random, statistical twins, Locally Optimal Splits
Was ist die Methode der internen Konsistenz
· Interkorrelation der Items, um die Reliabilität zu schätzen
o Die interne Konsistenz ist kein direktes Maß der Reliabilität, weil die Homogenität/Eindimensionalität der Skala gemessen wird
o Daher ist die interne Konsistenz immer eine untere Grenze der Reliabilität; also die interne Konsistenz unterschätzt tendenziell die Reliabilität
· Skala wird in so viele Testhälften ausgeteilt, wie es Items gibt
· Annahme der Eindimensionalität: die Faktorladungen sind identisch und alle Items laden gleichermaßen auf den wahren Wert; wenn die Items unterschiedliche Ladungen haben, dann unterschätzt die interne Konsistenz die Reliabilität
Was ist die Voraussetzung für die Berechnung der internen Konsistenz?
o Unkorrelierte Fehler (eindimensionales Messmodell)
o Ist nur ein Punktschätzer, wenn die Items τ--äquivalent sind (also gleiche λ)
· Schätzer für die untere Schranke der Reliabilität, wenn die Items τ-kongenerisch sind (ungleiche λ)
Von welchen Faktoren hängt die Reliabilität einer Messung ab?
· Messinstrument: verschiedene Messinstrumente können in derselben Stichprobe unterschiedlich genau messen
· Stichprobe: dasselbe Messinstrument kann in unterschiedlichen Stichproben unterschiedlich genau messen
Wann ist eine Reliabilität gut, wann schlecht?
Welche Arten der Validität gibt es?
Kriteriumsvalidität
Konstruktvalidität
Inhaltsvalidität
soziale Validität
Was ist die Inhaltsvalidität? Und wie wird sie bestimmt?
· Gibt an, wie gut Items das Konstrukt abbilden
· Die Entwicklung der Items orientiert sich an einer bewährten Theorie oder einem bewährten Modell
· Die Inhaltsvalidität wird aufgrund fachlicher Überlegungen bestimmt
o Mit Bottom-up oder Top-Down Methoden kann man begründen, warum die Items eine Inhaltvalidität aufweisen
Welche Bottom Up und Top Down Ansätze gibt es die Inhaltsvalidität zu besitmmen?
Was ist die Konstuktvalidität?
· Anhand der Konstruktvalidität kann man erfassen, wie präzise Fragebogen das Konstrukt tatsächlich abbildet, das er abbilden soll
Zusammenhänge mit anderen Messungen bestimmen die Konstruktvalidität
Auf welche zwei Arten kann die Konstruktvalidität bestimmt werden?
· Konvergente Konstruktvalidität: Die Messung überlappt sich mit einer anderen Messung desselben Konstrukts/ zwei Variablen, die dasselbe oder etwas ähnliches messen sollen, hoch mit einander korrelieren
o z.B. Skalen zum Messen von Selbstwirksamkeitsüberzeugungen korrelieren hoch)
· Divergente Konstruktvalidität: Die Messung des Konstrukts lässt sich von anderen Konstrukten abgrenzen/ zwei Variablen, die etwas unterschiedliches Messen sollen, nur gering miteinander korrelieren
o z.B. Skalen zum Messen von Selbstwirksamkeitsüberzeugungen und Selbstwertgefühl
Welche Korrektur ist bei der Berechnung der Konstruktvalidität anzuwenden?
was ist die Kriteriumsvalidität?
· Beschreibt, wie gut die Messung des Konstrukts die Kriterien vorhersagen kann
o z.B. Selbstwirksamkeit kann Transfererfolg vorhersagen
· Kriterien sind idealerweise objektiv messbar (z.B. erreichter Bildungsabschluss)
· Oft das relevanteste Gütekriterium für die Praxis
o Kann ein Studierendenauswahltest vorhersagen, wer das Studium am besten abschließen wird
o Kann ein Persönlichkeitstest vorhersagen, wer besser mit Stress umgehen wird?
· Je größer die Varianzaufklärung (R²), desto größer die prädiktive Kriteriumsvalidität
Was ist die Test inkrementell valide?
· Eine Messung ist inkrementell prädiktiv valide, wenn sie über andere Variablen hinaus Varianz in einem Kriterium vorhersagen kann (von einer Variable zusätzlich erklärte Varianzanteile eines Kriteriums nach Berücksichtigung anderer Variablen)
Welche zwei Arten von Kriteriumsvaliditäten gibt es?
· Konkurrente vs. prädiktive Kriteriumsvalidität
o Für die Bestimmung der konkurrenten Kriteriumsvalidität werden Prädiktor (Test) und Kriterium gleichzeitig gemessen
o Für die Bestimmung der prädiktiven Kriteriumsvalidität wird zuerst der Prädiktor und zeitlich versetzt das Kriterium gemessen
o In der Regel ist die prädiktive Kriteriumsvalidität aussagekräftiger, da für viele Fragestellungen Verhalten oder Erfolg in der Zukunft relevant ist
o Werden Prädiktor (Test) und Kriterium zu zwei verschiedenen Zeitpunkten gemessen, ist auch die Gefahr geringer, dass beide Messungen von derselben Störquelle verzerrt werden und der Zusammenhang ein methodisches Artefakt ist (Einfluss einer Drittvariable); z.B. könnte eine Erkältung die Leistung in einem Konzentrationstest und bei einer Fahrprüfung verschlechtern
o Oft wird aus Pragmatismus nur die konkurrente Kriteriumsvalidität bestimmt
Wie unterscheidet sich ein Konstrukt von einem Kritierium?
o Konstrukte sind latent, nicht beobachtbar, z.B. Gewissenhaftigkeit, Intelligenz, Selbstwirksamkeitserwartungen, …
o Kriterien sind in der Regel manifest, beobachtbar und idealerweise messbar (einfacher zu erheben), z.B. Schulabschluss, Einkommen, Zahl der Krankheitstage, …
o Übergänge zwischen Konstrukten und Kriterien sind in der Literatur fließend
§ Unklar bei z.B. Lebenszufriedenheit oder selbsteingeschätzter Gesundheit
Was ist die soziale Validität?
· Die soziale Validität beschreibt, wie gut ein Verfahren von Anwendern (Kunden, Testpersonen) akzeptiert wird
o Eine hohe Akzeptanz erhöht die Wahrscheinlichkeit, dass ein Verfahren eingesetzt wird – Entscheidungen werden in der Praxis oft nicht von Psychometriker:innen getroffen
o Eine hohe Akzeptanz erhöht die Wahrscheinlichkeit, dass das Ergebnis einer Messung von den getesteten Personen akzeptiert wird; v.a. in der Intelligenzdiagnostik
o Problemlöseaufgaben (eingebettet in einen Kontext) sind oftmals akzeptierter als Rechenaufgaben
Wieso normiert man Messwerte?
Der Messwert einer einzelnen Person sagt noch nichts darüber aus, ob die Person eine hohe oder niedrige Ausprägung auf dem Konstrukt hat
Der Vergleich mit den Antworten anderer Personen ermöglicht eine Interpretation des „Rohwerts“
Im Vergleich zu anderen Personen ist die Leistung unterdurchschnittlich, durchschnittlich oder überdurchschnittlich
Durch die Normierung können Rohwerte in Standardwerte übersetzt werden
Was macht man wenn die Messwerte einer Stichprobe nicht normalverteilt sind?
· Sind die Werte einer Normstichprobe nicht normalverteilt, können Prozentränge berechnet werden
· Prozentränge geben die relative Position eines Messwerts an
· Ein Prozentrang von X bedeutet, dass eine Messung genauso hoch oder höher als X% der Normstichprobe ist
Welche Möglichkeiten zur Skalierung von Normwerten gibt es?
Was sind Zufallsstichproben und was sind Quotenstichproben?
· Zufallsstichproben werden gezogen, indem der Prozess der Ziehung gesteuert wird
o z.B. zweistufiges Verfahren: Zuerst werden Gemeinden mit einer Wahrscheinlichkeit proportional zur Zahl ihrer erwachsenen Einwohner ausgewählt, danach werden Personen aus den Einwohnermeldekarteien zufällig gezogen
o Es kann sein, dass manche Gruppen dann über- oder unterrepräsentiert sind
· Quotenstichproben werden gezogen, indem sichergestellt wird, dass die Verteilung bestimmter Variablen in der Stichprobe genauso ist wie in der Population, z.B. Alter, Geschlecht, Bildung, Muttersprache, Berufstätigkeit
Was versteht man unter Testfairness?
=Die Fairness eines Tests gibt Auskunft, ob ein Test für verschiedene Gruppen gleich gut geeignet ist (v.a. bei Leistungstests relevant)
Welche Möglichkeiten gibt es die Testfairness zu beurteilen?
Welche der drei Möglichkeiten um die Testfairness zu überprüfen ist die Beste?
· Mittelwertsunterschiede alleine sind kein guter Indikator dafür, ob eine Gruppe benachteiligt wird
o Werden nur Mittelwertsunterschiede betrachtet, ist unklar, ob der Test gegenüber bestimmten Gruppen unfair ist, oder ob tatsächlich Mittelwertsunterschiede vorliegen
§ Daher besser auf Mesinvarianz testen
Was ist die Testung auf Messinvarianz und Welche drei Verfahren gibt es?
=ermöglicht die formale Testung von Gruppenunterschieden (Sind die Faktorstrukturen zwischen zwei oder mehr Gruppen identisch?)
· Formale Testung mit Hilfe von Strukturgleichungsmodellen
Skalare Messinvarianz
Metrische Messinvarianz
Konfigurale Messinvarianz
Was ist die skalare Messinvarianz?
· Skalare Messinvarianz (am strengsten):
o Annahme: Intercepts (Schwierigkeit) und Faktorladungen (Bedeutung), Faktorstruktur der Items sind in unterschiedlichen Gruppen gleich
o Ein perfekt fairer Test, der sich über zwei Gruppen hinweg perfekt vergleichen lässt, weißt skalare Messinvarianz auf: er ist für beide Gruppen gleich schwierig und hat in beiden Gruppen gleiche Faktorladung und Faktorstruktur
Was ist die metrische Messinvarianz?
· Metrische Messinvarianz (etwas laxer):
o Annahme: Faktorladungen (Bedeutung) der Items sind in unterschiedlichen Gruppen gleich
o hier müssen die Faktorladungen Lambda hinreichend identisch sein
Was versteht man unter konfiguraler Messinvarianz?
· Konfigurale Messinvarianz (noch laxer):
o Die Faktorstruktur ist in unterschiedlichen Gruppen gleich
o hier spielen die Faktorladungen Lambda keine Rolle mehr, müssen nicht identisch sein
Wie kann die Vorhersagekraft eines Kritierums Auskunft über die Testfairness geben?
·· Unterscheiden sich Intercept und Steigung der Regressionsgeraden, bedeutet dies, dass dieselben Werte im Test in verschiedenen Gruppen unterschiedliche Leistungen vorhersagen
· Kann mit einer Regressionsanalyse mit den Prädiktoren Testwert, Gruppenzugehörigkeit (Moderatorvariable) und der Interaktion Testwert x Gruppenzugehörigkeit geprüft werden
o Interaktion Testwert x Gruppenzugehörigkeit sollte statistisch nicht bedeutsam sein
o Eine signifikante Interaktion Testwert x Gruppenzugehörigkeit weißt darauf hin, dass sich die Vorhersagekraft des Prädiktors eines Testwerts zwischen Gruppen verändert
Unterscheiden sich das Intercept und die Steigung der Regressionsgeraden , dann sagen dieselben Werten im Test in verschiedenen Gruppen unterschiedliche Leistungen vorher (erkennbar ist das in der Grafik an der blauen Linie: man sieht, dass bei Deutsch als Muttersprache ein höherer Wert auf dem Kriterium erreicht wurde als bei anderer Muttersprache)
Wie kann die Verfälschbarkeit eines Testes empririsch untersucht werden?
o Korrelation mit Skalen Sozialer Erwünschtheit
§ Mit Items wie „Ich bin immer höflich, auch zu unangenehmen Leuten“ oder „Im Streit bleibe ich stets sachlich und objektiv“
§ Hat sich nicht bewährt
o Experimentelle Überprüfung
§ Mit der Instruktion ehrlich zu antworten oder sich möglichst gut darzustellen
§ Vergleich von Personen, die einen Fragebogen zur Selbstreflektion vs. in einer Bewerbungssituation ausfüllen
§ Idee: Antworten dann vergleichen und prüfen, ob die sich je nach Instruktion unterscheiden
o Überprüfung einzelner Antwortmuster mit Modellen der Item-Response Theorie (IRT)
§ Voraussetzung: Die Items eines müssen sich mit einem IRT-Modell (z.B. Rasch-Modell skalieren lassen)
§ Für jede Person kann geprüft werden, wie wahrscheinlich ihr Antwortmuster ist
Annahme: Person mit bestimmten Fähigkeiten kann mindestens alle leichteren Items lösen
Wie erkennt man ob ein Test ökonomisch ist?
=beschreibt die Sparsamkeit eines Verfahrens
· Beanspruchung: Wie anstrengend ist der Test? Können danach weitere Tests durchgeführt werden? Kann man den Test mit bestimmten Personen durchführen, z.B. bei psychischen Erkrankungen?
· Dauer des Tests (v.a. relevant bei ACs oder klinischen Studien)
· Einzel- oder auch in Gruppentestungen möglich?
· Eigenständige Bearbeitung: Muss die Testleitung anwesend sein oder kann der Test auch selbstständig bearbeitet werden?
· Durchführung: Lizenzgebühren oder kostenlos?
Formel Konfidenzintervall
Mittelwert +- 1;96 * SD/ wurzel(n)
Zuletzt geändertvor einem Jahr