Wissenschaftliches Messinstrument
= latente (nicht beobachtbare Merkmale), mehrere Fragen/ Items, messbar
—> Gütekriterien: v.a. Validität (messen was er messen soll) + Reliabilität (Messgenauigkeit)
—> thematisch aufeinander abgestimmte Fragen
—> Fragen (Response) zu Testwert ermittelt und Merkmal auf Skale
Test
wissenschaftliches Routineverfahren (objektiv) zur Erfassung der Ausprägung von empirisch abgrenzbaren Merkmalen
—> Ziel = Aussage über quantitativen Grad oder qualitative Kategorie über Merkmalsausprägung gewinnen
Hauptgütekriterien nennen
Objektivität, Reliabilität, Validität
Nebengütekriterien nennen
Skalierung,
Normierung,
Testökonomie,
Nützlichkeit,
Zumutbarkeit,
Unverfälschbarkeit
Fairness
allgemeine/ spezielle Gütekriterien nennen
Objektivität - Durchführungsobjektivität
(Testleiterunabhängigkeit)
—> Unabhängigkeit der Untersuchung vom Diagnostiker
—> Probleme: Testbedingungen können variieren, auch bei gleichen Testleiter vers. Ergebnisse
+ Konstanz der Fragen/ Aufgaben/ Testmaterialien
+ Angabe Zeitdauer Beantwortung (v.a. bei Speedtests zur Vergleichbarkeit)
+ Festlegung Instruktion (Testpersonen schriftlich erklären was zu tun)
= Testleistung nur von Merkmalsausprägung der Testperson abhängig, keine Verzerrung
Objektivität - Auswertungsobjektivität
(Verrechnungssicherheit)
—> abhängig von Freiheit der Antworten und Reglementierung bei Beurteilung der Testreaktion
—> eindeutige Anweisung, wie Antworten mit niedrigen/ hohen Merkmalsausprägungen kodiert
—> Ergebnis Kodierung nicht von Person des Testauswertes abhängig
+ Vergabe von Punktwerten/ Itemwerten/ Merkmalsausprägung
+ Übereinstimmung verschiedener Testauswerter
+ statistische Kontrolle systematischer Abweichungen
+ GK Skalierung = resultierten Testwert (numerisches Relativ) bildet tatsächliche Merkmalsrelation (empirisches Relativ) ab
+ Vergleichsmöglichkeiten von Testwerten in Abhängigkeit vom Skalenniveau
Objektivität - Interpretationsobjektivität
(Interpretationseindeutigkeit)
—> verschiedene Testauswerter kommen bei Person zu gleichen Ergebnissen
—> durch Notierung sicher gestellt
+ Normorientierte Interpretation von Testwerten (Normierung = Ergebnisse im Vergleich zur Merkmalsausprägung anderer Personen der Zielgruppe eingeordnet/ interpretiert werden)
+ Erstellen von Normtabellen und Eichstichproben (Bezugsgruppe) + Vergleich
+ Prozentrangnormen = Prozentsatz Personen in Eichstichprobe, die im Test besser/ schlechter waren als Testperson (PR 73 = 73% gleich/ schlechter und 27% besser)
+ Standardnormen = Normtabellen mit Standardwerten (z-Verteilung), z.B. T-Wert, IQ Wert
+ Normaktualisierung und -verschiebung beachten (nicht veraltet)
Objektivität - kriteriumsorientierte Testwertinterpretation
= Zuordnung Testleistungen zu inhaltlich begründbaren markanten Merkmalsausprägungen
Objektivität Arten
Durchführungsobjektivität
Auswertungsobjektivität
Interpretationsobjektivität
kriteriumsorientierte Testwertinterpretation
Ökonomie - GK
= wenn wenig finanzielle und zeitliche Ressourcen beansprucht wurden
—> Ökonomievorteil durch adaptives Testen (PC z.B. besser)
—> nicht andere Kriterien wie Validität vernachlässigen
Nützlichkeit - GK
= praktische Relevanz und Grundlage für Entscheidungen/ Maßnahmen (mehr Nutzen)
Zumutbarkeit - GK
= Testperson nicht über zeitliche, psychische, körperliche Hinsicht belastet
—> hängt von Fragestellung ab (z.B. Anwärter Pilot kann anspruchsvoll sein)
Fairness - GK
= Testwerte führen zu keiner systematischen Benachteiligung anderer (Ethik, Kultur etc.)
—> Culture-Fairness-Test = Lösung Aufgaben nicht an Sprache, Kultur gebunden
—> auch Übungseffekte, Testroutinen etc. berücksichtigen
Unverfälschbarkeit - GK
= Testwert nicht durch gezielte Vortäuschung verzerrbar
—> soziale Erwünschtheit beachten
—> Verfälschbarkeit bei objektiven Persönlichkeitstests gering
Reliabilität
Messgenauigkeit des Instruments
Test ist reliabel/ zuverlässig wenn ohne Messfehler
—> bestimmt Messfehler (unabhängig ob Werte valide sind)
Quotient Varianz der wahren Werte (T) und Varianz der beobachteten Werte (X)
Reliabilitätskoeffizient = Ausmaß der Reliabilität eines Tests (zwischen 0 und 1)
—> 1 = ohne Messfehler
leitet sich aus KTT her
Reliabilität - Arten
Testwiederholung (Retest-Reliabilität)
Paralleltestmethode
Testhalbierung (split-half-Reliabilität)
Interne Konsistenz
Reliabilität - Retest-Reliabilität
—> selber Test beim selber Probanden unter selbe Bedingungen (mind. 2x)
—> 2 Testzeitpunkte, gleicher Test
Reliabilität - Paralleltestmethode
—> 2 gleiche, nicht identische Itemstichproben, gleicher Proband
—> 2 Messzeitpunkte, parallele Testformen
—> inhaltlich äquivalent (gleiche Mittelwerte/ Streuung)
Reliabilität - Testhalbierung
(split-half-Reliabilität)
—> Test in 2 gleichwertige Hälften geteilt (Quasi-Parallelform)
—> 1 Testzeitpunkt, 2 Testhälften
Reliabilität - Interne Konsistenz
—> in so viele Teile geteilt, wie er Items hat
—> Gleichung zur Berechnung der internen Konsistent (Maßeinheit = Cronbach alpha)
—> Verallgemeinerung der Testhalbierungsmethode
Modellbasierte Methode der Reliabilität
weniger strenge Annahme erforderlich
Basis der KTT
Kritik an Cronbachs Alpha , Omega-Koeffizienten (modellbasierte Reliabilitätskoeffizienten)
—> nicht eindimensional, umfassen mehrdimensionale Konstrukte
Tests nach KTT = pauschale Genauigkeitsbeurteilung
—> Tests nach IRT = testwertabhängige Genauigkeitsbeurteilung
Validität
= der Objektivität und Reliabilität übergeordnet
Gültigkeit des Tests geprüft —> Test misst das, was er Mesen soll
Validität - inhaltliche Validität
(Augenschein-Validität)
—> Repräsentationsschluss
—> Akzeptanz des Tests vonseiten der Testperson
—> inwiefern Antworten schlüssig erklärt werden (für Laien)
—> Inhaltsvalidität = Testitems im Zuge der Operationalisierung so konstruiert/ gewählt, dass Merkmal repräsentativ abgebildet
Validität - kriterienbezogene Validität
—> wenn Testwert erfolgreich auf Kriterium/ Verhalten außerhalb Testsituation extrapoliert wird
—> geht davon aus, dass Kriteriumsmessung nicht direkt sichtbar
—> Test-Kriterium-Korrelation (Theorie und Empirie beachten)
—> zeitliche Verfügbarkeit, liegt es in Zukunft = Übereinstimmungsvalidität/ Vorhersagevalidität
—> Konstrukt anhand externer Kriterien operationalisiert
—> z.B. Test = Schuleignungstest, Kriterium = Schulnote
Validität - inkrementelle Validität
—> Beitrag den weiterer Test zur Vorhersage eines Kriteriums zu leisten vermag
—> z.B. Intelligenztest sagt auch was zum Ausbildungserfolg
Validität - Konstruktvalidität
—> bezieht sich auf latente, theoretische Konstrukte
—> Zusammenhang Testitem und interessierenden Merkmal wissenschaftlich fundiert
—> struktursuchendes vs. strukturprüfendes Vorgehen (suchend, z.B. Hypothesen)
—> strukturprüfend = interferenzstatistische Schlüsse
—> konvergente Validität = Test misst tatsächlich interessierendes Merkmal
—> diskriminante Validität =Testergebnis des interes. Merkmals von anderen abgrenzbar
—> Ziel: Einbettung des mit Test erfassten Konstruktes in Netzwerk anderer verwandter (konvergente Validität), teils fremder (diskriminante Validität) Konstrukte
—> z.B. Intelligenz-Struktur-Test 2000 R (I-S-T 2000 R)
Validität - Höhe der Validität
—> Reliabilität kann unterschiedlich ausfallen und Höhe der Validitätskoeffizienten verzerren
—> je > Reliabilität eines Testverfahrens, umso > Validitätskoeffizient
—> Abweichung Reliabilität vom Idealwert 1 = Reduzierung Korrelation mit anderen Kennwert
Validität Arten
Inhaltliche Validität (Augenschein-Validität)
Kriterienbezogene Validität
Inkrementelle Validität
Konstruktvalidität
Merkmal
Variable hinsichtlich der sich Personen unterscheiden
—> Merkmalsausprägung = quantitative oder qualitative Angabe, welche Größe Merkmal hat
direkt erfasste Merkmale (z.B. Essgewohnheit) vs. latent hypothetische Konstrukte (z.B. Intelligenz)
—> latente Merkmale durch mehrere Testitems operationalisiert
psychometrische Tests
indirekte Erfassung latenter Merkmale anhand Indikatoren
qualitative Merkmale vs. quantitative Merkmale
qualitative Merkmale = Merkmalsausprägung in verschiedene Kategorien eingeteilt —> Skalenniveau = Nominalskala
quantitative Merkmale = Merkmalsausprägung in geordnete Kategorien eingeteilt —> Skalenniveau = Ordinalskala
unidimensionale vs. multidimensionale Merkmale
= auf mehreren Dimensionen (Skalen) abgebildet (z.B. Impulsivität)
Leistungstest
= Beantwortung Testaufgaben in inhaltlich-logischem Sinn als richtig oder falsch bewertet
maximale Verhaltensleistung = größere Leistung nicht vertauschbar (keine Verfälschung) —> keine Verfälschung nach oben (faking good, Leistungssimulation), sondern nach unten (faking bad, Leistungsdissimulation)
Speed-/ Geschwindigkeitstests = einfache Aufgaben, Zeitbegrenzung, z.B. FAIR 2
Power-/ Niveautests =breit gestreute Schwierigkeiten, ohne Zeitbegrenzung, z.B. SON-R 2-8
Mischform: z.B. Wechsler Intelligenztest (WAIS-IV)
Leistungstest - apparative Tests
Erhebung sensorische und motorische Merkmale
—> z.B. Erfassung kognitiver und körperlicher Fähigkeiten, Koordinationstests
—> z.B. Zweihand-Koordination, Doppellabyrinthtest
Persönlichkeitsfragebogen und -tests
Instrumentarien und Fragebögen zur Erfassung stabiler Eigenschaften + temporärer Zustände
z.B. MMPI-2 Multiphasic Personality Inventory 2, NEO-Fünf-Faktoren-Inventar, Big-Five
kein richtig oder falsch
typisches Verhalten und Erleben erfragt
Items für Merkmal charakteristisch und Antworten symptomatisch Ausprägung hoch/ niedrig bewerten
Objektive Persönlichkeitstests
begrenzen Spielraum für individuelle Verhaltensfälschung
keine Selbstbeurteilung erfasst, sondern Proben von konkreten Verhalten —> bewusste subjektive Verfälschungen nicht möglich
Testperson kennt Zusammenhang Messintension und -prinzip nicht (verschleiert)
z.B. OLMT = motivatonale Bedingungen durch Drücken links oder rechts schnell verfolgen —> verschleiertes Merkmal = Arbeitstempo
Objektive Persönlichkeitstests - implizite Assoziationstests
= Merkmalsausprägung durch Assoziationsstärke gemessen
—> als Reaktionszeit auf implizite Merkmalsindikatoren operationalisiert
—> z.B. Delinquenzforschung (sexuelle Deviant bei Sexualtätern)
Projektive Verfahren
qualitative Erfassung Gesamtpersönlichkeit, berücksichtigen Einmaligkeit von Erlebnis-/ Bedürfnisstrukturen
mehrdeutiges Bildmaterial verwendet —> Testperson projiziert unbewusste/ verdrängte Erfahrungen in Bildinterpretation
Gütekriterien schwierig
semiprojektvies Verfahren = geschlossenes Antwortformat vorgegeben
Testlänge und Messgenauigkeit
Testlänge beeinflusst Messgenauigkeit
—> je höher Reliabilität sein soll, desto mehr Aufgaben nötig
—> bei langen Tests kann Validität der Messung abnehmen (z.B. Konzentration)
Testlänge = je länger, desto eher werden Items merkmalsadäquat bearbeitet —> Zielgruppe beachten
2.6 Struktureller Testaufbau
Instruktion
Konkrete Testaufgaben
Demografische Angaben
Konstruktionsphase
1) Generierung geeignete Menge an Testaufgaben/ Utes + Instruktion, Wahl Antwortformat
2) Qualitative Verständnisanalyse der Instruktion + Items mit Nachbesserung (1. Revision)
3) erste empirische Erprobung der vorläufigen Testfassung (Pilotstudie) mit kleinen Stichproben (2. Revision)
4) 2. empirische Erprobung (Evaluationsstudio) an größeren, repräsentativen Stichproben (Analysestichprobe) mit psychometrischer Analyse und 3. Revision
5) Normierung der Testform
Ziele und Aspekte der Itemkonstruktion
Aufgabenstellung muss Merkmal repräsentativ abbilden
Aufgabe = aus Aufgabe selbst und Itemstamm (Item)
Item = Bestanteile des Tests, die Reaktion/ Antwort hervorrufen sollen, innerhalb Test ähnlich (homogen)
Testlet
= wenn an Itemstamm mehrere Detailfragen angefügt sind
—> Leistungstests: Itemstamm enthält Problemstellung, die Testperson lösen soll
Persönlichkeitstests: Itemstamm enthält Aussagen, die Testperson beurteilen soll
—> Antwortverhalten soll interindividuelle Unterschiede zeigen
Niveautests vs. Speedtests
Korrespondenz von Schwierigkeit + Merkmalsausprägung bei Leistungstests
—> Niveautests = alle Schwierigkeitsstufen brauchen genügend Items
—> Speedtests = Differenzierung abhängig von Zeit (leichte Aufgaben)
Itemgenerierung - Intuitive vs. rationale Strategie
—> intuitiv: baut auf Erfahrungen auf
—> rational: orientiert an inhaltlich-theoretischen Vorgaben
- z.B. NEO-Fi-R, Big-Five
Itemgenerierung - kriteriumsorientierte Strategie
—> optimiert Unterscheidung von relevanten Gruppen
—> z.B. MMPI-2
Itemgenerierung - faktorenanalytische Strategie/ internale Konstruktionsstrategie
—> fokussiert Dimensionalität
—> Ziel: Subtests unidimensional machen, nicht mit anderen korrelieren
—> z.B. FPI (Freiburger Persönlichkeitstest)
—> Testevaluation durch konfirmatorische Faktorenanalyse (verknüpft rational, Faktoranalyse)
- z.B. I-S-T rational entwickelt, aber Struktur konfirmatorisch überprüft
Kategorien von Frageformen
direkte Fragen = sprechen Merkmal direkt an, z.B. Ängstlichkeit
indirekte Fragen = Fragen und dann Rückschluss, z.B. Verhalten in Situationen
hypothetische Fragen = hypothetischer Sachverhalt in Aufgabe geschildert
biografiebezogene Items = Verhalten in bestimmten Situationen erfragt —> zuverlässiger, aber viel auch situationsabhängig
konkrete Fragen = informieren besser über situationale Bedingungen
abstrakte Fragen = Fehleinschätzung möglich, Interpretationsfreiheit
personalisierte Fragen = sehr zuverlässig, wenn ehrlich beantwortet, Privatsphäre achten
depersonalisierte Fragen = oft nur allgemeine, nichtssagende Antworten
emotionsneutrale Fragen vs. emotionalisierende Fragen
Kategorien nach Aufgabeninhalten
Fragen zur Selbstbeschreibung, z.B. Ich lache oft
Fragen zur Fremdbeschreibung, z.B. Meine Freunde halten mich für nett
Fragen zu biografischen Fakten
Fragen zu Trait-/ Eigenschaftszuschreibungen
Fragen nach Motivation
Fragen nach Wünschen, Interessen
Fragen zu Einstellung und Meinung
Kognitive Stadien bei Beschäftigung mit Testaufgaben
1. Verständnis (Comprehension)
2. Abruf (Retrieval): Infos aus LZG abrufen
3. Urteil (Judgment): bewerten der Informationen und Entscheidung für Urteil
4. Antwortwahl (Response Selection)
5. Antwortabgabe (Response Reporting)
Response-Bias - Soziale Erwünschtheit
—> Antwortstil, z.B. um negative Konsequenzen von Testergebnissen zu meiden
—> Selbsttäuschung (Self-deceptive Enhancement)
—> Fremdtäuschung (Impression Management)
—> Orientierung an sozialen Normen
—> Satisficing begünstigte Verzerrung
—> Lösung: Anonymität, objektive Testverfahren
—> Kontroll-/ Lügen-/ Offenheitsskalen nutzen
Response-Bias - Akquieszenz
Zustimmungstendenz
—> vorgegebene Fragen unkritisch zugestimmt
—> Konsequenz von Satisficing
—> Aufdecken durch Iteminversion = Items immer positiv formuliert
—> Situation verstärken Zustimmungstendenz
—> wechselnde Itempolung kann Faktorenstruktur beeinflussen
Response-Bias - Tendenz zur Mitte
= Bevorzugung der mittleren (neutralen) Antwort
—> keine extreme Bezeichnung für Pole nutzen, Weiß-nicht anbieten
Response-Bias - Effekte Itemreihenfolge
—> Ankereffekt = wie Priming-Effekt, vorherige Antwort beeinflusst Antwort nächstes Item
—> Konsistenzeffekt (Assimilationseffekte) = Testperson wl konsistentes Bild in Antwortmuster erreichen
—> Kontrasteffekt = Beantwortung 2 Items unterschiedlich, wenn gemeinsam erregt
—> Randomisierung wichtig um Effekt zu verringern
—> Substraktionseffekt = nach spezifischen Fragen, allgemeine Frage (Bezug auf Spezifisches)
—> Testlet-Effekt = Beantwortung Fragen kann verbliebende Fragen beeinflussen
—> Reihenfolgeeffekte von Antwortalternativen = v.a. bei Satisficing kritisch
Last changed2 years ago