01 & 02 Einführung und Konstruktdefinition

Buffl

Testtheorie Master🍓

by Nipu D.

Psychologische Diagnostik: Definitionen, Grundkonzepte und Anwendungsfelder

Entwicklungspädagogik und Bildungsbereich

Diagnostik und Stabilität

Intelligenz als Konstrukt

Interesse und Motivation

Konsequenzen der Diagnostik

Anwendungsfelder der Diagnostik

Diagnostik ist relativ

Entwicklungspädagogik und Bildungsbereich: Entwicklungsdefizit im Vergleich zu Peers; Einschulung; Probleme erkennen; spezielle Tests bei Kindern anwenden.

Diagnostik und Stabilität: Diagnostik muss eine Stabilität aufweisen; Tests sollen ein ganzheitliches Bild abbilden; gute Diagnostik ist mehr als nur ein Verfahren.

Intelligenz als Konstrukt: Entsteht an der Aufgabe; Diagnostik liefert mit bestimmter Sicherheit ein Ergebnis (ja, nein, kann ich nicht sagen).

Ergebnisse der Diagnostik: Keine einheitliche Antwort auf "gut oder schlecht"; Kontext ist entscheidend.

Interesse und Motivation: Ebenfalls wichtig wie kognitive Fähigkeiten; Diagnostik entscheidet nur das, was sie messen soll.

Konsequenzen der Diagnostik: Risiken von Stigmatisierung bei "Labeling"; was passiert mit der Person nach der Diagnose?

Anwendungsfelder: MPU (Medizinisch-Psychologische Untersuchung), Fahreignungsdiagnostik, forensische Diagnostik (z.B. Schuldfähigkeit, Zurechnungsfähigkeit).

Verhalten: Ergebnis von Person und Umwelt (Levine); vergangenes Verhalten als Vorhersage für zukünftiges Verhalten.

Diagnostik ist relativ: Keine 100%igen Ergebnisse möglich; Stabilitätsprobleme (z.B. in einer Woche anders); Alpha/Beta-Problem.

Grenzwertige Situationen: Keine verlässliche Diagnostik möglich; fehlende Vergleichssituationen.

Roth & Herzberg (2008): Psychologische Testverfahren machen 24.4% (klinische Psychologie) bis 44.1% (forensische Psychologie) der Gesamttätigkeit aus.

Was ist die wichtigste diagnostische Informationsquelle für Psychologinnen und Psychologen?

Wie sieht die Gesamttätigkeit eines Psychologen in % aus?

Psychologische Testverfahren gehören, neben Verhaltensbeobachtung und dem explorativen

Gespräch, zu den wichtigsten diagnostischen Informationsquellen für Psychologinnen und

Psychologen.

Die Psychologische Diagnostik nimmt je nach Anwendungsfeld zwischen 24.4%

(klinische Psychologie) und 44.1% (forensische Psychologie) der Gesamttätigkeit eines Psychologen ein.

ein. Roth & Herzberg (2008)

Nenne eine Definition der Psychologischen Diagnostik

- dia-gignōskein [griech.] = gründlich kennen lernen, entscheiden, beschließen

- Psychologische Diagnostik ist nach Jäger und Petermann (1995):

… das systemmische Sammeln von Informationen mit dem Ziel, Entscheidungen und daraus

resultierende Handlungen zu begründen, zu kontrollieren zu optimieren.

… ein System von Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten

mit dem Ziel psychologisch relevante Charakteristika von Merkmalsträgern zu gewinnen,

Daten zu einem diagnostischen Urteil zu integrieren und Entscheidungen sowie Prognosen

und deren Evaluation vorzubereiten

- Merkmalsträger: Einzelpersonen, Personengruppen, Institutionen, Situation, Gegenstände

Nenne eine Definition Psychologischer Tests

nach Lienert und Ratz (1998)

Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch

abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den

relativen Grad der individuellen Merkmalsausprägung.

Psychologische Tests…

• Im engeren Sinne Leistungstests, psychometrische Persönlichkeitstests und Persönlichkeits-

Entfaltungs-Verfrahren

• Im weiteren Sinne gehören auch standardisierte Interviews und standardisierte

Verhaltensbeobachtungen dazu

• Erfassen Fähigkeiten, Eigenschaften, Fertigkeiten und Zustände (= nicht direkt beobachtbare

Konstrukte = latente Variablen) einer Person

• Beinhalten eindimensionale Testwerte, um die Konstrukte und deren Facetten abzubilden

(Latente Variablen sind nicht direkt messbare, sondern theoretische Konstrukte, die aus mehreren beobachtbaren Indikatoren oder manifesten Variablen abgeleitet werden. Sie repräsentieren abstrakte Konzepte wie Intelligenz, Motivation, oder Persönlichkeitsmerkmale, die nicht unmittelbar beobachtet oder gemessen werden können, aber durch statistische Modelle aus den beobachtbaren Daten erschlossen werden.)

Nenne Formale Klassifikationskriterien von Testverfahren

• Anzahl diagnostisch verwertbarer Scores (eindimensional vs. Mehrdimensional)

• Sprachgebundenheit („culture fair“)

• Durchführungsmodalitäten

Einzeltests vs. Gruppentests

Papier und Bleistieft vs. Computergestützte Verfahren

• Speed-Tests vs. Power-Tests

• Antwortabhängig vs. antwortunabhängig

Nenne inhaltlich-theoretische Klassifikationskriterien von Testverfahren

Klassifikation von Testverfahren nach Brähler et al. (2002):

1. Leistungstest: z.B. Entwicklungstests, Intelligenztests, allgemeine Leistungstest, Schultests,

spezielle Funktionsprüfungs- und Eignungstests

2. Psychometrische Persönlichkeitstests: Persönlichkeitsstrukturtests, Einstellungstests,

Interessentests, klinische Tests

3. Persönlichkeits-Entfaltungs-Verfahren: Formdeuteverfahren, zeichnerische- und

Gestaltungsverfahren, Verbal-thematische Verfahren

Tests of maximum performance vs. tests of typical response (Cronbach, 1990)

Psychometrische Persönlichkeitstests vs Persönlichkeits-Entfaltungs-Verfahren

Was sind die Ziele und Grenzen der psychologischen Diagnostik?

Welche Unsicherheiten gibt es in der Diagnostik und wie wird mit diesen umgegangen?

Was zeichnet ein wissenschaftliches Routineverfahren aus?

Was ist der Unterschied zwischen kategorialer und dimensionaler Betrachtung von Persönlichkeitsmerkmalen?

1. Was sind die Ziele und Grenzen der psychologischen Diagnostik?

Antwort: Die Hauptzielsetzung der Diagnostik ist die Reduktion von Unsicherheiten. Eine vollständige Unsicherheitsreduktion ist jedoch nicht möglich, da Diagnostik nie 100%ige Sicherheit bieten kann.

2. Welche Unsicherheiten gibt es in der Diagnostik und wie wird mit diesen umgegangen?

Antwort: Unsicherheiten entstehen durch die Komplexität menschlichen Verhaltens. Sie können durch systematische, regelgeleitete Informationssammlung reduziert werden. Diagnostik ist immer ein Prozess der Unsicherheitsreduktion, aber eine vollständige Eliminierung der Unsicherheit ist nicht möglich.

3. Was zeichnet ein wissenschaftliches Routineverfahren aus?

Antwort: Ein wissenschaftliches Routineverfahren muss objektiv und transparent sein. Es ist so konzipiert, dass das Ergebnis unabhängig vom Testdurchführer immer gleich bleibt. Jeder kann auf die Testmethoden und Ergebnisse zugreifen, was eine Reproduzierbarkeit gewährleistet.

4. Was ist der Unterschied zwischen kategorialer und dimensionaler Betrachtung von Persönlichkeitsmerkmalen?

Antwort:

Kategoriale Betrachtung: Persönlichkeitsmerkmale werden als entweder erfüllt oder nicht erfüllt angesehen, z.B. Narzissten sind entweder vorhanden oder nicht. Dies entspricht einer Schubladentheorie (z.B. "erkrankt" vs. "gesund").

Dimensionale Betrachtung: Merkmale sind ein Spektrum, z.B. hat jeder Mensch einen bestimmten Grad an Narzissmus, aber es variiert in der Intensität. Jeder Mensch hat alle Eigenschaften in sich, sie sind jedoch unterschiedlich stark ausgeprägt.

Was unterscheidet Fähigkeit, Fertigkeit und Performanz?

Wie unterscheiden sich Speed- und Power-Tests und welche Tests gibt es?

Welche Arten von Testverfahren existieren und wie werden die Ergebnisse eingeteilt?

wie wird die leistung in tests bewertet?

. Was ist der Unterschied zwischen Fähigkeit, Fertigkeit und Performanz?

welche einflussfaktoren gibt es auf die Testleistung?

5. Was unterscheidet Fähigkeit, Fertigkeit und Performanz?

Antwort:

Fähigkeit: Ein unveränderliches Potenzial, das eine Person von Natur aus besitzt (z.B. Intelligenz).

Fertigkeit: Fähigkeiten, die durch Übung erlernt und perfektioniert werden können (z.B. eine Sprache sprechen).

Performanz: Das tatsächliche Verhalten oder die gezeigte Leistung, die eine Kombination aus Fähigkeit und Fertigkeit darstellt.

6. Wie unterscheiden sich Speed- und Power-Tests und welche Tests gibt es?

Antwort:

Speed-Tests: Messen die kognitive Geschwindigkeit (z.B. D2R), bei denen die Fähigkeit zur schnellen Verarbeitung und Antwort im Vordergrund steht.

Power-Tests: Messen die maximale Leistungsfähigkeit, z.B. Intelligenztests. Hier sind die Aufgaben oft schwierig, sodass nicht alle für jede Person lösbar sind.

Testarten:

Leistungstests (Power-Tests): Messen das maximal mögliche Verhalten.

Psychometrische Persönlichkeitstests: Messen Persönlichkeitsmerkmale, wobei das Ergebnis den Ausprägungsgrad eines Merkmals angibt.

Persönlichkeits-Entfaltungs-Verfahren: Diese Tests locken Eigenschaften, die nicht direkt zugänglich sind, heraus. Die Antworten sind nicht vorgegeben, sondern frei gegeben.

7. Welche Arten von Testverfahren existieren und wie werden die Ergebnisse eingeteilt?

Antwort:

Eindimensionale Tests (z.B. BDI): Diese messen eine einzige Dimension, z.B. Depressivität.

Mehrdimensionale Tests (z.B. Big Five): Diese messen mehrere Dimensionen von Persönlichkeitsmerkmalen, z.B. Extraversion, Neurotizismus.

Culture-fair Tests: Tests, die nicht sprachgebunden sind und somit allen Teilnehmenden gleiche Chancen bieten, unabhängig von ihrer Sprachkenntnis.

Antwortunabhängige Tests: Das Ergebnis ist nicht von den Antworten abhängig, sondern basiert auf der Ausführung der Aufgabe (z.B. Speed-Tests).

Antwortabhängige Tests: Ergebnisse basieren direkt auf den gegebenen Antworten (z.B. psychometrische Tests).

8. Wie wird die Leistung in Tests bewertet?

Antwort:

Maximum Performance: Das bestmögliche Verhalten oder die höchste Leistung, die eine Person in einer bestimmten Aufgabe zeigt (z.B. Leistungstests).

Typical Response: Das typische Verhalten einer Person in alltäglichen Situationen. Wie reagiert jemand gewöhnlich auf bestimmte Reize oder in bestimmten Kontexten?

9. Was ist der Unterschied zwischen Fähigkeit, Fertigkeit und Performanz?

Antwort:

Fähigkeit: Ein stabiles, unveränderliches Potenzial (z.B. Grundintelligenz).

Fertigkeit: Etwas, das man lernen und üben kann, z.B. Schach spielen oder ein Musikinstrument spielen.

Performanz: Gezeigte Leistung einer Person, eine Kombination aus den vorher genannten Aspekten.

10. Welche Einflussfaktoren gibt es auf die Testleistung?

Antwort:

Wachheit: Der Zustand der Person, z.B. wie wach oder erschöpft sie ist, beeinflusst die Testleistung.

Art des Tests: Der Unterschied zwischen Papier- und Computerbasierten Tests kann das Ergebnis beeinflussen.

Testumgebung und Ausfüllweise: Ob der Test auf Papier oder digital durchgeführt wird, kann die Testergebnisse beeinflussen, da verschiedene Modalitäten unterschiedliche kognitive Prozesse aktivieren.

F32 Kombinierte Leistungsmaße z.B. D2R; Performanz kann nur als Indikator gelten, wenn…

Maßgeschneidertes testen - wie funktioniert das und warum

F32 Kombinierte Leistungsmaße z.B. D2R; Performanz kann nur als Indikator gelten, wenn Person

auch die Kompetenz dazu hat und auch zeigt

F39 Maßgeschneidertes Testen: nach jedem Test, wird das Fähigkeitsniveau der TP geschätzt und

nächste Item passt besser.

Fähigkeits - und Leistungsdiagnostik

Definiere:

Fähigkeit

Fertigkeit

Performanz

Wie erfolgt die Bewertung der Performanz?

Fähigkeit: psychische und physische Bedingungen, dies ermöglichen eine Leistung zu erbringen; sie

sind latent, d.h. sie können nur über Beobachtungen erschlossen werden; z.B. Intelligenz,

Konzentration, Vigilanz

Fertigkeit: Bezeichnet die zu einer Leistung notwendigen Techniken und Kenntnisse, die durch Übung

erworben werden.

Performanz: Aktuelle Leistung aus der auf die zugrunde liegenden Fähigkeiten und Fertigkeiten

geschlossen wird.

Bewertung der Performanz:

▪ Richtigkeit (korrekt vs. Falsch)

▪ Qualität (mehrere, unterschiedlich gute Lösungen möglich)

▪ Schnelligkeit (Tempo, mit dem Lösung generiert wird)

Häufig werden auch kombinierte Leistungsmaßstäbe genutzt!

Das Kompetenz-Performanz-Problem

Performanz ist nur dann ein Indikator für eine Fähigkeit

(Kompetenz), wenn die Testperson die Leistungsmaßstäbe versteht und übernimmt.

Schnelligkeitstests (speed tests) vs Niveautest (power tests)

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden:

Konventionelle Testvorgabe

Antwortabhängige Testvorgabe (sequentielle Vorgabe oder adaptive Vorgabe)

Sequentielles Testen

Adaptives Testen

Verzweigtes Testen

Maßgeschneidertes Testen

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden:

Konventionelle Testvorgabe:

▪ Jeder Proband bearbeitet den gleichen Itemsatz, selbe Reihenfolge

▪ Fixierte Itemmenge

▪ Oft Staffelung nach Schwierigkeit: leichte Items zuerst

▪ Für Messpräzision in allen Bereichen des Merkmalskontinuums ist eine große Itemmenge mit

unterschiedlichen Schwierigkeiten nötig

▪ Adaptive Elemente: sind in manchen Tests vorhanden, z.B. Hamburg-Wechsler-Intelligenztest für

Kinder 3; Abbruchkriterien bzw. Umkehrregeln zu leichteren Items; spezifische Einstiegsitems

(nach vermutetem Fähigkeitsniveau); Ziele: Steigerung der Ökonomie, Vermeidung von

Demotivation

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden: Antwortabhängige Testvorgabe (sequentielle Vorgabe oder adaptive Vorgabe)

▪ Gegebene Antworten der TP entscheiden über den weiteren Verlauf des Testens

▪ Flexible Strategie der Informationserhebung

▪ Grundidee: es werden nur die Items verwendet, die einen deutlichen Informationsgewinn

versprechen

▪ Einsatz bei Selektions- oder Klassifikationsaufgaben

▪ Unterscheidung von sequentiellem und adaptivem Testen

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden: Sequentielles Testen

▪ Grundgedanke: Abbruch des Tests, sobald genügend Informationen vorliegen, um die Testperson

einer Gruppe zuzuordnen

▪ Bsp.: Hat ein Klient eine Angststörung?

▪ Einsatz bei Selektions- oder Klassifikationsaufgaben, z.B. Entscheidungsbäume nach DSM,

Symptom-Checklisten

▪ Entscheidungsregeln: nach jeder Aufgabe erfolgt Prüfung, ob genug Informationen vorliegen, um

terminale Entscheidung treffen zu können

▪ Vorgabe meist am PC

▪ Vorteil: i.d.R kürzer und ökonomischer als konventionelle Tests

▪ Nachteil: keine Binnendifferenzierung innerhalb der Gruppen (A besser als B in der

angenommenen Kandidaten)

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden: Adaptives Testen

Was ist das Ziel von adaptiven Testen?

Was ist der Grundgedanke des adaptiven Testens?

Was ist die Konstruktionsgrundlage des adaptiven Testens ?

Was wird also gemacht beim adaptiven Testen?

Achtung …

Der Vergleich der Testpersonen ist nur durch was möglich?

Welche Arten des adaptiven Testens gibt es?

Was sind Vor und Nachteile des adaptiven Testens ?

▪ Ziel: quantitative Messung von Personenmerkmalen optimieren

▪ Grundgedanke: Erstellung eines individuellen Itemsatzes für jede Testperson, optimal

abgestimmt auf sein Fähigkeitsniveau

▪ Konstruktionsgrundlage: Item-Response-Theorie (IRT)

▪ Nach jedem Item wird entschieden, welches Item der Testperson als nächstes vorgelegt wird

(geringe, mittlere oder hohe Schwierigkeit)

▪ Informative Items = Items mit mittlerer Lösungswahrscheinlichkeit für die Testperson

▪ Testperson pendelt sich während der Testung auf Niveau der Itemschwierigkeit ein, das ihrem

Fähigkeitsniveau entspricht

▪ Achtung! Testpersonen können nicht über die Anzahl gelöster Items verglichen werden, da jede

Testperson einen individuellen Itemsatz bekommt.

-> Außer wenn Rasch-homogene Items

vorliegen! Der Vergleich der Testpersonen ist nur üb ihren Fähigkeitsparameter möglich.

▪ Es gibt zwei Arten adaptiven Testens: fest verzweigte (branched) Tests und variable,

maßgeschneiderte (tailored) Tests

Vorteile des adaptiven Testens

 höhere Testökonomie

 höhere Mespräzision

 Evtl. höhere konvergente und diskriminante Validität

 Effekte auf Testmotivation umstritten

Nachteile des adaptiven Testens

- Aufwändige Testkonstruktion

- IRT-konformer Itempool

- Großer Itempool (Gleichverteilung der Itemschwierigkeiten notwendig)

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden: Verzweigtes Testen

o Festgelegte Verzweigungen entweder nach jedem Item oder nach jeder Aufgabengruppe

o Itemanordnung und Zahl der Schritte a priori festgelegt

o Bsp.: Aufgabengruppen im AID-3 (Adaptives Intelligent Diagnostikum 3)

Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden: Maßgeschneidertes Testen

o Maßgeschneiderte Verzweigungen: Itemanordnung und Zahl der Schritte nicht a priori festgelegt

o nach jedem Item wird das Fähigkeitsniveau der Testperson geschätzt und das nächste Item

ausgewählt, das für die geschätzte Fähigkeit den höchsten Informationszuwachs erwarten lässt

o gleichzeitige Ermittlung des Schätzfehlers (loop)

o Vorgabe computergestützt

Persönlichkeitsdiagnostik

Definiere Persönlichkeit

Persönlichkeit (lat. Persona, Maske, Rolle, Person) ist die Gesamtheit aller überdauernden

individuellen Besonderheiten im Erleben und Verhalten (= Persönlichkeitseigenschaften) eines

Menschen.

• Bsp.: Intelligenz, Aggressivität; Geselligkeit, Leistungsmotivation

• „Überdauernd“ bezieht sich auf die zeitliche Stabilität dieser Besonderheiten

• Dispositionen, d.h. Tendenzen bestimmte Situationen in einer bestimmten Weise zu erleben und

sich dort in bestimmter Weise zu verhalten

• Mit „individuellen Besonderheiten“ ist gemeint, dass es sich um Merkmale handelt, die zwischen

den Mitgliedern einer Bezugsgruppe variieren

Welche Datenquellen werden in der Persönlichkeitsdiagnostik unterschieden?

→ Persönlichkeiten können auf drei Weisen erfasst werden (Klassifikation nach Cattel, 1957):

Questionnaire-Daten (Q-Daten; flexibelste Art Daten zu erfassen): Selbstauskünfte im Interview,Exploration oder Fragebogen
Test-Daten (T-Daten): indirekte Verfahren, z.B. physiologische Daten, objektive und projektive Tests

3. Life-Daten (L-Daten): Fremdbeurteilungen, biographische Merkmale

Welche Informationen können mit Fragebögen/ Q-Daten erfasst werden?

(Questionnaire-Daten (Q-Daten; flexibelste Art Daten zu erfassen): Selbstauskünfte im Interview,

Exploration oder Fragebogen)

• Beschreibungen eigener Reaktionen („Es ist mir wichtig, nicht nervös zu erscheinen“) -> leichtes

Item; kann nur von der TP selbst beantwortet werden, oder einer Person dessen sie sich

anvertraut hat; Negation in einem Item sind für nicht-nativ speaker schwer zu verstehen, d.h. die

verbale Intelligent muss höher sein; nicht zu viele negative Items in einer Testkonstruktion

verwenden, den negative Items werden von der TP gedanklich positiv umformuliert

• Eigenschaftszuschreibungen („Ich bin ein geselliger Mensch“) -> Beschreibung einer Eigenschaft,

die Personen dadurch definieren wie sie dieses Eigenschaft in ihrer Lebensgeschichte erlebt

haben; jeder hat eine andere Definition des Wortes „gesellig“, es besteht demnach eine Differenz

zwischen den Definitionen; selbst bei einer Definitionsvorgabe des Wortes h.d. nicht das das

Item Trennschärfer wird, es kann eher dafür sorgen das die Motivation sinkt, weil das Item länger

wird durch die Beschreibung, andere wiederum denken sie brauchen keine Definition und überspringen diese Definition; Eigenschaftszuschreibungen sind kritisch zu bewerten, lieber

mehrfache Abstufungen nutzen um „Geselligkeit“ zu erheben

• Wünsche und Interessen („Ich würde gerne um die Welt segeln“) -> kann man nur intern

abfragen; Wertigkeit solcher Aussagen ist gering; fluktuieren, je nachdem welche Gehirnbereiche

aktiviert sind; es gibt proximale Wünsche und destinale Wünsche (zukunftswünsche, variieren

sehr stark)

• Biographische Fakten („In meiner Jugend bin ich schon mal mit dem Gesetz in Konflikt

gekommen“) -> sind Tatsachen die passiert sind; Verhaltensweisen die man in der Vergangenheit

gezeigt hat, können auch in der Zukunft wieder auftreten; solche Fragen stellt man besser im

Interview

• Einstellungen und Überzeugungen („Wenn ich starkes Herzklopfen verspüre, befürchte ich einen

Herzanfall zu bekommen“) -> „Ich möchte mich nicht blamieren/ schlecht abschneiden“ vs. „ Ich

möchte erfolgreich abschließen“ bei Leistungstests

• Reaktionen anderer gegenüber der eigenen Person („Meine Familie ist mit meinem Beruf nicht

einverstanden“) -> Umgebung angucken, ob bestimmte Verhaltensweisen begünstigt werden

durch das soziale Umfeld (Umfeldvariable)

• Bizarre Items („Man wollte mich schon mal vergiften“) -> z.B. die Erhebung einer Schizophrenie

oder dergleichen; kritisch zu betrachten, da Items tatsächlich auch wahr sein können

• Günstigste Item: Beschreibung einer Reaktionen und Biographische Fakten und Reaktionen

anderer gegenüber der eigenen Person (Umgebungsvariable)

Welche Arten von Items werden in Fragebögen verwendet?

− Gebundenes Format: Rating/Likert-Skalen (abgestufte Ausprägung; Interpretation der Abstufung

der Antworten ist subjektiv; zwei Antworttypen: Extrem- oder Mittelankreuzer (nicht die Mitte

der eigentlichen Skala, sondern die Mitte mit meiner eigenen mentalen Skala); breite Likert-Skala

sorgen für schwankende Antworten, weil mental die Skala eingegrenzt wird); sehr enges

Antwortverfahren angeben, damit man eingrenzen kann wie stark die Antwortskala von TP

mental abgeschnitten werden, binäre Items (Ja/Nein- Antwort), Mehrfach-Wahlaufgabe

− Ungebundenes Format: Lückentexte, freie Texte sind gut für die Messung von Kreativität; aber

die Auswertobjektivität geht verloren und die Vergleichbarkeit ist nicht gegeben; es ist essentiell

die Antworten vorher festzuhalten

Vor und Nachteile von Persönlichkeitsfragebögen / Q-Daten

Und T- Daten

(Questionnaire-Daten (Q-Daten; flexibelste Art Daten zu erfassen): Selbstauskünfte im Interview,

Exploration oder Fragebogen

Test-Daten (T-Daten): indirekte Verfahren, z.B. physiologische Daten, objektive und projektive

Tests)

(T-Daten (Test-Daten):

Diese Daten kommen aus standardisierten Testsituationen, in denen das Verhalten der Testperson unter kontrollierten Bedingungen beobachtet wird.

Beispiel 1: Ergebnisse aus einem Intelligenztest, wie dem Wechsler Adult Intelligence Scale (WAIS). Hier wird die Leistung der Testperson in standardisierten Aufgaben wie Rechenaufgaben, Wortschatztests oder logischen Schlüssen gemessen.

Q-Daten (Questionnaire-Daten):

Diese Daten entstehen durch Selbstberichte der Testperson, meist in Form von Fragebögen oder Interviews, in denen die Person ihre eigenen Gedanken, Gefühle oder Verhaltensweisen beschreibt.)

Interpretation von Testwerten

Wie interpretiert man die Testwerte eines psychologischen Tests?

Wie wird der Testscore einer TP meiste gewonnen?

Arten von Bedeutungen des Testwerts

3 Arten von Bezugsrahmen für die individuelle testinterpretation

Der Testscore einer Testperson wird meist gewonnen durch simples Aufsummieren der Antworten

auf die Testitems („trivial scoring function“ = Summierung der Einzel Items; gehen davon aus das alle

Items gleich viel wert sind und deren Abstand ebenfalls -> die Zahlen auf der Likert-Skala spiegeln die

Abstände gut wieder -> werden die Abstände mit Zahlen adäquat dargestellt). Testwerte haben zwei

Arten von Bedeutung:

1. „allgemeine Bedeutung“: Testwert eignet sich als formale Beschreibung einer

Persönlichkeitseigenschaft -> Belege zur Konstruktvalidität notwendig

2. „besondere Bedeutung“ für Testperson -> ergibt sich erst durch einen sinnvollen

Bezugsrahmen für den Testscore

- Wie stark ist das Persönlichkeitsmerkmal bei der Testperson ausgeprägt?

- Ist der individuelle Testwert einer Person irgendwie besonders, auffällig oder hoch/niedrig?

Es gibt drei Arten von Bezugsrahmen für die Interpretation individueller Testergebnisse, wir können

den individuellen Testwert vergleichen mit…

▪ Vorangegangen Werten, z.B. am Anfang des Schuljahres (individuelles Bezugssystem)

▪ Einem Kriterium, z.B. Führerscheinprüfung, Abi (kriterienorientiertes Bezugssystem)

▪ Den Werten einer relevanten Vergleichsgruppe, z.B. Realschüler im selben Alter

(normorientiertes Bezugssystem)

Interpretation von Testwerten

Was bedeutet Varianz in Bezug auf psychologische Items?

Wie kann man mit der Korrelation von Items den Unterschied zwischen Personen messen?

Was ist wahre Varianz (true variance) und warum ist sie wichtig?

Was sind die Unterschiede zwischen Tau-äquivalent, Tau-parallel und Tau-kongenärlich?

Was ist der Zusammenhang zwischen Reliabilität und der Anzahl der verwendeten Items in einem Test?

Wie beeinflussen unterschiedliche Item-Gewichtungen die Reliabilität eines Tests?

1. Was bedeutet Varianz in Bezug auf psychologische Items?

Antwort: Varianz bezieht sich auf die Unterschiede im Antwortverhalten der Testpersonen. Wenn Menschen auf ein Item unterschiedlich reagieren, bedeutet das, dass dieses Item relevant für die psychologische Diagnostik ist, weil es tatsächliche Unterschiede zwischen den Personen misst.

2. Wie kann man mit der Korrelation von Items den Unterschied zwischen Personen messen?

Antwort: Die Korrelation zwischen den Items zeigt, ob sie in der Lage sind, Unterschiede zwischen Personen zu messen. Wenn eine hohe Korrelation besteht, messen die Items ähnliche Merkmale und zeigen die gleichen Unterschiede in der Population. Wenn die Korrelation gering ist, messen die Items unterschiedliche Merkmale.

3. Was ist wahre Varianz (true variance) und warum ist sie wichtig?

Antwort: Wahre Varianz ist der Teil der Varianz, der tatsächlich einen realen Unterschied zwischen den Personen darstellt. Es ist der Anteil der Varianz, der nicht durch Fehler beeinflusst wird. Zum Beispiel, wenn der wahre Wert einer Person 3,7 ist und der Fehlerwert 0,3, dann ist der wahre Unterschied zwischen den Personen 3,7 und der Fehler ist 0,3.

4. Was sind die Unterschiede zwischen Tau-äquivalent, Tau-parallel und Tau-kongenärlich?

Antwort:

Tau-äquivalent: Alle Items eines Tests messen dasselbe Merkmal mit derselben Reliabilität. Es ist wichtig, dass Items gleich viel Varianz erzeugen.

Tau-parallel: Hierbei sind die Items nicht exakt gleich, aber die Fehlervarianzen der Items sind gleich. Weniger relevant für die psychologische Diagnostik.

Tau-kongenärlich: In diesem Fall sind die Items so konzipiert, dass sie verschiedene Aspekte des gleichen Merkmals messen. Das ist der komplexeste Fall und die Reliabilität kann schwanken.

5. Was ist der Zusammenhang zwischen Reliabilität und der Anzahl der verwendeten Items in einem Test?

Antwort: Reliabilität steigt in der Regel, wenn mehr Items verwendet werden, da die Fehlerwerte sich ausgleichen und die Gesamtvarianz besser abgebildet wird. Ein Einzelitem ist weniger zuverlässig als eine Vielzahl von Items zusammen.

6. Wie beeinflussen unterschiedliche Item-Gewichtungen die Reliabilität eines Tests?

Antwort: Nicht alle Items eines Tests sind gleich wichtig. Einige Items messen stärker oder präziser das Zielmerkmal. Eine ungleiche Gewichtung kann zu einer Verringerung der Reliabilität führen, da manche Items über- oder untergewichtet sind. Die Items müssen also richtig gewichtet werden, um die beste Reliabilität zu erzielen.

Kriterien zur Beurteilung von Testverfahren

Es gibt über 6000 veröffentlichte psychologische Testverfahren

- Was ist ein „guter“ Test?

➔ Test, der für die Untersuchung einer bestimmten diagnostischen Fragestellung geeignet ist,

d.h. dessen Eignung anhand psychometrischer Gütekriterien belegt werden kann!

- Wir brauchen die psychometrischen Gütekriterien für

o Testvalidierung

o Testauswahl

Um die beste Testversion auszuwählen. Jeder Test hat eine andere Priorität, bei der

Auswahl helfen die Psychometrischen Gütekriterien:

-Objektivität, Durchführungsobjektivität, Auswertungsobjektivität. Interpretationsobjektivität

-Reliabilität: Testhalbierungs-Korrelation und interne Konsistenz, Test-Retest-Korrelation, Paralleltest-Korrelation, Konstrukt-Reliabilität

- Validität: Inhaltsvalidität, Kriteriumsvalidität,Konstruktvalidität

Skallierbarkeit des Tests

Zusammenhang zwischen Objektivität, Reliabilität und Validität

Ist der Testwert nicht objektiv, kann der Testwert keine hohe Reliabilitätsschätzung erreichen. Die

Testwertinterpretation kann daher keine gute Vorhersage treffen. Und die Validität ist nicht gegeben.

Nebengütekriterien:

• Ökonomie

• Nützlichkeit

• Normierung

• Vergleichbarkeit

• Zumutbarkeit

• Fairness

• Nicht-Verfälschbarkeit

• ABER: Sind nicht notwendig; manche Test müssen sie nicht haben, weil sie in der Anwendung nicht

brauchbar sind

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Objektivität

Objektivität: Definition: Grad der Unabhängigkeit der Testergebnisses von der Person des Testleiters. Erste und

einfachste Form.

( Prinzip der Backform, wenn man einen Test durchführt -> keine Veränderung Objektivität dann gegeben, wenn TL immer gleich vorgehen, gleich reden, gleich formulieren,

Kleidung gleich unauffällig etc. Manche TP achten stärker auf die TP als andere TP. Daher sollte sich TL immer gleich verhalten. Dann wird die Person der TL den Testwert nicht stark beeinflussen. Globale Beeinflussung: drückt aus, wie sich TL oder Situation auf alle TP auswirkt; kann entstehen, wenn bei einer Testung die Sonne scheint (beeinflusst alle). Differentielle Beeinflussung: drückt aus, wie sich TL oder Situation auf manche auswirkt)

- Eine Testwertinterpretation ist dann objektiv, wenn die Durchführung und Auswertung eines

Tests sowie die Interpretation einer Testleistung nicht variiert, auch wenn unterschiedliche

Testleiter den Test durchführen.

- Durchführungsobjektivität: Standardisierung (immer gleiche Durchführung) der

Untersuchungssituation -> Verhalten, Kommunikation, Fragen, Antwortmöglichkeiten

- Auswertungsobjektivität: Unveränderlichkeit beim Denken; Schablonenauswertung -> keinen

Fehler machen, Computerdiagnostik; oder bei Fragebogen und Ratingskalen: Festlegung der

Antwortmöglichkeiten, Ratertraining, Beobachtungsschulung etc.; oder bei Projektiven Tests:

Festlegung exakter Auswertungsregeln

- Interpretationsobjektivität: Festlegung der Interpretationsmöglichkeiten, Konfidenzintervall

(wie

gut ist es mir möglich einen Test nicht überwerten, es gibt einen Range, nicht nur einen

Punktwert), Beispiele; Möglichkeit der Einordnung hängt von der Präzision der Normen ab ->

Einordnungsmöglichkeiten sind vom Manual vorgegeben)

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Reliabilität

Definition: Unter Reliabilität versteht man den Grad der Genauigkeit, mit dem ein Testwert ein

bestimmtes Merkmal misst. Auch Zuverlässigkeit (Messpräzision) genannt. Es gibt unterschiedliche

Reliabilitätsschätzer/ Reliabilitätskoeffizienten.

- Testhalbierungs-Korrelation und interne Konsistenz -> Überprüfen ob Items sich ähnlich sind

• Schätzung anhand testinterner Informationen

• Testhalbierungsreliabilität: Teilung des Tests in möglichst „gleiche“ Testhälften;

Ermittlung der Korrelation zwischen den Testhälften und Aufwertung des

Reliabilitätskoeffizienten

- Interne Konsistenz

• Jedes Item wird als eigenständiger Testteil angesehen

• z.B. Cronbachs Alpha

• berücksichtigte den Zusammenhang zwischen Items und Testlänge

- Test-Retest-Korrelation: Testdurchführung zu zwei verschiedenen Testzeitpunkten. Ermittlung

einer Korrelation zwischen den Testleistungen. Die Korrelation kann in Abhängigkeit vom

Zeitintervall variieren. Merkmalsstabilität

Funktioniert auch tau-kongenerischen Items -> den gleiche Items werden mit t1 und t2

verglichen, ob die Items die gleiche Rangliste haben bei t1 und t2

- Paralleltest-Korrelation: Berechnung einer Korrelation zwischen zwei Tests, die dieselbe

Eigenschaft oder Fähigkeit messen. Wie invariant sind die Testergebnisse gegenüber einer

inhaltlichen oder zeitlichen Variation? Bedingungsstabilität

- Kontrukt-Reliabilität: Über faktorenanalytische Verfahren. Ermittlung des jeweiligen Tau-

Anteils/Item. Gewichtung des jeweiligen Itemeinflusses auf Gesamtreliabilität. Weniger

Voraussetzungen als interne Konsistenz/Testhalbierungskorrelationen

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Validität

Definition: Das Ausmaß, in dem ein Test auch tatsächlich das Merkmal misst, das er zu messen

vorgibt. Auch Gültigkeit genannt. Zentrales Gütekriterium: Ein valider Test erlaubt die

Generalisierung des im Test beobachteten Verhaltens auf Verhaltens außerhalb der Testsituation

Wie sehr der Inhalt auch das Konstrukt misst. Messen die Items auch tatsächlich, das Konstrukt, das

man vorgibt zu messen. Inhalt kann nicht berechnet werden, sondern überprüft werden. Haben die

Items im Test wirklich etwas mit den Verhaltensweisen zutun die das Konstrukt darstellen.

> Achtung: Analogie (Eigenschaft in Situation A sollte in Situation B ähnlich die Person prägen)-

vs. Induktionsschluss

> Ziel des psychologischen Testens: menschliches Verhalten erklären und vorhersagen können

> Es gibt unterschiedliche Validitätsarten/ Validitätsschätzungen

Inhaltsvalidität

Ist dann gegeben, wenn ein Testwert bzw. die zugrunde liegenden Items das zu messende Merkmal

hinreichend präzise erfassen. Kann nur von Expert*innen beantworten werden.

• [Repräsentative Ziehung aus dem Itemuniversum]

• Beispiel Ängstlichkeit

− Aufgeregtheit (affektive Komponente)

− Besorgnis (kognitive Komponente)

• Bestimmung der Inhaltsvalidität:

− Expertenbefragung

− Analyse bestehender Verfahren

− fundierte theoretische Modelle

Kriteriumsvalidität

➔ Testwert und Kriterium sollen in Zusammenhang stehen

➔ Nur für die Anwendung wichtig! Kann ich damit (dem Testwert) etwas vorhersagen?

➔ Kriteriumsvalidität zeigt Nützlichkeit der Testung

− Vorhersagevalidität: Korrelation mit zeitlich später erhobenen Kriterien (z.B.

Intelligenztestleistung vor Beginn der Lehre wird mit Abschlussnote der Ausbildung

korreliert)

− Übereinstimmungsvalidität: Korrelation mit zeitgleich erhobenen Kriterien (z.B.

Konzentrationsleistung vor Klausur wird mit Klausurnote korreliert) -> nur zur

Hypothesengenerierung nutzbar -> keinen Nutzen für die Zukunft

− Retrospektive Validität: Korrelation mit zeitlich vorher ermittelten Kriterien (z.B.

Intelligenzleistung während Studium wird mit Abiturnoten korreliert) ->

− Inkrementelle Validität: Bezeichnet den Beitrag eines Testwerts zur Verbesserung der

Vorhersage eines Kriteriums (z.B. Persönlichkeitstestwert als Inkrement zu Leistungstests bei

Vorhersage des Schulerfolgs

Konstruktvalidität

Wird das interessierende Merkmal (seine Struktur/seine Außengrenzen) abgebildet? Man

unterscheidet verschiedene Arten der Konstruktvalidität:

− Konvergente Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem anderen

Verfahren (das dasselbe Konstrukt erfassen will) zusammen?

➜Erwartung einer hohen Korrelation

➔ Ist der Test vergleichbar mit den Tests die das gleiche messen?

− Diskriminante Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem anderen

Verfahren (das ein anderes Konstrukt [nahe im nomologischen Netz] erfassen will)

zusammen?

➜Erwartung einer niedrigen Korrelation

➔ Wie die Grenze nach außen aussieht

➔ Wie kann ich sicherstellen das mein Konstrukt sich von anderen abgrenzen lässt

➔ Überprüfen: wo gibt es Grenzen zwischen meinem Konstrukt und anderen leicht zu

verwechselnden Konstrukten.

− Faktorielle oder strukturelle Validität: Faktorenanalytische Untersuchung der testinternen

Struktur und/oder von Zusammenhängen des entwickelten Tests mit anderen Tests -> wie

die Struktur aussieht

➔ Teilt sich das Konstrukt in Teilbereiche? Ist es ein monolithisches Konstrukt oder unterteilt?

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Skalierbarkeit des Tests

Klassische Testtheorie (KTT)

− trivial scoring function

− Testwert als Summe der Itemantworten einer Skala

− Annahme: Jedes Item trägt gleichermaßen zum Testwert bei (Einheitsgewichtung)

Probabilistische Testtheorie (PTT)/ Item-Response-Theorie (IRT)

− Überprüfung der Gültigkeit der Verrechnungsvorschrift

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Zusammenhang zwischen Objektivität, Reliabilität und Validität

Ist der Testwert nicht objektiv, kann der Testwert keine hohe Reliabilitätsschätzung erreichen. Die

Testwertinterpretation kann daher keine gute Vorhersage treffen. Und die Validität ist nicht gegeben.

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Nebengütekriterien

• Ökonomie

• Nützlichkeit

• Normierung

• Vergleichbarkeit

• Zumutbarkeit

• Fairness

• Nicht-Verfälschbarkeit

• ABER Sind nicht notwendig; manche Test müssen sie nicht haben, weil sie in der Anwendung nicht

brauchbar sind

Normierung: Über den Test müssen Normen vorliegen, die eine Einschätzung der individuellen

Testleistung ermöglichen. Nur dann ist ein Rückschluss auf die Ausprägung der einzelnen Probanden

möglich. Nur wenn man die…

Vergleichbarkeit: Ein Test ist vergleichbar, wenn eine oder mehrere Parallelform/en oder Tests mit

demselben Gültigkeitsbereich vorhanden sind. Ob ein Test mit einem anderen Äquivalent ist, trifft

fast nie zu.

Ökonomie: Ein Test ist ökonomisch, wenn er kurz, einfach zu handhaben, für eine Gruppentestung

tauglich, wenig materialintensiv und schnell auswertbar ist. Wie teuer ist der Test in Durchführung

und Auswertung und wie viel zeitlichen Aufwand braucht man.

Nützlichkeit: Ein Test ist nützlich, wenn er ein Merkmal misst oder vorhersagt, für dessen

Untersuchung ein praktisches Bedürfnis besteht.

Zumutbarkeit: Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher, psychischer und

körperlicher Hinsicht schont. Lange Test belasten den TP viel mehr als kürzere Tests. Aber wenn man

nützliche Ergebnisse erzielt ist es durchaus durchzuführen.

Fairness: Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung

relevante Gruppen nicht diskriminieren. Keine Gruppe von Menschen wird systematisch bevorzugt

oder benachteiligt.

Nicht-Verfälschbarkeit: Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht

willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil

zieht. Wie faking sicher ist der Test -> kann die TP sich besser bzw. schlechter darstellen, als sie ist?

Man kann ein Verfahren nicht wirklich faking sicher machen.

Konstruktdefinition: Eingrenzung des Merkmals und Erstellen einer Arbeitsdefinition

Latente Variable: die man nicht direkt messen, sondern erst mithilfe anderer Vraiblen erschließen

muss. Die meisten Variablen in der Psychologie sind latent. Muss nicht notwendigerweise ein

Konstrukt sein. Sie kann auch aus mehrere Konstrukte bestehen.

Ein Konstrukt ist immer eine latente Variable, etwas was wir nicht beobachten können. zb intelligenz

Manifeste Variable: das „Verhalten“ das man sehen, bzw. messen kann. Es handelt sich dabei um

Merkmale, die direkt beobachtbar sind.

Reflexive Items = immer eine manifeste Variable. Den sich spiegelt wieder, was in uns steckt.

Formative Items =

Formative Items sind Fragen oder Aufgaben, die nicht primär dazu dienen, ein festes Endergebnis oder eine Endbewertung zu liefern, sondern vielmehr darauf abzielen, Lernprozesse oder Entwicklungen im Verlauf eines Prozesses zu erfassen und zu unterstützen.

Zumutbarkeit: Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher, psychischer und

körperlicher Hinsicht schont.

Fairness: Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung

relevante Gruppen nicht diskriminieren.

Nicht-Verfälschbarkeit: Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht

willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil

zieht.

Was ist einer der wichtigsten Schritte in der Testkonstruktion und wird dennoch häufig vernachlässigt ?

und welche sprache nutzt man für einen test?

Zum messen des Konstrukts braucht man eine Arbeitsdefinition, dies ist einer der wichtigsten

Schritte in der Testkonstruktion! Wird dennoch häufig vernachlässigt. -> Was ist die Sprach die ich für

den Test nutzen muss. -> wichtiger Schritt

Sprache des tests:

ABC der Testkonstruktion:

A) Welches Konstrukt wird gemessen? -> Immer ein Konstrukt als Entität sehen -> man braucht

eine Innen- und Außendefinition (Abgrenzung zu anderen Konstrukten)

-> Leichter die Außentrennung vor zunehmen – Abgrenzung ist nur dann sinnvoll, wenn eine

Verwechslung möglich ist

Prinzipien des nomologischen Netzes beachten!

B) Zu welchem Zweck? -> Kriteriumsvalidität; Konstrukte lassen sich in unterschiedlichen

Situation erheben, und ihre Ausprägung ist dann auch anders

-> handelt es sich um Einzelfall- vs. Gruppendiagnostik; Status vs. Prozessdiagnostik oder

spezielle Erhebungskontexte

C) Bei wem? -> für wen, ist der Test? -> erwachsene, Jugendliche, Kinder; klinisch vs. Nicht-

klinisch Testpersonen

Je nachdem, was ich vorhersagen möchte variiert die Definition von dem Konstrukt z.B. Intelligenz.

Nur weil es ein Verfahren für das Konstrukt schon gibt, heißt das nicht das das Verfahren auch

passend ist für einen selbst ist. Hat das Verfahren eine passende Konstruktdefinition? Passen die

Gütekriterien zu den eigenen Ansprüchen. Wenn bereits ein ähnlicher Test vorhanden ist, sollte eine

Begründung für die Neuentwicklung gegeben werden.

Methoden der Eingrenzung und Abgrenzung eines Konstrukts

welche methoden gibt es dafür und wann nutzen wir welche methoden ?

Ziele: Identifikation von Konstruktindikatoren und Identifikation von Überlappungsbereichen zu

anderen Konstrukten und Unterschieden ➜ „Was ist es? Was ist es nicht?“

Methoden:

1. Erfahrungsgeleitet-intuitive Methode

2. Literaturrecherche

3. (Arbeits)analytisch-empirische Methode

4. Personenbezogen-empirische Methode

Wann nutzen wir welche Methode?

- Frage: Ist das Messziel/Konstrukt weitgehend bekannt oder nicht?

- Top-down: Erfahrungsgeleitet-intuitiver Ansatz, Literaturrecherche, Personenbezogen-

empirischer Ansatz

- Bottom-up: Erfahrungsgeleitet-intuitiver Ansatz, Literaturrecherche, Personenbezogen-

empirischer Ansatz

➔ Kombination aus Top-down und Botto-up ist möglich

Methoden der Eingrenzung und Abgrenzung eines Konstrukts

Erfahrungsgeleitet-intuitive Methode

Bei der erfahrungsgeleitet-intuitiven Methode wird auf Basis von Expertenwissen definiert, was in

einem diagnostischen Verfahren gemessen werden soll.

- Grundgedanke: Personen, die detailliertes Wissen über das zu erfassende Konstrukt haben,

nehmen Eingrenzung vor und benennen Indikatoren

• Expertinnen und Experten aus Academia oder der Berufspraxis • Auch Laien können

Expertise haben ➜ Einbindung der Zielgruppe, um Akzeptanz des Tests zu erhöhen

- Umsetzung: Workshops, schriftliche Befragung, Interviews

- Nachteil: Resultate hängen von der Qualität des Expertenwissens ab

Expertenwissen nutzen um eine Definition zu erstellen für das zu erfassende Konstrukt. Experten sind

häufig auch die Zielgruppe des Tests

Methoden der Eingrenzung und Abgrenzung eines Konstrukts

Literaturrecherche

Ausweitung der Erfahrungsgeleiteten Methoden, denn man nutzt Erfahrungen von Menschen nicht

in direkter Nähe sind. Sammeln und systematisieren wiederkehrender Definitionsmerkmale. Findet

man immer wieder gleiche Definitionen, kann man diese übernehmen.

- Ziel: Identifikation von Konstruktindikatoren und Definitionen aus der Fachliteratur

- Lehrbücher

- Überblicksartikel (reviews)

- Literatursuchmaschinen: PsycInfo, Psyndex, Web of Science, GoogleScholar

- Bereits existierende Testverfahren

• Wie erfolgt dort die Eingrenzung?

• Von welchen Konstrukten erfolgt eine Abgrenzung?

➜ Sammeln und Systematisieren wiederkehrender Definitionsmerkmale des Konstrukts

Methoden der Eingrenzung und Abgrenzung eines Konstrukts

Arbeitsanalytisch-empirische Methode

Grundidee: Verhaltensindikatoren für das Konstrukt werden durch die Verwendung standardisierter

Beobachtungs- oder Befragungsinstrumente identifiziert

➔ Critical Incident Technique (Flanagan, 1954)

• Oft verwendete Methode zur Ermittlung von Verhaltensankern, wenn Merkmal

unbekannt

• Bsp. Berufserfolg von Strahlenschutz-technikern • Kritische Situationen ermitteln, darin

Verhaltensweisen sammeln

• „Experten“ sollen, (meist) retrospektiv, aus diesen Situationen berichten

➜ Aus Verhaltensweisen auf Personeneigenschaften schließe

Verhaltensindikatoren für das Konstrukt werden durch die Verwendung standardisierter

Beobachtungs- oder Befragungsinstrumente identifiziert. -> Critical Incident Technique: oft

verwendete Methode zur Ermittlung von Verhaltensankern, wenn Merkmal unbekannt. Die Kritische

Situation wird an die TP vermittelt und darin werden Verhaltensweisen gesammelt. Experten sollen,

(meist) retrospektiv aus diesen Situationen berichten -> aus den Verhaltensweisen sollen auf

Personeneigenschaften geschlossen werden

!Kritische Situationen sind Situation die emotional aufgeladen sind -> hohes Maß an Freude, Angst,

Scham, Wut! -> Wichtig mehrere Menschen interviewen um verschiedene Aspekte aufzugreifen.

Versuchen TP an Situation zurück zu erinnern, die nicht länger her ist, als zwei Wochen.

Erfahrungsgeleitet-intuitive Methode

Methoden der Eingrenzung und Abgrenzung eines Konstrukts

Personenbezogen-empirische Methode

Grundidee: Empirisch gefundene Zusammenhänge zwischen dem zu messenden Konstrukt und

anderen Konstrukten und Kriterien nutzen ➜ Daraus auf zugrunde liegende Verhaltensindikatoren

bzw. auf die Struktur des nomologischen Netzes schließen

Empirische Befunde werden z.B. aus Metanalysen entnommen (z.B. Intelligenz und Berufserfolg:

Schmidt & Hunter, 1998) ➜ Konstruktüberlappungen werden leichter aufgedeckt

Nachteil: Methode nur sinnvoll, wenn schon verlässliche Verfahren zur Erfassung des Konstrukts

vorliegen ➜ Neuentwicklung dann wirklich sinnvoll?

Aus all den vorangegangen Methoden findet man innere und äußere Strukturen meines Konstrukt.

➔ Integration der Ergebnisse verschiedener Methoden z.B. graphisch

➔ Gesammelte Indikatoren werden dem Konstrukt bzw. anderen Konstrukten zugeordnet

➔ Lage des Konstrukts im nomologischen Netz festlegen

➔ Vorteil: Hohe Inhaltsvalidität der Konstruktdefinition

Es geht darum angrenzende Konstrukte und innerhalb des Konstrukt liegende Aspekte abzugrenzen

und definieren.

1. Erfahrungsgeleitet-intuitive Methode

2. Literaturrecherche

3. (Arbeits)analytisch-empirische Methode

4. Personenbezogen-empirische MethodeMethoden der Eingrenzung und Abgrenzung eines Konstrukts

Die vier Methoden erlauben es ...

- relevante Konstruktindikatoren zu identifizieren,

- das nomologische Netz des Konstrukts zu elaborieren und

- das Konstrukt im nomologischen Netz zu verorten

Auf dieser Grundlage sollte sich eine möglichst verhaltensnahe Arbeitsdefinition erstellen lassen

Das nomologische Netz ist damit definiert ➜ ABC der Testkonstruktion:

„A) Was wird gemessen?“ ➜ Grundlage für Validierungsstrategie

Join Course

Preview

Author

Nipu D.

Information

Last changed
4 months ago

Report course