Psychologische Diagnostik: Definitionen, Grundkonzepte und Anwendungsfelder
Entwicklungspädagogik und Bildungsbereich
Diagnostik und Stabilität
Intelligenz als Konstrukt
Interesse und Motivation
Konsequenzen der Diagnostik
Anwendungsfelder der Diagnostik
Diagnostik ist relativ
Entwicklungspädagogik und Bildungsbereich: Entwicklungsdefizit im Vergleich zu Peers; Einschulung; Probleme erkennen; spezielle Tests bei Kindern anwenden.
Diagnostik und Stabilität: Diagnostik muss eine Stabilität aufweisen; Tests sollen ein ganzheitliches Bild abbilden; gute Diagnostik ist mehr als nur ein Verfahren.
Intelligenz als Konstrukt: Entsteht an der Aufgabe; Diagnostik liefert mit bestimmter Sicherheit ein Ergebnis (ja, nein, kann ich nicht sagen).
Ergebnisse der Diagnostik: Keine einheitliche Antwort auf "gut oder schlecht"; Kontext ist entscheidend.
Interesse und Motivation: Ebenfalls wichtig wie kognitive Fähigkeiten; Diagnostik entscheidet nur das, was sie messen soll.
Konsequenzen der Diagnostik: Risiken von Stigmatisierung bei "Labeling"; was passiert mit der Person nach der Diagnose?
Anwendungsfelder: MPU (Medizinisch-Psychologische Untersuchung), Fahreignungsdiagnostik, forensische Diagnostik (z.B. Schuldfähigkeit, Zurechnungsfähigkeit).
Verhalten: Ergebnis von Person und Umwelt (Levine); vergangenes Verhalten als Vorhersage für zukünftiges Verhalten.
Diagnostik ist relativ: Keine 100%igen Ergebnisse möglich; Stabilitätsprobleme (z.B. in einer Woche anders); Alpha/Beta-Problem.
Grenzwertige Situationen: Keine verlässliche Diagnostik möglich; fehlende Vergleichssituationen.
Roth & Herzberg (2008): Psychologische Testverfahren machen 24.4% (klinische Psychologie) bis 44.1% (forensische Psychologie) der Gesamttätigkeit aus.
Was ist die wichtigste diagnostische Informationsquelle für Psychologinnen und Psychologen?
Wie sieht die Gesamttätigkeit eines Psychologen in % aus?
Psychologische Testverfahren gehören, neben Verhaltensbeobachtung und dem explorativen
Gespräch, zu den wichtigsten diagnostischen Informationsquellen für Psychologinnen und
Psychologen.
Die Psychologische Diagnostik nimmt je nach Anwendungsfeld zwischen 24.4%
(klinische Psychologie) und 44.1% (forensische Psychologie) der Gesamttätigkeit eines Psychologen ein.
ein. Roth & Herzberg (2008)
Nenne eine Definition der Psychologischen Diagnostik
- dia-gignōskein [griech.] = gründlich kennen lernen, entscheiden, beschließen
- Psychologische Diagnostik ist nach Jäger und Petermann (1995):
… das systemmische Sammeln von Informationen mit dem Ziel, Entscheidungen und daraus
resultierende Handlungen zu begründen, zu kontrollieren zu optimieren.
… ein System von Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten
mit dem Ziel psychologisch relevante Charakteristika von Merkmalsträgern zu gewinnen,
Daten zu einem diagnostischen Urteil zu integrieren und Entscheidungen sowie Prognosen
und deren Evaluation vorzubereiten
- Merkmalsträger: Einzelpersonen, Personengruppen, Institutionen, Situation, Gegenstände
Nenne eine Definition Psychologischer Tests
nach Lienert und Ratz (1998)
Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch
abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den
relativen Grad der individuellen Merkmalsausprägung.
Psychologische Tests…
• Im engeren Sinne Leistungstests, psychometrische Persönlichkeitstests und Persönlichkeits-
Entfaltungs-Verfrahren
• Im weiteren Sinne gehören auch standardisierte Interviews und standardisierte
Verhaltensbeobachtungen dazu
• Erfassen Fähigkeiten, Eigenschaften, Fertigkeiten und Zustände (= nicht direkt beobachtbare
Konstrukte = latente Variablen) einer Person
• Beinhalten eindimensionale Testwerte, um die Konstrukte und deren Facetten abzubilden
(Latente Variablen sind nicht direkt messbare, sondern theoretische Konstrukte, die aus mehreren beobachtbaren Indikatoren oder manifesten Variablen abgeleitet werden. Sie repräsentieren abstrakte Konzepte wie Intelligenz, Motivation, oder Persönlichkeitsmerkmale, die nicht unmittelbar beobachtet oder gemessen werden können, aber durch statistische Modelle aus den beobachtbaren Daten erschlossen werden.)
Nenne Formale Klassifikationskriterien von Testverfahren
• Anzahl diagnostisch verwertbarer Scores (eindimensional vs. Mehrdimensional)
• Sprachgebundenheit („culture fair“)
• Durchführungsmodalitäten
Einzeltests vs. Gruppentests
Papier und Bleistieft vs. Computergestützte Verfahren
• Speed-Tests vs. Power-Tests
• Antwortabhängig vs. antwortunabhängig
Nenne inhaltlich-theoretische Klassifikationskriterien von Testverfahren
Klassifikation von Testverfahren nach Brähler et al. (2002):
1. Leistungstest: z.B. Entwicklungstests, Intelligenztests, allgemeine Leistungstest, Schultests,
spezielle Funktionsprüfungs- und Eignungstests
2. Psychometrische Persönlichkeitstests: Persönlichkeitsstrukturtests, Einstellungstests,
Interessentests, klinische Tests
3. Persönlichkeits-Entfaltungs-Verfahren: Formdeuteverfahren, zeichnerische- und
Gestaltungsverfahren, Verbal-thematische Verfahren
Tests of maximum performance vs. tests of typical response (Cronbach, 1990)
Psychometrische Persönlichkeitstests vs Persönlichkeits-Entfaltungs-Verfahren
Was sind die Ziele und Grenzen der psychologischen Diagnostik?
Welche Unsicherheiten gibt es in der Diagnostik und wie wird mit diesen umgegangen?
Was zeichnet ein wissenschaftliches Routineverfahren aus?
Was ist der Unterschied zwischen kategorialer und dimensionaler Betrachtung von Persönlichkeitsmerkmalen?
1. Was sind die Ziele und Grenzen der psychologischen Diagnostik?
Antwort: Die Hauptzielsetzung der Diagnostik ist die Reduktion von Unsicherheiten. Eine vollständige Unsicherheitsreduktion ist jedoch nicht möglich, da Diagnostik nie 100%ige Sicherheit bieten kann.
2. Welche Unsicherheiten gibt es in der Diagnostik und wie wird mit diesen umgegangen?
Antwort: Unsicherheiten entstehen durch die Komplexität menschlichen Verhaltens. Sie können durch systematische, regelgeleitete Informationssammlung reduziert werden. Diagnostik ist immer ein Prozess der Unsicherheitsreduktion, aber eine vollständige Eliminierung der Unsicherheit ist nicht möglich.
3. Was zeichnet ein wissenschaftliches Routineverfahren aus?
Antwort: Ein wissenschaftliches Routineverfahren muss objektiv und transparent sein. Es ist so konzipiert, dass das Ergebnis unabhängig vom Testdurchführer immer gleich bleibt. Jeder kann auf die Testmethoden und Ergebnisse zugreifen, was eine Reproduzierbarkeit gewährleistet.
4. Was ist der Unterschied zwischen kategorialer und dimensionaler Betrachtung von Persönlichkeitsmerkmalen?
Antwort:
Kategoriale Betrachtung: Persönlichkeitsmerkmale werden als entweder erfüllt oder nicht erfüllt angesehen, z.B. Narzissten sind entweder vorhanden oder nicht. Dies entspricht einer Schubladentheorie (z.B. "erkrankt" vs. "gesund").
Dimensionale Betrachtung: Merkmale sind ein Spektrum, z.B. hat jeder Mensch einen bestimmten Grad an Narzissmus, aber es variiert in der Intensität. Jeder Mensch hat alle Eigenschaften in sich, sie sind jedoch unterschiedlich stark ausgeprägt.
Was unterscheidet Fähigkeit, Fertigkeit und Performanz?
Wie unterscheiden sich Speed- und Power-Tests und welche Tests gibt es?
Welche Arten von Testverfahren existieren und wie werden die Ergebnisse eingeteilt?
wie wird die leistung in tests bewertet?
. Was ist der Unterschied zwischen Fähigkeit, Fertigkeit und Performanz?
welche einflussfaktoren gibt es auf die Testleistung?
5. Was unterscheidet Fähigkeit, Fertigkeit und Performanz?
Fähigkeit: Ein unveränderliches Potenzial, das eine Person von Natur aus besitzt (z.B. Intelligenz).
Fertigkeit: Fähigkeiten, die durch Übung erlernt und perfektioniert werden können (z.B. eine Sprache sprechen).
Performanz: Das tatsächliche Verhalten oder die gezeigte Leistung, die eine Kombination aus Fähigkeit und Fertigkeit darstellt.
6. Wie unterscheiden sich Speed- und Power-Tests und welche Tests gibt es?
Speed-Tests: Messen die kognitive Geschwindigkeit (z.B. D2R), bei denen die Fähigkeit zur schnellen Verarbeitung und Antwort im Vordergrund steht.
Power-Tests: Messen die maximale Leistungsfähigkeit, z.B. Intelligenztests. Hier sind die Aufgaben oft schwierig, sodass nicht alle für jede Person lösbar sind.
Testarten:
Leistungstests (Power-Tests): Messen das maximal mögliche Verhalten.
Psychometrische Persönlichkeitstests: Messen Persönlichkeitsmerkmale, wobei das Ergebnis den Ausprägungsgrad eines Merkmals angibt.
Persönlichkeits-Entfaltungs-Verfahren: Diese Tests locken Eigenschaften, die nicht direkt zugänglich sind, heraus. Die Antworten sind nicht vorgegeben, sondern frei gegeben.
7. Welche Arten von Testverfahren existieren und wie werden die Ergebnisse eingeteilt?
Eindimensionale Tests (z.B. BDI): Diese messen eine einzige Dimension, z.B. Depressivität.
Mehrdimensionale Tests (z.B. Big Five): Diese messen mehrere Dimensionen von Persönlichkeitsmerkmalen, z.B. Extraversion, Neurotizismus.
Culture-fair Tests: Tests, die nicht sprachgebunden sind und somit allen Teilnehmenden gleiche Chancen bieten, unabhängig von ihrer Sprachkenntnis.
Antwortunabhängige Tests: Das Ergebnis ist nicht von den Antworten abhängig, sondern basiert auf der Ausführung der Aufgabe (z.B. Speed-Tests).
Antwortabhängige Tests: Ergebnisse basieren direkt auf den gegebenen Antworten (z.B. psychometrische Tests).
8. Wie wird die Leistung in Tests bewertet?
Maximum Performance: Das bestmögliche Verhalten oder die höchste Leistung, die eine Person in einer bestimmten Aufgabe zeigt (z.B. Leistungstests).
Typical Response: Das typische Verhalten einer Person in alltäglichen Situationen. Wie reagiert jemand gewöhnlich auf bestimmte Reize oder in bestimmten Kontexten?
9. Was ist der Unterschied zwischen Fähigkeit, Fertigkeit und Performanz?
Fähigkeit: Ein stabiles, unveränderliches Potenzial (z.B. Grundintelligenz).
Fertigkeit: Etwas, das man lernen und üben kann, z.B. Schach spielen oder ein Musikinstrument spielen.
Performanz: Gezeigte Leistung einer Person, eine Kombination aus den vorher genannten Aspekten.
10. Welche Einflussfaktoren gibt es auf die Testleistung?
Wachheit: Der Zustand der Person, z.B. wie wach oder erschöpft sie ist, beeinflusst die Testleistung.
Art des Tests: Der Unterschied zwischen Papier- und Computerbasierten Tests kann das Ergebnis beeinflussen.
Testumgebung und Ausfüllweise: Ob der Test auf Papier oder digital durchgeführt wird, kann die Testergebnisse beeinflussen, da verschiedene Modalitäten unterschiedliche kognitive Prozesse aktivieren.
F32 Kombinierte Leistungsmaße z.B. D2R; Performanz kann nur als Indikator gelten, wenn…
Maßgeschneidertes testen - wie funktioniert das und warum
F32 Kombinierte Leistungsmaße z.B. D2R; Performanz kann nur als Indikator gelten, wenn Person
auch die Kompetenz dazu hat und auch zeigt
F39 Maßgeschneidertes Testen: nach jedem Test, wird das Fähigkeitsniveau der TP geschätzt und
nächste Item passt besser.
Fähigkeits - und Leistungsdiagnostik
Definiere:
Fähigkeit
Fertigkeit
Performanz
Wie erfolgt die Bewertung der Performanz?
Fähigkeit: psychische und physische Bedingungen, dies ermöglichen eine Leistung zu erbringen; sie
sind latent, d.h. sie können nur über Beobachtungen erschlossen werden; z.B. Intelligenz,
Konzentration, Vigilanz
Fertigkeit: Bezeichnet die zu einer Leistung notwendigen Techniken und Kenntnisse, die durch Übung
erworben werden.
Performanz: Aktuelle Leistung aus der auf die zugrunde liegenden Fähigkeiten und Fertigkeiten
geschlossen wird.
Bewertung der Performanz:
▪ Richtigkeit (korrekt vs. Falsch)
▪ Qualität (mehrere, unterschiedlich gute Lösungen möglich)
▪ Schnelligkeit (Tempo, mit dem Lösung generiert wird)
Häufig werden auch kombinierte Leistungsmaßstäbe genutzt!
Das Kompetenz-Performanz-Problem
Performanz ist nur dann ein Indikator für eine Fähigkeit
(Kompetenz), wenn die Testperson die Leistungsmaßstäbe versteht und übernimmt.
Schnelligkeitstests (speed tests) vs Niveautest (power tests)
Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben
werden:
Konventionelle Testvorgabe
Antwortabhängige Testvorgabe (sequentielle Vorgabe oder adaptive Vorgabe)
Sequentielles Testen
Adaptives Testen
Verzweigtes Testen
Maßgeschneidertes Testen
Konventionelle Testvorgabe:
▪ Jeder Proband bearbeitet den gleichen Itemsatz, selbe Reihenfolge
▪ Fixierte Itemmenge
▪ Oft Staffelung nach Schwierigkeit: leichte Items zuerst
▪ Für Messpräzision in allen Bereichen des Merkmalskontinuums ist eine große Itemmenge mit
unterschiedlichen Schwierigkeiten nötig
▪ Adaptive Elemente: sind in manchen Tests vorhanden, z.B. Hamburg-Wechsler-Intelligenztest für
Kinder 3; Abbruchkriterien bzw. Umkehrregeln zu leichteren Items; spezifische Einstiegsitems
(nach vermutetem Fähigkeitsniveau); Ziele: Steigerung der Ökonomie, Vermeidung von
Demotivation
werden: Antwortabhängige Testvorgabe (sequentielle Vorgabe oder adaptive Vorgabe)
▪ Gegebene Antworten der TP entscheiden über den weiteren Verlauf des Testens
▪ Flexible Strategie der Informationserhebung
▪ Grundidee: es werden nur die Items verwendet, die einen deutlichen Informationsgewinn
versprechen
▪ Einsatz bei Selektions- oder Klassifikationsaufgaben
▪ Unterscheidung von sequentiellem und adaptivem Testen
werden: Sequentielles Testen
▪ Grundgedanke: Abbruch des Tests, sobald genügend Informationen vorliegen, um die Testperson
einer Gruppe zuzuordnen
▪ Bsp.: Hat ein Klient eine Angststörung?
▪ Einsatz bei Selektions- oder Klassifikationsaufgaben, z.B. Entscheidungsbäume nach DSM,
Symptom-Checklisten
▪ Entscheidungsregeln: nach jeder Aufgabe erfolgt Prüfung, ob genug Informationen vorliegen, um
terminale Entscheidung treffen zu können
▪ Vorgabe meist am PC
▪ Vorteil: i.d.R kürzer und ökonomischer als konventionelle Tests
▪ Nachteil: keine Binnendifferenzierung innerhalb der Gruppen (A besser als B in der
angenommenen Kandidaten)
werden: Adaptives Testen
Was ist das Ziel von adaptiven Testen?
Was ist der Grundgedanke des adaptiven Testens?
Was ist die Konstruktionsgrundlage des adaptiven Testens ?
Was wird also gemacht beim adaptiven Testen?
Achtung …
Der Vergleich der Testpersonen ist nur durch was möglich?
Welche Arten des adaptiven Testens gibt es?
Was sind Vor und Nachteile des adaptiven Testens ?
▪ Ziel: quantitative Messung von Personenmerkmalen optimieren
▪ Grundgedanke: Erstellung eines individuellen Itemsatzes für jede Testperson, optimal
abgestimmt auf sein Fähigkeitsniveau
▪ Konstruktionsgrundlage: Item-Response-Theorie (IRT)
▪ Nach jedem Item wird entschieden, welches Item der Testperson als nächstes vorgelegt wird
(geringe, mittlere oder hohe Schwierigkeit)
▪ Informative Items = Items mit mittlerer Lösungswahrscheinlichkeit für die Testperson
▪ Testperson pendelt sich während der Testung auf Niveau der Itemschwierigkeit ein, das ihrem
Fähigkeitsniveau entspricht
▪ Achtung! Testpersonen können nicht über die Anzahl gelöster Items verglichen werden, da jede
Testperson einen individuellen Itemsatz bekommt.
-> Außer wenn Rasch-homogene Items
vorliegen! Der Vergleich der Testpersonen ist nur üb ihren Fähigkeitsparameter möglich.
▪ Es gibt zwei Arten adaptiven Testens: fest verzweigte (branched) Tests und variable,
maßgeschneiderte (tailored) Tests
Vorteile des adaptiven Testens
höhere Testökonomie
höhere Mespräzision
Evtl. höhere konvergente und diskriminante Validität
Effekte auf Testmotivation umstritten
Nachteile des adaptiven Testens
- Aufwändige Testkonstruktion
- IRT-konformer Itempool
- Großer Itempool (Gleichverteilung der Itemschwierigkeiten notwendig)
werden: Verzweigtes Testen
o Festgelegte Verzweigungen entweder nach jedem Item oder nach jeder Aufgabengruppe
o Itemanordnung und Zahl der Schritte a priori festgelegt
o Bsp.: Aufgabengruppen im AID-3 (Adaptives Intelligent Diagnostikum 3)
werden: Maßgeschneidertes Testen
o Maßgeschneiderte Verzweigungen: Itemanordnung und Zahl der Schritte nicht a priori festgelegt
o nach jedem Item wird das Fähigkeitsniveau der Testperson geschätzt und das nächste Item
ausgewählt, das für die geschätzte Fähigkeit den höchsten Informationszuwachs erwarten lässt
o gleichzeitige Ermittlung des Schätzfehlers (loop)
o Vorgabe computergestützt
Persönlichkeitsdiagnostik
Definiere Persönlichkeit
Persönlichkeit (lat. Persona, Maske, Rolle, Person) ist die Gesamtheit aller überdauernden
individuellen Besonderheiten im Erleben und Verhalten (= Persönlichkeitseigenschaften) eines
Menschen.
• Bsp.: Intelligenz, Aggressivität; Geselligkeit, Leistungsmotivation
• „Überdauernd“ bezieht sich auf die zeitliche Stabilität dieser Besonderheiten
• Dispositionen, d.h. Tendenzen bestimmte Situationen in einer bestimmten Weise zu erleben und
sich dort in bestimmter Weise zu verhalten
• Mit „individuellen Besonderheiten“ ist gemeint, dass es sich um Merkmale handelt, die zwischen
den Mitgliedern einer Bezugsgruppe variieren
Welche Datenquellen werden in der Persönlichkeitsdiagnostik unterschieden?
→ Persönlichkeiten können auf drei Weisen erfasst werden (Klassifikation nach Cattel, 1957):
Questionnaire-Daten (Q-Daten; flexibelste Art Daten zu erfassen): Selbstauskünfte im Interview,Exploration oder Fragebogen
Test-Daten (T-Daten): indirekte Verfahren, z.B. physiologische Daten, objektive und projektive Tests
3. Life-Daten (L-Daten): Fremdbeurteilungen, biographische Merkmale
Welche Informationen können mit Fragebögen/ Q-Daten erfasst werden?
(Questionnaire-Daten (Q-Daten; flexibelste Art Daten zu erfassen): Selbstauskünfte im Interview,
Exploration oder Fragebogen)
• Beschreibungen eigener Reaktionen („Es ist mir wichtig, nicht nervös zu erscheinen“) -> leichtes
Item; kann nur von der TP selbst beantwortet werden, oder einer Person dessen sie sich
anvertraut hat; Negation in einem Item sind für nicht-nativ speaker schwer zu verstehen, d.h. die
verbale Intelligent muss höher sein; nicht zu viele negative Items in einer Testkonstruktion
verwenden, den negative Items werden von der TP gedanklich positiv umformuliert
• Eigenschaftszuschreibungen („Ich bin ein geselliger Mensch“) -> Beschreibung einer Eigenschaft,
die Personen dadurch definieren wie sie dieses Eigenschaft in ihrer Lebensgeschichte erlebt
haben; jeder hat eine andere Definition des Wortes „gesellig“, es besteht demnach eine Differenz
zwischen den Definitionen; selbst bei einer Definitionsvorgabe des Wortes h.d. nicht das das
Item Trennschärfer wird, es kann eher dafür sorgen das die Motivation sinkt, weil das Item länger
wird durch die Beschreibung, andere wiederum denken sie brauchen keine Definition und überspringen diese Definition; Eigenschaftszuschreibungen sind kritisch zu bewerten, lieber
mehrfache Abstufungen nutzen um „Geselligkeit“ zu erheben
• Wünsche und Interessen („Ich würde gerne um die Welt segeln“) -> kann man nur intern
abfragen; Wertigkeit solcher Aussagen ist gering; fluktuieren, je nachdem welche Gehirnbereiche
aktiviert sind; es gibt proximale Wünsche und destinale Wünsche (zukunftswünsche, variieren
sehr stark)
• Biographische Fakten („In meiner Jugend bin ich schon mal mit dem Gesetz in Konflikt
gekommen“) -> sind Tatsachen die passiert sind; Verhaltensweisen die man in der Vergangenheit
gezeigt hat, können auch in der Zukunft wieder auftreten; solche Fragen stellt man besser im
Interview
• Einstellungen und Überzeugungen („Wenn ich starkes Herzklopfen verspüre, befürchte ich einen
Herzanfall zu bekommen“) -> „Ich möchte mich nicht blamieren/ schlecht abschneiden“ vs. „ Ich
möchte erfolgreich abschließen“ bei Leistungstests
• Reaktionen anderer gegenüber der eigenen Person („Meine Familie ist mit meinem Beruf nicht
einverstanden“) -> Umgebung angucken, ob bestimmte Verhaltensweisen begünstigt werden
durch das soziale Umfeld (Umfeldvariable)
• Bizarre Items („Man wollte mich schon mal vergiften“) -> z.B. die Erhebung einer Schizophrenie
oder dergleichen; kritisch zu betrachten, da Items tatsächlich auch wahr sein können
• Günstigste Item: Beschreibung einer Reaktionen und Biographische Fakten und Reaktionen
anderer gegenüber der eigenen Person (Umgebungsvariable)
Welche Arten von Items werden in Fragebögen verwendet?
− Gebundenes Format: Rating/Likert-Skalen (abgestufte Ausprägung; Interpretation der Abstufung
der Antworten ist subjektiv; zwei Antworttypen: Extrem- oder Mittelankreuzer (nicht die Mitte
der eigentlichen Skala, sondern die Mitte mit meiner eigenen mentalen Skala); breite Likert-Skala
sorgen für schwankende Antworten, weil mental die Skala eingegrenzt wird); sehr enges
Antwortverfahren angeben, damit man eingrenzen kann wie stark die Antwortskala von TP
mental abgeschnitten werden, binäre Items (Ja/Nein- Antwort), Mehrfach-Wahlaufgabe
− Ungebundenes Format: Lückentexte, freie Texte sind gut für die Messung von Kreativität; aber
die Auswertobjektivität geht verloren und die Vergleichbarkeit ist nicht gegeben; es ist essentiell
die Antworten vorher festzuhalten
Vor und Nachteile von Persönlichkeitsfragebögen / Q-Daten
Und T- Daten
Exploration oder Fragebogen
Test-Daten (T-Daten): indirekte Verfahren, z.B. physiologische Daten, objektive und projektive
Tests)
(T-Daten (Test-Daten):
Diese Daten kommen aus standardisierten Testsituationen, in denen das Verhalten der Testperson unter kontrollierten Bedingungen beobachtet wird.
Beispiel 1: Ergebnisse aus einem Intelligenztest, wie dem Wechsler Adult Intelligence Scale (WAIS). Hier wird die Leistung der Testperson in standardisierten Aufgaben wie Rechenaufgaben, Wortschatztests oder logischen Schlüssen gemessen.
Q-Daten (Questionnaire-Daten):
Diese Daten entstehen durch Selbstberichte der Testperson, meist in Form von Fragebögen oder Interviews, in denen die Person ihre eigenen Gedanken, Gefühle oder Verhaltensweisen beschreibt.)
Interpretation von Testwerten
Wie interpretiert man die Testwerte eines psychologischen Tests?
Wie wird der Testscore einer TP meiste gewonnen?
Arten von Bedeutungen des Testwerts
3 Arten von Bezugsrahmen für die individuelle testinterpretation
Der Testscore einer Testperson wird meist gewonnen durch simples Aufsummieren der Antworten
auf die Testitems („trivial scoring function“ = Summierung der Einzel Items; gehen davon aus das alle
Items gleich viel wert sind und deren Abstand ebenfalls -> die Zahlen auf der Likert-Skala spiegeln die
Abstände gut wieder -> werden die Abstände mit Zahlen adäquat dargestellt). Testwerte haben zwei
Arten von Bedeutung:
1. „allgemeine Bedeutung“: Testwert eignet sich als formale Beschreibung einer
Persönlichkeitseigenschaft -> Belege zur Konstruktvalidität notwendig
2. „besondere Bedeutung“ für Testperson -> ergibt sich erst durch einen sinnvollen
Bezugsrahmen für den Testscore
- Wie stark ist das Persönlichkeitsmerkmal bei der Testperson ausgeprägt?
- Ist der individuelle Testwert einer Person irgendwie besonders, auffällig oder hoch/niedrig?
Es gibt drei Arten von Bezugsrahmen für die Interpretation individueller Testergebnisse, wir können
den individuellen Testwert vergleichen mit…
▪ Vorangegangen Werten, z.B. am Anfang des Schuljahres (individuelles Bezugssystem)
▪ Einem Kriterium, z.B. Führerscheinprüfung, Abi (kriterienorientiertes Bezugssystem)
▪ Den Werten einer relevanten Vergleichsgruppe, z.B. Realschüler im selben Alter
(normorientiertes Bezugssystem)
Was bedeutet Varianz in Bezug auf psychologische Items?
Wie kann man mit der Korrelation von Items den Unterschied zwischen Personen messen?
Was ist wahre Varianz (true variance) und warum ist sie wichtig?
Was sind die Unterschiede zwischen Tau-äquivalent, Tau-parallel und Tau-kongenärlich?
Was ist der Zusammenhang zwischen Reliabilität und der Anzahl der verwendeten Items in einem Test?
Wie beeinflussen unterschiedliche Item-Gewichtungen die Reliabilität eines Tests?
1. Was bedeutet Varianz in Bezug auf psychologische Items?
Antwort: Varianz bezieht sich auf die Unterschiede im Antwortverhalten der Testpersonen. Wenn Menschen auf ein Item unterschiedlich reagieren, bedeutet das, dass dieses Item relevant für die psychologische Diagnostik ist, weil es tatsächliche Unterschiede zwischen den Personen misst.
2. Wie kann man mit der Korrelation von Items den Unterschied zwischen Personen messen?
Antwort: Die Korrelation zwischen den Items zeigt, ob sie in der Lage sind, Unterschiede zwischen Personen zu messen. Wenn eine hohe Korrelation besteht, messen die Items ähnliche Merkmale und zeigen die gleichen Unterschiede in der Population. Wenn die Korrelation gering ist, messen die Items unterschiedliche Merkmale.
3. Was ist wahre Varianz (true variance) und warum ist sie wichtig?
Antwort: Wahre Varianz ist der Teil der Varianz, der tatsächlich einen realen Unterschied zwischen den Personen darstellt. Es ist der Anteil der Varianz, der nicht durch Fehler beeinflusst wird. Zum Beispiel, wenn der wahre Wert einer Person 3,7 ist und der Fehlerwert 0,3, dann ist der wahre Unterschied zwischen den Personen 3,7 und der Fehler ist 0,3.
4. Was sind die Unterschiede zwischen Tau-äquivalent, Tau-parallel und Tau-kongenärlich?
Tau-äquivalent: Alle Items eines Tests messen dasselbe Merkmal mit derselben Reliabilität. Es ist wichtig, dass Items gleich viel Varianz erzeugen.
Tau-parallel: Hierbei sind die Items nicht exakt gleich, aber die Fehlervarianzen der Items sind gleich. Weniger relevant für die psychologische Diagnostik.
Tau-kongenärlich: In diesem Fall sind die Items so konzipiert, dass sie verschiedene Aspekte des gleichen Merkmals messen. Das ist der komplexeste Fall und die Reliabilität kann schwanken.
5. Was ist der Zusammenhang zwischen Reliabilität und der Anzahl der verwendeten Items in einem Test?
Antwort: Reliabilität steigt in der Regel, wenn mehr Items verwendet werden, da die Fehlerwerte sich ausgleichen und die Gesamtvarianz besser abgebildet wird. Ein Einzelitem ist weniger zuverlässig als eine Vielzahl von Items zusammen.
6. Wie beeinflussen unterschiedliche Item-Gewichtungen die Reliabilität eines Tests?
Antwort: Nicht alle Items eines Tests sind gleich wichtig. Einige Items messen stärker oder präziser das Zielmerkmal. Eine ungleiche Gewichtung kann zu einer Verringerung der Reliabilität führen, da manche Items über- oder untergewichtet sind. Die Items müssen also richtig gewichtet werden, um die beste Reliabilität zu erzielen.
Kriterien zur Beurteilung von Testverfahren
Es gibt über 6000 veröffentlichte psychologische Testverfahren
- Was ist ein „guter“ Test?
➔ Test, der für die Untersuchung einer bestimmten diagnostischen Fragestellung geeignet ist,
d.h. dessen Eignung anhand psychometrischer Gütekriterien belegt werden kann!
- Wir brauchen die psychometrischen Gütekriterien für
o Testvalidierung
o Testauswahl
Um die beste Testversion auszuwählen. Jeder Test hat eine andere Priorität, bei der
Auswahl helfen die Psychometrischen Gütekriterien:
-Objektivität, Durchführungsobjektivität, Auswertungsobjektivität. Interpretationsobjektivität
-Reliabilität: Testhalbierungs-Korrelation und interne Konsistenz, Test-Retest-Korrelation, Paralleltest-Korrelation, Konstrukt-Reliabilität
- Validität: Inhaltsvalidität, Kriteriumsvalidität,Konstruktvalidität
Skallierbarkeit des Tests
Zusammenhang zwischen Objektivität, Reliabilität und Validität
Ist der Testwert nicht objektiv, kann der Testwert keine hohe Reliabilitätsschätzung erreichen. Die
Testwertinterpretation kann daher keine gute Vorhersage treffen. Und die Validität ist nicht gegeben.
Nebengütekriterien:
• Ökonomie
• Nützlichkeit
• Normierung
• Vergleichbarkeit
• Zumutbarkeit
• Fairness
• Nicht-Verfälschbarkeit
• ABER: Sind nicht notwendig; manche Test müssen sie nicht haben, weil sie in der Anwendung nicht
brauchbar sind
Psychometrische Gütekriterien
Objektivität
Objektivität: Definition: Grad der Unabhängigkeit der Testergebnisses von der Person des Testleiters. Erste und
einfachste Form.
( Prinzip der Backform, wenn man einen Test durchführt -> keine Veränderung Objektivität dann gegeben, wenn TL immer gleich vorgehen, gleich reden, gleich formulieren,
Kleidung gleich unauffällig etc. Manche TP achten stärker auf die TP als andere TP. Daher sollte sich TL immer gleich verhalten. Dann wird die Person der TL den Testwert nicht stark beeinflussen. Globale Beeinflussung: drückt aus, wie sich TL oder Situation auf alle TP auswirkt; kann entstehen, wenn bei einer Testung die Sonne scheint (beeinflusst alle). Differentielle Beeinflussung: drückt aus, wie sich TL oder Situation auf manche auswirkt)
- Eine Testwertinterpretation ist dann objektiv, wenn die Durchführung und Auswertung eines
Tests sowie die Interpretation einer Testleistung nicht variiert, auch wenn unterschiedliche
Testleiter den Test durchführen.
- Durchführungsobjektivität: Standardisierung (immer gleiche Durchführung) der
Untersuchungssituation -> Verhalten, Kommunikation, Fragen, Antwortmöglichkeiten
- Auswertungsobjektivität: Unveränderlichkeit beim Denken; Schablonenauswertung -> keinen
Fehler machen, Computerdiagnostik; oder bei Fragebogen und Ratingskalen: Festlegung der
Antwortmöglichkeiten, Ratertraining, Beobachtungsschulung etc.; oder bei Projektiven Tests:
Festlegung exakter Auswertungsregeln
- Interpretationsobjektivität: Festlegung der Interpretationsmöglichkeiten, Konfidenzintervall
(wie
gut ist es mir möglich einen Test nicht überwerten, es gibt einen Range, nicht nur einen
Punktwert), Beispiele; Möglichkeit der Einordnung hängt von der Präzision der Normen ab ->
Einordnungsmöglichkeiten sind vom Manual vorgegeben)
Reliabilität
Definition: Unter Reliabilität versteht man den Grad der Genauigkeit, mit dem ein Testwert ein
bestimmtes Merkmal misst. Auch Zuverlässigkeit (Messpräzision) genannt. Es gibt unterschiedliche
Reliabilitätsschätzer/ Reliabilitätskoeffizienten.
- Testhalbierungs-Korrelation und interne Konsistenz -> Überprüfen ob Items sich ähnlich sind
• Schätzung anhand testinterner Informationen
• Testhalbierungsreliabilität: Teilung des Tests in möglichst „gleiche“ Testhälften;
Ermittlung der Korrelation zwischen den Testhälften und Aufwertung des
Reliabilitätskoeffizienten
- Interne Konsistenz
• Jedes Item wird als eigenständiger Testteil angesehen
• z.B. Cronbachs Alpha
• berücksichtigte den Zusammenhang zwischen Items und Testlänge
- Test-Retest-Korrelation: Testdurchführung zu zwei verschiedenen Testzeitpunkten. Ermittlung
einer Korrelation zwischen den Testleistungen. Die Korrelation kann in Abhängigkeit vom
Zeitintervall variieren. Merkmalsstabilität
Funktioniert auch tau-kongenerischen Items -> den gleiche Items werden mit t1 und t2
verglichen, ob die Items die gleiche Rangliste haben bei t1 und t2
- Paralleltest-Korrelation: Berechnung einer Korrelation zwischen zwei Tests, die dieselbe
Eigenschaft oder Fähigkeit messen. Wie invariant sind die Testergebnisse gegenüber einer
inhaltlichen oder zeitlichen Variation? Bedingungsstabilität
- Kontrukt-Reliabilität: Über faktorenanalytische Verfahren. Ermittlung des jeweiligen Tau-
Anteils/Item. Gewichtung des jeweiligen Itemeinflusses auf Gesamtreliabilität. Weniger
Voraussetzungen als interne Konsistenz/Testhalbierungskorrelationen
Validität
Definition: Das Ausmaß, in dem ein Test auch tatsächlich das Merkmal misst, das er zu messen
vorgibt. Auch Gültigkeit genannt. Zentrales Gütekriterium: Ein valider Test erlaubt die
Generalisierung des im Test beobachteten Verhaltens auf Verhaltens außerhalb der Testsituation
Wie sehr der Inhalt auch das Konstrukt misst. Messen die Items auch tatsächlich, das Konstrukt, das
man vorgibt zu messen. Inhalt kann nicht berechnet werden, sondern überprüft werden. Haben die
Items im Test wirklich etwas mit den Verhaltensweisen zutun die das Konstrukt darstellen.
> Achtung: Analogie (Eigenschaft in Situation A sollte in Situation B ähnlich die Person prägen)-
vs. Induktionsschluss
> Ziel des psychologischen Testens: menschliches Verhalten erklären und vorhersagen können
> Es gibt unterschiedliche Validitätsarten/ Validitätsschätzungen
Inhaltsvalidität
Ist dann gegeben, wenn ein Testwert bzw. die zugrunde liegenden Items das zu messende Merkmal
hinreichend präzise erfassen. Kann nur von Expert*innen beantworten werden.
• [Repräsentative Ziehung aus dem Itemuniversum]
• Beispiel Ängstlichkeit
− Aufgeregtheit (affektive Komponente)
− Besorgnis (kognitive Komponente)
• Bestimmung der Inhaltsvalidität:
− Expertenbefragung
− Analyse bestehender Verfahren
− fundierte theoretische Modelle
Kriteriumsvalidität
➔ Testwert und Kriterium sollen in Zusammenhang stehen
➔ Nur für die Anwendung wichtig! Kann ich damit (dem Testwert) etwas vorhersagen?
➔ Kriteriumsvalidität zeigt Nützlichkeit der Testung
− Vorhersagevalidität: Korrelation mit zeitlich später erhobenen Kriterien (z.B.
Intelligenztestleistung vor Beginn der Lehre wird mit Abschlussnote der Ausbildung
korreliert)
− Übereinstimmungsvalidität: Korrelation mit zeitgleich erhobenen Kriterien (z.B.
Konzentrationsleistung vor Klausur wird mit Klausurnote korreliert) -> nur zur
Hypothesengenerierung nutzbar -> keinen Nutzen für die Zukunft
− Retrospektive Validität: Korrelation mit zeitlich vorher ermittelten Kriterien (z.B.
Intelligenzleistung während Studium wird mit Abiturnoten korreliert) ->
− Inkrementelle Validität: Bezeichnet den Beitrag eines Testwerts zur Verbesserung der
Vorhersage eines Kriteriums (z.B. Persönlichkeitstestwert als Inkrement zu Leistungstests bei
Vorhersage des Schulerfolgs
Konstruktvalidität
Wird das interessierende Merkmal (seine Struktur/seine Außengrenzen) abgebildet? Man
unterscheidet verschiedene Arten der Konstruktvalidität:
− Konvergente Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem anderen
Verfahren (das dasselbe Konstrukt erfassen will) zusammen?
➜Erwartung einer hohen Korrelation
➔ Ist der Test vergleichbar mit den Tests die das gleiche messen?
− Diskriminante Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem anderen
Verfahren (das ein anderes Konstrukt [nahe im nomologischen Netz] erfassen will)
zusammen?
➜Erwartung einer niedrigen Korrelation
➔ Wie die Grenze nach außen aussieht
➔ Wie kann ich sicherstellen das mein Konstrukt sich von anderen abgrenzen lässt
➔ Überprüfen: wo gibt es Grenzen zwischen meinem Konstrukt und anderen leicht zu
verwechselnden Konstrukten.
− Faktorielle oder strukturelle Validität: Faktorenanalytische Untersuchung der testinternen
Struktur und/oder von Zusammenhängen des entwickelten Tests mit anderen Tests -> wie
die Struktur aussieht
➔ Teilt sich das Konstrukt in Teilbereiche? Ist es ein monolithisches Konstrukt oder unterteilt?
Skalierbarkeit des Tests
Klassische Testtheorie (KTT)
− trivial scoring function
− Testwert als Summe der Itemantworten einer Skala
− Annahme: Jedes Item trägt gleichermaßen zum Testwert bei (Einheitsgewichtung)
Probabilistische Testtheorie (PTT)/ Item-Response-Theorie (IRT)
− Überprüfung der Gültigkeit der Verrechnungsvorschrift
Nebengütekriterien
• ABER Sind nicht notwendig; manche Test müssen sie nicht haben, weil sie in der Anwendung nicht
Normierung: Über den Test müssen Normen vorliegen, die eine Einschätzung der individuellen
Testleistung ermöglichen. Nur dann ist ein Rückschluss auf die Ausprägung der einzelnen Probanden
möglich. Nur wenn man die…
Vergleichbarkeit: Ein Test ist vergleichbar, wenn eine oder mehrere Parallelform/en oder Tests mit
demselben Gültigkeitsbereich vorhanden sind. Ob ein Test mit einem anderen Äquivalent ist, trifft
fast nie zu.
Ökonomie: Ein Test ist ökonomisch, wenn er kurz, einfach zu handhaben, für eine Gruppentestung
tauglich, wenig materialintensiv und schnell auswertbar ist. Wie teuer ist der Test in Durchführung
und Auswertung und wie viel zeitlichen Aufwand braucht man.
Nützlichkeit: Ein Test ist nützlich, wenn er ein Merkmal misst oder vorhersagt, für dessen
Untersuchung ein praktisches Bedürfnis besteht.
Zumutbarkeit: Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher, psychischer und
körperlicher Hinsicht schont. Lange Test belasten den TP viel mehr als kürzere Tests. Aber wenn man
nützliche Ergebnisse erzielt ist es durchaus durchzuführen.
Fairness: Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung
relevante Gruppen nicht diskriminieren. Keine Gruppe von Menschen wird systematisch bevorzugt
oder benachteiligt.
Nicht-Verfälschbarkeit: Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht
willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil
zieht. Wie faking sicher ist der Test -> kann die TP sich besser bzw. schlechter darstellen, als sie ist?
Man kann ein Verfahren nicht wirklich faking sicher machen.
Konstruktdefinition: Eingrenzung des Merkmals und Erstellen einer Arbeitsdefinition
Latente Variable: die man nicht direkt messen, sondern erst mithilfe anderer Vraiblen erschließen
muss. Die meisten Variablen in der Psychologie sind latent. Muss nicht notwendigerweise ein
Konstrukt sein. Sie kann auch aus mehrere Konstrukte bestehen.
Ein Konstrukt ist immer eine latente Variable, etwas was wir nicht beobachten können. zb intelligenz
Manifeste Variable: das „Verhalten“ das man sehen, bzw. messen kann. Es handelt sich dabei um
Merkmale, die direkt beobachtbar sind.
Reflexive Items = immer eine manifeste Variable. Den sich spiegelt wieder, was in uns steckt.
Formative Items =
Formative Items sind Fragen oder Aufgaben, die nicht primär dazu dienen, ein festes Endergebnis oder eine Endbewertung zu liefern, sondern vielmehr darauf abzielen, Lernprozesse oder Entwicklungen im Verlauf eines Prozesses zu erfassen und zu unterstützen.
körperlicher Hinsicht schont.
relevante Gruppen nicht diskriminieren.
zieht.
Was ist einer der wichtigsten Schritte in der Testkonstruktion und wird dennoch häufig vernachlässigt ?
und welche sprache nutzt man für einen test?
Zum messen des Konstrukts braucht man eine Arbeitsdefinition, dies ist einer der wichtigsten
Schritte in der Testkonstruktion! Wird dennoch häufig vernachlässigt. -> Was ist die Sprach die ich für
den Test nutzen muss. -> wichtiger Schritt
Sprache des tests:
ABC der Testkonstruktion:
A) Welches Konstrukt wird gemessen? -> Immer ein Konstrukt als Entität sehen -> man braucht
eine Innen- und Außendefinition (Abgrenzung zu anderen Konstrukten)
-> Leichter die Außentrennung vor zunehmen – Abgrenzung ist nur dann sinnvoll, wenn eine
Verwechslung möglich ist
Prinzipien des nomologischen Netzes beachten!
B) Zu welchem Zweck? -> Kriteriumsvalidität; Konstrukte lassen sich in unterschiedlichen
Situation erheben, und ihre Ausprägung ist dann auch anders
-> handelt es sich um Einzelfall- vs. Gruppendiagnostik; Status vs. Prozessdiagnostik oder
spezielle Erhebungskontexte
C) Bei wem? -> für wen, ist der Test? -> erwachsene, Jugendliche, Kinder; klinisch vs. Nicht-
klinisch Testpersonen
Je nachdem, was ich vorhersagen möchte variiert die Definition von dem Konstrukt z.B. Intelligenz.
Nur weil es ein Verfahren für das Konstrukt schon gibt, heißt das nicht das das Verfahren auch
passend ist für einen selbst ist. Hat das Verfahren eine passende Konstruktdefinition? Passen die
Gütekriterien zu den eigenen Ansprüchen. Wenn bereits ein ähnlicher Test vorhanden ist, sollte eine
Begründung für die Neuentwicklung gegeben werden.
Methoden der Eingrenzung und Abgrenzung eines Konstrukts
welche methoden gibt es dafür und wann nutzen wir welche methoden ?
Ziele: Identifikation von Konstruktindikatoren und Identifikation von Überlappungsbereichen zu
anderen Konstrukten und Unterschieden ➜ „Was ist es? Was ist es nicht?“
Methoden:
1. Erfahrungsgeleitet-intuitive Methode
2. Literaturrecherche
3. (Arbeits)analytisch-empirische Methode
4. Personenbezogen-empirische Methode
Wann nutzen wir welche Methode?
- Frage: Ist das Messziel/Konstrukt weitgehend bekannt oder nicht?
- Top-down: Erfahrungsgeleitet-intuitiver Ansatz, Literaturrecherche, Personenbezogen-
empirischer Ansatz
- Bottom-up: Erfahrungsgeleitet-intuitiver Ansatz, Literaturrecherche, Personenbezogen-
➔ Kombination aus Top-down und Botto-up ist möglich
Erfahrungsgeleitet-intuitive Methode
Bei der erfahrungsgeleitet-intuitiven Methode wird auf Basis von Expertenwissen definiert, was in
einem diagnostischen Verfahren gemessen werden soll.
- Grundgedanke: Personen, die detailliertes Wissen über das zu erfassende Konstrukt haben,
nehmen Eingrenzung vor und benennen Indikatoren
• Expertinnen und Experten aus Academia oder der Berufspraxis • Auch Laien können
Expertise haben ➜ Einbindung der Zielgruppe, um Akzeptanz des Tests zu erhöhen
- Umsetzung: Workshops, schriftliche Befragung, Interviews
- Nachteil: Resultate hängen von der Qualität des Expertenwissens ab
Expertenwissen nutzen um eine Definition zu erstellen für das zu erfassende Konstrukt. Experten sind
häufig auch die Zielgruppe des Tests
Literaturrecherche
Ausweitung der Erfahrungsgeleiteten Methoden, denn man nutzt Erfahrungen von Menschen nicht
in direkter Nähe sind. Sammeln und systematisieren wiederkehrender Definitionsmerkmale. Findet
man immer wieder gleiche Definitionen, kann man diese übernehmen.
- Ziel: Identifikation von Konstruktindikatoren und Definitionen aus der Fachliteratur
- Lehrbücher
- Überblicksartikel (reviews)
- Literatursuchmaschinen: PsycInfo, Psyndex, Web of Science, GoogleScholar
- Bereits existierende Testverfahren
• Wie erfolgt dort die Eingrenzung?
• Von welchen Konstrukten erfolgt eine Abgrenzung?
➜ Sammeln und Systematisieren wiederkehrender Definitionsmerkmale des Konstrukts
Arbeitsanalytisch-empirische Methode
Grundidee: Verhaltensindikatoren für das Konstrukt werden durch die Verwendung standardisierter
Beobachtungs- oder Befragungsinstrumente identifiziert
➔ Critical Incident Technique (Flanagan, 1954)
• Oft verwendete Methode zur Ermittlung von Verhaltensankern, wenn Merkmal
unbekannt
• Bsp. Berufserfolg von Strahlenschutz-technikern • Kritische Situationen ermitteln, darin
Verhaltensweisen sammeln
• „Experten“ sollen, (meist) retrospektiv, aus diesen Situationen berichten
➜ Aus Verhaltensweisen auf Personeneigenschaften schließe
Verhaltensindikatoren für das Konstrukt werden durch die Verwendung standardisierter
Beobachtungs- oder Befragungsinstrumente identifiziert. -> Critical Incident Technique: oft
verwendete Methode zur Ermittlung von Verhaltensankern, wenn Merkmal unbekannt. Die Kritische
Situation wird an die TP vermittelt und darin werden Verhaltensweisen gesammelt. Experten sollen,
(meist) retrospektiv aus diesen Situationen berichten -> aus den Verhaltensweisen sollen auf
Personeneigenschaften geschlossen werden
!Kritische Situationen sind Situation die emotional aufgeladen sind -> hohes Maß an Freude, Angst,
Scham, Wut! -> Wichtig mehrere Menschen interviewen um verschiedene Aspekte aufzugreifen.
Versuchen TP an Situation zurück zu erinnern, die nicht länger her ist, als zwei Wochen.
Personenbezogen-empirische Methode
Grundidee: Empirisch gefundene Zusammenhänge zwischen dem zu messenden Konstrukt und
anderen Konstrukten und Kriterien nutzen ➜ Daraus auf zugrunde liegende Verhaltensindikatoren
bzw. auf die Struktur des nomologischen Netzes schließen
Empirische Befunde werden z.B. aus Metanalysen entnommen (z.B. Intelligenz und Berufserfolg:
Schmidt & Hunter, 1998) ➜ Konstruktüberlappungen werden leichter aufgedeckt
Nachteil: Methode nur sinnvoll, wenn schon verlässliche Verfahren zur Erfassung des Konstrukts
vorliegen ➜ Neuentwicklung dann wirklich sinnvoll?
Aus all den vorangegangen Methoden findet man innere und äußere Strukturen meines Konstrukt.
➔ Integration der Ergebnisse verschiedener Methoden z.B. graphisch
➔ Gesammelte Indikatoren werden dem Konstrukt bzw. anderen Konstrukten zugeordnet
➔ Lage des Konstrukts im nomologischen Netz festlegen
➔ Vorteil: Hohe Inhaltsvalidität der Konstruktdefinition
Es geht darum angrenzende Konstrukte und innerhalb des Konstrukt liegende Aspekte abzugrenzen
und definieren.
4. Personenbezogen-empirische MethodeMethoden der Eingrenzung und Abgrenzung eines Konstrukts
Die vier Methoden erlauben es ...
- relevante Konstruktindikatoren zu identifizieren,
- das nomologische Netz des Konstrukts zu elaborieren und
- das Konstrukt im nomologischen Netz zu verorten
Auf dieser Grundlage sollte sich eine möglichst verhaltensnahe Arbeitsdefinition erstellen lassen
Das nomologische Netz ist damit definiert ➜ ABC der Testkonstruktion:
„A) Was wird gemessen?“ ➜ Grundlage für Validierungsstrategie
Last changed7 days ago