Buffl

01 & 02 Einführung und Konstruktdefinition

ND
by Nipu D.

Psychologische Diagnostik: Definitionen, Grundkonzepte und Anwendungsfelder


Entwicklungspädagogik und Bildungsbereich

Diagnostik und Stabilität

Intelligenz als Konstrukt

Interesse und Motivation

Konsequenzen der Diagnostik

Anwendungsfelder der Diagnostik

Diagnostik ist relativ



Entwicklungspädagogik und Bildungsbereich: Entwicklungsdefizit im Vergleich zu Peers; Einschulung; Probleme erkennen; spezielle Tests bei Kindern anwenden.


Diagnostik und Stabilität: Diagnostik muss eine Stabilität aufweisen; Tests sollen ein ganzheitliches Bild abbilden; gute Diagnostik ist mehr als nur ein Verfahren.


Intelligenz als Konstrukt: Entsteht an der Aufgabe; Diagnostik liefert mit bestimmter Sicherheit ein Ergebnis (ja, nein, kann ich nicht sagen).

Ergebnisse der Diagnostik: Keine einheitliche Antwort auf "gut oder schlecht"; Kontext ist entscheidend.


Interesse und Motivation: Ebenfalls wichtig wie kognitive Fähigkeiten; Diagnostik entscheidet nur das, was sie messen soll.


Konsequenzen der Diagnostik: Risiken von Stigmatisierung bei "Labeling"; was passiert mit der Person nach der Diagnose?


Anwendungsfelder: MPU (Medizinisch-Psychologische Untersuchung), Fahreignungsdiagnostik, forensische Diagnostik (z.B. Schuldfähigkeit, Zurechnungsfähigkeit).

Verhalten: Ergebnis von Person und Umwelt (Levine); vergangenes Verhalten als Vorhersage für zukünftiges Verhalten.


Diagnostik ist relativ: Keine 100%igen Ergebnisse möglich; Stabilitätsprobleme (z.B. in einer Woche anders); Alpha/Beta-Problem.

Grenzwertige Situationen: Keine verlässliche Diagnostik möglich; fehlende Vergleichssituationen.

Roth & Herzberg (2008): Psychologische Testverfahren machen 24.4% (klinische Psychologie) bis 44.1% (forensische Psychologie) der Gesamttätigkeit aus.

Was sind die Ziele und Grenzen der psychologischen Diagnostik?

Welche Unsicherheiten gibt es in der Diagnostik und wie wird mit diesen umgegangen?

Was zeichnet ein wissenschaftliches Routineverfahren aus?

Was ist der Unterschied zwischen kategorialer und dimensionaler Betrachtung von Persönlichkeitsmerkmalen?

1. Was sind die Ziele und Grenzen der psychologischen Diagnostik?

Antwort: Die Hauptzielsetzung der Diagnostik ist die Reduktion von Unsicherheiten. Eine vollständige Unsicherheitsreduktion ist jedoch nicht möglich, da Diagnostik nie 100%ige Sicherheit bieten kann.


2. Welche Unsicherheiten gibt es in der Diagnostik und wie wird mit diesen umgegangen?

Antwort: Unsicherheiten entstehen durch die Komplexität menschlichen Verhaltens. Sie können durch systematische, regelgeleitete Informationssammlung reduziert werden. Diagnostik ist immer ein Prozess der Unsicherheitsreduktion, aber eine vollständige Eliminierung der Unsicherheit ist nicht möglich.


3. Was zeichnet ein wissenschaftliches Routineverfahren aus?

Antwort: Ein wissenschaftliches Routineverfahren muss objektiv und transparent sein. Es ist so konzipiert, dass das Ergebnis unabhängig vom Testdurchführer immer gleich bleibt. Jeder kann auf die Testmethoden und Ergebnisse zugreifen, was eine Reproduzierbarkeit gewährleistet.


4. Was ist der Unterschied zwischen kategorialer und dimensionaler Betrachtung von Persönlichkeitsmerkmalen?

Antwort:

Kategoriale Betrachtung: Persönlichkeitsmerkmale werden als entweder erfüllt oder nicht erfüllt angesehen, z.B. Narzissten sind entweder vorhanden oder nicht. Dies entspricht einer Schubladentheorie (z.B. "erkrankt" vs. "gesund").

Dimensionale Betrachtung: Merkmale sind ein Spektrum, z.B. hat jeder Mensch einen bestimmten Grad an Narzissmus, aber es variiert in der Intensität. Jeder Mensch hat alle Eigenschaften in sich, sie sind jedoch unterschiedlich stark ausgeprägt.


Was unterscheidet Fähigkeit, Fertigkeit und Performanz?

Wie unterscheiden sich Speed- und Power-Tests und welche Tests gibt es?

Welche Arten von Testverfahren existieren und wie werden die Ergebnisse eingeteilt?


wie wird die leistung in tests bewertet?

. Was ist der Unterschied zwischen Fähigkeit, Fertigkeit und Performanz?

welche einflussfaktoren gibt es auf die Testleistung?



5. Was unterscheidet Fähigkeit, Fertigkeit und Performanz?

Antwort:

Fähigkeit: Ein unveränderliches Potenzial, das eine Person von Natur aus besitzt (z.B. Intelligenz).

Fertigkeit: Fähigkeiten, die durch Übung erlernt und perfektioniert werden können (z.B. eine Sprache sprechen).

Performanz: Das tatsächliche Verhalten oder die gezeigte Leistung, die eine Kombination aus Fähigkeit und Fertigkeit darstellt.


6. Wie unterscheiden sich Speed- und Power-Tests und welche Tests gibt es?

Antwort:

Speed-Tests: Messen die kognitive Geschwindigkeit (z.B. D2R), bei denen die Fähigkeit zur schnellen Verarbeitung und Antwort im Vordergrund steht.

Power-Tests: Messen die maximale Leistungsfähigkeit, z.B. Intelligenztests. Hier sind die Aufgaben oft schwierig, sodass nicht alle für jede Person lösbar sind.

Testarten:

Leistungstests (Power-Tests): Messen das maximal mögliche Verhalten.

Psychometrische Persönlichkeitstests: Messen Persönlichkeitsmerkmale, wobei das Ergebnis den Ausprägungsgrad eines Merkmals angibt.

Persönlichkeits-Entfaltungs-Verfahren: Diese Tests locken Eigenschaften, die nicht direkt zugänglich sind, heraus. Die Antworten sind nicht vorgegeben, sondern frei gegeben.


7. Welche Arten von Testverfahren existieren und wie werden die Ergebnisse eingeteilt?

Antwort:

Eindimensionale Tests (z.B. BDI): Diese messen eine einzige Dimension, z.B. Depressivität.

Mehrdimensionale Tests (z.B. Big Five): Diese messen mehrere Dimensionen von Persönlichkeitsmerkmalen, z.B. Extraversion, Neurotizismus.

Culture-fair Tests: Tests, die nicht sprachgebunden sind und somit allen Teilnehmenden gleiche Chancen bieten, unabhängig von ihrer Sprachkenntnis.

Antwortunabhängige Tests: Das Ergebnis ist nicht von den Antworten abhängig, sondern basiert auf der Ausführung der Aufgabe (z.B. Speed-Tests).

Antwortabhängige Tests: Ergebnisse basieren direkt auf den gegebenen Antworten (z.B. psychometrische Tests).


8. Wie wird die Leistung in Tests bewertet?

Antwort:

Maximum Performance: Das bestmögliche Verhalten oder die höchste Leistung, die eine Person in einer bestimmten Aufgabe zeigt (z.B. Leistungstests).

Typical Response: Das typische Verhalten einer Person in alltäglichen Situationen. Wie reagiert jemand gewöhnlich auf bestimmte Reize oder in bestimmten Kontexten?


9. Was ist der Unterschied zwischen Fähigkeit, Fertigkeit und Performanz?

Antwort:

Fähigkeit: Ein stabiles, unveränderliches Potenzial (z.B. Grundintelligenz).

Fertigkeit: Etwas, das man lernen und üben kann, z.B. Schach spielen oder ein Musikinstrument spielen.

Performanz: Gezeigte Leistung einer Person, eine Kombination aus den vorher genannten Aspekten.


10. Welche Einflussfaktoren gibt es auf die Testleistung?

Antwort:

Wachheit: Der Zustand der Person, z.B. wie wach oder erschöpft sie ist, beeinflusst die Testleistung.

Art des Tests: Der Unterschied zwischen Papier- und Computerbasierten Tests kann das Ergebnis beeinflussen.

Testumgebung und Ausfüllweise: Ob der Test auf Papier oder digital durchgeführt wird, kann die Testergebnisse beeinflussen, da verschiedene Modalitäten unterschiedliche kognitive Prozesse aktivieren.


Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben

werden: Adaptives Testen

Was ist das Ziel von adaptiven Testen?

Was ist der Grundgedanke des adaptiven Testens?

Was ist die Konstruktionsgrundlage des adaptiven Testens ?

Was wird also gemacht beim adaptiven Testen?

Achtung …

Der Vergleich der Testpersonen ist nur durch was möglich?

Welche Arten des adaptiven Testens gibt es?

Was sind Vor und Nachteile des adaptiven Testens ?

▪ Ziel: quantitative Messung von Personenmerkmalen optimieren

▪ Grundgedanke: Erstellung eines individuellen Itemsatzes für jede Testperson, optimal

abgestimmt auf sein Fähigkeitsniveau

▪ Konstruktionsgrundlage: Item-Response-Theorie (IRT)

▪ Nach jedem Item wird entschieden, welches Item der Testperson als nächstes vorgelegt wird

(geringe, mittlere oder hohe Schwierigkeit)

▪ Informative Items = Items mit mittlerer Lösungswahrscheinlichkeit für die Testperson

▪ Testperson pendelt sich während der Testung auf Niveau der Itemschwierigkeit ein, das ihrem

Fähigkeitsniveau entspricht

▪ Achtung! Testpersonen können nicht über die Anzahl gelöster Items verglichen werden, da jede

Testperson einen individuellen Itemsatz bekommt.

-> Außer wenn Rasch-homogene Items

vorliegen! Der Vergleich der Testpersonen ist nur üb ihren Fähigkeitsparameter möglich.

▪ Es gibt zwei Arten adaptiven Testens: fest verzweigte (branched) Tests und variable,

maßgeschneiderte (tailored) Tests

Vorteile des adaptiven Testens

 höhere Testökonomie

 höhere Mespräzision

 Evtl. höhere konvergente und diskriminante Validität

 Effekte auf Testmotivation umstritten

Nachteile des adaptiven Testens

- Aufwändige Testkonstruktion

- IRT-konformer Itempool

- Großer Itempool (Gleichverteilung der Itemschwierigkeiten notwendig)

Welche Informationen können mit Fragebögen/ Q-Daten erfasst werden?


(Questionnaire-Daten (Q-Daten; flexibelste Art Daten zu erfassen): Selbstauskünfte im Interview,

Exploration oder Fragebogen)

• Beschreibungen eigener Reaktionen („Es ist mir wichtig, nicht nervös zu erscheinen“) -> leichtes

Item; kann nur von der TP selbst beantwortet werden, oder einer Person dessen sie sich

anvertraut hat; Negation in einem Item sind für nicht-nativ speaker schwer zu verstehen, d.h. die

verbale Intelligent muss höher sein; nicht zu viele negative Items in einer Testkonstruktion

verwenden, den negative Items werden von der TP gedanklich positiv umformuliert


• Eigenschaftszuschreibungen („Ich bin ein geselliger Mensch“) -> Beschreibung einer Eigenschaft,

die Personen dadurch definieren wie sie dieses Eigenschaft in ihrer Lebensgeschichte erlebt

haben; jeder hat eine andere Definition des Wortes „gesellig“, es besteht demnach eine Differenz

zwischen den Definitionen; selbst bei einer Definitionsvorgabe des Wortes h.d. nicht das das

Item Trennschärfer wird, es kann eher dafür sorgen das die Motivation sinkt, weil das Item länger

wird durch die Beschreibung, andere wiederum denken sie brauchen keine Definition und überspringen diese Definition; Eigenschaftszuschreibungen sind kritisch zu bewerten, lieber

mehrfache Abstufungen nutzen um „Geselligkeit“ zu erheben


• Wünsche und Interessen („Ich würde gerne um die Welt segeln“) -> kann man nur intern

abfragen; Wertigkeit solcher Aussagen ist gering; fluktuieren, je nachdem welche Gehirnbereiche

aktiviert sind; es gibt proximale Wünsche und destinale Wünsche (zukunftswünsche, variieren

sehr stark)


• Biographische Fakten („In meiner Jugend bin ich schon mal mit dem Gesetz in Konflikt

gekommen“) -> sind Tatsachen die passiert sind; Verhaltensweisen die man in der Vergangenheit

gezeigt hat, können auch in der Zukunft wieder auftreten; solche Fragen stellt man besser im

Interview


• Einstellungen und Überzeugungen („Wenn ich starkes Herzklopfen verspüre, befürchte ich einen

Herzanfall zu bekommen“) -> „Ich möchte mich nicht blamieren/ schlecht abschneiden“ vs. „ Ich

möchte erfolgreich abschließen“ bei Leistungstests


• Reaktionen anderer gegenüber der eigenen Person („Meine Familie ist mit meinem Beruf nicht

einverstanden“) -> Umgebung angucken, ob bestimmte Verhaltensweisen begünstigt werden

durch das soziale Umfeld (Umfeldvariable)


• Bizarre Items („Man wollte mich schon mal vergiften“) -> z.B. die Erhebung einer Schizophrenie

oder dergleichen; kritisch zu betrachten, da Items tatsächlich auch wahr sein können


• Günstigste Item: Beschreibung einer Reaktionen und Biographische Fakten und Reaktionen

anderer gegenüber der eigenen Person (Umgebungsvariable)


Interpretation von Testwerten

Wie interpretiert man die Testwerte eines psychologischen Tests?

Wie wird der Testscore einer TP meiste gewonnen?

Arten von Bedeutungen des Testwerts

3 Arten von Bezugsrahmen für die individuelle testinterpretation

Der Testscore einer Testperson wird meist gewonnen durch simples Aufsummieren der Antworten

auf die Testitems („trivial scoring function“ = Summierung der Einzel Items; gehen davon aus das alle

Items gleich viel wert sind und deren Abstand ebenfalls -> die Zahlen auf der Likert-Skala spiegeln die

Abstände gut wieder -> werden die Abstände mit Zahlen adäquat dargestellt). Testwerte haben zwei

Arten von Bedeutung:

1. „allgemeine Bedeutung“: Testwert eignet sich als formale Beschreibung einer

Persönlichkeitseigenschaft -> Belege zur Konstruktvalidität notwendig

2. „besondere Bedeutung“ für Testperson -> ergibt sich erst durch einen sinnvollen

Bezugsrahmen für den Testscore

- Wie stark ist das Persönlichkeitsmerkmal bei der Testperson ausgeprägt?

- Ist der individuelle Testwert einer Person irgendwie besonders, auffällig oder hoch/niedrig?

Es gibt drei Arten von Bezugsrahmen für die Interpretation individueller Testergebnisse, wir können

den individuellen Testwert vergleichen mit…

▪ Vorangegangen Werten, z.B. am Anfang des Schuljahres (individuelles Bezugssystem)

▪ Einem Kriterium, z.B. Führerscheinprüfung, Abi (kriterienorientiertes Bezugssystem)

▪ Den Werten einer relevanten Vergleichsgruppe, z.B. Realschüler im selben Alter

(normorientiertes Bezugssystem)

Interpretation von Testwerten


Was bedeutet Varianz in Bezug auf psychologische Items?

Wie kann man mit der Korrelation von Items den Unterschied zwischen Personen messen?

Was ist wahre Varianz (true variance) und warum ist sie wichtig?

Was sind die Unterschiede zwischen Tau-äquivalent, Tau-parallel und Tau-kongenärlich?

Was ist der Zusammenhang zwischen Reliabilität und der Anzahl der verwendeten Items in einem Test?

Wie beeinflussen unterschiedliche Item-Gewichtungen die Reliabilität eines Tests?




1. Was bedeutet Varianz in Bezug auf psychologische Items?

Antwort: Varianz bezieht sich auf die Unterschiede im Antwortverhalten der Testpersonen. Wenn Menschen auf ein Item unterschiedlich reagieren, bedeutet das, dass dieses Item relevant für die psychologische Diagnostik ist, weil es tatsächliche Unterschiede zwischen den Personen misst.


2. Wie kann man mit der Korrelation von Items den Unterschied zwischen Personen messen?

Antwort: Die Korrelation zwischen den Items zeigt, ob sie in der Lage sind, Unterschiede zwischen Personen zu messen. Wenn eine hohe Korrelation besteht, messen die Items ähnliche Merkmale und zeigen die gleichen Unterschiede in der Population. Wenn die Korrelation gering ist, messen die Items unterschiedliche Merkmale.


3. Was ist wahre Varianz (true variance) und warum ist sie wichtig?

Antwort: Wahre Varianz ist der Teil der Varianz, der tatsächlich einen realen Unterschied zwischen den Personen darstellt. Es ist der Anteil der Varianz, der nicht durch Fehler beeinflusst wird. Zum Beispiel, wenn der wahre Wert einer Person 3,7 ist und der Fehlerwert 0,3, dann ist der wahre Unterschied zwischen den Personen 3,7 und der Fehler ist 0,3.


4. Was sind die Unterschiede zwischen Tau-äquivalent, Tau-parallel und Tau-kongenärlich?

Antwort:

Tau-äquivalent: Alle Items eines Tests messen dasselbe Merkmal mit derselben Reliabilität. Es ist wichtig, dass Items gleich viel Varianz erzeugen.

Tau-parallel: Hierbei sind die Items nicht exakt gleich, aber die Fehlervarianzen der Items sind gleich. Weniger relevant für die psychologische Diagnostik.

Tau-kongenärlich: In diesem Fall sind die Items so konzipiert, dass sie verschiedene Aspekte des gleichen Merkmals messen. Das ist der komplexeste Fall und die Reliabilität kann schwanken.


5. Was ist der Zusammenhang zwischen Reliabilität und der Anzahl der verwendeten Items in einem Test?

Antwort: Reliabilität steigt in der Regel, wenn mehr Items verwendet werden, da die Fehlerwerte sich ausgleichen und die Gesamtvarianz besser abgebildet wird. Ein Einzelitem ist weniger zuverlässig als eine Vielzahl von Items zusammen.


6. Wie beeinflussen unterschiedliche Item-Gewichtungen die Reliabilität eines Tests?

Antwort: Nicht alle Items eines Tests sind gleich wichtig. Einige Items messen stärker oder präziser das Zielmerkmal. Eine ungleiche Gewichtung kann zu einer Verringerung der Reliabilität führen, da manche Items über- oder untergewichtet sind. Die Items müssen also richtig gewichtet werden, um die beste Reliabilität zu erzielen.

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Objektivität

Objektivität: Definition: Grad der Unabhängigkeit der Testergebnisses von der Person des Testleiters. Erste und

einfachste Form.

( Prinzip der Backform, wenn man einen Test durchführt -> keine Veränderung Objektivität dann gegeben, wenn TL immer gleich vorgehen, gleich reden, gleich formulieren,

Kleidung gleich unauffällig etc. Manche TP achten stärker auf die TP als andere TP. Daher sollte sich TL immer gleich verhalten. Dann wird die Person der TL den Testwert nicht stark beeinflussen. Globale Beeinflussung: drückt aus, wie sich TL oder Situation auf alle TP auswirkt; kann entstehen, wenn bei einer Testung die Sonne scheint (beeinflusst alle). Differentielle Beeinflussung: drückt aus, wie sich TL oder Situation auf manche auswirkt)


- Eine Testwertinterpretation ist dann objektiv, wenn die Durchführung und Auswertung eines

Tests sowie die Interpretation einer Testleistung nicht variiert, auch wenn unterschiedliche

Testleiter den Test durchführen.


- Durchführungsobjektivität: Standardisierung (immer gleiche Durchführung) der

Untersuchungssituation -> Verhalten, Kommunikation, Fragen, Antwortmöglichkeiten


- Auswertungsobjektivität: Unveränderlichkeit beim Denken; Schablonenauswertung -> keinen

Fehler machen, Computerdiagnostik; oder bei Fragebogen und Ratingskalen: Festlegung der

Antwortmöglichkeiten, Ratertraining, Beobachtungsschulung etc.; oder bei Projektiven Tests:

Festlegung exakter Auswertungsregeln


- Interpretationsobjektivität: Festlegung der Interpretationsmöglichkeiten, Konfidenzintervall

(wie

gut ist es mir möglich einen Test nicht überwerten, es gibt einen Range, nicht nur einen

Punktwert), Beispiele; Möglichkeit der Einordnung hängt von der Präzision der Normen ab ->

Einordnungsmöglichkeiten sind vom Manual vorgegeben)

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Reliabilität

Definition: Unter Reliabilität versteht man den Grad der Genauigkeit, mit dem ein Testwert ein

bestimmtes Merkmal misst. Auch Zuverlässigkeit (Messpräzision) genannt. Es gibt unterschiedliche

Reliabilitätsschätzer/ Reliabilitätskoeffizienten.


- Testhalbierungs-Korrelation und interne Konsistenz -> Überprüfen ob Items sich ähnlich sind

• Schätzung anhand testinterner Informationen

• Testhalbierungsreliabilität: Teilung des Tests in möglichst „gleiche“ Testhälften;

Ermittlung der Korrelation zwischen den Testhälften und Aufwertung des

Reliabilitätskoeffizienten


- Interne Konsistenz

• Jedes Item wird als eigenständiger Testteil angesehen

• z.B. Cronbachs Alpha

• berücksichtigte den Zusammenhang zwischen Items und Testlänge


- Test-Retest-Korrelation: Testdurchführung zu zwei verschiedenen Testzeitpunkten. Ermittlung

einer Korrelation zwischen den Testleistungen. Die Korrelation kann in Abhängigkeit vom

Zeitintervall variieren. Merkmalsstabilität

Funktioniert auch tau-kongenerischen Items -> den gleiche Items werden mit t1 und t2

verglichen, ob die Items die gleiche Rangliste haben bei t1 und t2


- Paralleltest-Korrelation: Berechnung einer Korrelation zwischen zwei Tests, die dieselbe

Eigenschaft oder Fähigkeit messen. Wie invariant sind die Testergebnisse gegenüber einer

inhaltlichen oder zeitlichen Variation? Bedingungsstabilität


- Kontrukt-Reliabilität: Über faktorenanalytische Verfahren. Ermittlung des jeweiligen Tau-

Anteils/Item. Gewichtung des jeweiligen Itemeinflusses auf Gesamtreliabilität. Weniger

Voraussetzungen als interne Konsistenz/Testhalbierungskorrelationen

Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien

Validität

Definition: Das Ausmaß, in dem ein Test auch tatsächlich das Merkmal misst, das er zu messen

vorgibt. Auch Gültigkeit genannt. Zentrales Gütekriterium: Ein valider Test erlaubt die

Generalisierung des im Test beobachteten Verhaltens auf Verhaltens außerhalb der Testsituation

Wie sehr der Inhalt auch das Konstrukt misst. Messen die Items auch tatsächlich, das Konstrukt, das

man vorgibt zu messen. Inhalt kann nicht berechnet werden, sondern überprüft werden. Haben die

Items im Test wirklich etwas mit den Verhaltensweisen zutun die das Konstrukt darstellen.


> Achtung: Analogie (Eigenschaft in Situation A sollte in Situation B ähnlich die Person prägen)-

vs. Induktionsschluss

> Ziel des psychologischen Testens: menschliches Verhalten erklären und vorhersagen können

> Es gibt unterschiedliche Validitätsarten/ Validitätsschätzungen


Inhaltsvalidität

Ist dann gegeben, wenn ein Testwert bzw. die zugrunde liegenden Items das zu messende Merkmal

hinreichend präzise erfassen. Kann nur von Expert*innen beantworten werden.

• [Repräsentative Ziehung aus dem Itemuniversum]

• Beispiel Ängstlichkeit

− Aufgeregtheit (affektive Komponente)

− Besorgnis (kognitive Komponente)

• Bestimmung der Inhaltsvalidität:

− Expertenbefragung

− Analyse bestehender Verfahren

− fundierte theoretische Modelle


Kriteriumsvalidität

➔ Testwert und Kriterium sollen in Zusammenhang stehen

➔ Nur für die Anwendung wichtig! Kann ich damit (dem Testwert) etwas vorhersagen?

➔ Kriteriumsvalidität zeigt Nützlichkeit der Testung

− Vorhersagevalidität: Korrelation mit zeitlich später erhobenen Kriterien (z.B.

Intelligenztestleistung vor Beginn der Lehre wird mit Abschlussnote der Ausbildung

korreliert)

− Übereinstimmungsvalidität: Korrelation mit zeitgleich erhobenen Kriterien (z.B.

Konzentrationsleistung vor Klausur wird mit Klausurnote korreliert) -> nur zur

Hypothesengenerierung nutzbar -> keinen Nutzen für die Zukunft

− Retrospektive Validität: Korrelation mit zeitlich vorher ermittelten Kriterien (z.B.

Intelligenzleistung während Studium wird mit Abiturnoten korreliert) ->

− Inkrementelle Validität: Bezeichnet den Beitrag eines Testwerts zur Verbesserung der

Vorhersage eines Kriteriums (z.B. Persönlichkeitstestwert als Inkrement zu Leistungstests bei

Vorhersage des Schulerfolgs


Konstruktvalidität

Wird das interessierende Merkmal (seine Struktur/seine Außengrenzen) abgebildet? Man

unterscheidet verschiedene Arten der Konstruktvalidität:

− Konvergente Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem anderen

Verfahren (das dasselbe Konstrukt erfassen will) zusammen?

➜Erwartung einer hohen Korrelation

➔ Ist der Test vergleichbar mit den Tests die das gleiche messen?

− Diskriminante Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem anderen

Verfahren (das ein anderes Konstrukt [nahe im nomologischen Netz] erfassen will)

zusammen?

➜Erwartung einer niedrigen Korrelation

➔ Wie die Grenze nach außen aussieht

➔ Wie kann ich sicherstellen das mein Konstrukt sich von anderen abgrenzen lässt

➔ Überprüfen: wo gibt es Grenzen zwischen meinem Konstrukt und anderen leicht zu

verwechselnden Konstrukten.

− Faktorielle oder strukturelle Validität: Faktorenanalytische Untersuchung der testinternen

Struktur und/oder von Zusammenhängen des entwickelten Tests mit anderen Tests -> wie

die Struktur aussieht

➔ Teilt sich das Konstrukt in Teilbereiche? Ist es ein monolithisches Konstrukt oder unterteilt?





Kriterien zur Beurteilung von Testverfahren

Psychometrische Gütekriterien


Nebengütekriterien

Nebengütekriterien

• Ökonomie

• Nützlichkeit

• Normierung

• Vergleichbarkeit

• Zumutbarkeit

• Fairness

• Nicht-Verfälschbarkeit

• ABER Sind nicht notwendig; manche Test müssen sie nicht haben, weil sie in der Anwendung nicht

brauchbar sind



Normierung: Über den Test müssen Normen vorliegen, die eine Einschätzung der individuellen

Testleistung ermöglichen. Nur dann ist ein Rückschluss auf die Ausprägung der einzelnen Probanden

möglich. Nur wenn man die…

Vergleichbarkeit: Ein Test ist vergleichbar, wenn eine oder mehrere Parallelform/en oder Tests mit

demselben Gültigkeitsbereich vorhanden sind. Ob ein Test mit einem anderen Äquivalent ist, trifft

fast nie zu.


Ökonomie: Ein Test ist ökonomisch, wenn er kurz, einfach zu handhaben, für eine Gruppentestung

tauglich, wenig materialintensiv und schnell auswertbar ist. Wie teuer ist der Test in Durchführung

und Auswertung und wie viel zeitlichen Aufwand braucht man.


Nützlichkeit: Ein Test ist nützlich, wenn er ein Merkmal misst oder vorhersagt, für dessen

Untersuchung ein praktisches Bedürfnis besteht.


Zumutbarkeit: Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher, psychischer und

körperlicher Hinsicht schont. Lange Test belasten den TP viel mehr als kürzere Tests. Aber wenn man

nützliche Ergebnisse erzielt ist es durchaus durchzuführen.


Fairness: Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung

relevante Gruppen nicht diskriminieren. Keine Gruppe von Menschen wird systematisch bevorzugt

oder benachteiligt.


Nicht-Verfälschbarkeit: Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht

willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil

zieht. Wie faking sicher ist der Test -> kann die TP sich besser bzw. schlechter darstellen, als sie ist?

Man kann ein Verfahren nicht wirklich faking sicher machen.


Konstruktdefinition: Eingrenzung des Merkmals und Erstellen einer Arbeitsdefinition


Latente Variable: die man nicht direkt messen, sondern erst mithilfe anderer Vraiblen erschließen

muss. Die meisten Variablen in der Psychologie sind latent. Muss nicht notwendigerweise ein

Konstrukt sein. Sie kann auch aus mehrere Konstrukte bestehen.

Ein Konstrukt ist immer eine latente Variable, etwas was wir nicht beobachten können. zb intelligenz


Manifeste Variable: das „Verhalten“ das man sehen, bzw. messen kann. Es handelt sich dabei um

Merkmale, die direkt beobachtbar sind.


Reflexive Items = immer eine manifeste Variable. Den sich spiegelt wieder, was in uns steckt.


Formative Items =

Formative Items sind Fragen oder Aufgaben, die nicht primär dazu dienen, ein festes Endergebnis oder eine Endbewertung zu liefern, sondern vielmehr darauf abzielen, Lernprozesse oder Entwicklungen im Verlauf eines Prozesses zu erfassen und zu unterstützen.


Zumutbarkeit: Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher, psychischer und

körperlicher Hinsicht schont.


Fairness: Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung

relevante Gruppen nicht diskriminieren.


Nicht-Verfälschbarkeit: Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht

willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil

zieht.

Was ist einer der wichtigsten Schritte in der Testkonstruktion und wird dennoch häufig vernachlässigt ?

und welche sprache nutzt man für einen test?

Zum messen des Konstrukts braucht man eine Arbeitsdefinition, dies ist einer der wichtigsten

Schritte in der Testkonstruktion! Wird dennoch häufig vernachlässigt. -> Was ist die Sprach die ich für

den Test nutzen muss. -> wichtiger Schritt

Sprache des tests:


ABC der Testkonstruktion:

A) Welches Konstrukt wird gemessen? -> Immer ein Konstrukt als Entität sehen -> man braucht

eine Innen- und Außendefinition (Abgrenzung zu anderen Konstrukten)

-> Leichter die Außentrennung vor zunehmen – Abgrenzung ist nur dann sinnvoll, wenn eine

Verwechslung möglich ist

Prinzipien des nomologischen Netzes beachten!


B) Zu welchem Zweck? -> Kriteriumsvalidität; Konstrukte lassen sich in unterschiedlichen

Situation erheben, und ihre Ausprägung ist dann auch anders

-> handelt es sich um Einzelfall- vs. Gruppendiagnostik; Status vs. Prozessdiagnostik oder

spezielle Erhebungskontexte


C) Bei wem? -> für wen, ist der Test? -> erwachsene, Jugendliche, Kinder; klinisch vs. Nicht-

klinisch Testpersonen


Je nachdem, was ich vorhersagen möchte variiert die Definition von dem Konstrukt z.B. Intelligenz.

Nur weil es ein Verfahren für das Konstrukt schon gibt, heißt das nicht das das Verfahren auch

passend ist für einen selbst ist. Hat das Verfahren eine passende Konstruktdefinition? Passen die

Gütekriterien zu den eigenen Ansprüchen. Wenn bereits ein ähnlicher Test vorhanden ist, sollte eine

Begründung für die Neuentwicklung gegeben werden.

Author

Nipu D.

Information

Last changed