Inhaltsbereich und Anwendungsfelder
Welche drei diagnostischen Informationsquellen gibt es in der Psychologie?
Psychologische Testverfahren gehören neben der Verhaltensbeobachtung und dem explorativen Gespräch zu den wichtigsten diagnostischen Informationsquellen für Psychologen/-innen.
• diagnostik ursprung des worts / bedeutung
Psychologische Diagnostik ist nach Jäger und Petermann (1995)..
-dia-gignōskein [griech.] = gründlich kennen lernen, entscheiden, beschließen
… das systematische Sammeln von Informationen mit dem Ziel, Entscheidungen und daraus resultierende Handlungen zu begründen, zu kontrollieren und zu
optimieren.
-
…. ein System von Regeln, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten mit dem Ziel
- psychologisch relevante Charakteristika von Merkmalsträgern zu gewinnen
- Daten zu einem diagnostischen Urteil zu integrieren und
- Entscheidungen sowie Prognosen und deren Evaluation vorzubereiten
- Merkmalsträger: Einzelpersonen, Personengruppen, Institutionen, Situationen,
Gegenstände
Wie hoch ist der Anteil der psychologischen Diagnostik in der klinischen und forensischen Psychologie?
Die Psychologische Diagnostik nimmt je nach Anwendungsfeld zwischen 24,4% (klinische Psychologie) und 44,1% (forensische Psychologie) der Gesamttätigkeit eines Psychologen ein (Roth & Herzberg, 2008).
Datenbasis und grundlegende Klassifikationen
Was versteht man unter einem psychologischen Test nach Lienert & Ratz? (1998)
Ein Test ist ein wissenschhaftliches Routineverfahren zur Untersuchung eines oder mehrer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel, eine möglichst quantitative Aussage über den relativen Grad der individuellen Merkmalsausprägung zu treffen.
Welche drei Hauptarten psychologischer Tests gibt es?
Psychologische Tests werden unterteilt in Leistungstests, psychometrische Persönlichkeitstests und Persönlichkeits-Entfaltungs-Verfahren.
(Was sind Leistungstests)
Diese tests messen die kognitiven Fähigkeiten oder das Wissen einer Person in verschiedenen Bereichen. Sie konzentrieren sich auf die Leistungsfähigkeit in bestimmten Aufgaben.
Beispiel: Der Intelligenztest (IQ-Test) misst das logische Denken, die Problemlösefähigkeit und das Verarbeiten von Informationen.
Persönlichkeits-Entfaltungs-
Verfahren
Merkmale, Gütekriterien, Beispiele
• unspezifische, wenig strukturierte
Reize und globale
Aufgabenstellungen, großer
Freiraum für Testpersonen
(Reaktionen) und Diagnostiker
(heterogene, qualitative
Interpretationsmuster)
• Gütekriterien oft nicht erfüllt oder
schwer prüfbar
• Beispiele: Rohrschach, TAT,
Familie in Tieren
Psychometrische
Persönlichkeitstests
• spezifische, klar strukturierte
Stimuli, um ein ganz spezifisches
Verhalten direkt oder indirekt zu
erfassen (z.B. durch
Selbstauskunft in einem
Fragebogen)
• Gütekriterien meist erfüllt
• Beispiele: NEO-FFI, 16PF, AAS-R
Was sind latente Variablen?
Latente Variablen sind nicht direkt beobachtbare Konstrukte, die durch Tests erfasst werden.
Beispiel: Stress, Intelligenz, Kreativität
Was sind Psychologische Tests ?
Psychologische Tests…
• im engeren Sinne Leistungstests, psychometrische Persönlichkeitstests und
Persönlichkeits-Entfaltungs-Verfahren
• im weiteren Sinne gehören auch standardisierte Interviews und
standardisierte Verhaltensbeobachtungen dazu
• erfassen Fähigkeiten, Eigenschaften, Fertigkeiten und Zustände (= nicht direkt
beobachtbare Konstrukte = latente Variablen) einer Person
• beinhalten eindimensionale Testwerte, um die Konstrukte und deren Facetten
abzubilden
Welche formale Klassifikationskriterien für Testverfahren gibt es?
Testverfahren können anhand folgender Kriterien klassifiziert werden:
Anzahl diagnostisch verwertbarer Scores (eindimensional vs mehrdimensional) , Sprachgebundenheit (culture fair), Durchführungsmodalitäten (Einzeltest vs Gruppentest), Papier-und-Bleistift-Test vs computergestütztes Verfahren) sowie Speed-Tests vs Power-Tests und antwortabhänginge vs antwortunabhänginge Tests.
Inhaltlich-theoretische Klassifikationskriterien von Testverfahren
• Klassifikation von Testverfahren nach Brähler et al. (2002):
- Leistungstests: z.B. Entwicklungstests, Intelligenztests, allgemeine Leistungstests, Schultests, spezielle Funktionsprüfungs- und Eignungstests
- Psychometrische Persönlichkeitstests: Persönlichkeitsstrukturtests,
Einstellungstests, Interessentests, klinische Tests
- Persönlichkeits-Entfaltungs-Verfahren: Formdeuteverfahren,
zeichnerische- und Gestaltungsverfahren, Verbal-thematische Verfahren
Was ist ein Beispiel für einen culture-fair Test?
Ein culture-fair Intelligenztest enthält keine sprachliche Inhalte sondern arbeitet mit nonverbalen Aufgaben wie Bilderrätseln.
Fähigkeits- und Leistungsdiagnostik
Was versteht man unter Fähigkeit?
Fähigkeit bezeichnte psychische und physische Bedingungen, die es ermöglichen, eine Leistung zu erbringen. Sie ist latent, dh sie kann nur über Beobachtung erschlossen werden (zb Intelligenz, Konzentration, Vigilanz)
Was ist der Unterschied zwischen Fähigkeit und Fertigkeit?
Fertigkeit bezeichnet die zu einer Leistung notwendigen Techniken und Kenntnisse, die durch Übung erworben werden, während Fähigkeit eine latente Voraussetzung darstellt.
Was versteht man unter Performanz?
Performanz ist die aktuelle Leistung, aus der auf die zugrunde liegenden Fähigkeiten und Fertigkeiten geschlossen wird.
Wie erfolgt die Bewertung der Performanz ?
Was ist das Kompetenz-Performanz-Problem?
§ Bewertung der Performanz
• Richtigkeit (korrekt vs. falsch)
• Qualität (mehrere, unterschiedlich gute Lösungen möglich)
• Schnelligkeit (Tempo, mit dem Lösung generiert wird)
- häufig auch kombinierte Leistungsmaßstäbe
- Kompetenz-Performanz-Problem: Performanz ist nur dann Indikator für eine Fähigkeit (Kompetenz), wenn die Testperson die Leistungsmaßstäbe versteht und übernimmt
Was ist der Unterschied zwischen Schnelligkeitstests ( Speed-Tests ) und Niveautests ( Power-Tests? )
Schnelligkeitstests (speed tests):
• Schnelligkeitsmaßstab im Vordergrund
• leichte oder mittelschwere Aufgaben;
ohne Zeitbegrenzung könnten alle
Aufgaben gelöst werden
• innerhalb kurzer Zeit viele Aufgaben
lösen
• z.B. Tests zur Messung der
Konzentration, motorischer
Geschicklichkeit etc.
• Testscore: richtig gelöste Aufgaben,
Testzeit, Anzahl bearbeiteter Aufgaben
Niveautest (power tests):
• Qualitäts- oder Richtigkeits-
maßstab im Vordergrund
• Aufgaben in der Regel aufsteigend
nach ihrem Schwierigkeitsgrad
geordnet
• keine oder großzügig bemessene
Zeitbegrenzungen
- selbst ohne Zeitbegrenzung
können Probanden nicht alle
Aufgaben lösen
• Testscore: richtig gelöste
Aufgaben
Was ist ein Beispiel für einen Speed-Test?
Ein Konzentrationstest, bei dem innerhalb einer kurzen Zeit möglichst viele einfache Aufgaben gelöst werden müssen.
Was ist ein Beispiel für einen Power-Test?
Ein Intelligenztest mit ansteigendem Schwierigkeitsgrad, bei dem keine oder nur eine großzügige Zeitbegrenzung vorgegeben ist.
Fähigkeits- und Leistungstests können den Testpersonen auf
unterschiedliche Arten vorgegeben werden…
Was ist der Unterschied zwischen einer konventionellen Testvorgabe und einer adaptiven Testvorgabe?
• konventionelle Testvorgabe
• antwortabhängige Testvorgabe
- sequentielle Vorgabe
- adaptive Vorgabe
unterschiedliche Arten vorgegeben werden..
Konventionelle Testvorgabe
• jeder Proband bearbeitet den gleichen Itemsatz, selbe Reihenfolge
• fixierte Itemmenge
• oft Staffelung nach Schwierigkeit: leichte Items zuerst
• für hohe Messpräzision in allen Bereichen des Merkmalskontinuums ist eine
große Itemmenge mit unterschiedlichen Schwierigkeiten nötig
• adaptive Elemente
- in manchen Tests, z.B. Hamburg-Wechsler-Intelligenztest für Kinder III
- Abbruchkriterien bzw. Umkehrregeln zu leichteren Items
- spezifische Einstiegsitems (nach vermutetem Fähigkeitsniveau)
- Ziele: Steigerung der Ökonomie, Vermeidung von Demotivation
1.3 Fähigkeits- und Leistungsdiagnostik
Verzweigtes Testen
• festgelegte Verzweigungen
entweder nach jedem Item oder
nach jeder Aufgabengruppe
• Itemanordnung und Zahl der
Schritte a priori festgelegt
• Bsp.: Aufgabengruppen im AID-3
(Adaptives Intelligenz Diagnosti-
kum 3)
Maßgeschneidertes Testen
• variable/maßgeschneiderte
Verzweigungen: Itemanordnung
und Zahl der Schritte nicht a priori
festgelegt
• nach jedem Item wird das
Fähigkeitsniveau der Testperson
geschätzt und das nächste Item
ausgewählt, das für die
geschätzte Fähigkeit den höchsten
Informationszuwachs erwarten
lässt
• gleichzeitige Ermittlung des
Schätzfehlers (loop)
• Vorgabe computergestützt
Vor - und Nachteile des adaptiven Testens
(Test passt sich an Testperson an)
Vorteile des adaptiven Testens:
• höhere Testökonomie
• höhere Messpräzision
• evtl. höhere konvergente und diskriminante Validität
• Effekte auf Testmotivation umstritten
Nachteile des adaptiven Testens:
• aufwändige Testkonstruktion
• IRT-konformer Itempool
• großer Itempool (Gleichverteilung der Itemschwierigkeiten notwendig)
unterschiedliche Arten vorgegeben werden
Antwortabhängige Testvorgabe
• gegebene Antworten entscheiden über den weiteren Verlauf des Testens
• flexible Strategie der Informationserhebung
• Grundidee: es werden nur die Items verwendet, die einen deutlichen
Informationsgewinn versprechen
• Einsatz bei Selektions- oder Klassifikationsaufgaben
• Unterscheidung von sequentiellem und adaptivem Testen
Sequentielles Testen
• Grundgedanke: Abbruch des Tests, sobald genügend Informationen vorliegen,
um die Testperson einer Gruppe zuzuordnen
• Bsp.: Hat ein Klient eine Angststörung?
• Einsatz bei Selektions- oder Klassifikationsaufgaben, z.B. Entscheidungsbäume
nach DSM, Symptom-Checklisten
• Entscheidungsregeln: nach jeder Aufgabe erfolgt Prüfung, ob genug
Informationen vorliegen, um terminale Entscheidung treffen zu können
• Vorgabe meist am PC
• Vorteil: in der Regel kürzer und ökonomischer als konventionelle Tests
• Nachteil: keine Binnendifferenzierung innerhalb der Gruppen (A besser als B in
der Gruppe der angenommenen Kandidaten)
Adaptives Testen
• Ziel: quantitative Messung von
Personenmerkmalen optimieren
• Grundgedanke: Erstellung eines
individuellen Itemsatzes für jede
Testperson, optimal abgestimmt auf
sein Fähigkeitsniveau
• Konstruktionsgrundlage: Item-
Response-Theorie (IRT)
• Nach jedem Item wird entschieden,
welches Item der Testperson als
nächstes vorgelegt wird (geringe,
mittlere oder hohe Schwierigkeit)
(pyramidal verzweigter test)
• Informative Items = Items mit mittlerer Lösungswahrscheinlichkeit für die
Testperson
• Testperson pendelt sich während der Testung auf Niveau der Itemschwierig-
keit ein, das ihrem Fähigkeitsniveau entspricht
• Achtung!
- Testpersonen können nicht über die Anzahl gelöster Items verglichen werden, da
jede Testperson einen individuellen Itemsatz bekommt
-Außer wenn Rasch-homogene Items!
- Vergleich der Testpersonen nur über ihren Fähigkeitsparameter
• 2 Arten adaptiven Testens
- fest verzweigte (branched) Tests und
- variable, maßgeschneiderte (tailored) Tests
Persönlichkeitsdiagnostik
Wie definiert Asendorpf (2014) Persönlichkeit?
Persönlichkeit (lat. Persona, Maske, Rolle, Person) ist die Gesamtheit aller überdauernden individuellen Besonderheiten im Erleben und Verhalten (= Persönlichkeitseigenschaften) eines Menschen
(Asendorpf, 2014)
• Bsp. Intelligenz, Aggressivität Geselligkeit, Leistungsmotivation
• „Überdauernd“ bezieht sich auf die zeitliche Stabilität dieser Besonderheiten
• Dispositionen, d.h. Tendenzen bestimmte Situationen in einer bestimmten
Weise zu erleben und sich dort in bestimmter Weise zu verhalten
• Mit „individuellen Besonderheiten“ ist gemeint, dass es sich um Merkmale
handelt, die zwischen den Mitgliedern einer Bezugsgruppe variieren
Welche Datenquellen werden in der Persönlichkeitsdiagnostik
unterschieden?
Klassifikation nach Cattell (1957)
• Questionnaire-Daten (Q-Daten): Selbstauskünfte im Interview, Exploration
oder Fragebogen
• Test-Daten (T-Daten): indirekte Verfahren, z.B. physiologische Daten, objektive
und projektive Tests
• Life-Daten (L-Daten): Fremdbeurteilungen, biographische Merkmale
Welche Vor- und Nachteile haben Persönlichkeitsfragebögen (Q-Daten) ?
Vorteile von Persönlichkeitsfragebögen/Q-Daten:
• Ökonomie hinsichtlich Durchführung, Auswertung und Kosten
• Akzeptanz
• Zugang zu vielen Informationen
• weitgehende Standardisierung
• Anwendbarkeit der Methoden der Testtheorie
Nachteile von Persönlichkeitsfragebögen/Q-Daten:
• absichtliche Verfälschung möglich (Faking)
- Simulation
- Dissimulation
• unbeabsichtigte (?) Verfälschung
- Soziale Erwünschtheit
- Zustimmungstendenz bzw. Ablehnungstendenz
- Tendenz zur Mitte bzw. zu extremen Antworten
• Fluktuationen der Motivation
• Reihenfolgeeffekte
• spezielle Kontexteffekte
• teilweise geringe Prädiktionskraft für spezifisches Verhalten
1.4 Persönlichkeitsdiagnostik
Welche Informationen können mit Fragebögen/Q-Daten erfasst werden? Nach Angleitner, John und Löhr (1986):
• Beschreibungen eigener Reaktionen („Es ist mir wichtig, nicht nervös zu
erscheinen“)
• Eigenschaftszuschreibungen („Ich bin ein geselliger Mensch“)
• Wünsche und Interessen („Ich würde gerne um die Welt segeln“)
• Biographische Fakten („In meiner Jugend bin ich schon mal mit dem Gesetz in
Konflikt gekommen“)
• Einstellungen und Überzeugungen („Wenn ich starkes Herzklopfen verspüre,
befürchte ich einen Herzanfall zu bekommen“)
• Reaktionen anderer gegenüber der eigenen Person („Meine Familie ist mit meinem
Beruf nicht einverstanden“)
• Bizarre Items („Man wollte mich schon mal vergiften“)
Welche Arten von Items werden in Fragebögen verwendet?
• Gebundenes Format
- Rating/Likert-Skalen
- binäre Items
- Mehrfach-Wahlaufgabe
...
• Ungebundenes Format
Vorteile von T-Daten
• Problem von Q-Daten: Manche Testpersonen wollen oder können keine
adäquaten Selbstberichte abgeben
• Gewinnung von Persönlichkeitsdaten aus Fähigkeits-, Wahrnehmungs- und
Handlungstests
• Bsp.: Stroop-Test, Implicit association test (IAT), Dot probe
• Vorteile: Messintention ist nicht evident
➜ kann Verfälschungstendenzen entgegen wirken
• Nachteile:
- T-Daten stimmen oft nicht mit Q-Daten überein (niedrige konvergente Validität)
- T-Daten sind wenig stabil
Interpretation von Testwerten
Wie interpretiert man die Testwerte eines psychologischen Tests?
§ Testscore wird meist gewonnen durch simples Aufsummieren der
Antworten auf die Testitems („trivial scoring function“)
§ Zwei Arten von Bedeutung
• „allgemeine Bedeutung“: Testwert eignet sich als formale Beschreibung einer
Persönlichkeitseigenschaft ➜ Belege zur Konstruktvalidität notwendig
• „besondere Bedeutung“ für Testperson ➜ ergibt sich erst durch einen
sinnvollen Bezugsrahmen für den Testscore
- Wie stark ist das Persönlichkeitsmerkmal bei der Testperson ausgeprägt?
- Ist der individuelle Testwert einer Person irgendwie besonders, auffällig oder
hoch/niedrig?
Bezugsrahmen für die Interpretation individueller Testergebnisse – drei Arten: Wir können den individuellen Testwert vergleichen mit…
• vorangegangenen Werten, z.B. am Anfang des Schuljahres (individuelles
Bezugssystem)
• einem Kriterium, z.B. Führerscheinprüfung, Abi (kriterienorientiertes
• den Werten einer relevanten Vergleichsgruppe, z.B. Realschüler im selben
Alter (normorientiertes Bezugssystem)
1.6 Kriterien zur Beurteilung von Testverfahren
Es gibt über 6000 veröffentlichte
psychologische Testverfahren
Was ist ein „guter“ Test?
➜ Test, der für die Untersuchung
einer bestimmten diagnostischen
Fragestellung geeignet ist, d.h.
dessen Eignung anhand psychometrischer
Gütekriterien belegt werden kann!
Wir brauchen die psychometrischen
Gütekriterien für
• Testvalidierung
• Testauswahl
Kriterien zur Beurteilung von Testverfahren
Was ist Objektivität?
Objektivität
• Definition: Grad der Unabhängigkeit des Testergebnisses von der Person des Testleiters (Bühner, 2011)
• Eine Testwertinterpretation ist dann objektiv, wenn die Durchführung und Auswertung eines Tests sowie die Interpretation einer Testleistung nicht variiert, auch wenn unterschiedliche Testleiter den Test durchführen (Ziegler, 2017)
Durchführungsobjektivität:
• Standardisierung der Untersuchungssituation
• Verhalten, Kommunikation, Fragen, Antwortmöglichkeiten
Auswertungsobjektivität:
• Schablonenauswertung, Computerdiagnostik
• Fragebogen und Ratingskalen: Festlegung der Antwortmöglichkeiten,
Ratertraining, Beobachterschulung etc.
Projektive Tests: Festlegung exakter Auswertungsregeln
Interpretationsobjektivität:
• Festlegung der Interpretationsmöglichkeiten, Konfidenzintervall, Beispiele
Welche 3 Arten der Objektivität gibt es ?
Durchführungsobjektivität, Auswertungsobjektivität, und Interpretationsobjektivität
Was ist Reliabilität?
Reliabilität
• Definition: Unter Reliabilität versteht man den Grad der Genauigkeit, mit dem
ein Testwert ein bestimmtes Merkmal misst
• Auch Zuverlässigkeit, (Messpräzision)
• Es gibt unterschiedliche Reliabilitätsschätzer/ Reliabilitätskoeffizienten
Testhalbierungs-Korrelation und interne Konsistenz
• Schätzung anhand testinterner Informationen
• Testhalbierungsreliabilität
- Teilung des Tests in möglichst „gleiche“ Testhälften
- Ermittlung der Korrelation zwischen den Testhälften und Aufwertung des
Reliabilitätskoeffizienten
• Interne Konsistenz
- jedes Item wird als eigenständiger Testteil angesehen
- z.B. Cronbachs Alpha
- berücksichtigt den Zusammenhang zwischen Items und Testlänge
Konstrukt-Reliabilität
• Über faktorenanalytische Verfahren
• Ermittlung des jeweiligen Tau-Anteils/Item
• Gewichtung des jeweiligen Itemeinflusses auf Gesamtreliabilität
• Weniger Voraussetzungen als interne Konsistenz/Testhalbierungskorrelationen
Test-Retest-Korrelation
• Testdurchführung zu zwei verschiedenen Testzeitpunkten
• Ermittlung einer Korrelation zwischen den Testleistungen
• Korrelation kann in Abhängigkeit vom Zeitintervall variieren
• Merkmalsstabilität
Paralleltest-Korrelation
• Berechnung einer Korrelation zwischen zwei Tests, die dieselbe Eigenschaft
oder Fähigkeit messen
• Wie invariant sind die Testergebnisse gegenüber einer inhaltlichen oder
zeitlichen Variation?
• Bedingungsstabilität
Welche Reliabilitätsarten gibt es?
Testhalbierungsreliabilität, interne Konsistenz, Test-Retest-Reliabilität, Paralleltest-Reliabilität
Was ist Validität?
• Definition: Das Ausmaß, in dem ein Test auch tatsächlich das Merkmal misst,
das er zu messen vorgibt (Kemper et al., 2015)
• Auch: Gültigkeit
• Zentrales Gütekriterium: Ein valider Test erlaubt die Generalisierung des im
Test beobachteten Verhaltens auf Verhalten außerhalb der Testsituation
- Achtung: Analogie- vs. Induktionsschluss
➜ Ziel des psychologischen Testens: menschliches Verhalten erklären und
vorhersagen können
• Es gibt unterschiedliche Validitätsarten / Validitätsschätzungen
Inhaltsvalidität
• Ist dann gegeben, wenn ein Testwert bzw. die zugrunde liegenden Items das
zu messende Merkmal hinreichend präzise erfassen
• [Repräsentative Ziehung aus dem Itemuniversum]
• Beispiel Ängstlichkeit
- Aufgeregtheit (affektive Komponente)
- Besorgnis (kognitive Komponente)
• Bestimmung der Inhaltsvalidität
- Expertenbefragung
- Analyse bestehender Verfahren
- fundierte theoretische Modelle
Kriteriumsvalidität
• Testwert und Kriterium sollen in Zusammenhang stehen
- Vorhersagevalidität: Korrelation mit zeitlich später erhobenen Kriterien (z.B.
Intelligenztestleistung vor Beginn der Lehre wird mit Abschlussnote der Ausbildung
korreliert)
- Übereinstimmungsvalidität: Korrelation mit zeitgleich erhobenen Kriterien (z.B.
Konzentrationsleistung vor Klausur wird mit Klausurnote korreliert)
- Retrospektive Validität: Korrelation mit zeitlich vorher ermittelten Kriterien (z.B.
Intelligenzleistung während Studium wird mit Abiturnoten korreliert)
- Inkrementelle Validität: Bezeichnet den Beitrag eines Testwerts zur Verbesserung
der Vorhersage eines Kriteriums (z.B. Persönlichkeitstestwert als Inkrement zu
Leistungstests bei Vorhersage des Schulerfolgs)
Konstruktvalidität
• Wird das interessierende Merkmal (seine Struktur/seine Außengrenzen)
abgebildet?
• Man unterscheidet verschiedene Arten der Konstruktvalidität:
- Konvergente Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem
anderen Verfahren (das dasselbe Konstrukt erfassen will) zusammen?
➜ Erwartung einer hohen Korrelation
- Diskriminante Validität: Wie hoch hängt der Testwert mit einem Testwert aus einem
anderen Verfahren (das ein anderes Konstrukt [nahe im nomologischen Netz]
erfassen will) zusammen?
➜ Erwartung einer niedrigen Korrelation
- Faktorielle oder strukturelle Validität: Faktorenanalytische Untersuchung der
testinternen Struktur und/oder von Zusammenhängen des entwickelten Tests mit
anderen Tests
Welche Nebengütekriterien gibt es ?
Nebengütekriterien (Bühner, 2011; Kemper et al., 2015)
• Ökonomie
• Nützlichkeit
• Normierung
• Vergleichbarkeit
• Zumutbarkeit
• Fairness
• Nicht-Verfälschbarkeit
Normierung
Vergleichbarkeit
Ökonomie
Nützlichkeit
Über den Test müssen Normen vorliegen, die eine Einschätzung derindividuellen Testleistung ermöglichen. Nur dann ist ein Rückschluss auf die Ausprägung der einzelnen Probanden möglich.
§ Vergleichbarkeit
Ein Test ist vergleichbar, wenn eine oder mehrere Parallelform/en oder Tests
mit demselben Gültigkeitsbereich vorhanden sind.
§ Ökonomie
Ein Test ist ökonomisch, wenn er kurz, einfach zu handhaben, für eine
Gruppentestung tauglich, wenig materialintensiv und schnell auswertbar ist.
§ Nützlichkeit
Ein Test ist nützlich, wenn er ein Merkmal misst oder vorhersagt, für dessen
Untersuchung ein praktisches Bedürfnis besteht.
Zmutbarkeit
Fairness
Nicht-Verfälschbarkeit
§ Zumutbarkeit
Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher,
psychischer und körperlicher Hinsicht schont.
§ Fairness
Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung relevante Gruppen nicht diskriminieren.
§ Nicht-Verfälschbarkeit
Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil zieht.
Tests of Maximum Performance vs Tests of typical response
(cronbach 1990)
Psychometrische Gütekriterien
Skalierbarkeit des Tests
• Klassische Testtheorie (KTT)
- trivial scoring function
- Testwert als Summe der Itemantworten einer Skala
- Annahme: Jedes Item trägt gleichermaßen zum Testwert bei (Einheitsgewichtung)
• Probabilistische Testtheorie (PTT)/ Item-Response-Theorie (IRT)
- Überprüfung der Gültigkeit der Verrechnungsvorschrift
Zusammenhang zwischen Objektivität, Reliabilität und Validität
Testwert ist nicht objektiv!
Testwert kann keine hohe Reliabilitätsschätzung erreichen!
Testwertinterpretation kann keine guten Vorhersagen treffen!
Validität ist nicht gegeben!
Last changed21 days ago