6. Testevaluation
Übersicht
6.1 Einführung
6.2 Der schnelle Weg der Testevaluation
6.3 Das Testbeurteilungssystem des Diagnostik- und Testkuratoriums
6.4 Die DIN 33430 für berufsbezogenen Eignungsbeurteilungen
6.5 Zwischenfazit
6.6 „Der schlanke und saubere Weg“ der Testevaluation
6.7 Synopsis
Lehrziel
• Sie können einen Test anhand von Testgütekriterien evaluieren und für einen bestimmten Anwendungskontext und -zweck auswählen
6.3 Das Testbeurteilungssystem des Diagnostik- und Testkuratoriums (TBS-TK)
§ Wie hilft das TBS-TK in der diagnostischen Berufspraxis?
• Schaffung eines wissenschaftlich fundierten Standards an dem sich Testautoren, Verlage, Anbieter, Anwender und Testrezensenten orientieren können
(Das TBS-TK gibt klare und überprüfbare kriterien vor, wie gute tests aussehen sollen. alle, die mit tests zu tun haben, können sich daran orientieren)
- Testautoren und -verlage: Verbesserung der Dokumentation und Qualität von Testverfahren (z.B. LUXXprofile-Handbuch)
(Wer tests entwickelt, bekommt durch das TBS-TK hinweise, wie man Testmanuale sinnvoll und vollständig aufbereitet.)
- Testrezensenten: Klare Struktur und Inhalte einer Testevaluation
(die jenigen die tests bewerten. haben einheitlliche bewertungskriterien und wissen, worauf sie achten sollen )
- Anwender: Schnelle Einschätzung bzw. Empfehlung zur Brauchbarkeit eines Test
(wer tests in der praxis anwendet ((zb psycholog/-innen ) , kann schnell sehen, ob ein test gut ist und wofür er geeignet ist)
• Problem: bisher nur wenige Testrezensionen verfügbar
(die idee ist gut, aber es gibt aktuell leider noch nicht viele veröffentliche bewertungen nach dem TBS-TK System)
6.4 DIN 33430
Was ist die DIN 33430 und wozu dient sie in der eignungsdiagnostik?
DIN 33430: Anforderungen an Verfahren und deren Einsatz bei
berufsbezogenen Eignungsbeurteilungen
• Prozessnorm (keine Produktnorm)
(sie beschreibt den ablauf (also den prozess) , nicht das fertige testverfahren selbst dh sie legt fest, wie der gesamte prozess der eignungsbeurteilung ablaufen soll - also planung, durchführung , auswertung und interpretation)
• Dient als Leitfaden für die Planung und Durchführung von
Eignungsbeurteilungen
(die DIN hilft dabei, wie man eignungsdiagnostik (zb auswahlverfahren) professionell gestaltet. )
• Keine Rechtsnorm, aber wahrscheinlich Begründungszwang bei juristischen
Auseinandersetzungen (z.B. Konkurrentenklage)
(sie ist nicht gesetzlich verpflichtend einzusetzen, kann aber rechtlich wichtig werden zb wenn man nachweisen muss, dass man fair und nach standards gearbeitet hat)
• Beispiele für Anforderungen /Beispiele für zentrale Qualitätsanforderungen laut DIN 33430
- Arbeits- und Anforderungsanalyse als Grundlage
(man draf nicht einfach irgendeinen test einsetzen - er muss zur aufgabe passen)
- ausführliche Verfahrenshinweise
(das verfahren muss genau dokumentiert sein, damit andere es nachvollziehen können )
- Gültigkeit der Reliabilitäts-
, Validitäts- und Normwerte ist spätestens alle acht
Jahre zu überprüfen
(tests müssen regelmäßig aktualisiert werden, damit sie noch gültig und zuverlässig sind )
- Verantwortliche und Mitwirkende müssen über Kenntnisse und angeleitete
Praxiserfahrung verfügen
(wer eignungsdiagnostik durchführt braucht fachwissen und praktische erfahrung )
Also:
(die DIN 33430 ist wie ein manual oder richtlinienkatalog aber speziell für die berufsbezogene eignungsdiagnostik.
ja, es ist ein leitfaden- er beschreibt , wie gute eignungsbeurteilungen ablaufen sollen.
aber keine produktnorm dh es geht nicht um die qualität eines einzelnen tests , sondern um den gesamten prozess (planung, durchführung , auswertung)
kein gesetz - aber in streitfällen zb wenn. bewerber klagen wegen unfairer auswahl, kann sie helfen zu zeigen : wir haben professionell gearbeitet)
also ja es ist ein standardisiertes manual für faire und fachgerechte eignungsdiagnostik )
Was sind Begleit- und Folgemaßnahmen der DIN 33430 ?
Begleit- und Folgemaßnahmen der DIN 33430
• Checklisten für rasches Screening, ob die Prozesse den Anforderungen der DIN 33430 genügen
(mit solchen cehlisten kann man prüfen, ob zb ein auswahlverfahren die anforderungen der DIN erfüllt - also ein schneller qualitätscheck)
• Fortbildungen und Lizenzprüfungen zur Personenlizenzierung für berufsbezogene Eignungsbeurteilungen nach DIN 33430
(personen, die berufsbezogene eignungsbeurteilungen durchführen wollen, können geschult und geprüft werden- so wird sichergestellt , dass sie qualifiziert sind).
• Zertifizierung von Unternehmen als Nachweis, dass diese bestimmten Qualitätsforderungen gerecht werden
(unternehmen können ein offizielles zertifikat bekommen, das zeigt, dass ihre verfahren die standards der DIN 33430 einhalten)
• DIN 33430 und die Beurteilung der Qualität von Tests
(die norm hilft auch dabei zu bewerten , ob tests selbst (zb intelligenzstests ) qualitativ hochwertig sind - also valide , reliabel usw).
(norm= hier eine norm ist ein maßstab für die qualität und korrektes vorgehen an dem man sich orientieren kann )
(die norm kann zwei bedeutungen haben je nach kontext- norm als standard / vorgabe zb DIN 33430 das ist die bedeutung hier, hier meint norm eine regel, vorgabe oder richtlinie. 2. norm als vergleichsgruppe in der diagnostik (zb intelligenztests) hier meint die norm eine normstichprobe, also eine repräsentative vergleichsgruppe, mit der du den testwert einer person vergleichst)
DIN 33430 und die Beurteilung der Qualität von Tests nach TBS-TK
Wie wird die qualität von tests gemäß DIN 33430 UND TBS-TK Testbeurteilungssystem des diagnostik- und testkuratoriums ) beurteilt ?
Kersting hat Anforderungen aus der DIN 33430 in 318 Einzelaussagen zerlegt
(kersting hat die umfangreiche norm in viele kleine , konkrete prüfpunkte aufgeteilt , um die umsetzung leichter kontrollierbar zu machen) (denk hier an die bedeutung der norm, steht in der anderen karteikarte)
140 davon betreffen Anforderungen an Verfahrenshinweise (Testmanuale)
(fast die hälfte dieser aussagen bezieht sich nur darauf, wie ausführlich und verständlich die testanleitungen sein müssen (zb wie man testet , was zu beachten ist etc).
➜ Checkliste 1 der Publikation DIN SCREEN zur DIN 33430 (Version 3)
(diese vielen einzelaussagen wurden in einer checkliste gesammelt, die man nutzen kann, um schnell zu prüfen, ob ein verfahren der norm entspricht)
Offizieller „Standard zur Information und Dokumentation von Instrumenten zur Erfassung menschlichen Erlebens und Verhaltens des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen“
(das ist der formelle titel dieses standards . er beschreibt , wie psychologische tests dokumentiert und bewertet werden sollen - also ein qualitätsrahmen für psychologische verfahren )
Wie wird die Checkliste 1 der DIN SCREEN im Rahmen des TBS-TK testbeurteilungssystem des diagnostik - und testkuratoriums eingesetzt?
• Enger Zusammenhang von DIN 33430 und Testbeurteilungen
(DIN 33430 ist eine norm für eignungsdiagnostik. da tests ein zentraler bestandteil davon sind, werden sie auch nach dieser norm beurteilt)
- Testverfahren sind wichtiger Bestandteil von Eignungsbeurteilungen
(ohne geeignete tests kann keine fundierte eignungsbeurteilung erfolgen, zb in der personalauswahl)
• 140 der von Kersting aus der DIN 33430 als Checkliste zusammengefassten
318 Einzelaussagen beziehen sich auf Anforderungen an Testmanuale
(kertsing hat viele anforderungen aus der norm genommen und sie als praktische prüfliste (die sogenannte checkliste 1) zur bewertung von tests aufbereitet)
➜ Checkliste 1
(diese checkliste ist also ein zentrales werkzeug zur testbeurteilung im TBS-TK )
• Anhand von Checkliste 1 werden die Voraussetzungen für eine Testevaluation
ermittelt (1. Stufe: Prüfung der Informationsgrundlage)
(bevor ein test überhaupt bewertet werden kann, wird geprüft , ob alle nötigen infos ( zb testmanual) überhuapt vorhanden sind.)
- Gegeben? ➜ Testbewertung nach TBS-TK
(nur wenn die notwendigen informationen da sind, kann die bewertung erfolgen )
- Nicht gegeben? ➜ Eignungsdiagnostischer Prozess kann nicht DIN-konform sein! (dann ist keine faire , regelgerechte bewertung möglich )
Es wird keine Testevaluation durchgeführt
(die prüfung bricht an dieser stelle ab)
Wie hilft die DIN 33430 in der diagnostischen Berufspraxis?
• Qualitätssicherung und -optimierung
(Die DIN 33430 Legt standards fest, die sicherstellen, dass eignungsbeurteilungen auf einem hohen qualitätsniveau durchgeführt werden- und hilft dabei, diese qualität weiter zu verbessern)
• Leitfaden für die Planung und Durchführung von Eignungsbeurteilungen
(die norm dient als praktischer fahrplan wie man eignungsdiagnostik (zb auswahltests ) fachgerecht plant und umsetzt).
• Schutz der Bewerber/innen
(die norm verhindert dass bewerber unfair, unprofessionell oder ohne fundierte grundlage beurteilt werden )
• Maßstab zur Bewertung von Dienstleistungsangeboten im Bereich
(unternehmen oder berater im bereich personalauswahl können anhand der norm überprüft werden: arbeiten sie seriös und standardkonform ?)
• Schnelle Einschätzung der Brauchbarkeit von Testmanualen als Grundlage einer Testevaluation (➜ Checkliste 1, TBS-TK)
(die DIN 33430 Hilft zu entscheiden, ob ein test (manual) überhuapt genug informationen enthält, um sinnvoll bewertet zu werden).
(norm hier= in diesem zusammenhang bedeutet norm eine standardisierte offizuelle festgelegte regel. die DIN 33430 ist also eine anerkannte richtlinie die genau vorgibt wie eignungsbeurteilungen professionell und fair durchgeführt werden sollen - also ein qualitäsmaßstab für die praxis , kein gesetz, aber fachlich verbindlich.
was ist das zwischenfazit zur testevaluation laut dem testbeurteilungssystem des diagnostik und testkuratoriums TBS-TK
Unterschiedliche Ansätze, um Tests zu evaluieren
(es gibt nicht den einen richtigen weg, sondern mehrere möglichkeiten, tests zu bewerten )
Testevaluationen nach TBS-TK erfüllen hohe Qualitätsstandards undkönnen als Orientierung für die Testauswahl dienen
(wenn tests nach dem TBS-TK bewertet wurden, sind sie meist sehr verlässlich und hilfreich zur auswahl geeigneter tests)
➜ nicht für jeden Test, den Sie später in der Berufspraxis
brauchen könnten, existiert eine Rezension
(es gibt noch keine TBS-TK Bewertung für alle tests - viele müssen selbst geprüft werden .)
Sie sollten daher lernen, Tests selbst zu evaluieren – drei Wege:
(man sollte sich selbst mit testevaluation auskennen, um fundierte entscheidungen treffen zu können )
„Der schnelle Weg“➜ Nutzung von rigiden Grenzwerten zur Testevaluation
(einfache, aber starre methode: man schaut nur, ob zb die reliabilität einen betsimmten wert überschreitet (nachteil: weniger differenziert)
„Der saubere aber steinige Weg“➜ Fachkundige Abwägung und Integration aller (nach Checkliste 1) notwendigen Informationen zur Testgüte in einem
strukturierten und komplexen Prozess
(Gründlichste methode, wie zb beim TBS-TK mit vielen kriterien , mehreren gutachtern , systematischem vorgehen )
– „Der schlanke und saubere Weg“➜ Fachkundiges Abwägen und Integration der wichtigsten (!) Informationen zur Testgüte in einem strukturierten und komplexen Prozess
(eine etwas vereinfachte version des TBS-TK wegs , bei dem sich auf die zentralen informationen konzentriert wird).
Was sind die drei schritte des “schlanken und sauberen wegs “ der testevaluation ?
Schritt 1: Herausbilden einer Erwartungshaltung
(was erwartet man vom test ? man klärt zuerst für sich, worum es überhuapt geht. bezug : abc der testkonstruktion ziegler 2014)
ABC der Testkonstruktion von Ziegler (2014)
Was soll gemessen werden?
(wwelches konstrukt oder welche fähigkeit soll der test erfassen?)
Zu welchem Zweck brauchen wir den Test?
(soll der test zb für diagnostik, auswahl oder forschung genutzt werden?)
Bei wem?
(für welche zielgruppe ist der test gedacht? )
Schritt 2: Lesen des Testmanuals
(man liest das handbuch zum test genau, um alle wichtigen informationen zu sammeln (zb validität , reliabilität ,d urchführung , normierung )
Schritt 3: Sammeln, Prüfen und Bewerten der Inhalte
(jetzt wird inhaltlich geprüft , wie gut die informationen sind.)
„Checkliste Testverfahren“ nach Margraf-Stiksrud und Stemmler (2015)
(eine vereinfachte liste zur überprüfung der qualität)
Prüfung von 140 Einzelaussagen aus DIN SCREEN für Praktiker nicht immer möglich
(die vollständige DIN-Prüfung ist sehr aufwendig.)
Vereinfachte Checkliste auf Grundlage von DIN SCREEN Checkliste 1 (Kersting, 2017)
(es wurde eine handlichere version der DIN-Checkliste erstellt, um die bewertung praxistauglich zu machen )
was beinhaltet schritt 1”herausbilden einer erwartungshaltung” im schlanken und sauberen weg der testevaluation ?
A) Welches Konstrukt wird gemessen? Der Test gibt vor, Konstrukt X zu messen.
Wenn dem so wäre, …
(also angenommen der test misst wirklich dieses konstrukt , was müsste man dann erwarten ?)
• … wie sollte dann das nomologische Netz aussehen?
(wie hängt das konstrukt logisch und theoretisch mit anderen konzepten zusammen )
• … wie stark sollten die empirischen Zusammenhänge mit mehr und weniger
verwandten Konstrukten sein? ➜ konvergente/ diskriminante Validität
(konvergente validität= starke korrelationen mit ähnlichen konstrukten )
(diskriminante validität: geringe korrelationen mit unähnlichen konstrukten )
• … welche Verhaltensweisen würden dann das Konstrukt indizieren? ➜
Inhaltsvalidität
(decken die testinhalte das konstrukt vollständig und sinnvoll ab?)
• … wie wäre die Struktur / Dimensionalität des Konstrukts? ➜ faktorielle Validität
(gibt es zb mehrere unterfaktoren ? sind diese empirisch nachweisbar?)
• … und welche Kriterien ließen sich dann mit dem Testwert erklären bzw.
prädizieren? ➜ Kriteriumsvalidität
(kriteriumsvalidität= kann man mit dem testergebnis zb berufserfolg , krankheiz oder verhalten vorhersagen ?
(mit testergebnis ist hier das individuelle ergebnis einer person im test gemeint- also den testwert den jemand erreicht)
B) Welchem Zweck soll der Test dienen? ➜ Ausprägung und Gewichtung der Gütekriterien
(bevor man einen test bewertet, muss man wissen, wofür er gedacht ist. je nach einsatzgebiet sind andere gütekriterien wichtiger - also zb eher reliabilität oder eher validität. )
• Gruppendiagnostik (z.B. klinische Forschung)
(hier geht es um die untersuchung mererer personen gleichzeitig. zb um vergleiche, wie sich gruppen in einem merkmal unterscheiden )
Beschreibung von Persönlichkeitsmerkmalen und Psychopathologie
(➜ Zusammenhänge mit Outcomes, Komorbidität, Vergleich von Gruppen)
(der test soll persönlichkeitsaspekte oder psychische auffälligkeiten erfassen, die man dann zb mit späterem verhalten , anderen diagnosen (komorbidität) oder gruppenunterschieden vergleicht.)
Veränderungsmessung: z.B. Wirksamkeitsstudien für Interventionen
(man misst zb vor und nach einer therapie, ob sich bei einer gruppe durch die intervention etwas verändert hat - also ob die maßnahme wirkt)
• Einzelfalldiagnostik (z.B. klinische Praxis)
(hier geht es um die diagnose einzelner personen zb für therapie oder behandlung. ziel ist eine individuelle einschätzung)
Screening und Klassifikation: z.B. Eingangsfragebogen zur Psychopathologie mit anschließendem Assessment, Zuweisung zu Behandlungsgruppen
(der test erklärt pb überhaupt eine störung vorliegt (screening) und welche art , um zb die passende behandlungsgruppe zu finden )
Statusdiagnostik: z.B. Diagnostik des Schweregrades im Rahmen einer Diagnosestellung
(hier wird der aktuelle zustand oder schweregrad der störung bestimmt - also wie stark betroffen jemand ist)
Prognose: z.B. Verlauf einer Symptomatik vorhersagen
((man schaut wie sich symptome wahrscheinlich entwickeln werden - also ein blick in die zukunft anhand des aktuellen testwerts.)
Veränderungsmessung: z.B. Behandlungserfolg für Patienten bewerten
(der test wird mehrmals durchgeführt , um zu sehen , ob sich durch eine therapie etwas verbessert hat )
§ Schritt 1: Herausbilden einer Erwartungshaltung
C) Bei wem soll der Test das Merkmal erfassen?
(es geht darum , für welche zielgruppe der test gedacht ist . das ist wichtig, weil ein test, der zb für erwachsene entwickelt wurde, nicht einfach auf kinder übertragbar ist)
• Was ist die Zielpopulation der Messung?
(zielpopulation= die personen, für die der test gedacht ist. der test soll also genau bei diesen personen funktionieren und gültige aussagen liefern)
- Kinder? Erwachsene?
(tests müssen sich oft an das alter anpassen: kinder verstehen andere dinge als erwachsene- sprachniveau, inhalte, aufgabenformate müssen altersgerecht sein )
- In bestimmten Altersbereichen?
(auch innerhalb von kindern oder erwachsenen muss differenziert werden zb 8 jährige vs 16 jährige . altersbereiche helfen, ergebnisse besser einzuorden )
- Bildung?
(das bildungsniveau beeinflusst , wie gut jemand mit dem test umgehen kann. ein test für akademiker funktioniert vielleicht nicht bei personen mit geringer schulbildung und umgekehrt)
- Spezielle Gruppen: Suchtkranke, Auszubildende in Handwerksberufen, Manager in
großen Industrieunternehmen, Senioren, Reha-Patienten
(hier geht es um spezifische zeilgruppen mit besonderen anforderungen. ein test muss entsprechend angepasst oder speziell entwickelt worden sein, damit er dort gültig und fair misst)
➜ Konstruktions-, Validierungs- und Normierungsstichprobe
(das sind die gruppen, mit denen der test entwickelt und überprüft wurde. sie sollten möglichst gut zur zielgruppe passen- sonst sind die ergebnisse nicht verlässlich oder verzerrt ).
(normierungsstichprobe= eine normierungsstichprobe ist die gruppe von personen , mit deren testergebnissen ein vergleichsmaßstab (normen ) für einen test erstellt wird)
(konstsruktionsstichprobe= die erste stichprobe mit der ein neuer test enwtickelt wird. um erste items zu testen usw)
(validierungsstichprobe= eine separate gruppe , mit der man prüft ob der test auch außerhalb der ersten gruppe funktioniert)
( in diesem schritt wird das testmanual systematisch durchgelesen, um zu prüfen: welche informationen liefert das manual über den test?
sind alle nötigen angaben vorhanden ?
wie transparent , verständlich und vollständig sind zb angaben zur zielgruppe, durchführung , auswertung , gütekriterien etc?)
das mnual ist quasi die gebrauchsanleitung des tests - wer es richtig liest, erkennt, wie seriös der test konstruiert und dokumentiert ist.
Welche Bereiche bewertet das Testbeurteilungssystem des diagnostik- und testkuratoriums (TBS-TK)?
Allgemeine informationen über den test
(beschreibung des tests und seiner zielsetzung)
Theoretische grundlagen der testkonstruktion
(wurde der test auf fundierter theorie aufgebaut?
objektivität
(ist die durchführung , auswertung und interpretation unabhängig von der person , die testet?)
normierung / eichung
(gibt es vergleichswerte in form von normstichprooben?)
zuverlässigkeit (Reliabilität)
(wie genau misst der test? (ZB Interne konsistenz , retest-reliabilität )
gültigkeit (validität)
(misst der test wirklich das, was er zu messen vorgibt?)
weitere gütekriterien
(zb skalierung, störanfälligkeit , unverfälschbarkeit )
abschlussbwertung / empfehlung
(gesamturteil und eventuelle empfehlung zur anwendung)
wie werden tests im TBS-TK-SYSTEM (testbeurteilungssystem) bewertet und dargestellt?
im TBS-TK SYSTEM werden tests in vier hauptkategorien beurteilt:
allgemeine informationen
zuverlässigkeit (reliabilität)
validität( gültigkeit)
die bewertung erfolgt nach einem vierstufigen system :
++ = voll erfüllt
+= weitgehend erfüllt
-=teilweise erfüllt
- - = nicht erfüllt
diese tabelle zeigt beispielhaft , welche tests welche TBS-TK KRITERIEN erfüllen
ziel: ein schneller vergleichm welche tests qualitativ hochwertig sind - für mehr transparenz und qualitätssicherung bei der testauswahl 4
Testevaluation
Das Testbeurteilungssystem des Diagnostik - und Testkuratoriums (TBS-TK)
Beispiel
Ein paar Beispiele
• Meyer et al., 2001
Was zeigen diese Beispiele?
( Die beispiele zeigen reale studien, in denen zwei variablen miteinander in beziehung gesetzt wurden - das geschieht über Korrelationskoeffizienten (r). Diese r-Werte zeigen die Stärke des zusammenhangs , zb zwischen:
-Zucker und verhalten von kindern : r=.00
—>Kein zusammenhang
aspirin und herzinfarkt-risiko: r=.02
—>sehr schwach
viagra und sexuelle funktion : r= .38
—->mittlerer zusammenhang
elternverhalten und kindliches verhalten : r= .24
so zeigt die auflistung mit den studien , dass in vielen echten studien die zusammenhänge eher niedrig ausfallen. selbst bei wichtigen themen.
zweck der auflistung: sie zeigt, dass auch kleine bis mittlere r-werte in der praxis relevant sein können - selbst wenn sie unter dem liegen, was man theoretisch als “hoch” einordnet. das ist wichtig für die bewertung von tests: ein r von zb .30 kann in der praxis schon aussagekräftig sein zb in der personalauswahl oder therapie.
Kritik an der Nutzung von fixen Grenzwerten bei der Testevaluation
(Fischer, 1968; Kersting, 2006; Messick, 1989; Watson, 2004)
Warum wird die Nutzung fixer Grenzwerte bei der testevaluation kritisiert?
(Was ist ein grenzwert in der testevaluation ?= ein grenzwert ist ein festgelegter zahlenwert, ab dem ein testmerkmal als “gut “ oder “ausreichend” gilt.
beispiel: ein test ist nur dann brauchbar, wenn die reliabilität über 0.80 liegt “. das wäre ein fester grenzwert - aber genau solche starren grenzen werden kritisiert)
(was ist ein korrelationskoeffizient / korrelationswert?)
= das ist eine zahl zwischen -1 und +1 die zeigt wie stark zwei dinge zusammenhängen. beispiel: wenn die korrelation zwischen intelligenztest und schulleistung 0,60 ist, bedeutet das: wer im test gut abschneidet, hat meistens auch gute noten (aber nicht immer).
ein wert von +1= perfekter positiver zusammenhang
0= kein zusammenhang
-1= perfekter negativer zusammenhang)
• 1.Stichprobenabhängigkeit von Korrelationskoeffizienten
(der korreltaionswert hängt oft stark davon ab, WER gestestet wird- in einer anderen stichprobe (zb andere altersgruppe) könnte er ganz anders ausfallen )
• 2. Unterschiedliche Implikationen der verschiedenen Reliabilitätskoeffizienten für die Validität
(es gibt verschiedene arten von reliabilität (zb interne konsistenz vs retest-reliabilität) und JE NACH ART fällt die bewertung eines tests unterschiedlich aus)
• 3.Einfluss von Messfehlern auf die Höhe der Korrelation
(messfehler senken oft die korrelation - ein test mit messfehler wirkt “schlechter” obwohl er das vielleicht nicht ist )
• Kriteriums-Kontamination und -Defizienz
(wenn das außenkriterium (zb schulnote) selbst verzerrt oder unvollständig ost, wird auch die korrelation mit dem testwert verfälscht.)
• Untersuchungsziel, Anwendungskontext
(ein test kann in einem kontext sehr nützlich sein, in einem anderen aber nicht- die aussagekraft hängt vom einsatzgebiet ab.
➜ (Die numerischen Ausprägungen der) Gütekriterien werden nicht nur
durch Charakteristika des Tests beeinflusst, sondern auch durch
Charakteristika der Untersuchungssituation, z.B. die Stichprobe
Rigide Grenzwerte sind nicht angemessen, um Tests zu evaluieren ! (starre (rigide) grenzwerte wie zb “r muss mindestes 0.40 sein” sind nicht immer fair oder sinnvoll , weil sie viele dieser einflüsse ignorieren. )
14.01.25 12
Was ist das Testbeurteilungssystem des Diagnostik- und Testkuratoriums (TBS-TK) und was ist sein ziel?
“Der saubere aber steinige Weg“ der Testevaluation ist angemessen
(eine gründliche testbewertung ist sinnvoll, auch wenn sie aufwendig ist . sie sorgt für bessere, zuverlässigere ergebnisse)
• „sauber“, weil weniger fehleranfällig und besser vertretbar
(wenn man tests sauber evaluiert, gibt es weniger fehler und die ergebnisse lassen sich besser begründen)
• „steinig“, weil zeitaufwendig und komplex ➜ Diagnostik- und Testkuratorium
(dieser weg ist zwar schwierig und braucht zeit, wird aber vom DTK übermommen- einer fachstelle für testbwertung.
Diagnostik- und Testkuratorium (DTK) der Föderation Deutscher
Psychologievereinigungen (BDP, DGPs)
(Das DTK ist eine offizielle gruppe von fachleuten, getragen vom BDP und der DGPs, die für die qualität psychologischer tests zuständig sind.)
Auftrag:
• Qualitätssicherung in der Psychodiagnostik
(ihre hauptaufgabe ist es, sicherzustellen , dass psychologische tests fachlich gut und zuverlässig sind)
• … die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor
unqualifizierter Anwendung diagnostischer Verfahren zu schützen (es soll verhindert werden, dass schlechte oder falsch eingesetzte tests schaden anrichten zb durch flasche diagnosen)
Instrument: Testbeurteilungssystem des Diagnostik- und
Testkuratoriums (TBS-TK)
(Das TBS-TK ist das Bewertungssystem das das DTK benutzt um tests systematisch und nachvollziehbar zu prüfen )
Was macht das testbeurteilungssystem des diagnostik - und Testkuratoriums (TBS-TK) aus und worin unterscheidet es sich vom schnellen weg der Testevaluation?
• Es macht Aussagen über Qualitätsstandards, z.B. Vollständigkeit der Verfahrenshinweise in Testmanualen, Bewertung der Gütekriterien
(das system überprüft zb ob testmanuale vollständig sind und ob die gütekriterien (zb validität , reliabilität ) angemessen berücksichtigt wurden. )
• Soll Anwendern, Testautoren, Verlagen, Anbietern und Testrezensenten als Richtschnur dienen
(es bietet orientierung für akle, die mit tests arbeiten: entwickler, verlage, nutzer und rezensenten)
• Häufig eingesetzte und wichtige Testverfahren werden von Fachkundigen beurteilt
(tests werden nicht irgendwie bewertet, sondern:
- nach einheitlichen Maßstäben (➜ Standardisierung)
(gleiche kriterien für alle tests)
- nach einem klaren Ablaufschema (➜ Transparenz)
(nachvollziehbarer bewertungsprozess)
- mit zwei unabhängigen Urteilen (➜ Objektivität)
(ergebnisse hängen nicht von einer einzelperson ab)
• Unterscheid zum schnellen Weg der Testevaluation
- keine Bewertung der numerischen Ausprägung von Gütekriterien
- Gütekriterien werden von Fachkundigen vor dem Hintergrund des
Anwendungskontextes (Untersuchungsziel etc.) evaluiert
—>(fachleute beurteilen tests im zusammenhang mit dem anwendungskontext (zb wofür und bei wem der test eingesetzt wird)
Wie läuft der Bewertungsprozess im Testbeurteilungssystem des Diagnostik - und Testkuratoriums (TBS-TK) ab?
Beauftragung von zwei reviewern (unabhängigkeit!)
(zwei unabhängige fachpersonen (reviewer) werden beauftragt, einen test zu beurteilen. unabhängigkeit ist wichtig, um verzerrungen zu vermeiden )
beurteilung reviewer 1 und Reviewer 2
(jeder reviewer gibt zunächst eine eigene, unabhänginge bewertung ab - ohne absprache mit dem anderen )
sammlung der unabhängigen urteile
(die beiden einzelurteile werden gesammelt - also nebeneinandergelegt und verglichen )
gemeinsame arbeit der beiden reviewer
(anschließend setzen sich die reviewer zusammen, um eine gemeinsame testrezension zu erstellen. dabei diskutieren sie ihre bewertungen und einigen sich auf ein urteil).
wie geht es nach der gemeinsamen testbewertung durch die reviewer im TBS-TK weiter?
TK sendet ergebnisse an die testautoren
(die fertige bewertung wird an die autor/-innen des tests geschickt.)
keine stellungnahme seitens der testautoren
(dann geht es direkt weiter zur veröffentlichung (s.unten)
2.1 TK sieht stellungnahme als unerheblich an
(auch hier erfolgt keine änderung- es wird veröffentlicht)
2.2 TK bittet reviewer aufgrund der stellungnahme um modifikation
(falls die stellungnahme wichtige punkte enthält, kann eine nachbesserung oder anpassung durch die reviewer erfolgen )
eintrag in die datenbank / publikation
( die endgültige rezension wird veröffentlicht , zb in der psychologischen rundschau)
wie viele testverfahren gibt es derzeit im deutschsprachigen raum?
was ist die zentrale frage bei der testauswahl?
was ist die grundlage für die auswahl eines passenden tests?
was versteht man unter testevaluation ?
wie läuft die testevaluation ab?
wozu braucht man bewertungskriterien bei der testauswahl?
Es gibt zur Zeit über 8300 veröffentlichte Testverfahren im
deutschsprachigen Raum (ZPID, 2021)
(=Es gibt sehr viele tests im deutschsprachigen Raum)
Zentrale Frage bei der testauswahl: Wie kann ich aus dieser Fülle von Tests, einen Test auswählen, der brauchbare Ergebnisse für meine diagnostische Fragestellung liefert?
(Welcher Test passt zu meiner fragestellung und liefert zuverlässige ergebnisse?)
Grundlage der Testauswahl ist die Testevaluation
(Um den richtigen Test auszuwählen, muss man vorher prüfen, wie gut er ist. Das nennt man Testevaluation.
Testevaluation ist ein Prozess, in dem geprüft wird, ob ein Test für die Untersuchung einer bestimmten Fragestellung geeignet ist (es wird systematisch geprüft, ob ein test für einen bestimmten einsatzbereich geeignet ist zb klinik , forschung).
➜ (wie läuft die testevaluation ab?) Abgleich von Eigenschaften des Tests bzw. Testwertes mit Anforderungen, die sich aus dem Anwendungskontext ergeben
(man vergleicht: was brauche ich für meine fragestellung? was bietet der test? —>passt das zusammen?)
➜ Es sind Kriterien um die Passung zu beurteilen notwendig: Unterscheidung von
brauchbaren und nicht-brauchbaren Testverfahren
(wozu braucht man bewertungskriterien bei der testauswahl?)
(es braucht klare beurteilungskriterien, damit man geeignete tests von ungeeigneten unterscheiden kann).
warum sind diagnostische entscheidungen so wichtig? 1
welche beispiele zeigen die tragweite diagnostischer entscheidungen? 2
was ist deshalb bei tests besonders wichtig? 3
wie stellt man hohe qualität in tests sicher? 4
Diagnostische Entscheidungen können
weitreichende Konsequenzen haben
(=wenn man mithilfe eines tests eine diagnose oder empfehlung gibt, kann das das leben einer person stark beeinflussen)
• Eingriff in Lebenswege
(=ein testergebnis kann zb entscheiden, ob jemand auf eine bestimmte schule darf, eine therapie bekommt oder einen job nicht erhält. das beeinflusst zukunft und chancen.
• z.B. / beispiele: Glaubwürdigkeit von Zeugen-
aussagen, vorzeitige Entlassung aus dem
Strafvollzug, Empfehlung für
weiterführende Schule, etc.
(=tests können in gerichtsverfahren helfen zu bewerten, ob jemand glaubwürdig ist. falsche einschätzung = schwere folgen!
vorzeitige entlassungen aus dem strafvollzug—>ob jemand als ungefährlich gilt kann mit einem test entschieden werden. empfehlung für weiterführende schule —> schullaufbahn kann von testergebnis abhängen)
• Hohe Qualitätsstandards notwendig!
(damit solche entscheidungen fair, objektiv und richtig sind, braucht man verlässliche und wissenschaftlich geprüfte tests)
➜ Psychometrische Gütekriterien
(diese kriterien (wie reliabilität, validität, objektivität, sagen wie gut ein test wirklich misst. sie sind die grundlage für qualität.
Was bedeutet Testevaluation?
Testevaluation bedeutet: —> ein bereits entwickelter test wird systematisch überprüft, um zu beurteilen, wie gut und wie geeignet er ist.
das heißt konkret:
wurde das gemessen, was gemessen werden sollte?
—>validität
sind die ergebnisse zuverlässig?
—>Relliabilität
wird objektiv ausgewertet?
—>objektivität
ist der test fair, ökonomisch , zumutbar?
—>Nebengütekriterien
man führt die testevaluation meist nach der entwicklung durch, bevor der test in der praxis eingesetzt wird - oder auch später regelmäßig, um zu überprüfen , ob er immer noch brauchbar ist.
Was sind Haupt - und Nebengütekriterien bei der testevaluation , und warum sind sie wichtig?
§ Hauptgütekriterien = Mindestkriterien
• Insbesondere Validität ➜ Nachweis unerlässlich, ansonsten keine Interpretation des Testwerts möglich
(=am wichtigsten ist die validität: nur wenn der test wirklich das misst, was er messen soll, kann man das ergebnis sinnvoll interpretieren).
• Gemäß der Testdefinition von Lienert und Raatz (1998) soll ein Test eine quantitative Aussage über eine individuelle Merkmalsausprägung treffen
(=gemäß der testdefinition von lienert und raatz soll eine quantitative aussage über eine individuelle merkmalsausprägung liefern- also zb sagen, wie viel intelligenz oder extraversion eine person hat)
• Nachweis ist wichtig, dass Testwert tatsächlich eine formale Beschreibung der Eigenschaft darstellt, die gemessen werden soll
(man muss zeigen können, dass das ergebnis tatsächlich eine eigenschaft abbildet, wie sie definiert ist (zb konzentration, angst etc).
• Objektivität und Reliabilität sind die Grundlage der Validität
(wenn ein test nicht objektiv (zb abhängig von der testenden person ist) oder nicht zuverlässig ist , kann er auch nicht gültig sein. validität baut auf objektivität und reliabilität auf.)
Erfüllung von Nebengütekriterien können Brauchbarkeit steigern
• Nützlich, aber nicht essentiell
(sie sind kein muss, aber verbessern die anwendbarkeit)
• Welche erfüllt sein sollten, hängt vom Anwendungszweck des Tests ab
(je nachdem wofür man den test braucht, sind bestimmte nebengütekriterien relevanter)
• Beispiel: Testfairness bei Tests zur Auswahl von Studierenden
(wenn man zb studierende auswählt , ist fairness sehr wichtigm ein unfairer test könnte sonst diskriminierend wirken)
Was ist der “schnelle weg” der testevaluation nach Fisseni (1997) ?
Nutzung von Grenzwerten / Cutoffs
für quantifizierbare Gütekriterien:
Richtlinien nach Fisseni (1997)
(= der “schnelle weg” bedeutet: man bewertet die qualität eines tests anhand fester richtwerte (Cutoffs) für verschiedene Gütekriterien - also zahlen die anzeigen, ob ein testwert eher niedrig, mittel oder hoch ist.)
(Merke: Was ist mit “Testwert” in der Tabelle gemeint?
=in dieser folie geht es nicht um den testwert einer einzelnen person, sondern um die qualitätswerte des tests selbst. dh: du bewertests nicht die leistung von personen, sondern ob der test insgesamt gute qualität hat.
also was zeigt die tabelle dann genau? sie zeigt Cutoffs (Grenzwerte) für sogenannte Testkennwerte , also messwerte zur qualität des tests.
die tabelle von Fisseni zeigt also zum beispiel:
Kriterium: schwierigkeit
Bedeutung: = gibt an, wie leicht ein item ist. P >.80 = sehr leicht (niedrig). )
Kriterium: Trennschärfe (merk dir auch die kürzel)
bedeutung: zeigt, wie gut ein item zwischen starken und schwachen testpersonen unterscheidet. je höher, desto besser, )
kriterium: auswertungsobjektivität
bedeutung; zeigt, ob die auswertung unabhängig von der testenden person ist. )
kriterium: reliabilität
bedeutung: zeigt, wie zuverlässig ein test misst. werte >.90 = sehr gut. )
kriterium: validität
bedeutung: misst der test das, was er soll?
gute werte : >.50 )
kriterium: normstichprobe
bedeutung: wie groß war die vergleichsgruppe?
mehr= besser. )
( du schaust also hat der Test zb eine reliabilität von 0,85 ? dann kannst du in der tabelle sehen: das liegt im mittleren bereich . ist sie über 0,90 —> hohe qualität.
(die tabelle beurteilt den test als messinstrument - nicht die einzelleistung de personen. der begriff testwert meint hier also: den kennwert eines tests zb seine reliabilität oder validität - und nicht die punktzahl einer gestesten person).
COTAN-System der Testevaluation in Holland (Evers, 2001)
Was bewertet das COTAN-System bei der Testevaluation und wie funktioniert es ?
Das COTAN-System ist ein Beurteilungssystem aus den niederlanden , entwickelt von Evers (2001) . es hilft dabei, tests schnell zu bewerten- besonders mit blick auf die reliabilität und normstichprobe. )
zwei zentrale kriterien:
reliabilität (zuverlässigkeit): wie genau misst der test ? (zb durch test-retest , interne konsistenz …) —>je höher desto besser.)
umfand der normstichprobe: (=normstichprobe= eine normstichprobe ist eine referenzgruppe , mit der man die testergebnisse einer person vergleichen kann. wenn man zb einen intelligenztest macht, ist das ergebnis allein erstmal bedeutungslos. erst durch den vergleich mit einer großen passenden gruppe wird klar, ob dein ergebnis hoch, durchschnittlich oder niedrig ist).diese vergleichsgruppe ist die normstichprobe).
—> wie viele personen wurden als Vergleichsgruppe getestet? —>größere stichprobe = repräsentativere normen
(was sind die niveaustufen beim COTAN-System?
die niveaustufen 1, 2 und 3 sagen aus, wie wichtig die entscheidungen sind, für die ein test verwendet wird. je wichtiger die entscheidung, desto strenger müssen die qualitätsanforderungen ( zb reliabilität, normstichprobe) sein.
Niveau 1: sehr wichtige einzelentscheidungen, die das leben stark beeinflussen können
zb auswahlverfahren für berufe, schulempfehlung, gerichtsgutachten
niveau 2: forschrittskontrollen (man prüft mehrfach über einen zeitraum ob sich etwas verbessert oder verändert hat) oder entscheidungen mit mittlerer targweite
zb lernentwicklungsberichte, verlaufskontrollen in der therapie
mittlere bedeutung
niveau 3_ allgemeine gruppenvergleiche oder forschung / studien , geringe konsequenzen für einzelne
zb fragebögen in studien, wissenschaftliche gruppenanalysen
weniger wichtige entscheidungen weil keine einzelentscheidung davon abhängt
WICHTIG ALSO STEHT AUCH DA:
Niveaus (1) test für wichtige entscheidungen auf der individuellen ebene (zb personalauswahlentscheidung)
niveau 2: tests für weniger bedeutsame entscheidungen auf der individuellen ebene ( zb fortschrittskontrollen) dh weniger bedeutsam auf individueller ebene bedeutet= Weil es bei niveau 2 zwar um einzelne personen geht, aber die entscheidungen sind nicht so endgültig oder folgenreich wie zb bei niveau 1. der unterschied liegt in der tragweite der entscheidung. also ja es geht bei niveau 2 auch um einzelne personen, aber die entscheidungen sind weniger gravierend deshalb “weniger bedeutsam”.
niveau 3: test für untersuchungen auf gruppenniveau. für paralleltest-reliabilität , interne konsistenz , test-retest reliabilität und interrater reliabilität
zahlen merken
EFPA Review Model for the description and evaluation of psychological
and educational tests (EFPA Board of Assessment, 2013)
Worum geht es beim EFPA Modell?
(Es beurteilt, wie stark ein Testwert (das ergebniss das eine person in einem test erreicht) mit einem anderen relevanten Kriterium zusammenhängt.
Beispiel: ein eignungstest für einen job sollte mit späterer leistung im job korrelieren )
(die Kategorien in der tabelle:
No INFO= Es wurden keine daten zur validität berichtet
—>bewertung “0”
Inadequate = r < 0.20 —>Zusammenhang ist zu schwach, um brauchbar zu sein
Adequate = 0.20 <(mit unterstrich unter dem zeichen) r < 0.35
—>gerade noch akzeptabel, je nach kontext
Good = 0.35 < (mit unterstrich unter dem zeichen) <0.50
—->guter zusammenhang
excellent= r < 0.50 (mit unterstrich unter dem zeichen) sehr starker zusammenhang, sehr gute validität
was steht im text?
es ist schwierig, feste grenzen zu setzen, weil kontext wichtig ist:
r= .30 Kann in der personalauswahl als gut gelten
in der schule (zb bei leistungstests) erwartet man höhere werte
die bewertung sollte nicht nur nach zahlen erfolgen , sondern auch nach fachlichem urteil und anwendungszweck.
rechts im kasten (zitat)
cohen sagt, dass hohe korrelationen wie r= .50 in der forschung selten vorkommen —> also darf man manchmal auch geringere werte als “gut genug” akzeptieren.
MERKEN
das modell hilft also, die validität eines tests flexibel, aber nachvollziehbar zu bewerten , statt nur starr einer zahl festzuhalten.
Checkliste testverfahren - Schritt 3 : sammeln, prüfen und bewerten der inhalte
wie sieht diese cehckliste für schritt 3 aus?
6.7 Synposis =dh :
Gib einen kurzen überblick / fazit über die testevaluation bitte?
Es gibt viele unterschiedliche Systeme und
Ansätze für die Evaluation von Testverfahren
(es existieren verschiedene methoden , wie tests beurteilt werden könnnen, je nach zielsetzung und anwendung )
Das TBS-TK und die DIN 33430 sind wichtige
Grundlagen fundierter Testevaluationen
(diese beiden systeme liefern wissenschaftlich fundierte rahmenwerke , um die qualität von tests zu bewerten )
Das ABC der Testkonstruktion (Ziegler, 2014)
bietet einen nützlichen Orientierungs-
rahmen, um Erwartungen an einen Test mit
den Anforderungen des Assessment-
kontextes abzugleichen
(ziegler liefert fragen zur reflexion , zb was ein test leisten soll und was er messen soll - das hilft beim abgleich von ziel und realität)
„Der schlanke und saubere Weg“ der
Testevaluation basiert auf diesen
Grundlagen und erlaubt eine ökonomische
Testevaluation für Berufspraktiker/innen
(dieser ansatz vereinfacht den bewertungsprozess vom test generell und ermöglicht eine praktische anwendung im berufsalltag.
Last changed24 days ago