Buffl

06 Testevaluation

ND
von Nipu D.

6. Testevaluation

6.4 DIN 33430

Was ist die DIN 33430 und wozu dient sie in der eignungsdiagnostik?

DIN 33430: Anforderungen an Verfahren und deren Einsatz bei

berufsbezogenen Eignungsbeurteilungen


• Prozessnorm (keine Produktnorm)

(sie beschreibt den ablauf (also den prozess) , nicht das fertige testverfahren selbst dh sie legt fest, wie der gesamte prozess der eignungsbeurteilung ablaufen soll - also planung, durchführung , auswertung und interpretation)


• Dient als Leitfaden für die Planung und Durchführung von

Eignungsbeurteilungen

(die DIN hilft dabei, wie man eignungsdiagnostik (zb auswahlverfahren) professionell gestaltet. )


• Keine Rechtsnorm, aber wahrscheinlich Begründungszwang bei juristischen

Auseinandersetzungen (z.B. Konkurrentenklage)

(sie ist nicht gesetzlich verpflichtend einzusetzen, kann aber rechtlich wichtig werden zb wenn man nachweisen muss, dass man fair und nach standards gearbeitet hat)



• Beispiele für Anforderungen /Beispiele für zentrale Qualitätsanforderungen laut DIN 33430

- Arbeits- und Anforderungsanalyse als Grundlage

(man draf nicht einfach irgendeinen test einsetzen - er muss zur aufgabe passen)


- ausführliche Verfahrenshinweise

(das verfahren muss genau dokumentiert sein, damit andere es nachvollziehen können )


- Gültigkeit der Reliabilitäts-

, Validitäts- und Normwerte ist spätestens alle acht

Jahre zu überprüfen

(tests müssen regelmäßig aktualisiert werden, damit sie noch gültig und zuverlässig sind )


- Verantwortliche und Mitwirkende müssen über Kenntnisse und angeleitete

Praxiserfahrung verfügen

(wer eignungsdiagnostik durchführt braucht fachwissen und praktische erfahrung )


Also:

(die DIN 33430 ist wie ein manual oder richtlinienkatalog aber speziell für die berufsbezogene eignungsdiagnostik.

ja, es ist ein leitfaden- er beschreibt , wie gute eignungsbeurteilungen ablaufen sollen.

aber keine produktnorm dh es geht nicht um die qualität eines einzelnen tests , sondern um den gesamten prozess (planung, durchführung , auswertung)

kein gesetz - aber in streitfällen zb wenn. bewerber klagen wegen unfairer auswahl, kann sie helfen zu zeigen : wir haben professionell gearbeitet)

also ja es ist ein standardisiertes manual für faire und fachgerechte eignungsdiagnostik )



6. Testevaluation

6.4 DIN 33430


Was sind Begleit- und Folgemaßnahmen der DIN 33430 ?

Begleit- und Folgemaßnahmen der DIN 33430


• Checklisten für rasches Screening, ob die Prozesse den Anforderungen der DIN 33430 genügen

(mit solchen cehlisten kann man prüfen, ob zb ein auswahlverfahren die anforderungen der DIN erfüllt - also ein schneller qualitätscheck)


• Fortbildungen und Lizenzprüfungen zur Personenlizenzierung für berufsbezogene Eignungsbeurteilungen nach DIN 33430

(personen, die berufsbezogene eignungsbeurteilungen durchführen wollen, können geschult und geprüft werden- so wird sichergestellt , dass sie qualifiziert sind).


• Zertifizierung von Unternehmen als Nachweis, dass diese bestimmten Qualitätsforderungen gerecht werden

(unternehmen können ein offizielles zertifikat bekommen, das zeigt, dass ihre verfahren die standards der DIN 33430 einhalten)


• DIN 33430 und die Beurteilung der Qualität von Tests

(die norm hilft auch dabei zu bewerten , ob tests selbst (zb intelligenzstests ) qualitativ hochwertig sind - also valide , reliabel usw).

(norm= hier eine norm ist ein maßstab für die qualität und korrektes vorgehen an dem man sich orientieren kann )

(die norm kann zwei bedeutungen haben je nach kontext- norm als standard / vorgabe zb DIN 33430 das ist die bedeutung hier, hier meint norm eine regel, vorgabe oder richtlinie. 2. norm als vergleichsgruppe in der diagnostik (zb intelligenztests) hier meint die norm eine normstichprobe, also eine repräsentative vergleichsgruppe, mit der du den testwert einer person vergleichst)

6. Testevaluation

6.4 DIN 33430

Wie wird die Checkliste 1 der DIN SCREEN im Rahmen des TBS-TK testbeurteilungssystem des diagnostik - und testkuratoriums eingesetzt?


• Enger Zusammenhang von DIN 33430 und Testbeurteilungen

(DIN 33430 ist eine norm für eignungsdiagnostik. da tests ein zentraler bestandteil davon sind, werden sie auch nach dieser norm beurteilt)


- Testverfahren sind wichtiger Bestandteil von Eignungsbeurteilungen

(ohne geeignete tests kann keine fundierte eignungsbeurteilung erfolgen, zb in der personalauswahl)


• 140 der von Kersting aus der DIN 33430 als Checkliste zusammengefassten

318 Einzelaussagen beziehen sich auf Anforderungen an Testmanuale

(kertsing hat viele anforderungen aus der norm genommen und sie als praktische prüfliste (die sogenannte checkliste 1) zur bewertung von tests aufbereitet)

➜ Checkliste 1

(diese checkliste ist also ein zentrales werkzeug zur testbeurteilung im TBS-TK )

• Anhand von Checkliste 1 werden die Voraussetzungen für eine Testevaluation

ermittelt (1. Stufe: Prüfung der Informationsgrundlage)

(bevor ein test überhaupt bewertet werden kann, wird geprüft , ob alle nötigen infos ( zb testmanual) überhuapt vorhanden sind.)

- Gegeben? ➜ Testbewertung nach TBS-TK

(nur wenn die notwendigen informationen da sind, kann die bewertung erfolgen )

- Nicht gegeben? ➜ Eignungsdiagnostischer Prozess kann nicht DIN-konform sein! (dann ist keine faire , regelgerechte bewertung möglich )

Es wird keine Testevaluation durchgeführt

(die prüfung bricht an dieser stelle ab)

6. Testevaluation

6.5 Zwischenfazit

was ist das zwischenfazit zur testevaluation laut dem testbeurteilungssystem des diagnostik und testkuratoriums TBS-TK


Unterschiedliche Ansätze, um Tests zu evaluieren

(es gibt nicht den einen richtigen weg, sondern mehrere möglichkeiten, tests zu bewerten )


Testevaluationen nach TBS-TK erfüllen hohe Qualitätsstandards undkönnen als Orientierung für die Testauswahl dienen

(wenn tests nach dem TBS-TK bewertet wurden, sind sie meist sehr verlässlich und hilfreich zur auswahl geeigneter tests)


➜ nicht für jeden Test, den Sie später in der Berufspraxis

brauchen könnten, existiert eine Rezension

(es gibt noch keine TBS-TK Bewertung für alle tests - viele müssen selbst geprüft werden .)


Sie sollten daher lernen, Tests selbst zu evaluieren – drei Wege:

(man sollte sich selbst mit testevaluation auskennen, um fundierte entscheidungen treffen zu können )

  • „Der schnelle Weg“➜ Nutzung von rigiden Grenzwerten zur Testevaluation

    (einfache, aber starre methode: man schaut nur, ob zb die reliabilität einen betsimmten wert überschreitet (nachteil: weniger differenziert)

  • „Der saubere aber steinige Weg“➜ Fachkundige Abwägung und Integration aller (nach Checkliste 1) notwendigen Informationen zur Testgüte in einem

    strukturierten und komplexen Prozess

    (Gründlichste methode, wie zb beim TBS-TK mit vielen kriterien , mehreren gutachtern , systematischem vorgehen )

  • – „Der schlanke und saubere Weg“➜ Fachkundiges Abwägen und Integration der wichtigsten (!) Informationen zur Testgüte in einem strukturierten und komplexen Prozess

    (eine etwas vereinfachte version des TBS-TK wegs , bei dem sich auf die zentralen informationen konzentriert wird).


6. Testevaluation

6.6 „Der schlanke und saubere Weg“ der Testevaluation

Schritt 1: Herausbilden einer Erwartungshaltung

was beinhaltet schritt 1”herausbilden einer erwartungshaltung” im schlanken und sauberen weg der testevaluation ?

Schritt 1: Herausbilden einer Erwartungshaltung

A) Welches Konstrukt wird gemessen? Der Test gibt vor, Konstrukt X zu messen.

Wenn dem so wäre, …

(also angenommen der test misst wirklich dieses konstrukt , was müsste man dann erwarten ?)


• … wie sollte dann das nomologische Netz aussehen?

(wie hängt das konstrukt logisch und theoretisch mit anderen konzepten zusammen )


• … wie stark sollten die empirischen Zusammenhänge mit mehr und weniger

verwandten Konstrukten sein? ➜ konvergente/ diskriminante Validität

(konvergente validität= starke korrelationen mit ähnlichen konstrukten )

(diskriminante validität: geringe korrelationen mit unähnlichen konstrukten )


• … welche Verhaltensweisen würden dann das Konstrukt indizieren? ➜

Inhaltsvalidität

(decken die testinhalte das konstrukt vollständig und sinnvoll ab?)


• … wie wäre die Struktur / Dimensionalität des Konstrukts? ➜ faktorielle Validität

(gibt es zb mehrere unterfaktoren ? sind diese empirisch nachweisbar?)


• … und welche Kriterien ließen sich dann mit dem Testwert erklären bzw.

prädizieren? ➜ Kriteriumsvalidität

(kriteriumsvalidität= kann man mit dem testergebnis zb berufserfolg , krankheiz oder verhalten vorhersagen ?

(mit testergebnis ist hier das individuelle ergebnis einer person im test gemeint- also den testwert den jemand erreicht)

6. Testevaluation

6.6 „Der schlanke und saubere Weg“ der Testevaluation

Schritt 1: Herausbilden einer Erwartungshaltung

B) Welchem Zweck soll der Test dienen? ➜ Ausprägung und Gewichtung der Gütekriterien

(bevor man einen test bewertet, muss man wissen, wofür er gedacht ist. je nach einsatzgebiet sind andere gütekriterien wichtiger - also zb eher reliabilität oder eher validität. )

• Gruppendiagnostik (z.B. klinische Forschung)

(hier geht es um die untersuchung mererer personen gleichzeitig. zb um vergleiche, wie sich gruppen in einem merkmal unterscheiden )

  • Beschreibung von Persönlichkeitsmerkmalen und Psychopathologie

  • (➜ Zusammenhänge mit Outcomes, Komorbidität, Vergleich von Gruppen)

    (der test soll persönlichkeitsaspekte oder psychische auffälligkeiten erfassen, die man dann zb mit späterem verhalten , anderen diagnosen (komorbidität) oder gruppenunterschieden vergleicht.)

  • Veränderungsmessung: z.B. Wirksamkeitsstudien für Interventionen

    (man misst zb vor und nach einer therapie, ob sich bei einer gruppe durch die intervention etwas verändert hat - also ob die maßnahme wirkt)

• Einzelfalldiagnostik (z.B. klinische Praxis)

(hier geht es um die diagnose einzelner personen zb für therapie oder behandlung. ziel ist eine individuelle einschätzung)

  • Screening und Klassifikation: z.B. Eingangsfragebogen zur Psychopathologie mit anschließendem Assessment, Zuweisung zu Behandlungsgruppen

    (der test erklärt pb überhaupt eine störung vorliegt (screening) und welche art , um zb die passende behandlungsgruppe zu finden )

  • Statusdiagnostik: z.B. Diagnostik des Schweregrades im Rahmen einer Diagnosestellung

    (hier wird der aktuelle zustand oder schweregrad der störung bestimmt - also wie stark betroffen jemand ist)

  • Prognose: z.B. Verlauf einer Symptomatik vorhersagen

    ((man schaut wie sich symptome wahrscheinlich entwickeln werden - also ein blick in die zukunft anhand des aktuellen testwerts.)

  • Veränderungsmessung: z.B. Behandlungserfolg für Patienten bewerten

    (der test wird mehrmals durchgeführt , um zu sehen , ob sich durch eine therapie etwas verbessert hat )



6. Testevaluation

6.6 „Der schlanke und saubere Weg“ der Testevaluation

§ Schritt 1: Herausbilden einer Erwartungshaltung

C) Bei wem soll der Test das Merkmal erfassen?

C) Bei wem soll der Test das Merkmal erfassen?

(es geht darum , für welche zielgruppe der test gedacht ist . das ist wichtig, weil ein test, der zb für erwachsene entwickelt wurde, nicht einfach auf kinder übertragbar ist)


• Was ist die Zielpopulation der Messung?

(zielpopulation= die personen, für die der test gedacht ist. der test soll also genau bei diesen personen funktionieren und gültige aussagen liefern)


- Kinder? Erwachsene?

(tests müssen sich oft an das alter anpassen: kinder verstehen andere dinge als erwachsene- sprachniveau, inhalte, aufgabenformate müssen altersgerecht sein )


- In bestimmten Altersbereichen?

(auch innerhalb von kindern oder erwachsenen muss differenziert werden zb 8 jährige vs 16 jährige . altersbereiche helfen, ergebnisse besser einzuorden )


- Bildung?

(das bildungsniveau beeinflusst , wie gut jemand mit dem test umgehen kann. ein test für akademiker funktioniert vielleicht nicht bei personen mit geringer schulbildung und umgekehrt)


- Spezielle Gruppen: Suchtkranke, Auszubildende in Handwerksberufen, Manager in

großen Industrieunternehmen, Senioren, Reha-Patienten

(hier geht es um spezifische zeilgruppen mit besonderen anforderungen. ein test muss entsprechend angepasst oder speziell entwickelt worden sein, damit er dort gültig und fair misst)


➜ Konstruktions-, Validierungs- und Normierungsstichprobe

(das sind die gruppen, mit denen der test entwickelt und überprüft wurde. sie sollten möglichst gut zur zielgruppe passen- sonst sind die ergebnisse nicht verlässlich oder verzerrt ).

(normierungsstichprobe= eine normierungsstichprobe ist die gruppe von personen , mit deren testergebnissen ein vergleichsmaßstab (normen ) für einen test erstellt wird)


(konstsruktionsstichprobe= die erste stichprobe mit der ein neuer test enwtickelt wird. um erste items zu testen usw)


(validierungsstichprobe= eine separate gruppe , mit der man prüft ob der test auch außerhalb der ersten gruppe funktioniert)

6. Testevaluation

6.2 Der schnelle Weg der Testevaluation

Kritik an der Nutzung von fixen Grenzwerten bei der Testevaluation

(Fischer, 1968; Kersting, 2006; Messick, 1989; Watson, 2004)


Warum wird die Nutzung fixer Grenzwerte bei der testevaluation kritisiert?

(Was ist ein grenzwert in der testevaluation ?= ein grenzwert ist ein festgelegter zahlenwert, ab dem ein testmerkmal als “gut “ oder “ausreichend” gilt.

beispiel: ein test ist nur dann brauchbar, wenn die reliabilität über 0.80 liegt “. das wäre ein fester grenzwert - aber genau solche starren grenzen werden kritisiert)


(was ist ein korrelationskoeffizient / korrelationswert?)

= das ist eine zahl zwischen -1 und +1 die zeigt wie stark zwei dinge zusammenhängen. beispiel: wenn die korrelation zwischen intelligenztest und schulleistung 0,60 ist, bedeutet das: wer im test gut abschneidet, hat meistens auch gute noten (aber nicht immer).

ein wert von +1= perfekter positiver zusammenhang

0= kein zusammenhang

-1= perfekter negativer zusammenhang)


Warum wird die Nutzung fixer Grenzwerte bei der testevaluation kritisiert?

Kritik an der Nutzung von fixen Grenzwerten bei der Testevaluation

(Fischer, 1968; Kersting, 2006; Messick, 1989; Watson, 2004)


• 1.Stichprobenabhängigkeit von Korrelationskoeffizienten

(der korreltaionswert hängt oft stark davon ab, WER gestestet wird- in einer anderen stichprobe (zb andere altersgruppe) könnte er ganz anders ausfallen )


• 2. Unterschiedliche Implikationen der verschiedenen Reliabilitätskoeffizienten für die Validität

(es gibt verschiedene arten von reliabilität (zb interne konsistenz vs retest-reliabilität) und JE NACH ART fällt die bewertung eines tests unterschiedlich aus)


• 3.Einfluss von Messfehlern auf die Höhe der Korrelation

(messfehler senken oft die korrelation - ein test mit messfehler wirkt “schlechter” obwohl er das vielleicht nicht ist )


• Kriteriums-Kontamination und -Defizienz

(wenn das außenkriterium (zb schulnote) selbst verzerrt oder unvollständig ost, wird auch die korrelation mit dem testwert verfälscht.)


• Untersuchungsziel, Anwendungskontext

(ein test kann in einem kontext sehr nützlich sein, in einem anderen aber nicht- die aussagekraft hängt vom einsatzgebiet ab.


➜ (Die numerischen Ausprägungen der) Gütekriterien werden nicht nur

durch Charakteristika des Tests beeinflusst, sondern auch durch

Charakteristika der Untersuchungssituation, z.B. die Stichprobe

Rigide Grenzwerte sind nicht angemessen, um Tests zu evaluieren ! (starre (rigide) grenzwerte wie zb “r muss mindestes 0.40 sein” sind nicht immer fair oder sinnvoll , weil sie viele dieser einflüsse ignorieren. )

14.01.25 12

6. Testevaluation

6.3 Das Testbeurteilungssystem des Diagnostik- und Testkuratoriums (TBS-TK)


Was ist das Testbeurteilungssystem des Diagnostik- und Testkuratoriums (TBS-TK) und was ist sein ziel?

“Der saubere aber steinige Weg“ der Testevaluation ist angemessen

(eine gründliche testbewertung ist sinnvoll, auch wenn sie aufwendig ist . sie sorgt für bessere, zuverlässigere ergebnisse)


• „sauber“, weil weniger fehleranfällig und besser vertretbar

(wenn man tests sauber evaluiert, gibt es weniger fehler und die ergebnisse lassen sich besser begründen)


• „steinig“, weil zeitaufwendig und komplex ➜ Diagnostik- und Testkuratorium

(dieser weg ist zwar schwierig und braucht zeit, wird aber vom DTK übermommen- einer fachstelle für testbwertung.


Diagnostik- und Testkuratorium (DTK) der Föderation Deutscher

Psychologievereinigungen (BDP, DGPs)

(Das DTK ist eine offizielle gruppe von fachleuten, getragen vom BDP und der DGPs, die für die qualität psychologischer tests zuständig sind.)


Auftrag:

• Qualitätssicherung in der Psychodiagnostik

(ihre hauptaufgabe ist es, sicherzustellen , dass psychologische tests fachlich gut und zuverlässig sind)


• … die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor

unqualifizierter Anwendung diagnostischer Verfahren zu schützen (es soll verhindert werden, dass schlechte oder falsch eingesetzte tests schaden anrichten zb durch flasche diagnosen)


Instrument: Testbeurteilungssystem des Diagnostik- und

Testkuratoriums (TBS-TK)

(Das TBS-TK ist das Bewertungssystem das das DTK benutzt um tests systematisch und nachvollziehbar zu prüfen )


6. Testevaluation

6.3 Das Testbeurteilungssystem des Diagnostik- und Testkuratoriums (TBS-TK)


Was macht das testbeurteilungssystem des diagnostik - und Testkuratoriums (TBS-TK) aus und worin unterscheidet es sich vom schnellen weg der Testevaluation?



• Es macht Aussagen über Qualitätsstandards, z.B. Vollständigkeit der Verfahrenshinweise in Testmanualen, Bewertung der Gütekriterien

(das system überprüft zb ob testmanuale vollständig sind und ob die gütekriterien (zb validität , reliabilität ) angemessen berücksichtigt wurden. )


• Soll Anwendern, Testautoren, Verlagen, Anbietern und Testrezensenten als Richtschnur dienen

(es bietet orientierung für akle, die mit tests arbeiten: entwickler, verlage, nutzer und rezensenten)


• Häufig eingesetzte und wichtige Testverfahren werden von Fachkundigen beurteilt

(tests werden nicht irgendwie bewertet, sondern:

- nach einheitlichen Maßstäben (➜ Standardisierung)

(gleiche kriterien für alle tests)

- nach einem klaren Ablaufschema (➜ Transparenz)

(nachvollziehbarer bewertungsprozess)

- mit zwei unabhängigen Urteilen (➜ Objektivität)

(ergebnisse hängen nicht von einer einzelperson ab)


• Unterscheid zum schnellen Weg der Testevaluation

- keine Bewertung der numerischen Ausprägung von Gütekriterien

- Gütekriterien werden von Fachkundigen vor dem Hintergrund des

Anwendungskontextes (Untersuchungsziel etc.) evaluiert

—>(fachleute beurteilen tests im zusammenhang mit dem anwendungskontext (zb wofür und bei wem der test eingesetzt wird)

wie viele testverfahren gibt es derzeit im deutschsprachigen raum?

was ist die zentrale frage bei der testauswahl?

was ist die grundlage für die auswahl eines passenden tests?

was versteht man unter testevaluation ?

wie läuft die testevaluation ab?

wozu braucht man bewertungskriterien bei der testauswahl?


Es gibt zur Zeit über 8300 veröffentlichte Testverfahren im

deutschsprachigen Raum (ZPID, 2021)

(=Es gibt sehr viele tests im deutschsprachigen Raum)


Zentrale Frage bei der testauswahl: Wie kann ich aus dieser Fülle von Tests, einen Test auswählen, der brauchbare Ergebnisse für meine diagnostische Fragestellung liefert?

(Welcher Test passt zu meiner fragestellung und liefert zuverlässige ergebnisse?)


Grundlage der Testauswahl ist die Testevaluation

(Um den richtigen Test auszuwählen, muss man vorher prüfen, wie gut er ist. Das nennt man Testevaluation.


Testevaluation ist ein Prozess, in dem geprüft wird, ob ein Test für die Untersuchung einer bestimmten Fragestellung geeignet ist (es wird systematisch geprüft, ob ein test für einen bestimmten einsatzbereich geeignet ist zb klinik , forschung).

➜ (wie läuft die testevaluation ab?) Abgleich von Eigenschaften des Tests bzw. Testwertes mit Anforderungen, die sich aus dem Anwendungskontext ergeben

(man vergleicht: was brauche ich für meine fragestellung? was bietet der test? —>passt das zusammen?)

➜ Es sind Kriterien um die Passung zu beurteilen notwendig: Unterscheidung von

brauchbaren und nicht-brauchbaren Testverfahren

(wozu braucht man bewertungskriterien bei der testauswahl?)

(es braucht klare beurteilungskriterien, damit man geeignete tests von ungeeigneten unterscheiden kann).


Was sind Haupt - und Nebengütekriterien bei der testevaluation , und warum sind sie wichtig?

§ Hauptgütekriterien = Mindestkriterien

• Insbesondere Validität ➜ Nachweis unerlässlich, ansonsten keine Interpretation des Testwerts möglich

(=am wichtigsten ist die validität: nur wenn der test wirklich das misst, was er messen soll, kann man das ergebnis sinnvoll interpretieren).


• Gemäß der Testdefinition von Lienert und Raatz (1998) soll ein Test eine quantitative Aussage über eine individuelle Merkmalsausprägung treffen

(=gemäß der testdefinition von lienert und raatz soll eine quantitative aussage über eine individuelle merkmalsausprägung liefern- also zb sagen, wie viel intelligenz oder extraversion eine person hat)


• Nachweis ist wichtig, dass Testwert tatsächlich eine formale Beschreibung der Eigenschaft darstellt, die gemessen werden soll

(man muss zeigen können, dass das ergebnis tatsächlich eine eigenschaft abbildet, wie sie definiert ist (zb konzentration, angst etc).


• Objektivität und Reliabilität sind die Grundlage der Validität

(wenn ein test nicht objektiv (zb abhängig von der testenden person ist) oder nicht zuverlässig ist , kann er auch nicht gültig sein. validität baut auf objektivität und reliabilität auf.)


Erfüllung von Nebengütekriterien können Brauchbarkeit steigern

• Nützlich, aber nicht essentiell

(sie sind kein muss, aber verbessern die anwendbarkeit)


• Welche erfüllt sein sollten, hängt vom Anwendungszweck des Tests ab

(je nachdem wofür man den test braucht, sind bestimmte nebengütekriterien relevanter)


• Beispiel: Testfairness bei Tests zur Auswahl von Studierenden

(wenn man zb studierende auswählt , ist fairness sehr wichtigm ein unfairer test könnte sonst diskriminierend wirken)

6. Testevaluation

6.2 Der schnelle Weg der Testevaluation

Was ist der “schnelle weg” der testevaluation nach Fisseni (1997) ?

Nutzung von Grenzwerten / Cutoffs

für quantifizierbare Gütekriterien:

Richtlinien nach Fisseni (1997)

(= der “schnelle weg” bedeutet: man bewertet die qualität eines tests anhand fester richtwerte (Cutoffs) für verschiedene Gütekriterien - also zahlen die anzeigen, ob ein testwert eher niedrig, mittel oder hoch ist.)

(Merke: Was ist mit “Testwert” in der Tabelle gemeint?

=in dieser folie geht es nicht um den testwert einer einzelnen person, sondern um die qualitätswerte des tests selbst. dh: du bewertests nicht die leistung von personen, sondern ob der test insgesamt gute qualität hat.

also was zeigt die tabelle dann genau? sie zeigt Cutoffs (Grenzwerte) für sogenannte Testkennwerte , also messwerte zur qualität des tests.

die tabelle von Fisseni zeigt also zum beispiel:

Kriterium: schwierigkeit

Bedeutung: = gibt an, wie leicht ein item ist. P >.80 = sehr leicht (niedrig). )

Kriterium: Trennschärfe (merk dir auch die kürzel)

bedeutung: zeigt, wie gut ein item zwischen starken und schwachen testpersonen unterscheidet. je höher, desto besser, )

kriterium: auswertungsobjektivität

bedeutung; zeigt, ob die auswertung unabhängig von der testenden person ist. )

kriterium: reliabilität

bedeutung: zeigt, wie zuverlässig ein test misst. werte >.90 = sehr gut. )

kriterium: validität

bedeutung: misst der test das, was er soll?

gute werte : >.50 )

kriterium: normstichprobe

bedeutung: wie groß war die vergleichsgruppe?

mehr= besser. )

( du schaust also hat der Test zb eine reliabilität von 0,85 ? dann kannst du in der tabelle sehen: das liegt im mittleren bereich . ist sie über 0,90 —> hohe qualität.

(die tabelle beurteilt den test als messinstrument - nicht die einzelleistung de personen. der begriff testwert meint hier also: den kennwert eines tests zb seine reliabilität oder validität - und nicht die punktzahl einer gestesten person).

6. Testevaluation

6.2 Der schnelle Weg der Testevaluation

COTAN-System der Testevaluation in Holland (Evers, 2001)

Was bewertet das COTAN-System bei der Testevaluation und wie funktioniert es ?

  • Das COTAN-System ist ein Beurteilungssystem aus den niederlanden , entwickelt von Evers (2001) . es hilft dabei, tests schnell zu bewerten- besonders mit blick auf die reliabilität und normstichprobe. )

zwei zentrale kriterien:

  1. reliabilität (zuverlässigkeit): wie genau misst der test ? (zb durch test-retest , interne konsistenz …) —>je höher desto besser.)

  2. umfand der normstichprobe: (=normstichprobe= eine normstichprobe ist eine referenzgruppe , mit der man die testergebnisse einer person vergleichen kann. wenn man zb einen intelligenztest macht, ist das ergebnis allein erstmal bedeutungslos. erst durch den vergleich mit einer großen passenden gruppe wird klar, ob dein ergebnis hoch, durchschnittlich oder niedrig ist).diese vergleichsgruppe ist die normstichprobe).

    —> wie viele personen wurden als Vergleichsgruppe getestet? —>größere stichprobe = repräsentativere normen

  3. (was sind die niveaustufen beim COTAN-System?

  4. die niveaustufen 1, 2 und 3 sagen aus, wie wichtig die entscheidungen sind, für die ein test verwendet wird. je wichtiger die entscheidung, desto strenger müssen die qualitätsanforderungen ( zb reliabilität, normstichprobe) sein.

Niveau 1: sehr wichtige einzelentscheidungen, die das leben stark beeinflussen können

zb auswahlverfahren für berufe, schulempfehlung, gerichtsgutachten

niveau 2: forschrittskontrollen (man prüft mehrfach über einen zeitraum ob sich etwas verbessert oder verändert hat) oder entscheidungen mit mittlerer targweite

zb lernentwicklungsberichte, verlaufskontrollen in der therapie

mittlere bedeutung

niveau 3_ allgemeine gruppenvergleiche oder forschung / studien , geringe konsequenzen für einzelne

zb fragebögen in studien, wissenschaftliche gruppenanalysen

weniger wichtige entscheidungen weil keine einzelentscheidung davon abhängt

WICHTIG ALSO STEHT AUCH DA:

Niveaus (1) test für wichtige entscheidungen auf der individuellen ebene (zb personalauswahlentscheidung)

niveau 2: tests für weniger bedeutsame entscheidungen auf der individuellen ebene ( zb fortschrittskontrollen) dh weniger bedeutsam auf individueller ebene bedeutet= Weil es bei niveau 2 zwar um einzelne personen geht, aber die entscheidungen sind nicht so endgültig oder folgenreich wie zb bei niveau 1. der unterschied liegt in der tragweite der entscheidung. also ja es geht bei niveau 2 auch um einzelne personen, aber die entscheidungen sind weniger gravierend deshalb “weniger bedeutsam”.

niveau 3: test für untersuchungen auf gruppenniveau. für paralleltest-reliabilität , interne konsistenz , test-retest reliabilität und interrater reliabilität

zahlen merken

6. Testevaluation

6.2 Der schnelle Weg der Testevaluation

EFPA Review Model for the description and evaluation of psychological

and educational tests (EFPA Board of Assessment, 2013)

Worum geht es beim EFPA Modell?

  • (Es beurteilt, wie stark ein Testwert (das ergebniss das eine person in einem test erreicht) mit einem anderen relevanten Kriterium zusammenhängt.

    Beispiel: ein eignungstest für einen job sollte mit späterer leistung im job korrelieren )

(die Kategorien in der tabelle:

No INFO= Es wurden keine daten zur validität berichtet

—>bewertung “0”

Inadequate = r < 0.20 —>Zusammenhang ist zu schwach, um brauchbar zu sein

Adequate = 0.20 <(mit unterstrich unter dem zeichen) r < 0.35

—>gerade noch akzeptabel, je nach kontext

Good = 0.35 < (mit unterstrich unter dem zeichen) <0.50

—->guter zusammenhang

excellent= r < 0.50 (mit unterstrich unter dem zeichen) sehr starker zusammenhang, sehr gute validität

was steht im text?

es ist schwierig, feste grenzen zu setzen, weil kontext wichtig ist:

r= .30 Kann in der personalauswahl als gut gelten

in der schule (zb bei leistungstests) erwartet man höhere werte

die bewertung sollte nicht nur nach zahlen erfolgen , sondern auch nach fachlichem urteil und anwendungszweck.

rechts im kasten (zitat)

cohen sagt, dass hohe korrelationen wie r= .50 in der forschung selten vorkommen —> also darf man manchmal auch geringere werte als “gut genug” akzeptieren.

MERKEN

das modell hilft also, die validität eines tests flexibel, aber nachvollziehbar zu bewerten , statt nur starr einer zahl festzuhalten.

Author

Nipu D.

Informationen

Zuletzt geändert