Buffl

6. Statistisch-Methodische Grundlagen

ND
by Nipu D.

6.1 Grundlagen für die Auswahl von Verfahren

Stichproben in der Eignungsdiagnostik

1was bedeutet “stichprobe” in der eignungsdiagnostik und welche bedeutung hat sie ?

  1. was ist ein zentrales merkmal guter eignungsdiagnostik in bezug auf stichproben?

  2. welche informationen müssen zu stichproben laut DIN in testverfahren enthalten sein und warum ?


  • 1In eignungsdiagnostischen untersuchungen werden stichproben gezogen: auswahl aus begrenzter anzahl an kandidat*innen

    (In der eignungsdiagnostik wird nicht die gesamte zielgruppe untersucht, sondern eine begrenzte auswahl von personen - das nennt man stichprobe. diese stichprobe besteht aus kandidat*innen, die zum beispiel zu einem auswahlverfahren eingeladen werden. die ergebnisse dieser personen sollen dabei rückschlüsse auf die eignung oder passung liefern)

  • 1anhand der stichprobe werden rückschlüsse auf andere mitglieder der organisation gezogen

    (die ergebnisse der getesteten kandidatinnen sollen verallgemeinert werden- dh man schließt von der leistung oder dem verhalten der stichprobe auf die eignung anderer zb wie geeignet jemand für eine bestimmte rolle in der organisation ist oder wie gut die auswahlmethode im allgemeinen funktioniert.)

  • 2merkmal guter eignungsdiagnostik: genaue beschreibung der stichprobe

    (eine gute eignungsdiagnostische untersuchung erfordert eine klare und transparente beschreibung der getesteten gruppe. dh es muss dokumentiert werden, wer getestet wurde (alter, geschlecht, bildung etc)- nur so können die ergebnisse eingeordnet, verglichen oder auf andere kontexte übertragen werden)

    • 3in den verfahrenshinweisen von testverfahren

      (in den offiziellen testmanualen odder handbüchern steht, welche art von stichprobe bei der testentwicklung verwendet wurde. das ist wichtig,um zu prüfen , ob der test zur eigenen zielgruppe passt.)

    • alter, geschlecht, bildung, situation in der das eignungsverfahren durchlaufen wird (zb freiwillige / anonyme teilnahme, ernstfallbedingung)

    • (diese angaben sind zentral um die aussagekraft unf fairness des verfahrens zu beurteilen. ein test, der zb nur mit studierenden unter laborbedingungen entwickelt wurde, könnte in einer realen bewerbungssituation mit fachkräften nicht angemessen funktionieren)

    • 3grundlage für vergleichbarkeit der kandidat*innen

(wenn die stichprobe gut dokumentiert ist, können die ergebnisse verschiedener gruppen oder verfahren fair miteinander verglichen werden. das erhöht die güte und transparenz eignungsdiagnostischer maßnahmen.

6.1 Grundlagen für die auswahl von verfahren

auswertung und darstellung von daten aus eignungsverfahren

lernen


  1. was ist ein beispiel für die durchführung eines eignungsdiagnostischen verfahrens ?

  2. welche 4 arten der ergebnisdarstellung (vom eignungsdiagnostischen verfahrens also hier dem wissenstests) gibt es hierbei?

  3. und was bedeuten bzw was wird dabei gefragt jeweils


  • 1beispiel: es wird ein wissenstest mit 30 bewerber*innen durchgeführt

    (es handelt sich um ein konkretes beispiel zur auswertung von testergebnissen einer stichprobe von 30 personen in einem eignungsdiagnostischen verfahren )


    2wie soll die darstellung der ergebnisse erfolgen ? welche statistischen kennwerte können genutzt werden ?

    (es wird gefragt, wie man die ergebnisse statistisch sinnvoll darstellen kann- also welche kennzahlen man berechnen sollte, um die verteilung zu beschreiben )


    • 2betrachtung der verteilung der werte : wie oft kommen die einzelnen werte vor

    • (das ist eine häufigkeitsverteilung- man schaut , wie oft bestimmte werte auftreten (zb wie viele personen welche punktzahl erreicht haben)

    • 2beschreibung der verteilung durch maße der zentralen tendenz : welcher wert ist am typischsten für die verteilung ?

      (hierbei geht es um durchschnitsswerte, also mittelwert, median oder modus, die den “typischen “ wert in der verteilung beschreiben )

    • 2beschreibung der schiefe der verteilung: liegen besonders viele werte links bzw. rechts der verteilungsmitte

      (die schiefe zeigt, ob die verteilung symmetrisch ist oder zb wie viele werte eher niedrig (linksschief) oder hoch (rechtsschief) liegen

    • 2beschreibung der verteilung durch streuungsmaße: wie sehr unterscheiden sich die werte voneinander

(mit streuungsmaßnahmen wie standardabweichung oder varianz kann man messen, wie stark die werte streuen - also ob alle sehr ähnlich oder sehr unterschiedlich sind )

6.1 Grundlagen für die Auswahl von Verfahren

auswertung und darstellung von daten aus eignungsverfahren

streuungsmaße

  1. was sind streuungsmaße und welche funktion erfüllen sie in der eignungsdiagnostik?

  2. was ist der unterschied zwischen varianz (SD hoch 2 ) und standardabweichung (SD)?

  3. warum ist der Interquartiabstand (IQA) in bestimmten fällen aussagekräftiger als die Spannweite ?

    was sagt die spannweite und der IQA aus?


  • 1Streuungsmaße:

    (streuungsmaße zeigen, wie weit die einzelnen werte einer verteilung vom mittelwert abweichen- sie sagen also etwas über die unterschiedlichkeit (heteorgenität) der werte aus) sie liefern wichtige hinweise zur interpretation von testergebnissen )

  • spannweite (range)

    (die spannweite ist die differenz zwischen dem größten und dem kleibsten wert in der verteilung. sie gibt an, wie breit der wertebereich ist.

  • Interquartilabstand (IQA)

    (der IQA ist der bereich, in dem die mittleren 50% der werte liegen. er ist weniger anfällig für ausreißer als die spannweite)

  • 2Varianz (SD hoch 2)

    (die varianz beschreibt die durchschnittliche quadratische abweichung der werte vom mittelwert. je größer die varianz, desto unterschiedlicher sind die werte.

  • 2standardabweichung

(die standardabweichung ist die wurzel aus der varianz und gibt an, wie stark die werte im schnitt vom mittelwert abweichen- in derselben einheit wie die messwerte.)


(abbildung: zeigt eine normalverteilte verteilung der werte, bei der die streuung symmetrisch um den mittelwert herum erfolgt. die höhe der kurve entspricht der häufigkeit )(NORMALE abbildung wo graph mit links häufigkeit steht )


  1. (antwort: weil der IQA nur die mittleren 50% der werte betrachtet und daher nicht von ausreißern beeinflusst wird- im gegensatz zur spannweite , die durch extreme einzelwerte verzerrt sein kann )


6.1 grundlagen für die auswahl von verfahren

auswertung und darstellung von daten aus eignungsverfahren

zusammenhangsmaße : korrelationen

  1. was sind zusammenhangsmaße in der eignungsdiagnostkik?

  2. welche korrelationsarten können je nach skalenniveau verwendet werden ?

  3. wozu sind korrelationen in der eignungsdiagnostik besonders wichtig ?

  4. welche beispiele werden genannt bezogen auf korrelationen ?

  • 1zusammenhangsmaße: Korrelationen

    (korrelationen sind statistische kennwerte, die zusammenhänge zwischen zwei variablen beschreiben zb ob mit steigender intelligenz auch der beurfserfolg steigt)

    • 1Einfache Korrelationen (zb auch reliabilitäts- und validitäts-koeffizienten )

      (einfache korrelationen geben an, wie stark zwei variablen miteinander zusammenhängen. sie umfassen auch wichtige testgütekriterien: reliabilität (zuverlässigkeit ) und validität (gültigkeit eines tests )

    • 2je nach skalenniveau: pearson, Biserial etc.

      (je nachdem, welche art von daten vorliegt (zb metrisch , ordinal) verwendet man unterschiedliche korrelationskoeffizienten:

      pearson korrelation: für metrische daten

      biseriale korrelation: zb bei kombination von dichotomen und metrischen daten )

    • 3wichtig für die validierung und evaluation von eignungsverfahren

      (korrelationen sind essenziell , um zu prüfen, ob ein eignungsdiagnostisches verfahren wirklich misst, was es soll (validierung) und wie gut es in der praxis funktioniert) (evaluation)

    • 4beispiele:

      • zusammenhang von intelligenz und berufserfolg ?

      • zusammenhang von geschlecht und aufstiegschance ?

      • zusammenhang von extraversion und führungserfolg?

6.1 Grundlage für die auswahl von Verfahren

auswertung und darstellung von daten aus eignungsverfahren

zusammenhangsmape: Multiple Regression

  1. wozu dient die multiple regression im rahmen eignungsdiagnostischer verfahren ?

  2. welche informationen liefert eine regression über die prädiktoren eines eignungsdiagnostik- verfahrens ?

  3. wofür wird die multiple regression im bereich der eignungsdiagnostik häufig verwendet?


  • 1zusammenhangsmaße: Multiple Regression

    (Multiple regression ist ein statistisches verfahren, das untersucht, wie gut mehrere merkmale (prädiktoren ) gemeinsam ein ergebnis (zb beurfserfolg) vorhersagen können. )


    • 1bspw.: Bestimmung der prädiktionskraft von prädiktoren

      (mit hilfe der multiplen regression kann man feststellen, wie stark bestimmte merkmale (zb intelligenz, schulnoten ) etwas vorhersagen können zb den berufserfolg)

      • 1prädiktoren zb: IQ, Schulnoten , interviews , AC-Scores

        (diese merkmale nennt man prädiktoren , also eigenschaften oder testergebnisse, die zur vorhersage dienen alos das ziel haben zb berufserfolg vorherzusagen . AC steht für Assessment center)

      • kriterium: berufserfolg

        (das kriterium ist das, was vorhergesagt werden soll- hier: der erfolg im beruf)

    • 3oft auch als gültigkeitsnachweis von verfahren

      (die multiple regression wird häufig genutzt, um die validität (gültigkeit) eines eignungsverfahrens zu belegen, also ob das verfahren tatsächlich das misst, was es messen soll (Zb berfuserfolg vorhergesagt)

    • 2regression liefert informationen über…

      (die regression sagt uns wie viel einfluss die prädiktoren auf das kriterium haben )

      • 2den gemeinsamen vorhersagebeitrag aller prädiktoren (R quadrat , AIC 7 BIC)

        (zeigt wie gut alle prädiktoren zusammen das kritierium erklären können. r quadrat ist das bestimmtheitsmaß , AIC/ BIC sind informationskriterien )

      • 2den vorhersagebeitrag jedes einzelnen prädiktors (stand. gewichte ß)


(zeigt wie stark jeder einzelne prädiktor zb IQ das ergebnis beeinflusst. das ß-gewicht sagt, wie wichtig dieser faktor im verhältnis zu den anderen ist- unabhängig von der maßeinheit )

6.1 Grundlagen für die auswahl von verfahren

auswertung und darstellung von daten aus eignunsgsverfahren

zusammenhangsmaße: Multiple regression

  1. was ist laut DIN 2016 bei der nutzung multipler regressionsmodelle notwendig und warum ?

  2. was sind berichtspflichten bei der verwendung multipler regression ?

  3. was bedeutet inkrementelle validität und was fordert die DIN 2016 dazu?


  • 1kreuzvalidierung nötig

    (nach DIN-norm 2016 muss bei der nutzung multipler regressionsmodelle eine kreuzvalidierung erfolgen. das bedeutet: man darf die modelle nicht nur an einer stichprobe testen, sondern muss sie auf einer anderen überprüfen )

    • 1trennung von modellentwicklung und anwendung

      (die stichprobe , mit der ein modell entwickelt wird (zb welche prädiktoren einfließen ) soll nicht identisch mit der sein, bei der das modell getestet wird- sonst besteht die gefahr der überanpassung (overfitting )

    • 1auswahl der prädiktoren und höhe des multiplen zusammenhangs an neuer stichprobe überprüfen

      (man soll prüfen, ob die gefundenen zusammenhänge (zb IQ + SCHULNOten—> beurfserolg) auch bei einer anderen personengruppe gültig sind - das ist kreuzvalidierung

    • 2berichtspflichten : R , ß, einfache Kriteriums-Korrelationen

      (im bericht müssen die folgende werte angegeben werden: R = multipler zusammenhang aller prädiktoren mit dem kriterium, ß= standardisierte einzelbeiträge der prädiktoren, einfache korrelationen = jeder einzelne prädiktor mit dem kriterium )

  • 3inkrementelle validität

    (neue (zusätzliche) prädiktoren müssen einen zusätzlichen beitrag zur vorhersage leisten, um sinnvoll zu sein )

    • inkrementelle prädiktoren tragen zur vorhersagegenauigkeit bei

      (ein prädiktor hat inkrementelle validität, wenn er über die bereits verwendeten prädiktoren hinaus neue erklärende informationen liefert )

    • auswahl von verfahren: zb assessment -center + intelligenztest oder nur assessment-center?

      (diese frage prüft, ob sich zb ein intelligenztest zusätzlich zum assessment center lohnt. wenn ja, hat er inkrementelle validität)

    • bei der auswahl von verfahren nur solche berücksichtigen , die prädiktionskraft verbessern

(laut din soll man nur verfahren auswählen die einen zusätzlichen vorhersagewert liefern- also keine unnötigen tests einsetzen )

6.2 Testtheorien

zielsetzung von testtheorien

welche theoretische grundlage ist notwendig, um aus beobachteten testergebnissen rückschlüsse ziehen zu können, und was ist das ziel dabei ?


  1. was beschreibt die messgenauigkeit und was ist ihr ziel laut testtheorie ?

  2. welche 2 testtheorien werden genannt ? und was unterscheidet sie ?


  • zielsetzung von testtheorien

    • 1theoretische grundlage für die rückschlüsse, die wir aus den beobachteten testergebnissen ziehen können (plausibles messmodell)

      (testtehorien liefern das theoretische fundament, mit dem wir überhaupt sinnvoll aus testergebnissen rückschlüsse auf zugrundeliegende merkmale ziehen können. diese rückschlüsse setzen ein plausibles messmodell voraus )

      • messen in der eignungsdiagnostik bzw. der psychologie vs. in den naturwissenschaften

        (das messen in der psychologie (zb intelligenztests) unterscheidet sich von messungen in naturwissenschaften (zb temperatur ) es ist indirekter und basiert stärker auf modellen ))

      • 3messen vs. zählen (strukturerhaltende abbildung

        (zählen ist eine direkte erfassung (zb anzahl richtiger antworten ) während messen eine theoretisch modellbasierte abbildung eines merkmals auf zahlen ist (zb intelligenz)

      • 1,3ziel: absicherung der eindimensionalität von messwerten PTT

        (das ziel besteht darin, sicherzustellen, dass ein test nur ein einziges konstrukt (eine dimension ) misst - also zb nicht gleichzeitig intelligenz und motivation )

      • 3probabilistische testtheorie (PTT)

        (eine testtheorie, die davon ausgeht, dass die wahrscheinlichkeit, eine aufgbae zu lösen, von einer latenten fähigkeit abhängt-typisches beispiel : Item response theorie (IRT)

    • 2Messgenauigkeit : wie genau können wir merkmale quantifizieren , die wir in der realität beobachten ?

      (es geht um die präzision psychologischer messungen- also wie zuverlässig ein test das misst, was er messen soll)

      • das beobachtete ergebnis kann auch durch einen fehler bei der messung erklärt / beeinflusst werden

        (testergebnisse setzen sich aus wahrem wert + messfehler zusammen. die testtheorie berücksichtigt diese fehlerkomonente )

      • 2,3ziel: absicherung der messgenauigkeit von messwerten KTT

        (ziel ist, durch testtheorie sicherzustellen, dass die gemessenen werte verlässlich (reliabel) sind also möglichst wenig messfehler enthalten )

      • klassische testtheorie (KTT)

        (eine der zentralen theorien zur messgenauigkeit : sie geht davon aus, dass jede beobachtete messung aus einem wahren wert und einem messfehler besteht


6.2 Testtheorien

6.2.1 Latente und manifeste variablen

eignungsmerkmale sind konstrukte

  1. was sind eignungsmerkmale in der testtheorie, und wie werden sie unterschieden ?

  2. nenne beispiele für manifeste variablen, was kennzeichnet sie ?

  3. wie lässt sich das latente merkmal extraversion laut abbildung operationalisieren ?

1eignungsmerkmale sind konstrukte

(eignungsmerkmale wie zb extraversion oder intelligenz sind keine direkt beobachtbaren eigenschaften- sie sind gedankliche modelle also theoretische konstrukte , mit denen wir verhalten erklären )

  • 1auch : nicht - beobachtbare sachverhalte, latente variablen

    (diese eignungsmerkmale sind nicht direkt sichtbar, man nennt sie deshalb latente variablen (zb extraversion , motivation ) sie müssen indirekt erschlossen werden

  • 1können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen zb lächeln , vermeidungsverhalten, reaktionszeiten )

(latente variablen zeigen sich indirekt zb durch verhalten , das wir beobachten können. solche direkt beobachtbaren merkmale heißen manifeste variablen . beispiele: lächeön, schnelle reaktion, vermeidung . diese beobachtbaren variablen geben hinweise auf das dahinterliegende konstrukt )

(abbildung: in der grafik wird das konstrukt extraversion als latente variable dargestellt.

pfeile führen von verhaltensweisen wie : gerne viele leute um 3sich, leicht zum lachen zu bringen, besonders fröhlich , zu dem latenten konstrukt.

3diese aussagen sind indikatoren , also manifeste variablen , die durch einen fragebogen (extraversionsskala des NEO-FFI) erhoben werden.

fazit: latente variablen wie extraversion lassen sich über manifeste variablen (verhaltensindikatoren ) erschließen .

6.2 Testtheorien

6.2.1 Latente und manifeste variablen

eignungsmerkmale sind konstrukte

1was sind eignungsmerkmale

was ist der unterschied zwischen reflektiven und formativen latenten variablen ?

nenne beispiele für manifeste variablen

was versteht man unter latenten variablen , und wie sind sie zu beobachten ?

Was zeigt die Abbildung

  • 1eignungsmerkmale sind konstrukte

    (eignungsmerkmale (zb intelligenz, extraversion ) sind theoretische begriffe - sie existieren nicht sichtbar, sondern werden als konstrukte gedacht, um verhalten zu erklären )

    • auch : nicht-beobachtbare sachverhalte, latente variablen

      (diese konstrukte sind nicht direkt beobachtbar und werden in der testtheorie als latente variablen bezeichnet

    • können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen , zb lächeln, vermeidungsverhalten , reaktionszeiten )

      (diese latenten variablen zeigen sich im verhalten also durch manifeste variablen , also durch direkt beobachtbare dinge wie zb reaktionen, gesichtsausdruck oder handlungen

    • unterscheidung reflektive vs formative latente varibalen

      (es gibt 2 arten von latenten variablen: reflektive: die lantente variable sagt das verhalten vorher (zb extraversion —> viel reden )

      (formative : die beobachtetetn variablen formen / kombinieren das konstrukt (zb bildung = summe von schulnote , abschluss, dauer )

(abbildung:

Die Abbildung zeigt zwei Wege zwischen latenter und manifester Variable:

Reflektive latente Variable → manifeste Variable

➤ Die latente Variable verursacht die beobachtete Reaktion.

Beispiel: Extraversion → Lächeln, Redseligkeit

Formative latente Variable ← manifeste Variable

➤ Die latente Variable entsteht aus einer Kombination beobachteter Merkmale.

Beispiel: Beruflicher Erfolg ergibt sich aus Einkommen + Aufstieg + Zufriedenheit.)

  1. 2 Testtheorien

6.2.2 Klassiche Testtheorie

  1. welche zwei zentralen kennwerte nennt die klassische testtheorie (KTT) zur beurteilung von testitems ?

  2. was ist mit “trennschärfe” gemeint und wie wird sie berechnet ?

  3. welcher aspekt steht bei der beurteilung einzelner items im fokus ?

  4. warum benutzt man nicht die korrelation mit dem gesamttest inklusive des betreffenden items ?

  5. bonusfrage tieferes verständnis: wie hängt die trennschärfe mit der validität eines items zusammen?



  • weitere kennwerte der KTT beziehen sich auf die einzelnen testitems

    (neben reliabilität etc. betrachtet man in der KTT auch Item-bezogene kennwerte , also wie sich jedes einzelne item im test verhält)

  • 1.zwei zentrale kennwerte: trennschärfe , itemschwierigkeit

    (in der Ktt sind besonders trennschärfe (zusammenhang mit gesamttest ) und itemschwierigkeit (wie schwer ein item ist ) wichtige qualitätsmerkmale )

  • 3.fokus: passung einzelner items und schwierigkeitsverhältnis

    (man prüft , ob ein einzelnes item gut zum test passt zb in bezug auf seine schwierigekeit und seinen zusammenhang mit dem gesamten test )

  • 2.trennschärfe

    • 2korrelation eines items mit der summe der restlichen items eines tests

      (die trennschärfe gibt an, wie stark ein einzelnes item mit dem gesamtergbebnis (gesamtscore) der anderen items zusammenhängt. man lässt das item selbst dabei weg, um die korrelation nicht künstlich zu erhöhen. je höher die trennschärfe desto besser pasts das item inhaltlich zum gesamten test- es misst offenbar dasselbe konstrukt wie die anderen items.

      trennschärfe= korrelation zwischen einem item und der summe der anderen items (ohne sich selbst)

    • 2summe restlicher items fungiert als schätzgröße für den wert der person auf der latenten variable

      (die summe der restlichen items (also alle items außer dem betrachteten) dient als schätzwert für das latente merkmal , das du mit dem test erfassen willst (zb intelligenz , extraversion )

      man nimmt also an: wenn jemand bei den anderen items gut abschneidet , hat die person vermutlich auch einen hohen wahren wert auf dem konstrukt. die anderen items sagen voraus, wo die person auf der latenten skala ungefähr steht )

    • 2man prüft, wie hoch ein item mit dem konstrukt zusammenhängt

      (der test soll ein bestimmtes merkmal (zb extraversion ) messen. ein item (zb ich spreche gerne mit fremden ) sollte daher genau dieses konstrukt widerspiegeln. man testet also , ob das item mit dem gesamtwert korreliert, der als schätzung des konstrukt gilt )

      (ein gutes item zeigt: ich messe auch wirklich das zielkonstrukt)

  • (4: weil das item dann mit sich selbst korreliert wäre das würde die trennschärfe künstlich erhöhen . deshalb verwendet man die summe der restlichen items )


    1. (hohe trenschärfe deutet darauf hin, dass ein item das gleiche misst wie der rest des tests —>spricht für eine hohe inhaltliche validität des items im bezug auf das zu messende konstrukt )

(

6.2 Testtheorien

6.2.2 Klassiche testtheorie

itemschwierigkeit

  1. inwiefern unterscheiden sich items laut der klassischen testtheorie?

  2. was ist das ziel eines tests im hinblick auf die itemschwierigkeit ?

  3. wie wird die itemschwierigkeit bestimmt und dargestellt ?

  4. was veranschaulicht das beispiel mit den 100 kandidat*innen und dem wert 0.10 in bezug auf die itemschwierigkeit ?


  • itemschwierigkeit dh:

    • —>1items unterscheiden sich in ihrer schwierigkeit / leichtigkeit

    • 2ziel eines tests: unterschiedliche merkmalsbereiche der kandidat*innen differenzieren

      (ein guter test sollte nicht nur die sehr guten oder sehr schlechten kandidat*innen erkennen, sondern über das gesamte fähigkeitsspektrum unterschiede sichtbar machen )

    • 3itemschwierigkeit wird durch den mittelwert bestimmt: relativer anteill richtig gelöster items

      (schwierigkeit: durchschnittlicher anteil richtiger lösungen. )

    • beispiel: 100 kandidaten , 10 lösen das item

      —>schwierigkeit =0.10

      (leicht lösbar für 10%)

    • leistungstest: “im durchschnitt lösen 10 % der kandidat*innen das item”

      (item ist schwer)

    • persönlichkeitstests: “im durchschnitt stimmen 10% der kandidat*innen bei dem item zu “

(item wird selten bejaht , eher ungewöhnliches verhalten )


  1. (das beispiel zeigt , wie. man die itemschwierigkeit berechnet: man nimmt den anteil der personen, die ein item richtig beantworten ( bei einem leistungstest) oder zustimmen (bei einem persönlichkeitstest)

    wenn 100 personen ein item bearbeiten und nur 10 davon es richtig beantworten, ergibt sich: itemschwierigkeit = 10 von 100 = 0,10

    das bedeutet: in einem leistungstest : nur 10% haben es richtig gelöst —> das item ist schwer.

    in einem persönlichkeitstest: nur 10% stimmen zu —> es ist ein selten zutreffendes verhalten oder merkmal.

    wichtig: je niedriger der wert, desto schwieriger ist das item (weil es nur wenige richtig oder zustimmend beantworten )


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie PTT

  1. womit beschäftigt sich die probabilistische testtheorie (PTT?)

  2. welcher andere begriff wird ebenfalls für die probabilistische testtheorie verwendet ?

  3. was ist die zentrale frage der PTT?

  4. Wie gehen die parameter in die modelle der PTT ein ?

  5. wie beeinflusst die anzahl der parameter die komlexität des modells ?



  • Probabilistische Testtheorie (PTT)

    (das ist eine mdoerne testtheorie, die wahrscheinlichkieten verwendet, um zu erklären, wie wahrscheinlich es ist, dass eine testperson ein bestimmtes item richtig beantwortet )


    • 1Beschäftigt sich mit statistischen modellen, die das antwortverhalten einer testperson auf das item erklären

      (PTT untersucht, wie personen auf bestimmte testaufgaben reagieren , basierend auf mathematischen modellen. diese modelle sagen mit welcher wahrscheinlichkeit jemand ein item richtig löst )

    • 2auch item-response-theorie (IRT)

      (die PTT ist auch unter dem begriff item - response- theorie (IRT) bekannt. das meint genau diese modellfamilie.

    • 3zentrale frage: von welchen parametern hängt die erfolgreiche itembeantwortung ab ?

      (die PTT fragt: was beeinflusst , ob eine person ein item richtig beantwortet? (zb ihre fähgikeit (personenparameter ), die schwierigkeit des items oder auch zufall. )


      • 4die hypothetisierten parameter gehen dabei als numerische größe in statistsch-theoretische modelle ein

        (diese einflussfakotren (parameter) wie zb fähigkeit oder itemschwierigkeit werden mathematisch beschrieben, also als zahlenwerte im modell verwendet )

      • 5je nach modell werden mehr / weniger parameter integriert, also die komplexitität des erklärungsmodells erhöht

        (in der PTT Probabilistischen testtheorie gibt es verschiedene modelle , die sich darin unterscheiden, wie viele paramter sie berücksichtigen, um das antwortverhalten zu erkären.

        mehr parameter = genaueres modell, aber auch komplexer und aufwändiger

        die wichtigsten paramter (je nach modell):

        1. item -schwierigkeit: wie schwer ist das item? (zb wird es nur von leuten mit hoher fähigkeit gelöst ?)

        2. diskrimination:

          wie gut untscheidet ein item zwischen personen mit niedriger und hoher ausprägung eines merkmals ?

          ein hoher diskriminationswert bedeutet, dass das item sehr gut zwischen zb schwachen und starken testpersonen differenziert.

        3. ratewahrscheinlichkeit: wahrscheinlichkeit, ein item durch raten richtig zu beantworten (zb bei multiple choice )


6.2 Testtheorien

6.2.3 Probabilistische testtheorie

modelle der probabilistischen testtheorie

welche gehören dazu ?

erkläre die abbildungen

  • modelle der probabilistischen testtheorie :

  • - Rasch-modell (1 PL)

  • -Birnbaum oder 2 PL-modell

  • 3PL -Modell

  • Ordinales Rasch-Modell / Partial-Credti-Modell

  • … und viele weitere

Modelle der Probabilistischen Testtheorie“

Die Abbildungen rechts zeigen typische Item-Charakteristik-Kurven (Item Response Functions, IRF) aus der IRT (Item Response Theory). Ich erkläre dir jede der drei Abbildungen einzeln:

🔷 Obere Abbildung – Rasch-Modell (1PL-Modell)

Was ist zu sehen?

Eine typische S-Kurve (logistische Funktion) für ein Item im Rasch-Modell.

Achsen:

x-Achse (Theta, θ): Fähigkeit der Person (z. B. Intelligenz, Extraversion, etc.)

y-Achse (p): Wahrscheinlichkeit, das Item richtig zu lösen

Erklärung:

Das Rasch-Modell geht davon aus, dass nur die Item-Schwierigkeit zählt.

Alle Items haben dieselbe Diskrimination. Je höher θ (Personenmerkmal), desto wahrscheinlicher die richtige Lösung.

✅ Wichtig: Es ist ein 1-Parameter-Modell (1PL) – nur die Item-Schwierigkeit wird berücksichtigt.

🔷 Mittlere Abbildung – Birnbaum-/2PL-Modell

Was ist zu sehen?

Mehrere Kurven für verschiedene Items mit unterschiedlicher Steigung.

Achsen:

x-Achse (Theta): Personenfähigkeit

y-Achse (p): Antwortwahrscheinlichkeit

Erklärung:

Im 2PL-Modell (Birnbaum-Modell) kommen zwei Parameter pro Item ins Spiel:

Item-Schwierigkeit (Lage der Kurve auf der x-Achse)

Item-Diskrimination (Steilheit der Kurve → wie stark das Item zwischen Personen mit unterschiedlichem θ unterscheidet)

✅ Die Steilheit der Kurven variiert: Das zeigt Unterschiede in der Trennschärfe (Diskrimination).

🔷 Untere Abbildung – 3PL-Modell

Was ist zu sehen?

S-Kurven, die nicht bei p = 0 starten, sondern eine untere Schranke haben.

Achsen:

x-Achse (Theta): Fähigkeit

y-Achse (p): Antwortwahrscheinlichkeit

Erklärung:

Das 3PL-Modell berücksichtigt neben Schwierigkeit und Diskrimination zusätzlich:

Ratewahrscheinlichkeit (guessing parameter) – also die Wahrscheinlichkeit, ein Item auch bei geringer Fähigkeit richtig zu beantworten (z. B. durch Raten bei MC-Fragen)

✅ Die Kurve beginnt bei einer positiven Ratewahrscheinlichkeit (z. B. 0.2 = 20 %).

🧠 Fazit zur Folie – Modelle der Probabilistischen Testtheorie

Die drei gezeigten Abbildungen zeigen die Entwicklung von einfachen hin zu komplexeren Modellen innerhalb der Probabilistischen Testtheorie (PTT).

Das Rasch-Modell (1PL) ist das einfachste Modell. Es berücksichtigt nur einen einzigen Parameter pro Item: die Item-Schwierigkeit. Das bedeutet, dass alle Items im Modell als gleich trennscharf betrachtet werden. Die Wahrscheinlichkeit, ein Item richtig zu beantworten, hängt dabei ausschließlich von der Fähigkeit der Person und der Schwierigkeit des Items ab.

Das Birnbaum- oder 2PL-Modell erweitert das Rasch-Modell um einen zweiten Parameter: die Diskrimination. Dieser gibt an, wie gut ein Item zwischen Personen mit unterschiedlicher Merkmalsausprägung unterscheiden kann. In der Darstellung zeigt sich das durch unterschiedlich steile Kurven – je steiler die Kurve, desto trennschärfer das Item.

Das 3PL-Modell geht noch einen Schritt weiter: Neben Schwierigkeit und Diskrimination wird auch die Ratewahrscheinlichkeit (sogenannter guessing parameter) berücksichtigt. Dieser beschreibt die Wahrscheinlichkeit, ein Item allein durch Raten richtig zu beantworten. In der Grafik erkennt man das daran, dass die Kurven nicht mehr bei einer Wahrscheinlichkeit von null beginnen, sondern bei einer positiven Ratewahrscheinlichkeit (z. B. 20 %).

Insgesamt zeigen die Abbildungen also, wie die Modelle immer mehr Parameter integrieren – und dadurch auch immer komplexer, aber gleichzeitig präziser werden.

6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das Rasch-Modell (1 PL)

was erklärt das modell? wozu dient es ?

  1. wie heißt das einfachste und bekannteste modell der probabilistischen testtheorie?

  2. welche annahme trifft das rasch-modell über die itemlösung ?

  3. was ist mit personenfähigkeit im rasch-modell gemeint ?

  4. was passiert laut Rasch-modell, wenn die personenfähigkeit die Itemschwierigkeit übersteigt ?


  • Das Rasch - modell (1 PL):

    (es soll erklären , wie wahrscheinlich es ist, dass eine person ein bestimmtes item richtig löst , und zwar abhängig von zwei fakotren: itemschwierigkeit - wie schwer ist die aufgabe? und personenfähigkeit- wie stark ist die ausprägung der person auf der gemessenen eigenschaft (zb intelligenz ?) es wird zb eingestezt um faire , vergleichbare testergebnisse zu erzielen, weil es zwischen person und item unterscheidet- unabhängig davon, welche items jemand gelöst hat. ziel: objektive, personen- und itemunabhänginge messung)


    • 1das einfachste und bekannteste modell: Dichotom -logistisches modell

      (das rasch-modell gehört zur familie der probabilistischen modelle und ist besonders einfach, weil es mit nur zwei antwortmöglichkeiten (dichotom zb richtig 7 falsch ) arbeitet. es ist in der praxis weit verbreitet und bekannt )


    • 2annahme : itemlösung hängt nur von 2 parametern ab

      (das modell geht davon aus, dass nur zwei faktoren bestimmen, ob eine testperson ein item richtig beantwortet : (1.) wie schwierig das item ist und 2. wie fähig die person ist)

      • 2itemschwierigkeit

        (dieser paramter beschreibt , wie anspruchsvoll ein item ist, also wie schwer es den meisten personen fällt , es zu lösen )

      • 2personenfähigkeit

        (das meint, wie stark eine person in einer bestimmten eigenschaft oder fähigkeit ausgeprägt ist- zum beispiel intelligenz oder exraversion. je höher die fähigkeit , desto wahrscheinlicher eine richtige antwort )

    • 3personenfähigkeit ist die ausprägung der person auf einer latenten variable (meint auch die ausprägung auf persönlichkeitsmerkmalen)

      (latente variablen sind nicht direkt messbar , sondern nur über verhaltensindikatoren . die personenfähigkeit beschreibt also eine nicht-beobachtbare fähigkeit oder eigenschafr der testperosn , wie zb ihre inteligenz oder ihr grad an extraversion )

    • 4je mehr die personenfähigkeit die itemschwierigkeit übersteigt, desto wahrscheinlicher wird das item gelöst )

    • (wenn die fähigkeit einer person deutlich größer its als die schwierigkeit des items, dann steigt die wahrscheinlichkeit , dass die person das item richtig beantwiortet. dies ist der zentrale mechanismus des rasch-modells )

    📌 Wann verwendet man das Rasch-Modell?)

    1. Während der Testentwicklung (Fragebogenkonstruktion):

    ✅ Zur Itemanalyse:

    Man prüft, ob alle Items zum gleichen Konstrukt gehören (z. B. Extraversion) und ob sie sich in ihrer Schwierigkeit sinnvoll unterscheiden.

    ✅ Zur Auswahl geeigneter Items:

    Man behält nur die Items, die zuverlässig zwischen Personen mit unterschiedlicher Ausprägung auf der latenten Variable unterscheiden.

    2. Während der Testauswertung:

    ✅ Zur Berechnung von Personenwerten (Fähigkeitsparametern):

    Man nutzt das Modell, um die Fähigkeit/Veranlagung einer Person unabhängig von den konkret gelösten Items zu schätzen.

    ✅ Zur Erstellung von Item-Charakteristik-Kurven:

    Diese zeigen, wie stark die Wahrscheinlichkeit einer richtigen Lösung von der Personenfähigkeit abhängt.

    3. Zur Qualitätssicherung von Tests:

    ✅ Wenn ein Test rasch-skalierbar ist, bedeutet das:

    Die Items messen ein gemeinsames Merkmal,

    Der Test erfüllt wichtige Gütekriterien wie Objektivität, Reliabilität, Fairness.


  • 📌 Zusammenfassung (kurz):

    Man verwendet das Rasch-Modell, um während der Konstruktion und Auswertung eines Fragebogens sicherzustellen, dass Items einheitlich und fair ein Merkmal messen.


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

wenn das rasch-modell gilt , treten für die testdiagnostik nützliche folgen ein

  1. welche rolle spielt der summenwert der items in einem test nach dem rasch -modell ?

  2. was bedeutet es, dass der testscore im rasch-modell “statistisch eindimensional” ist ?

  3. was ist unter “spezifischer objektvität” im rasch-modell zu verstehen ?



wenn das Rasch-modell gilt, treten für die testdiagnostik nützliche folgen ein

  • erschöpfende statistik

    • 1der summenwert der items enthält alle informationen die man braucht

    • (in einem test nach dem rasch modell reicht es, die anzahl richtig gelöster items (summenwert) zu kennen- man braucht keine zusätzlichen daten über die antworten, um die fähigkeit einer person zu beurteilen )

    • 1verrechnungsvorschrift des einfachen addierens der items abgesichert

    • (die einfache addition der itemantworten (zb =0/1) genügt, es ist mathematisch zulässig, die rohwerte ohne gewichtung oder transformation zu summieren )

    • voraussetzung sind gleiche itemtrennschärfen

      (alle items müssen gleich gut zwischen personen mit unterschiedlicher fähigkeit unterscheiden können. nur dann ist die addition sinnvoll und korrekt im sinne des modells )

    • man misst und zählt nicht nur punkte

      (auch wenn man summiert, steckt mehr dahinter: die summenwerte werden in fähigkeiten auf einer latenten skala übersetzt- es geht also nicht bloß um “mehr punkte= besser” , sondern um eine mathematisch fundierte aussagen über die zugrundeliegende fähigkeit. )


    • (🎯 Worum geht's beim ersten Satz („Der Summenwert der Items enthält alle Informationen, die man braucht.“)?

      👉 Bedeutung:

      Wenn das Rasch-Modell gilt, dann genügt es für die Schätzung der Fähigkeit einer Person, nur die Summe der richtig gelösten Items zu betrachten. Man braucht keine weiteren Infos über das Antwortmuster – nur die Gesamtpunktzahl zählt.

      💡 Beispiel:

      Wenn Person A 7 Items richtig löst und Person B nur 4, dann wissen wir aus Sicht des Rasch-Modells alles, was wir brauchen, um zu sagen: Person A ist fähiger als Person B – unabhängig davon, welche Items sie gelöst haben.

      🤔 Aber warum heißt es dann „Man misst und zählt nicht nur Punkte“?

      👉 Bedeutung:

      Das klingt wie ein Widerspruch, ist es aber nicht!

      Was hier gemeint ist: Auch wenn mathematisch nur die Punktzahl verwendet wird, bedeutet das nicht, dass man „bloß zählt“.

      Denn:

      Die Punktzahl wird nicht direkt interpretiert, sondern sie dient dazu, eine latente Fähigkeit (wie Intelligenz oder Extraversion) auf einer Skala zu schätzen.

      💡 Konkret:

      Du sagst also nicht:

      „Person A hat 7 Punkte, also ist sie gut.“

      Sondern:

      „Die 7 Punkte entsprechen im Rasch-Modell einer bestimmten Fähigkeit auf einer mathematischen Skala.“

      ✅ Fazit (ganz einfach gesagt):

      Man zählt Punkte – ja.

      Aber diese Punkte stehen für etwas Tieferes (nämlich: eine Eigenschaft/Fähigkeit der Person).

      Die Punkte reichen mathematisch aus, um die Fähigkeit zu bestimmen.

      Aber die Bedeutung entsteht erst durch das Modell, nicht durch das bloße Zählen.



  • 2testscore ist statistisch eindimensional

    • 2der test ist nur auf eine latente dimension zurückzuführen

    • (der test misst nur ein einziges merkmal (zb mathematische fähigkeit oder extraversion) es gibt keine vermischung verschiedener merkmale - das ist eine kernannahme des rasch-modells )

  • 3spezifische objektivität von vergleichen

    • 3unterschiede zwischen personen gleich, egal wie schwierig items sind

      (zwei personen können miteinander verglichen werden, auch wenn sie unterschiedliche items bearbeitet haben - solange diese items dem rasch-modell entsprechen. die schwierigkeit verzerrt den vergleich nicht. )

    • 3unterschiede zwischen items gleich, egal wie fähigkeit personen sind

    • (umgekehrt können auch items verglichen werden, obwohl sie von unterschiedlichen personen bearbeitet wurden- die fähigkeit der person beeinflusst die vergleichbarkeit der items nicht, wenn das modell gilt)


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

die gültigkeit des rasch-modells kann überprüft werden

  1. wie kann die gültigkeit des rasch-modells überprüft werden ?

  2. was passiert beim graphischen modelltest mit der stichprobe ?

  3. wann gilt das rasch-modell im graphischen modelltest als “augenscheinlich” gültig ?

1die gültigkeit des rasch-modells kann überprüft werden

(ddas bedeutet: man kann testen ob ein datensatz wirklich den annahmen des rasch-modells entspricht (zb eindimensionale struktur , gleiche trennschärfe etc)

  • 1meist inferenzstatistische modelltests

    (in der regel verwendet man statistische verfahren, um systematisch zu prüfen, ob das modell zur realität passt )

  • 1häufig eingesetzt: graphischer modell-test

    (der sogenannte graphische modelltest ist ein häufig genutztes verfahren zur überprüfung der rasch-modell-gültigkeit , weil er ergebnisse visuell veranschaulicht )

    • 2teiliung der stcihprobe am median des gesamtscores

      (die gesamtgruppe wird in zwei teilgruppen aufgeteit: eine mit scores unter dem median und eine mit scores über dem median )

    • 2in beiden teilstichproben werden itemparameter getrennt geschätzt

    • (für jede teilgruppe werden seperat die itemschwierigkeiten berechnet)

    • 3vergleich der itemparameter auf abweichungen: gültigkeit des rasch-modells “augenscheinlich”

(wenn die itemparameter (zb schwierigkeit ) in beiden gruppen sehr ähnlich sind , ist das ein hinweis darauf, dass das rasch-modell gültig ist - man erkennt es auf einen blick im plot )

Die grüne Streudiagramm-Grafik zeigt das Ergebnis des graphischen Modelltests, der prüft, ob die Itemparameter stabil sind – also unabhängig davon, ob eine Personengruppe ein hohes oder niedriges Gesamtergebnis hat.

🔹 Achsenbeschriftung:

x-Achse: „MA > Md“

→ Das sind die Itemparameter (meist Schwierigkeit) der Gruppe mit höheren Gesamtscores (über dem Median).

y-Achse: „MA ≤ Md“

→ Das sind die Itemparameter derselben Items bei der Gruppe mit niedrigeren Gesamtscores (unter dem Median).

🔹 Punkte:

Jeder Punkt steht für ein Item, z. B. Punkt „3“ ist das dritte Item im Test.

Die Punkte zeigen, wie ähnlich oder unterschiedlich das jeweilige Item in beiden Gruppen funktioniert.

🔹 Diagonale Linie (45°-Linie):

Das ist die Idealgerade, auf der alle Punkte liegen würden, wenn die Itemparameter in beiden Gruppen exakt gleich sind.

Das wäre perfekt im Sinne des Rasch-Modells: Es bedeutet, dass die Items unabhängig von der Fähigkeit der Teilgruppe gleich funktionieren.

🔹 Interpretation:

Die Punkte liegen sehr nah an der Diagonale → das heißt: Die Itemparameter sind stabil.

Das spricht für die Gültigkeit des Rasch-Modells im Sinne eines „augenscheinlich passenden“ Modells (visuelle Prüfung).

Der R²-Wert (0,953) unten rechts zeigt, dass es eine sehr starke lineare Übereinstimmung gibt.

✅ Fazit:

Die Abbildung zeigt, dass die Itemparameter zwischen den beiden Teilstichproben kaum abweichen. Damit stützt das Ergebnis das Rasch-Modell – es scheint für diese Daten gültig zu sein.

6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das Birnbaum oder 2PL-Modell

  1. was ist beim birnbaum - oder 2PL - Modell denkbar im hinblick auf die testitems ?

  2. was liegt im fall unterschiedlich “guter” testitems im 2PL-Modell vor ?

  3. welche folge hat es, wenn unterschiedliche itemtrennschärfen vorliegen ?

  4. von welchen parametern hängt die itemlösung im 2PL-/Birnbaum-modell ab ?



Das Birnbaum oder 2PL-Modell

  • 1.denkbar, dass testitems unterschiedlich “gute “ indikatoren für das latente konstrukt sein können

  • (manche items eines tests sind bessere oder schlechtere messinstrumente für das, was man eigentlich messen will (zb intelligenz / extraversion ) . es ist also möglich, dass einige fragen besser zwischen personen mit hoher und niedriger ausprägung auf einem merkmal unterscheiden als andere )

    1. in diesem fall liegen unterschiedliche itemtrennschärfen vor

  • (das bedeutet die items haben unterschiedliche “unterscheidungsfähigkeit”. ein trennscharfes item erkennt besser ob jemand wirklich viel oder wenig von dem gemessenen merkmal hat. ein weniger trennscharfes item bringt weniger aussagekraft mit sich )

  • 3.folge: das modell muss um einen parameter erweitert werden

    • (während das rasch-modell (1pl) Nur zwei parameter verwendet (itemschwieirigkeit und personenfähigkeit ) braucht man hier einen zusätzlichen dritten parameter , nämlich den trennschärfeparameter . weil man jetzt nicht mehr davon ausgeht, dass alle items gleich trennscharf sind )


      4.annahme: itemlösung hängt von diesen parametern ab

    • (die wahrscheinlichkeit dass ein item richtig gelöst wird, hängt nun von:

      • 4itemschwierigkeit (wie schwer ist das item)

      • 4personenfähigkeit (wie fähig ist die person

      • 4trennschärfeparamter (wie gut kann das item zwischen fähigkeitsniveaus unterscheiden

        ab

    • (birnbaum = 2 pl modell und es heißt so weil es 2 parameter verwendet (itemschwie, und trennschärfe)


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das 3PL-Modell

  1. was versteht man unter dem 3Pl

  2. was könnte beim 3PL-Modell zusätzlich eine Rolle bei der Itembeantwortung spielen ?

  3. welche folge ergibt sich daraus für das modell?

  4. von welchen parametern hängt laut dem 3PL-Modell die Itemlösung ab?


1Das 3PL-Modell

(das 3PL-Modell (Three-Parameter-Logistic Model) ist ein modell der probabilistischen Testtheorie. es erweitert die vorherigen modelle (zb Rasch- oder 2PL-Modelle) um einen weiteren einflussfaktor: das zufällige Raten. das modell geht davon aus, dass die wahrscheinlichkeit, ein item richtig zu lösen, von 3 itemparametern abhängt: 1. itemschwierigkeit- wie schwer das item ist , 2. trennschärfeparameter- wie gut das item zwischen personen unterscheidet, 3. rateparameter - wie wahrscheinlich es ist, dass die testperson das item durch raten richtig beantwortet.

zusätzlich fließt auch die personenfähigkeit ein (wie gut jemand im gemessenen merkmal ausgeprägt ist ), aber diese wird nicht als itemparameter gezählt , daher “3PL”. )


  • 2es könnte durch die auswahl mehrerer Antwortmöglichkeiten auch das zufällige Raten eine rolle spielen

    (in tests mit mehrfachauswahl (MS) können Teilnehmende items auch richtig beantworten, obwohl sie die antwort nicht wissen- einfach durch zufall. dieses raten kann das testergebnis verzerren und muss daher im modell berücksichtigt werden )

  • 3folge: wir müssen zusätzlich einen rateparameter in das modell aufnehmen

    (weil raten eine rolle spielt, reicht es nicht mehr aus, nur die personenfähigkeit und itemschwierigkeit zu betrachten. es wird ein zusätzlicher parameter (der rateparameter) eingeführt, um den einfluss des ratens mathematisch zu modellieren. )

  • 4annahme: itemlösung hängt von diesen parametern ab

    (die wahrscheinlichkeit, dass eine person ein item korrekt löst, hängt im 3PL-Modell nicht nur von zwei , sondern von vier inhaltlichen paramtern plus dem rateparameter ab: )

    • 4itemschwierigkeit

      (gibt an wie schwer das item im vergleich zu den fähigkeiten der personen ist )

    • 4personenfähigkeit

      (beschreibt, wie stark eine person das zu messende merkmal (zb intelligenz) ausgeprägt hat )

    • 4trennschärfeparameter

      (zeigt wie gut ein item zwischen verschiedenen fähigkeitsniveaus unterscheiden kann )

    • 4rateparameter

      (schätzt, mit welcher wahrscheinlichkeit jemand das item durch raten korrekt lösen kann (zb bei 25% bei vier antwortmöglichkeiten )

  • (warum heißt es dann 3PL obwohl es 4 parameter sind ?= der Name 3PL bezieht sich nur auf die drei item-bezogenen parameter: der name 3PL bezieht sich nur auf die drei item-bezogenen parameter: schwierigkeit, trennschärfe und rateparameter. die personenfähigkeit ist kein itemparameter sondern eine personenbezogene variable-deshalb wird sie nicht mitgezählt im namen des modells.)


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das Ordinale Rasch-Modell / Partial Credit Modell

  1. was versteht man unter dem ordinalen rasch modell / partial credit modell ?

  2. was sagt das modell im ordinalen rasch-modell / partial credit modell vorher?

  3. von welchen parametern hängt die itemlösung im ordinalen rasch-modell ab ?


1Das Ordinale Rasch-Modell / Partial Credit Modell

diese überschrift benennt zwei namen für dasselbe modell- es geht um ein erweitertes rasch-modell - es geht um ein erweitertes rasch-modell , das nicht nur mit zwei antwortmöglichkeiten (dichotom) , sondern mit mehrstufigen antwortoptionen arbeiten kann. ordinal bedeutet: die antwortkategorien haben eine rangfolge, aber die abstände sind nicht zwingend gleich groß (wie bei likert-skalen: zb 1 = stimme gar nicht zu bis 5= stimme voll zu )

Partial credit modell heßt wörtlich: teilpunkte-modell. das bedeutet : eine person kann teilpunkte bekommen, je nachdem wie “nah” ihre antwort an der vollen zustimmung bzw richtigen antwort liegt . also die überschrift verweist auf ein modell das für mehrstufige antwortformate geeignet ist und in der probabilistischen testtheorie verwendet wird, um feiner zu differenzieren, wie personen auf items antworten )

(

  • 1ist eine erweiterung des dichotomen modells auf sogenannte likert-skalen

    (das ursprüngliche rasch-modell (1PL) geht von dichotomen antworten aus (zb richtig vs falsch ) das ordinale rasch modell erweitert dieses modell auf mehrstufige antwortmöglichkeiten, wie man sie auf likert-skalen findet (zb 1= stimme gar nicht zu… 5= stimme voll zu )

  • 2modell sagt vorher, welche antwortkategorie eine person wählt

    (das modell berechnet die wahrscheinlichkeit, mit der eine person eine bestimmte antwortkategorie (zb eine bestimmte likert-stufe) auswählt, je nach ihrer merkmalsausprägung und den schwellenwerten des items)

    (ein schwellenwert des items (auch antwortschwelle genannt) ist die grenze zwischen 2 antwortkategorien bei mehrtsufigen skalen (zb likert-skalen. stell dir ein item vor mit 5 antwortmöglichkeiten: ich bin gerne unter menschen, zwischen diesen 5 antwortkategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2 , eine grenze zwischen 2 und 3 … usw. zwischen diesen 5 kategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2, usw. diese schwellenwerte legen fest bei welcher merkmalsausprägung (zb extraversion ) eine person eher die eine oder die nächste antwortkategorie wählt. ein schwellenwert des items ist der punkt auf der skala der latenten eigenschaft zb extraversion, an dem eine person “umspringt” von einer antwortkategorie zur nächsten )

  • 3annahme: itemlösung hängt von diesen parametern ab

    (das modell basiert auf zwei zentralen einflussfaktoren -also zwei parametern - die bestimmen, wie wahrscheinlich eine person eine bestimmte antwortkategorie auswählt)


    • 3eigenschaftsausprägung (personenparameter)

      (das ist die individuelle ausprägung einer person im interessierenden merkmal (zb extraversion, einstellung etc). sie wirkt sich auf die wahl der antwortkategorie aus)

    • 3schwellenparameter (antwortschwellen der testitems)

      (diese parameter geben an, an welcher stelle auf der skala (zb latente fähigkeit oder einstellung) eine person von einer antwortkategorie zur nächsten übergeht. beispiel : ab welcher ausprägung stimmt jemand “eher zu “ statt “neutral” zu )


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

schätzung von modellparametern

skalierung von personen- und itemparametern

  1. was ist die conditional maximum likelihood-methode (CML) und wofür wird sie verwendet?

  2. welch einheit wird in der probabilistischen testtheorie für personen- und itemparameter verwendet und was bedeutet das ?

  3. wie lassen sich logit-werte interpretieren und wie groß ist der mögliche wertebereich ?


  • schätzung von modellparametern

    (hier geht es daurm, WIE man in der probabilistischen testtheorie bestimmte werte (“parameter”) berechnet - zb wie schwierig ein item ist oder wie fähig eine person ist. diese parameter können nicht direkt beobachtet, sondern nur mathematisch geschätzt werden- meist mit dem computer )

    • 1computerbasierte schätzung, rechenintensives iteratives verfahren

      (modelle der probabilistischen testtheorie können nicht einfach per hand gelöst werden. sie brauchen einen computer , der viele rechendurchläufe (iterativ) macht, bis das beste ergebnis gefunden ist. das verfahren ist aufwendig (rechenintensiv )

    • 1conditional maximum - likelihood -methode (cML)

      (dies ist ein spezielles statistisches verfahren, mit dem man modellparameter (zb fähigkeit einer person oder schwierigkeit eines items) möglichst genau schätzt. es wird häufig im rasch-modell verwendet )

    • 1werte werden so geschätzt, wie sie für die beobachteteten testwerte am plausibelsten sind (maximum likelihood)


  • skalierung von personen- und itemparametern

  • (in diesem abschnitt wird erklärt, in welcher einheit diese geschätzten werte dargstellt werden (logits) und wie man sie interpretieren kann (zb was bedeutet +3 logits? außerdem wird gezeigt, dass man fähigkeiten von personen und schwierigkeiten von items direkt vergleichen kann, weil sie auf derselben skala liegen )


    • 2mit derselben einheit erfasst: logits

      (die geschätzten werte (zb für fähigkeit oder schwierigkeit) werden alle in der gleichen einheit angegeben , nämlich in logits (=logistische einheiten ), so sind sie vergleichbar.

    • 2können direkt zueinander in bezug gesetzt werden

      (da beides (person und item) in logits gemessen wird, kann man sie direkt vergleichen. wenn zb person = 1.5 logits und item = o.5 logits —> die person hat eine höhere fähigkeit als die item-schwierigkeit )

    • 3werte von plus 3: sehr hihe fähigkeits-/eigenschaftsausprägung

      (wenn jemand +3 logits hat, ist das eine sehr starke ausprägung (zb sehr hohe mathematische fähigkeit oder sehr hohe extraversion )

    • 3werte von minus 3 : sehr niedrige fähigkeits/- eigenschaftsausprägung

      (-3 logits bedeutet eine sehr geringe ausprägung - die person hat die eigenschaft kaum (zb sehr geringe lesekompetenz )

    • 3theoretisch geht der wertebereich von +unendlich bis -unendlich zeichen (forever zeichen)

(in der theorie sind die werte unbegrenz nach oben und unzen , also unednlich hohe oder niedrige ausprägungen wären möglich. in der praxis kommen aber meist werte zwischen -3 und +3 vor. )


(1: die CML ist ein rechenintensives iteratives verfahren , das in der probabilistischen testtheorie verwendet wird. es handelt sich um eine methode zur schätzung von modellparametern. werte werden so geschätzt, wie sie für die beobachteten testwerte am plausibelsten sind (maximum likelihood)

6.2 Testtheorien

6.2.3 Probabilistische testtheorie

zuverlässigkeit in PTT-Modellen

  1. was wird in der klassischen testtheorie KTT über messfehler angenommen ?

  2. was berücksichtigt die item-response-theorie (IRT) in bezug auf die messung ?

  3. wie wird der messfehler in der IRT differenziert ?

  4. was ist ein messfehler


  • Zuverlässigkeit in PTT-Modellen

    • 1in der KTT: annahme, dass messfehler für alle personen unabhängig von ihrer fähigkeit / eigenschaft gleich ausfällt.

      (in der klassischen testtheorie ktt wird davon ausgegangen, dass jeder mensch - egal wie gut oder schlecht er in einem bereich ist- densleben messfehler hat. die ungenauigkeit bei der messung ist also für alle gleich, unabhängig vom fähigkeitsniveau )

    • in der IRT:

      • 2Berücksichtigung, welche informationen items über die messung einer fähigkeit / eigenschaft liefern

        (in der item-response-theorie (IRT) wird genau geschaut, wie viel ein bestimmtes item über die fähigkeit einer person aussagt. manche aufgaben sagen mehr über die fähigkeit aus als andere- diese unterschiede werden in der IRT berücksichtigt.

      • 3für jede ausprägung der person kann ein messfehler angegeben werden

(im gegensatz zur KTT hängt der messfehler in der IRT vom fähigkeitsniveau der getesteten person ab. das heißt: je nachdem, wie stark oder schwach jemand in einem bereich ist, ist der messfehler unterschiedlich groß- und wird individuell angegeben )


(ein messfehler ist die abweichung zwischen dem wahren wert (den wir eigentlich messen wollen ) und dem beobachteten testergebnis. du machst also einen test, aber dein ergebnis ist nicht exakt ddein “wahres können “ sondern enthält auch zufallseinflüsse zb konzentration, missverständnisse in der frage, glück oder pech beim raten ) diese zufällige abweichung ist der messfehler. man geht in der psychologie immer davon aus, dass kein test perfekt misst, sondern immer ein gewisser fehler dabei ist )

6.3 Gütekriterien

6.3.1 Reliabilität, Konfidenzintervalle und kritische differenzen

  1. was ist laut DIN 2016 die voraussetzung für Reliabilitätsangaben ? was versteht man unter reliabilität?

  2. welche schätzer gibt es für die reliabilität und was bedeuten sie ?

  3. wofür werden die genannten schätzer verwendet ?


  • 1reliabilitätsangaben müssen aus empirischen studien abgeleitet sein

    (man darf die reliabilität (also die zuverlässigkeit eines tests) nicht einfach schätzen oder annhemen, sondern sie muss in echten studien mit daten nachgewiesen werden. das bedeutet : es braucht empirische belege, damit man sagen kann , wie genau ein test misst. (beispiel din 2016 fordert das auch formell )

    Reliabilität= ein test ist reliabel, wenn er genau und frei von zufallsschwankungen misst. dh wenn man denselben test mehrmals durchfphrt, sollte immer wieder ein ähnliches ergebnis herauskommen- unter denselben bedingungen )

  • 2,3unterschiedliche schätzer für die reliabilität von testwerten

    (es gibt verschiedene möglichkeiten wie man die reliabilität berechnen kann - je nach aufbau und zweck des tests. diese methoden heißen “schätzer”, weil sie die genauigkeit (reliabilität ) eines testergebnisses abschätzen.


    • 2retest-korrelation

      (der gleiche test wird zweimal derselben person gegeben (mit etwas zeit dazwischen ). wenn die ergebnisse ähnlich bleiben, ist der test stabil—>hohe reliabilität.

    • 2paralleltest-korrelation

      (zwei vergleichbare tests, die dasselbe messen, werden gegeben. wenn die ergebnisse korrelieren , ist der test zuverlässig.

    • 2split-half-korrelation

      (ein test wird in zwei hälften geteilt (zb gerade vs ungerade items) , und deren ergebnisse werden miteinandeer verglichen. hohe korrelation —> test ist in sich stimmig.

    • 2interne konsistenz / cronbachs alpha

      (misst, wie stark die einzelnen items eines tests zusammenhängen. cronbachs alpha ist der häufigste wert dafür. hoher wert = items messen vermutlich das gleiche konstrukt.

    • 3(sie sind schätzer für die reliabilität von testwerten )



6.3 Gütekriterien

6.3.1 reliabilität , konfidenzintervalle und kritische differenzen

entwicklung eines reliablen tests bzw. testwerts


  1. welche zwei einflussgrößen sind zentral für die entwicklung eines reliablen tests ?

  2. was ist ein merkmal von variante 1 zur testentwicklung und was muss der test dabei erfassen können ?

  3. was zeichnet variante 2 aus und wofür eignet sich das ?


  • entwicklung eines reliablen tests bzw. testwerts

    (ziel ist es, testverfahren so zu gestalten , dass sie zuverlässig (reliabel) messen - also bei wiederholter anwendung vergleichbare ergebnisse liefern )


    • 1zentrale einflussgrößen: testlänge und mittlere korrelationshöhe der items

      (die reliabilität hängt stark davon ab: 1. wie viele items ein test enthält (testlänge) 2. wie stark die items miteinander korrelieren - je ähnlicher sie das gleiche messen, desto besser (mittlere korrelation )

    • 2variante 1:

      • 2wenige, aber hochkorrelierte items

        (wenn nur wenige items im test enthalten sind, müssen diese sehr stark miteinander zusammenhängen , um zuverlässig zu sein )

      • 2test muss einen engen verhaltensausschnitt erfassen (bspw. ich gehe abends gerne aus )

        (misst ein konkretes verhalten (enge ausrichtung )

    • 3variante 2:

      • 3große anzahl von items, langer test

        (wenn man viele items einsetzt, kann man damit auch breitere merkmalsbereiche erfassen.)

      • 3test kann auch breiten verhaltensauschnitt erfassen (bspw. ich bin ein geselliger mensch )

(ist ein allgemein gehaltener item, der viele verschiedene alltagssituationen abdecken kann )

6.3 Gütekriterien

6.3.1 Reliabilität , konfidenzintervalle und kritische differenzen

stichprobenabhängigkeit von reliabilitässchätzungen

  1. warum muss die reliabilität eines testwerts anhand einer relevanten stichprobe geschätzt werden ?

  2. was passiert, wenn man die reliabilität in einer zu breiten stichprobe schätzt und warum ?

  3. was beeinflusst die merkmalsvarianz die reliabilitätsschätzung ?


  • stichproben von reliabilitätsschätzungen

    • 1reliabilität eines testwerts muss anhand einer für unsere fragestellung relevanten stichprobe geschätzt werden

      (die reliabilität ist nicht einfach allgemein gültig, sie hängt davon ab , FÜR WEN der test verwendet wird. man muss die reliabilität an genau der zielgruppe schätzen, für die man den test einsetzen will )


    • 2beispiel aus der eignungsdiagnostik :

      (ein praktisches beispiel um das problem zu verdeutlichen )

      • ein unternehmen möchte nur gymnasiasten als kandidaten für das auswahlverfahren akzeptieren

        (das ziel ist : nur gymnasiasten sollen gestestet und ausgewählt werden )

      • 2es soll ein intelligenztest durchgeführt werden

        (um die eignung zu prüfen , wird ein intelligenztest verwendet )

      • 2wird die reliabilitätsschätzung in einer stichprobe mit allen schultypen vorgenommen, wird die reliabilität überschätzt

        (wenn man den test an allen schülern (haupt, real, gymnasium) usw. testet, wirkt der test zuverlässiger , als er für gymnasiasten wirklich ist. denn: die unterschiede zwischen schülern aller schulformen sind größer—> das täuscht höhere reliabilität vor.

      • 2grund: intelligenz und schulische leistung hängen zusammen

        (je nach schultyp variiert im durchschnitt auch die intelligenzleistung - also misst man größere unterschiede )

      • 2gymnasiasten unterscheiden sich untereinander weniger, als sich schüler zwischen schulen unterscheiden

        (je nach schultyp variiert im durchschnitt auch die intelligenzleistung- also misst man größere unterschiede )

    • 3je höher die merkmalsvarianz, desto höher die reliabilitätsschätzung

    • (varianz= unterschiedlichkeit. wenn man eine gemischte gruppe testet, ist mehr unterschied zwischen den personen —> dadurch erscheint der test als zuverlässiger , als er in einer einheitlichen gruppe (zb nur gymnasiasten ) tatsächlich ist ) .

  • 2. die reliabilität wird überschätzt, weil bei größerer merkmalsvarianz (zb durch unterschiedliche schultypen) die unterschiede zwischen den personen größer sind, wodurch der test zuverlässiger erscheint, als er es in einer homogeneren zielgruppe ist )


6.3 Gütekriterien

6.3.1 Reliabilität, konfidenzintervalle und kritische differenzen

größe der teilstichproben


  1. was wird zur schätzung der zuverlässigkeit bei teilstichproben gesagt ?

  2. welche aussage macht din 33430 zur größe der teilstichproben ?

  3. was gilt für schätzungen aus kleineren stichproben ?

  4. was sind teilstichproben ?


  • größe der teilstichproben

    • 1die zuverlässigkeit sollte für jede interessierende teilstichprobe getrennt geschätzt werden

    • (die aussage bedeutet, dass man die reliabilität (also die messgenauigkeit eines tests) nicht einfach allgemein angeben sollte. stattdessen sollte sie für jede relevante untergruppe (zb männer, frauen , altersgruppen, schultypen ) eigentlich seperat berechnet werden, weil sie sich zwischen gruppen unterscheiden kann

    • 2DIN 33430 macht keine aussagen zur größe der teilstichproben

    • (die din norm , die anforderungen an berufsbezogene eigungsdiagnostik stellt, legt keine bestimmte anzahl an personen fest, die in teilstichproben enthalten sein müssen, um die reliabilität zu berechnen)

    • richtwert: im idealfall 400 personen (huber, 1973)

    • (es gibt eine empfehlung aus der fachliteraturm wonach etwa 400 personen aus stichprobengröße ideal wären, um eine verlässliche schätzung der reliabilität zu erhalten )

    • 3schätzungen aus kleineren stichproben

      (hier beginnt eine neue aussageeinheit, die sich mit kleinen gruppen beschäftigt )

      • 3nicht zwangsläufig abzulehnen

        (dh auch kleine stichproben können verwendet werden- sie sind nicht automatisch unbrauchbar )

      • 3sie liefern nur eine weniger präzise schätzung

        (der nachteil kleiner stichproben ist aber, dass die genauigkeit der schätzung leidet- die reliabilitätsangaben sind dann unsicherer oder schwankender.

      • 4(teilstichproben sind untergruppen einer größeren stichprobe, die bestimmte merkmale gemeinsam haben. man verwendet sie zb um die zuverlässigkeit (reliabilität) eines tests getrennt für verschiedene gruppen zu überprüfen. zb wenn man einen eignungstest für schüler durchführt könnten teilstichproben sein : nur gymnasien, nur realschüler.. , nur schüler eines bestimmten alters , geschlechts ) laut folie sollte für jede interessierenden teilstichprobe die zuverlässigkeit getrennt geschätzt werden, weil sich die testgütekriterien je nach gruppe unterscheiden können )


6.3 Gütekriterien

6.3.1 Reliabilität, Konfidenzintervalle und kritische Differenzen

Berechnung kritischer Differenzen

  1. wozu dient die berechnung kritischer differenzen in der eignungsdiagnostik?

  2. was muss bei der berechnung kritischer differenzen berücksichtigt werden ?

  3. was sagt uns die kritische differenz aus ?

  4. wie sieht die formel aus , rechne mit beispiel

  • 1Berechnung kritischer differenzen

    (wie groß muss der unterschied zwischen zwei testwerten sein, damit man sagen kann, dass er wirklich beutsam ist- also nicht nur durch zufall entstanden ? man berechnet also eine “kritische differenz” = einen schwellenwert, ab dem man sagen darf: ja, diese person ist tatsächlich besser als die andere )

    • 1in der eignungsdiagnostik müssen wir kandidat*innen miteinander vergleichen : wer hat den höheren wert im intelligenztest, person A oder B?

      (in auswahlverfahren (zb bei bewerbungen ) soll geklärt werden, welche person einen höheren testwert hat. man vergleicht also personen direkt miteinander)

    • 2Messfehler muss berücksichtigt werden

      (man darf nicht nur den unterschied der zahlen vergleichen, sondern muss auch den statistischen messfehler mit einbeziehen, da testergebnisse nie ganz exakt sind)

    • 3die kritische differenz sagt uns zu welchem ausmaß unterschiede zu einer gewissen wahrscheinlichkeit durch zufall bedingt sind

      (die “kritische differenz” ist ein schwellenwert. ist der unterschied zwischen zwei testwerten kleiner als dieser wert, dann ist der unterschied statistisch nicht bedeutsam (er könnte zufällig sein )

      (der schwellenwert also die “kritische differenz” ist der grenzwert, ab dem ein unterschied zwischen zwei testwerten statistisch signifikant ist- also nicht mehr zufällig sein kann. wenn der unterschied kleiner ist als dieser schwellenwert , ist er nicht bedeutsam. er hängt ab von: 1.der varianz (VAR(X): varianz der testwerte. das ist ein maß dafür, wie stark die testergebnisse insgesamt streuen. wenn die werte sehr weit auseinanderliegen, ist die varianz groß. mehr streuung —> größere unsicherheit —> höhere kritische differenz.

      (2.REL= Reliabilität: das ist ein maß für die zuverlässigkeit des tests. sie zeigt, wie genau und stabil ein test misst. je höher die reliabilität , desto kleiner ist die kritische differenz , weil man dem testergebnis mehr vertrauen kann.

      bei niedriger reliabilität muss der unterschied größer sein, um bedeutsam zu sein)

    • (3. 1,96=sicherheitsfaktor für 95% wahrscheinlichkeit:

      der wert 1,96 kommt aus der statistik und bedeutet, dass man mit 95% sicherheit sagen kann: der unterschied ist nicht durch zufall entstandenn” je höher dieser sicherheitsfaktor , desto größer wird die kritische differenz. )

      (viel streuung + wenig reliabilität + hohe sicherheit = größere kritische differenz nötig, um unterschiede als echt zu bewerten )

    • formel

    • (mit dieser formel berechnet man den wert, ab dem ein unterschied als statistisch bedeutsam gelten kann )

    • beispiel: person a: IQ= 125 , Person B: IQ= 122

    • kritische differenz entspricht 9.4 IQ-Punkten

    • dh Person A liegt innerhalb des konfidenzintervalls von person B

    • schlussfolgerung: A ist nicht signifikant besser als B

  • (beispiel erklärt: Person A: IQ 125,

    Person B IQ 122

    das sieht erstmal so aus, als sei person A besser als B weil 125 größer ist als 122

    aber: die kritische differenz (also der schwellenwert) liegt bei 9,4 punkten. dh: damit man sicher sagen kann , dass A besser ist als B, müsste der unterschied mindestens 9,4 punkte betragen. tatsächlich ist der unterschied nur 3 punkte. das liegt unter der kritischen differenz.

    fazit / schlussfolgerung: A ist nicht signifikant besser als B.)

(formel: zb varianz ist 5 und reliabilität 0.7 (reliabilität kann nicht 7 sein, weil das wäre dann größer als 1 und das ist unmöglich bei einer reliabilität!) merken!

6.3 Gütekriterien

6.3.1 Reliabilität, Konfidenzintervalle und kritsiche differenzen

klassifikation von kandidat*innen


  1. welche art von persönlichkeitstets arbeiten mit kategorialen persönlichkeitsmerkmalen und wie werden kandidat*innen darin eingeteilt ?

  2. was muss bei der einteilung in klassen anhand von testergebnissen beachtet werden ?

  3. wie wird die reliabilität von klassifikationen geschätzt und welches maß kann verwendet werden ?


  • klassifikation von kandidat*innen

    • 1manche tests arbeiten mit kategorialen persönlichkeitsmerkmalen (sog. typentests, wie bspw. Myers-Briggs-Type-Indicator)

      (kategoriale merkmale wie in typentests: bei typentests wird die persönlichkeit nicht als ein kontinuum (eine skala) dargestellt, sondern als feste kategorie (typ) . beispeil: der Myers-Briggs-Type Indicator (MBTI) teilt personen nicht einfach in “mehr oder weniger introvertiert ein sondern sagt : du bist entweder “introvertiert (I) oder extravertiert (E) - kein zwischenwert. daraus ergibt sich zb. ein typ wie “ISTJ) (wichtig: in der persönlichkeitspsychologie sind viele merkmale eigentlich kontinuierlich (zb introversion / extraversion). ein kontinuerliches merkmal bedeutet es kann viele abstufungen annehmen nicht nur “entweder -oder”, sondern alles dazischen. bsp extraversion: du bist nicht nur entweder extravertiert oder introvertoert sondern du kannst irgendwo auf einer skala dazwischen liegen, eher introvertiert, sehr introvertiert, neutral… )

      aber typentests vereinafchen das und sagen: du wirst einem vom wenigen typen zugeordnet. das nennt man kategoriale einteilung- unabhängig davon, dass das merkmal (zb introversion ) theoretisch ein kontinuum ist ) (das merkmal ist ein kontinuum - wie eine linie oder skala, auf der man stufenlos verschiedene werte annehmen kann. bei typentests eben nicht )

    • 2einteilung von kandidat*innen in verschiedenen klassen

      (wenn ein test menschen in klassen einteilt, muss statistisch belegt wrrden, dass diese klasseneinteilung valide ist- also nicht willkürlich. das geschieht zb mit methoden wie : clusteranalyse —> überprüft, ob sich natürliche gruppen in den daten bilden ,

      mixed-rasch-modelle—>erweitertes IRT-Modell, das unterschiede zwischen gruppen erlaubt )

    • 2anzahl der aus einem testergebnissen resultierenden klassen muss anhand statistischer verfahren nachgewiesen werden

      • 2clusteranalyse

      • 2mixed-rasch-modelle

    • reliabilitätsschätzung für klassifikationen / typentests

    • (auch wenn jemand in eine klasse eingeteilt wird, stellt sich die frage: würde dieselbe person beim nächsten mal wieder in dieselbe klasse fallen ? diese stabilität der klassifikation wird ähnlich wie reliabilität bewertet )

      • 3pendant zur reliabilitätsschätzung ist stabilität der klassfikation über zwei messzeitpunkte hinweg

        (die “reliabilität” bei typentests bezieht sich darauf, ob sich die klassifikation über die zeit nicht ändert- also bei einer wiederholten testung stabil bleibt )

      • 3 maß für übereinstimmung der klassifikation (zb Cohens Kappa )

(um diese stabilität bzw. übereinstimmung zu messen, wird cohens kappa verwendet- ein statistisches maß, das angibt, wie stark zwei klassifikationen übereinstimmen , über zufall hinaus )

6.3 Gütekriterien

6.3.2 Validität

Zentrales Gütekriterium nach DIN 33430 ist die theoretische fundierung eines tests

  1. was versteht man unter validität?

  2. was ist laut DIN 33430 das zentrale gütekriterium eines tests?

  3. welche anforderungen bestehen an die entwicklung und theoretische fundierung von tests, damit sie als valide gelten ?

  4. wie muss validität nachgewiesen werden und wie wird sie definiert ?


  • 1validität

    (validität ist eines der wichtigsten gütekriterien in der testtheorie - sie sagt aus, ob ein test wirklich das misst, was er zu messen vorgibt )

  • 2Zentrales gütekriterium nach DIN 33430 ist die theoretische fundierung eines tests

    (tests gelten nur dann als valide, wenn sie auf einer klaren psychologischen theorie basieren- also nicht einfach nur erfunden wurden, sondern fachlich fundiert sind )

    • 3theoriegeleitete entwicklung geht klar aus verfahrenshinweisen hervor

      (ein gut entwickelter test enthält verweise darauf, welche theorie ihm zugrunde liegt zb big five bei persönlichkeitstests)

    • 3verankerung der testitems und des testkonzepts in einer psychologischen theorie

      (einzelne fragen (items) und das gesamte testprinzip müssen sich logisch aus einer psychologischen theorie ableiten )

    • 3definition des nomologischen netztes des konstrukts

      (das nomologische netz beschreibt, wie ein konstrukt (zb intelligenz ) mit anderen konzepten zusammenhängt. die testentwicklung muss also auch klären, wie das konstrukt in ein größeres theoretisches system eingebettet ist )

    • 4validität muss anhand empirischer und konzeptueller argumente und daten belegt werden (

      —>verfahrenshinweise)

      (es reicht nicht nur, zu behaupten, dass ein test gültig ist- man muss das durch forschung, daten und argumente belegen )

  • 4validität: Ausmaß, in dem interpretationen von eignungsdiagnostischen informationen zutreffend sind

(der kern der validität ist, dass die aussagen , die man aus einem test ableitet, auch wirklich stimmen )

6.3 Gütekriterien

6.3.2 Validität

  1. worum gehts bei der inhaltsvalidität?

  2. was versteht man unter kriteriumsvalidität

  3. was sind zb kriterien für eignungsbeurteilungen

  4. welche anforderungen stellt die din 33430 an die verwendung von kriterien in der eignungsdiagnostik, und welche richtlinien müssen dabei beachtet werden ?

  5. was bedeutet konstruktvalidität und worauf muss man dabei laut DIN 33430 besonders achten ?



  • 1Inhaltsvalidität

    (es geht darum , ob die inhalte des tests das zu messende konstrukt wirklich vollständig abdecken. bsp wenn du teamfähigkeit messen willst, sollten die items auch verschiedene aspekte davon ansprechen zb kommunikation , kooperation , konfliktlösung . aber je breiter du das konstrukt badeckst, desto unreliabler kann der test werden (weil die items weniger miteinander korrelieren . das ist das spannungsfeld konstruktabdeckung vs reliabilität )

    • 1spannungsfeld Konstruktabdeckung vs reliabilität bei itemselektion

  • 2kriteriumsvalidität

    (hier prüft man , ob die testergebnisse mit einem konkreten äußeren kriterium zusammenhängen zb erfolg im beruf oder schule. beispiel für kriterien für eignungsbeurteilungen:

    • 3kriterien für eignungsbeurteilungen: vorgesetztenbeurteilungen, erreichte hierarchiestufe, verkaufszahlen, jahresverdienst

    • 4(din 2016 sagt worauf man bei den kriterien achten sollte: richtlinien zu kriterien

      • 4mehrere kriterien verwenden

      (man soll nicht nur ein einzelnes kriterium nehmen sondern mehrere, um die eignung sicher zu beurteilen. das erhöht die aussagekraft und die objektivität der beurteilung )

      • 4referenzgruppe sollte im testmanual angegeben sein

        (es muss klar sein , auf welche zielgruppe zb schüler, führungskräfte ) sich die testergebnisse beziehen. das steht im testmanual ,damit man die ergebnisse richtig einordnen kann )

      • 4explizite hypothesen über vermutete zusammenhänge

        (es sollen im vorfeld klare annahmen formuliert werden zb höhere intelligenz hängt mit höherem beruflichen erfolg zusammen ) so kann man später überprüfen, ob der zusammenhang wirklich besteht )

      • 4empirische nachweise über die angemessenheit des kriteriums

        (es muss durch daten gezeigt werden, dass das kriterium (zb jahresverdienst oder vorgesetztenurteil) wirklich geeignet ist, um eignung zu beurteilen. man darf also nicht einfach irgendwas als kriterium nehmen )

  • 5konstruktvalidtät

  • (hier schaut man passt der test zum theoretischen konstrukt? und: wie gut grenzt er sich von anderen konstrukten ab ? man achtet dabei auf: konvergente validität: hohe korrelation mit tests, die etwas ähnliches mesen, diskriminante validität= geringe korrelation mit tests, die etwas anderes messen

    alles soll zusammen in ein nomologisches netz passen (eine art theorie-netzt, in dem das konstrukt sinnvoll eingebettet ist )

    • 5beachtung angrenzender bzw. überlappender konstrukte (—>konvergente und diskriminante validität , nomologisches netz)

(konvergente validität = hoch ist gut , diskriminante validität= hoc isz schlecht)

6.3 Gütekriterien

6.3.2 Validität


Genrelle anmerkungen zur gültigkeit

  1. wie alt dürden gültigkeitsnachweise laut din 2016 maximal sein ?

  2. wofür kann die gültigkeit eines verfahrens gelten und was ist dabei zu beachten ?

  3. was muss bei der beurteilung der nachweise zur validität beachtet werden ?


  • Generelle Anmerkungen zur Gültigkeit

  • 1Gültigkeitsnachweise nicht älter als 8 jahre

    (nach din norm sollen nachweise über die gültigkeit eines tests nicht älter als 8 jahre sein. warum ? weil sich die welt und das verhalten der menschen verändern- tests sollen aktuell bleiben )

  • 2gültigkeit für das ganze verfahren vs. nur für manche messwerte ? —-> verfahrenshinweise

    (wenn ein psychologisches testverfahren verwendet wird zb test mit mehreren skalen wie teamfähigkeit , leistungsbereitschaft und belastbarkeit ist entscheidend: wurde das gesamte verfahren auf validität getestet, also wurde gezeigt , dass alle skalen gemeinsam das messen, was sie messen sollen ?ODER wurde nur eine oder einzelne skalen auf validität geprüft zb nur die skala teamfähigkeit ? was bedeutet das konkret? auf validität getestet heißt es wurde empirisch überprüft ob die ergebnisse der skala tatsächlich mit dem verhalten oder dem merkmal übereinstimmen , das sie messen soll) wie kann es sein das nur eine skala getestet wurde? )=das kommt oft vor wenn zb ein test viele skalen enthält, aber die validitätsstudie nur für einen teil gemacht wurde- zb wurde nur überprüft , ob die skala teamfähigkeit mit fremdbeurteilungen durch vorgesetzte zusammenhängt. andere skalen wir belastbarkeit oder leistungsbereitschaft wurden vielleicht nicht validiert also nicht getestet ob sie wirklich diese eigenschaften messen dh also nur für diese eine skala gibt es wissenschaftliche belege, dass sie das gewünschte merkmal abbildet. für die anderen fehlt dieser nachweis.

    was sind verfahrenshinweise: verfahrenshinweise zb im testmanual geben genau an, welche teile des verfahrens validiert wurden, und für welche messwerte die gültigkeit empirisch belegt ist )

  • 3bei der beurteilung der nachweise muss kontext beachtet werden

    (es reicht nicht einfah zu schauen, ob es einen validitätsnachweis gibt. man muss immer den anwendungskontext betrachten zb wo, wie und warum der test gemacht wurde )

  • jetzt folgen beispiele für kontextabhänginge einflüsse:

    • 3auswahlsituation vs bearbeitung daheim bzw. “zum spaß”

      (macht jemand den test in einer ernsten auswahlprüfung , sind die ergebnisse anders als bei lockerer online-selbstanwendung daheim. das beeinflusst die gültigkeit. )

    • 3sozial erwünschtes antworten wirkt sich auf konstruktgültigkeit aus

      (menschen geben manchmal antworten , die “gut dastehen lassen” sollen, statt ehrlich zu antworten. das nennt man sozial erwünschtes antworten- und es kann die gültigkeit eines tests stark verzerren )

    • 3berücksichtigung von grundquote und selektionsquote

      (diese beiden quoten beeinflussen die interpretation von testergebnissen: grundquote: anteil der geeigneten personen in der gesamtquote

      selektionsquote: anteil der personen die man am ende auswählt. je nach zusammensetzung der gruppe ändert sich die aussagekraft eines tests)


6.3 Gütekriterien

6.3.2 Validität

beachtung von korrekturen bei der interpretation

  1. was muss bei der interpretation von korrelationen beachtet werden ?

  2. was bedeutet varianzeinschränkung und wie wirkt sie sich aus ?

  3. was ist eine mögliche lösung bei varianzeinschränkung ?


  • beachtung von korrekturen bei der interpretation

    (In der psychologischen Diagnostik werden statistische Korrekturen (z. B. bei Korrelationen) vorgenommen, um Verzerrungen zu korrigieren.

    Eine Korrelation beschreibt den Zusammenhang zwischen zwei Merkmalen.

    Beispiel: Wenn man untersucht, ob es einen Zusammenhang zwischen Intelligenz und Berufserfolg gibt, berechnet man die Korrelation zwischen Intelligenztestwerten und Gehältern.

    → Ist die Korrelation z. B. 0,60, bedeutet das: Je höher die Intelligenz, desto höher tendenziell das Gehalt.

    Wenn aber z. B. nur sehr ähnliche Personen getestet wurden (z. B. nur Bewerber mit sehr guten Schulnoten), dann ist die Varianz eingeschränkt – es gibt weniger Unterschiede zwischen den Personen.

    → Das kann die Korrelation künstlich verkleinern, also z. B. statt 0,60 nur 0,30 zeigen.

    Deshalb gibt es Korrekturformeln, mit denen man die ursprüngliche Korrelation „hochrechnet“.

    Aber: Diese korrigierten Korrelationen darf man nicht einfach ohne Hinweis interpretieren.

    Man muss also beachten, ob und wie die Werte korrigiert wurden, sonst zieht man falsche Schlussfolgerungen.)


    • 1oft werden korrelationen statistisch aufgewertet oder korrigiert

      (man verändert korrelationen (zusammenhänge zwischen zwei werten ) rechnerisch, zum beispiel um verzerrungen zu bereinigen )

    • 1dies muss bei der interpretation beachtet werden

      (wenn korrelationen verändert wurden, muss man das bei der auswertung und bewertung der ergebnisse berücksichtigen- sonst könnten sie falsch verstanden werden )

    • 2varianzeinschränkung

      (das bedeutet, dass die streuung (unterschiedlichkeit) der messwerte verringert wird zb weil nur noch bestimmte personen getestet werden )

      • 2beispiel: mehrstufiger bewerbungsprozess

      • ein auswahlverfahren , bei dem bewerber*innen in mehreren runden aussortiert werden )

      • 2auf jeder stufe wird die bewerberzahl reduziert

        (nach jeder runde bleiben weniger personen übrig- es wird also immer selektiver )

      • 2varianz der messwerte reduziert sich

        (wenn nur noch ähnlich gute bewerber*innen übrig sind, gibt es weniger unterschiede in den testergebnissen )

      • 2korrelationskoeffizienten sinken, kriteriumsvalidität wird unterschätzt

        (weil es weniger unterschiede gibt, erscheint der zusammenhang mit dem kriterium (zb berufserfolg) kleiner, als er in wahrheit ist )

    • 3lösung: korrekturformeln (—>sowohl korrigierte als auch unkorrigierte werte abgeben!)

(man kann diese verzerrung mathematisch ausgleichen. dabei ist wichtig, immer beide werte mitzuteilen, den korrigierten und den ursprünglichen)


6.3 Gütekriterien

6.3.2 Validität

Beachtung von korrekturen bei der interpretation


  1. was gilt grundsätzlich für messgenauigkeit in der eignungsdiagnostik?

  2. was passiert mit der korrelationshöhe durch messfehler?

  3. wie kann man die korrelation gegen den einfluss von messfehlern korrigieren ?

  4. was versteht man unter minderungskorrektur ?


beachtung von korrekturen bei der interpretation

(In der psychologischen Diagnostik werden statistische Korrekturen (z. B. bei Korrelationen) vorgenommen, um Verzerrungen zu korrigieren.

Eine Korrelation beschreibt den Zusammenhang zwischen zwei Merkmalen.

Beispiel: Wenn man untersucht, ob es einen Zusammenhang zwischen Intelligenz und Berufserfolg gibt, berechnet man die Korrelation zwischen Intelligenztestwerten und Gehältern.

→ Ist die Korrelation z. B. 0,60, bedeutet das: Je höher die Intelligenz, desto höher tendenziell das Gehalt.

Wenn aber z. B. nur sehr ähnliche Personen getestet wurden (z. B. nur Bewerber mit sehr guten Schulnoten), dann ist die Varianz eingeschränkt – es gibt weniger Unterschiede zwischen den Personen.

→ Das kann die Korrelation künstlich verkleinern, also z. B. statt 0,60 nur 0,30 zeigen.

Deshalb gibt es Korrekturformeln, mit denen man die ursprüngliche Korrelation „hochrechnet“.

Aber: Diese korrigierten Korrelationen darf man nicht einfach ohne Hinweis interpretieren.

Man muss also beachten, ob und wie die Werte korrigiert wurden, sonst zieht man falsche Schlussfolgerungen.)


4minderungskorrektur

(in der eignungsdiagnostik wird oft untersucht wie stark zwei merkmale zusammenhängen zb intelligenz und berufserfolg. dieser zusammenhang wird statistisch als korrelation ausgedrückt. korrelation bedeutet: je höher die ausprägung in merkmal A desto höher (oder niedriger) tendenziell auch in merkmal B. aber: wenn die tests , mit denen diese merkmale gemessen werden, messfehler enthalten, wird die gemessene korrelation geringer ausfallen als sie in wirklichkeit ist - man sagt , sie wird verwaschen oder gedeckelt. die minderungskorrektur ist ein verfahren, das diesen einfluss von messfehlern ausgleicht, um die “wahre” korrelation zwischen zwei merkmalen besser schätzen zu können. je nach methode spricht man von einfacher oder doppelter minderungskorrektur - je nachdem, ob einer oder beide tests messfehler haben )

  • 1eine perfekt genaue messung gibt es in der eignunsgdiagnostik nicht

    (in der eignungsdiagnostik ist jede messung mit fehlern behaftet- zb durch unklare items, müdigkeit oder missverständnisse. eine fehlerfreie =(perfekte) messung existiert nicht )

  • 2korrelationshöhe wird durch messfehler verwässert (“gedeckelt”)

  • (der messfehler senkt die beobachtbare korrelation: dh selbst wenn zwei merkmale in wirklichkeit stark zusammenängen, sieht die gemessene korrelation kleiner aus , weil der messfehler den zusammenhang verdeckt bzw gedeckelt hat )

  • 3korrektur der korrelations-minderung durch messfehler: einfache oder doppelte minderungskorrektur

(man kann die verfälschte korrelation rechnerusch korrigieren, um heruaszufinden, wie stark der zusammenhnag ohne messfehler wäre. dabei gibt es zwei varianten: einfache minderungskorrektur: nur ein merkmal (zb der test ) wird auf seinen messfehler hin korrigiert. ) doppelte minderungskorrektur: beide merkmale (zb test und kriterium ) werden korrigiert.

6.3 Gütekriterien

6.3.3 Objektivität

  1. was beschreibt objektivität laut Definition nach din 2016?

  2. was ist ein kriterium für ein objektives testverfahren in hinblick auf die diagnostiker*innen ?

  3. welche arten von objektivität werden unterschieden und was sagen sie aus ?


  • 1grad, in dem die ergebnisse eines verfahrens unabhängig von eignungsdiagnostiker*in bzw. irrelevanten einflüssen sind

    (objektivität beschreibt, wie wenig das ergebnis eines tests davon beeinflusst wird, wer den test durchführt oder auswertet. ein guter test sollte nicht abhängig von der person sein, die ihn betreut, sondern immer die gleichen resultate liefern, egal wer beteiligt ist )

  • 2unterschiedliche diagnostiker*innen sollen mit einem testverfahren zu gleichen ergebnissen kommen

    (wenn mehrere fachleute denselben test verwenden , sollten sie zu denselben ergebnissen kommen- zb bei bewertung einer leistung oder auswahlentscheodung. das ist ein zeichen dafür, dass der test objektiv ist und nicht von der meinung oder auslegung einzelner abhängt )

  • 3drei arten von objektivität:

    (es gibt 3 spezifische formen, wie objektvität überprüft wird:

  • durchführungsobjektvität

    (der test wird für alle personen gleich durchgeführt (zb gleiche anweisungen, gleiche bedingungen )

  • auswertungsobjektivität

    (die auswertung erfolgt eindeutig und regelgeleitet , sodass zwei personen zum gleichen ergebnis kommen )

  • interpretationsobjektivität

    (die bedeutung der ergebnisse wird einheitlich interpretiert -also unabhängig vom urteil einzelner diagnostiker*innen )


6.3 Gütekriterien

6.3.3 Objektivität

Durchführungsobjektivität

  1. was schreibt die DIN zur Durchführungsobjektivität vor ?

  2. was gehört zur standardisierung des testungsprozesses ?

  3. was muss bei computertestungen beachtet werden , um durchführungsobjektivität sicherzustellen ?


durchführungsobjektivität:

  • 1DIN macht klare vorgaben für verfahrens- und handhabungshinweise

    (die DIN norm schreibt genau vor, wie das testverfahren durchgefphrt werden soll. zie ist, dass alle testpersonen unter denselben bedingungen getestet werden, damit keine verzerrung entsteht )

  • 2standardisierung des testungsprozesses

    (es geht darum den gesamten ablauf beim testen einheitlich zu gestalten, damit alle personen dieselbe bedingungen erleben, egal , wer den test durchführt)

  • unterpunkte der standardisierung)

    • 2klare beschreibung aller abläufe

      (es wird festgelegt, was wann und wie im test passiert , um willkür und unterschiede zu vermeiden )

    • 2mündliche aufgabeninstruktionen

      (auch gesprochene anweisungen (zb bitte lösen sie die aufgabe jetzt ) müssen klar geregelt sein, damit jeder dieselben infos bekommt)

    • 2materialgestaltung

      (die verwendeten materialien (zb testhefte, bilder, gegenstände ) müssen gleich aufgebaut und gestaltet sein, damit sie keine ungewollten effekte hervorrufen )

    • 2regeln zum umgang mit nachfragen

      (es muss klar geregelt sein, wie diagnostiker*innen auf rückfragen von testpersonen reagieren dürfen zb dürfen sie keine hinweise zur richtigen lösung geben )

  • 3bei computertestungen

    (dieser punkt beschreibt zusätzliche regelungen speziell für computergestützte tests:

  • unterpunkte dazu:

    • 3prüfung von hardware- und softwareanforderungen des diagnostischen verfahrens

      (es muss vorher sichergestellt werden, dass der computer / das system alle technischen voraussetzungen erfüllt ( zb richtige bildschrimauflösung, programm läuft stabil)

    • 3systemstablität / funktionsfähigkeit auf betriebssystemplattformen sicherstellen

      (der test darf auf keinem computer abstürzen . es muss zuverlässig laufen, egal ob windows , mac etc)

    • 3instruktion technischer besonderheiten des verfahrens

      (wenn es technische besonderheiten gibt (zb spezielles antwortsystem) müssen diese genau erklärt werden, damit niemand einen nachteil hat )


6.3 Gütekriterien

6.3.3 Objektivität

  1. wovon hängt die auswahl des durchführungsmodus ab ?

  2. wann ist ein ungeschützter testdurchführungsmodus angemessen ?

  3. was ist ein nachteil teilgeschützter testung?

  4. wozu werden teil- oder ungeschützte testungen v.a eingesetzt ?

  5. was sind beispiele für verletzungen der prozessstandardisierung ?


  • 1auswahl des durchführungsmodus

    (alle durchführungsmodi in dieser folie beziehen sich auf online testungen. die aussagen beziehen sich ganz allgemein auf eignungsdiagnostische verfahren- dh: diese regeln zur durchführungsobjektivität gelten füt eignungstests (zb berufsauswahl), intelligenztests (wenn sie für auswahl oder diagnostik verwendet werden), leistungstests, persönlichkeitstests , screenings, computergestützte tests


    • 1hängt vom testungsziel ab

      (die entscheidung wie ein test durchgeführt wird (geschützt, teilgeschützt oder ungeschützt hängt davon ab, wofür der test verwendet wird. beispiel: wenn es um eine erste grobe auswahl geht (screening) reicht oft eine ungeschützte durchführung. wenn es aber um entscheidende personalauswahl geht, ist eine geschützte testung erforderlich, bei der klare bedingungen herrschen (zb im testzentrum mit aufsicht )

    • 2ungeschützt ist angemessen bei einem screening (ziel des ersten auswahlschrittes ist selbstselektion )

      (bei einem screening geht es darum, dass ungeeignete personen sich selbst aussortieren. in so einem fall reicht ein ungeschützter test, weil es nur eine grobe vorentscheidung ist. beispiel: eine firma möchte nur bewerber mit sehr guten englischkenntnissen-also macht sie einen offenen online-test. wer dort scheitert, bewirbt sich erst gar nicht weiter )

    • 3teilgeschützt

      (das ist ein mittelweg : man kann den test zwar von zu hause machen, aber man braucht zb einen zugangscode oder ein passwort. das stellt zumindest gewährleistet, dass die person autorisiert ist, aber eine vollständige kontrolle wie im testzentrum fehlt)

      • 3unklare personenidentität , da der test auch von freunden bearbeitet werden kann, höhere manipulierbarkeit , einschränkung der durchführungsobjektivität

        (bei teilgeschützter oder ungeschützter testung ist nicht immer klar, ob die getestete person wirklich selbst antwortet. so kann zb ein freund helfen oder sogar ganz übernehmen. das beeinträchtigt die durchführungsobjektivität, weil das verfahren nicht mehr unabhängig von äußeren einflüssen ist )

      • 4v.a zu screening-zwecken

        (gerade bei screening-verfahren , wo es erstmal nur darum geht, eine grobe vorauswahl zu treffen, wird oft auch ungeschützte oder teilgeschützte durchführung gesetzt. das spart aufwand und kosten , ist aber nur dann sinnvoll, wenn die ergebnisse nicht für finale entscheidungen verwendet werden )


  • 5verletzungen der prozessstandardisierung

    (wenn der ablauf des tests nicht für alle gleich ist, dann leidet die objektivität . beispiele für solche verletzungen sind:

    • 5bspw. lösungsirrelevantes lob oder verstärkung durch nicken kann einflüsse auf die leistung der kandidaten haben

      (wenn eine testleitung zb unbewusst positive rückmeldung gibt (gut gemacht”) oder zustimmendes nicken kann das die leistung steigern. das bedeutet: die ergebnisse hängen nicht nur von den fähigkeiten, sondern auch von äußeren faktoren ab —>objektivität leidet. )

    • 5absichtliche / ubabsichtliche hilfestellungen (zb aus sympathie)

    • (wenn testleiter zb aus sympathie mehr erklärt oder hinweise gibt (bewusst oder unbewusst) , werden ergebnisse verfälscht. auch das senkt die objektivität , weil die leistung nicht mehr nur vom kandidaten abhängt. )


    • 5vergleich mit vergleichsstichprobe nicht mehr möglich

      (wenn der ablauf nicht standardisiert war, kann man die ergebnisse nicht fair mit anderen vergleichen. bsp: wenn eine person hilfe bekommt und eine andere nicht, sind ihre werte nicht mehr gleichwertig. das verfälscht die vergleichbarkeit mit normwerten oder vergleichsgruppen.)

(die auswahl wie ein test durchgeführt wird, hängt stark vom ziel der testung ab. es gibt dafür 3 durchfphrungsmodi bei online-testungen:

geschützte testung: diese erfolgt in einem testzentrum, unter aufsicht, damit niemand schummeln oder sich helfen lassen kann. sie eignet sich besonders für entscheidende testphasen , in denen höchste objektivität und sicherheit gefordert ist.

  1. teilgeschützte testung= diese wird zb von zu hause durchgeführt, aber es gibt eine gewisse kontrolle, etwa über benutzernamen und passwort. sie ist eine kompromisslösung , wenn nicht vollständig überwacht werden kann, aber dennoch etwas sicherheit nötig ist .

  2. ungeschützte testung: diese erfolgt ohne jede kontrolle, also ohne authentifizierung oder aufsicht. das kann zb sinnboll sein bei einem screening wo es nur darum geht , dass sich ungeeignete personen selbst aussortieren. in diesem fall wird die geringe objektivität in kauf genommen, weil der test noch keine bindende entscheidung begründet.

fazit: je nachdem, ob man nur eine vorauswahl treffen oder eine bindende entscheidung fällen will, ist einer dieser modi angemessen. deshalb hängt die wahl des modus vom testziel ab )


6.3 Gütekriterien

6.3.4 normen und ergebnisrückmeldung

normorientierte diagnostik

  1. welche 3 anforderungen stellt DIN 2016 an vergleichsstichproben in der normorientierten diagnostik?

  2. was ist die grundlage für normorientierte diagnostik ?

  3. was bedeutet normorientierte diagnostik?

  4. Was zeigt die Abbildung

  • 3normorientierte diagnostik :

    (dabei werden die ergebnisse einer getesteten person mit denen einer vergleichsgruppe verglichen. es geht also nicht darum, ob jemand ein bestimmtest kriterium erfüllt sondern wie gut oder schlecht jemand im vergleich zu anderen abschneidet. )

  • —>antwort 3: vergleichs- bzw normstichprobe (normorientierte diagnostik)

    • 2normtabellen von vergleichsstichproben in testmanualen

      (diese vergleichswerte (normen ) sind in testmanualen hinterlegt. dort stehen normtabellen , die zb sagen: ein rohwert von 12 entspricht einem IQ von 110 oder dieser wert ist besser als 85% der vergleichsgruppe )

    • 1anforderungen: (din , 2016)

      (hier geht es um mindeststandards für die normtabellen:

      • 1nicht älter als 8 jahre

        (die normdaten sollen aktuell sein. eine vergleichsgruppe von vor 20 jahren wäre zb nicht mehr repräsentativ. daher fordert DIN 2016, dass die normdaten höchstens 8 jahre alt sein dürfen )

      • 1möglichst repräsentativ für zielgruppe und anwendungskontext des verfahrens

        (die vergleichsgruppe soll möglichst ähnlich zu den personen sein, die getestet werden. also: wenn ein test für studierende gedacht ist, soll die vergleichsgruppe ebenfalls aus studierenden bestehen- nicht aus kindern oder senioren )

      • 1zusammensetzung der stichprobe muss bekannt sein

        (es soll klar dokumentiert sein, wer in der vergleichsgruppe war (zb alter , bildung , geschlecht ) . nur so kann man einschätzen, wie aussagekräftig der vergleich ist )

    (erklräung zur abbildung:

  • die grafik zeigt eine normalverteilungskurve - die typische glockenkurve in der :

    mitte (0)= durchschnitt (ca 68% liegen zwischen -1 und +1 standardabweichung )

  • links (-2 , -3 usw.)= unterdurchschnittlich / auffällig

  • rechts (+2 , +3 usw) = überdurchschnittlich / auffällig

  • die verschiedenen skalen rechts (iq werte, t wertem z werte , stanine usw. zeigen wie rohwerte in standardwerte umgerechnet werden, um sie vergleichbarer zu machen. jede skala hat ihre eigene verteilung aber sie beziehen sich auf die gleiche normalverteilung )

  • bsp: ein z -wert von 0 enstrpciht einem iq-wert von 100, einem t wert von 50 oder einem stanine wert von 5 —-> alles durchschnitt )

6.3 Gütekriterien

6.3.4 Normen und ergebnisrückmeldung

normorientierete diagnostik

1.. was sollte bei der ergebnisrückmeldung in der normorientierten diagnostik vermieden werden ?

was ist laut folie eine inhaltlich haltbare aussage zu einem testergebnis ?

wwas ist eine praktische vorgehensweise bei der normorientierten diagnostik?

was macht die din nicht ?

was zeigt die abbildung ?

  • normorientierte diagnostik:

    • 3in der praxis etablierte kategorien für ergebnisrückmeldung beziehen messfehler ein

      (in der praxis werden ergebnisbereiche wie “unterdurchschnittlich , überdurchschnittlich verwendet. dabei wird berücksichtigt, dass ein gemessener wert durch messfehler beeinflusst sein kann )

    • 4keine konvention der DIN

      (die DIN-Norm macht keine verbindlichen vorgaben, wie genau die ergebnisrückmeldung zu gestalten ist- es gibt also keinen einhetilichen standard.

    • 1vermeidung von “pseudogenauigkeit “

      (es soll vermieden werden, falsche genauigkeiten vorzutäuschen, zb durch aussagen wie herrx hat genau 101 punkte. solche scheinbar exakten werte ignorieren die unsicherheit durch messfehler .

    • 2entscheidung für inhaltlich haltbare aussage: “herr x erzielt im IST2000-R ein durchschnittliches bis überdurchschnittliches ergebnis”

      (statt präziser , aber irreführender zahlenangbane wird eine sinnvolle , interpretierbare aussage gemacht, die den messfehler mit einbezieht. hier heißt es: die punktzahl liegt im bereich: durchschnittlich bis überdurchschnittlich , ohne eine scheinbare genauigkeit vorzutäuschen.)

(erklärung der abbildung:

die grafik zeigt vier messwerte mit konfidenzintervallen, jeweils auf einer skala von 85 bis 115: jeder grüne balken stellt das konfidenzintervall dar —>also den bereich, in dem der “wahre wert” mit zb 95%iger sicherheit liegt. der gestrichelte strich bei 100 ist der mittelwert bzw. das zentrum des durchschnittsbereichs. der rote pfeil makiert vermutlich das konfidenzintervall von Herr X, der laut beispiel eine punktzahl hat, die in den durchschnittlichen bis überdurchschnittlichen bereich reicht.

die bitschaft: ein punktwert alleine sagt wenig. erst durch die darstellung des konfidenzintervalls erkennt man wie genau oder ungenau die aussage ist. deshalb spricht man besser von einem ergebnisbereich als von einem festen punktwert.

(auf der abbildung rechts mit den horizontalen linien siehst du grüne balken mit strichen, die sich über zb. den wertebreich 85-115 erstrecken. das sind konfidenzintervalle zu den einzelnen testergebnissen. ein konfidenzintervall zeigt : zwischen welchen werten der wahre testwert vermutlich liegt- zb wegen messfehlern. zum beispiel: eine person hat einen testwert vin 100. das konfidenzintervall reicht von 85 bis 115 - das bedeutet : der wahre wert liegt mit hoher wahrscheinlichkeit irgendwo zwischen 85 und 115. also von unterdurchschnittlich bis überdurchschnittlich. die folie sagt es gibt keine offizielle din-konvention, wie genau rückmeldungen aussehen müssen. deshlab soll man keine pseudogenauigkeit vortäuschen (zb herr x hat genau 103 punkte) stattdessen sollte man inhaltlich haltbare aussagen machen: herr x erzielt ein durchschnittliches bis überdurchschnittliches ergebnis. diese formulierung berücksichtigt das konfidenzintervall - also den bereich, in dem das ergebnis mit hoher wahrscheinlichkeit liegt. )

6.3 Gütekriterien

6.3.4 Normen und ergebnisrückmeldung

kriterienorientierte diagnostik

  1. warum sind normen nicht immer anwendbar ?

  2. worum geht es bei der kriterienorientierten diagnostik manchmal stattdessen ?

  3. was ist beim beispiel der eignungsprüfung von piloten entscheidend ?


  • Kriterienorientierte diagnostik

    • 1normen sind jedoch nicht für jede eignungsdiagnostische fragestellung anwendbar

      (nicht immer sinnvoll, eine person mit anderen zu vergleichen. in bestimmten situationen reicht es nicht, nur zu wissen , wo jemand im vergleich steht- es kommt auf das erreichen bestimmter anforderungen an)

    • 2manchmal wollen wir nicht wissen , wie kandidat*in im vergleich zu anderen steht, sondern ob bestimmte kriterien erfüllt werden

      (hier interessiert nicht der rang im vergleich , sondern ob jemand ein festgelegtes ziel oder mindestmaß erreicht hat. es geht also um ja / neun - nicht besser / schlechter)

    • 3beispiel: eignungsprüfung von piloten

      (das beispiel veranschaulicht : nicht wichtig ist ob jemand mehr knöpfe kennt als andere, sondern ob alle relevanten knöpfe bekannt sind- weil das eine mindestvoraussetzung für die tätigkeit als pilot ist )

      • ob der kandidat mehr knöpfe im cockpit kennt als andere ist nicht relevant

        (wettbewerb ist in diesem fall nicht das ziel- es gibt kein “besser als andere “ sondern nur geeignet oder nicht geeignet )

      • es ist wichtig, dass er alle knöpfe kennt (inhaltlich definiertes kriterium )

        (der fokus liegt auf einem festgelegten standard (zb vollständiges wissen ) das ist ein konkretes kriterium , das unabhängig vom vergleich zu anderen erfüllt sein muss )


6.3 Gütekriterien

6.3.5 Fairness

  1. was darf die anwendung eines verfahrens laut din 2016 nicht tun ?

  2. welche eigenschaften, kenntnisse oder fertigkeiten dürfen das ergebnis nicht beeinflussen ?

  3. was sind beispiele für solche irrelevanten einflussfaktoren ?

  4. was soll mit betroffenen personen geschehen ?

  5. wann dürfen verfahren angepasst werden und wann nicht ?


  • 1.anwendung der verfahren darf nicht zu benachteiligung oder bevorzugung einzelner kandidaten oder gruppen führen

    (ein testverfahren ist nur dann fair, wenn niemand durch das verfahren selbst einen vorteil oder nachteil hat- zum beispiel wegen seiner herkunft , sprache oder körperlichen einschränkungen)

  • 2.keine eigenschaften, kenntnisse , fertigkeiten sollen das ergebnis beeinflussen, die nicht zum erfassenden eignungsmerkmal gehören

    (nur die für die eignung relevanten merkmale dürfen eine rolle spielen. andere, nicht zur aufgabe passende fähigkeiten (zb computerkenntnisse bei einem handwerklichen test) dürfen das ergebnis nicht verfäschen

    • beispiele für solche irrelevanten merkmale:)

    • 3mangelnde sprachkenntnisse

      (könnte das ergebnis in einem schriftlichen test negativ beeinflussen, obwohl die aufgabe nichts mit der sprache zu tun hat )

    • 3beeinträchtigungen des seh- und hörvermögens

      (wenn der job keine perfekte sinne voraussetzt, dürfen diese einschränkungen das testergebnis nicht verfäschen )

    • 3(mangelnde) vorerfahrung mit computern

      (sollte keinen einfluss haben,wenn der test zb über den computer läuft, die aufgabe selbst aber nichts mit IT zu tun hat )

  • 4betroffene personen sollten nach spezifischen bedürfnissen befragt und das verfahren, falls fachlich vertretbar, angepasst werden

    (wenn jemand einschränkungen oder besondere bedrüfnisse hat, soll nach möglichkeiten gefragt und geprüft werden, ob der test angepasst werden kann- aber nur , wenn das fachlich vertretbar ist )

    • 5anpassungen müssen sich positiv auf die verfahrensbearbeitung auswirken, müssen aber irrelevant für das eignungsmerkmal sein

      (die änderung soll nur die barriere beseitigen. aber darf nicht das eignungsmerkmal selbst beeinflussen

    • 5wenn aber die in frage stehende tätigkeit zb sehtüchtigkeit erfordert (fahrzeugführer) , darf verfahren nicht angepasst bzw. ersetzt werden

    • (in fällen in denen eine bestimmte fähigkeit zentral für die tätigkeit ist, darf man den test nicht anpassen, da das kriterium dann nicht mehr gemessen wird )


zusammenfassung wichtigsten punkte

  1. welche statistischen verfahren werden typischerweise zur auswertung von daten in eignungsverfahren genutzt?

  2. welche funktion haben testtheorien in der eignungsdiagnostik?

  3. woran kann man laut DIN 2016 erkennen, ob ein verfahren in der eignungsdiagnostik geeignet ist ?


  • 1für die auswertung und darstellung von daten aus eignungsverfahren werden meist deskriptive statistiken, korrelationen und regressionen verwendet

    (um die ergebnisse aus tests (zb eignungstests) verständlich zu machen, nutzt man deskriptive statistik (zb mittelwerte, streuung ), korrelationen (zusammenhänge zwischen merkmalen ) und regressionen (vorhersagemodelle) . so erkennt man zum beispiel ob bessere testergebnisse mit höherer berufseignung zusammenhängen


  • 2testtheorien liefern die theoretische grundlage für psychometrische tests und fragebögen, die in eignungsdiagnostischen untersuchungen zum einsatz kommen können

    (hinter guten tests stehen psychologische testtheorien zb klassische testtheorie, die erklären, wie ein test valide und zuverlässig misst. diese theorien geben vor, wie ein fragebogen oder test aufgebaut sein muss, damit er wikrlich die eignung misst, um die es geht )

  • 3anhand der gütekriterien , die in testmanualen unbedingt aufegführt werden sollten (din, 2016) kann beurteilt werden, ob ein bestimmtes verfahren im rahmen einer eignungsdiagnostischen untersuchung valide und nützliche informationen über kandidat*innen erbringt

    (die gütekriterien (zb objektivität , reliabilität , validität , fairness ) müssen laut norm (din 33430) im testhandbuch enthalten sein. nur wenn diese kriterien erfüllt sind, darf man den test als zuverlässig und aussagekräftig für die eignungsbeurteilung verwenden )


LERNCAMP

1. Was ist der Unterschied zwischen Messen und Zählen?

(Diese Definition stammt aus früheren Folien zur Grundlagenmessung, sinngemäß ergänzt, weil sie nicht direkt in deinen letzten Folien auftauchte. Falls du eine Folie dazu hast, kannst du sie gern noch hochladen.)

📌 Zählen: Erfassen von Anzahlen (z. B. wie viele Aufgaben richtig gelöst wurden).

📌 Messen: Zuordnen von Zahlen zu Merkmalsausprägungen nach bestimmten Regeln (z. B. Intelligenztestwerte).

2. Aus welchen Gründen können Korrelationen zwischen Messwerten von Eignungstests und Kriterien zu hoch oder zu niedrig ausfallen?

→ Zu niedrig wegen Varianzeinschränkung:

„Varianz der Messwerte reduziert sich – Korrelationseffizienten sinken, Kriteriumsvalidität wird unterschätzt“

→ Zu niedrig wegen Messfehlern:

„Korrelationshöhe wird durch Messfehler verwässert (‚gedeckelt‘)“

→ Lösung:

„Korrektur der Korrelations-Minderung durch Messfehler: einfache oder doppelte Minderungskorrektur“

3. In welchen Fällen im Rahmen der Eignungsdiagnostik sind formative latente Variablen reflektiven latenten Variablen vorzuziehen?

(Dieser Punkt wurde nicht direkt in deinen Folien genannt. Falls du die Folie hast, bitte hochladen. Sonst kann ich dir eine standardisierte Antwort liefern.)

4. Beschreiben Sie jeweils einen Vor- und einen Nachteil einer minderungskorrigierten Kriteriumskorrelation.

✅ Vorteil:

„Korrektur der Korrelations-Minderung durch Messfehler“

✅ Nachteil:

(implizit): Kann zu überschätzten Werten führen, wenn reliabilitätsbezogene Korrekturwerte ungenau sind (nicht direkt auf Folien – ggf. ergänzen, wenn gefragt)

5. Warum muss die Zuverlässigkeit eines Tests bei der Interpretation eines Testwerts unbedingt berücksichtigt werden?

„Korrela­tionshöhe wird durch Messfehler verwässert (‚gedeckelt‘)“

→ Deshalb: **„Einfacher oder doppelter Minderungskorrektur“ notwendig, um richtige Aussagen über Validität zu treffen.

Author

Nipu D.

Information

Last changed