Buffl

6

ND
von Nipu D.

6.1 Grundlagen fĂŒr die Auswahl von Verfahren

Stichproben in der Eignungsdiagnostik

1was bedeutet “stichprobe” in der eignungsdiagnostik und welche bedeutung hat sie ?

  1. was ist ein zentrales merkmal guter eignungsdiagnostik in bezug auf stichproben?

  2. welche informationen mĂŒssen zu stichproben laut DIN in testverfahren enthalten sein und warum ?


  • 1In eignungsdiagnostischen untersuchungen werden stichproben gezogen: auswahl aus begrenzter anzahl an kandidat*innen

    (In der eignungsdiagnostik wird nicht die gesamte zielgruppe untersucht, sondern eine begrenzte auswahl von personen - das nennt man stichprobe. diese stichprobe besteht aus kandidat*innen, die zum beispiel zu einem auswahlverfahren eingeladen werden. die ergebnisse dieser personen sollen dabei rĂŒckschlĂŒsse auf die eignung oder passung liefern)

  • 1anhand der stichprobe werden rĂŒckschlĂŒsse auf andere mitglieder der organisation gezogen

    (die ergebnisse der getesteten kandidatinnen sollen verallgemeinert werden- dh man schließt von der leistung oder dem verhalten der stichprobe auf die eignung anderer zb wie geeignet jemand fĂŒr eine bestimmte rolle in der organisation ist oder wie gut die auswahlmethode im allgemeinen funktioniert.)

  • 2merkmal guter eignungsdiagnostik: genaue beschreibung der stichprobe

    (eine gute eignungsdiagnostische untersuchung erfordert eine klare und transparente beschreibung der getesteten gruppe. dh es muss dokumentiert werden, wer getestet wurde (alter, geschlecht, bildung etc)- nur so können die ergebnisse eingeordnet, verglichen oder auf andere kontexte ĂŒbertragen werden)

    • 3in den verfahrenshinweisen von testverfahren

      (in den offiziellen testmanualen odder handbĂŒchern steht, welche art von stichprobe bei der testentwicklung verwendet wurde. das ist wichtig,um zu prĂŒfen , ob der test zur eigenen zielgruppe passt.)

    • alter, geschlecht, bildung, situation in der das eignungsverfahren durchlaufen wird (zb freiwillige / anonyme teilnahme, ernstfallbedingung)

    • (diese angaben sind zentral um die aussagekraft unf fairness des verfahrens zu beurteilen. ein test, der zb nur mit studierenden unter laborbedingungen entwickelt wurde, könnte in einer realen bewerbungssituation mit fachkrĂ€ften nicht angemessen funktionieren)

    • 3grundlage fĂŒr vergleichbarkeit der kandidat*innen

(wenn die stichprobe gut dokumentiert ist, können die ergebnisse verschiedener gruppen oder verfahren fair miteinander verglichen werden. das erhöht die gĂŒte und transparenz eignungsdiagnostischer maßnahmen.


6.1 Grundlagen fĂŒr die auswahl von verfahren

reprÀsentativitÀt von stichproben


  1. was ist notwendig , um valide rĂŒckschlĂŒsse auf eine population ziehen zu können ?

  2. was zeigt das beispiel mit den 30-35 jÀhrigen frauen aus bayern?

  3. worauf gelten die an einer stichprobe ermittelten grĂ¶ĂŸen ( zb mittelwerte , reliabilitĂ€t)


  • 1um valide rĂŒckschlĂŒsse auf eine population ziehen zu können, muss eine stichprobe reprĂ€sentativ fĂŒr diese population sein

  • (wenn man aussagen auf die gesamtbevölkerung ĂŒbertragen möchte, muss die stichprobe diese population möglichst gut widerspiegeln)

  • 2beispiel fĂŒr mangelnde reprĂ€sentativitĂ€t

    • 2man möchte aussagen ĂŒber das intelligenzniveau von deutschen arbeitnehmern treffen

    • 2man zieht eine stichprobe die lediglich aus 30-35 jĂ€hrigen frauen aus bayern besteht

      (2dieses beispiel zeigt mangelnde reprĂ€sentativitĂ€t , weil die stichprobe zu einseitig ist. sie umfasst weder mĂ€nner noch andere altersgruppen oder regionen deutschlands- daher sind keine gĂŒltigen rĂŒckschlĂŒsse auf “alle arbeitnehmer” möglich.


  • 3die an einer stichprobe ermittelten grĂ¶ĂŸen (zb mittelwerte, standardabweichungen, reliabilitĂ€ts- und validitĂ€tskoeffizienten) gelten nur fĂŒr die stichprobe oder fĂŒr populationen, die wie die stichprobe zusammengesetzt sind.


(alle berechneten kennwerte (wie durchschnitt, reliabilitĂ€t usw) sind nur dann ĂŒbertragbar, wenn die zielpopulation Ă€hnlich zusammengesetzt ist wie die untersuchte stichprobe)

6.1 Grundlagen fĂŒr die auswahl von verfahren

auswertung und darstellung von daten aus eignungsverfahren

lernen


  1. was ist ein beispiel fĂŒr die durchfĂŒhrung eines eignungsdiagnostischen verfahrens ?

  2. welche 4 arten der ergebnisdarstellung (vom eignungsdiagnostischen verfahrens also hier dem wissenstests) gibt es hierbei?

  3. und was bedeuten bzw was wird dabei gefragt jeweils


  • 1beispiel: es wird ein wissenstest mit 30 bewerber*innen durchgefĂŒhrt

    (es handelt sich um ein konkretes beispiel zur auswertung von testergebnissen einer stichprobe von 30 personen in einem eignungsdiagnostischen verfahren )


    2wie soll die darstellung der ergebnisse erfolgen ? welche statistischen kennwerte können genutzt werden ?

    (es wird gefragt, wie man die ergebnisse statistisch sinnvoll darstellen kann- also welche kennzahlen man berechnen sollte, um die verteilung zu beschreiben )


    • 2betrachtung der verteilung der werte : wie oft kommen die einzelnen werte vor

    • (das ist eine hĂ€ufigkeitsverteilung- man schaut , wie oft bestimmte werte auftreten (zb wie viele personen welche punktzahl erreicht haben)

    • 2beschreibung der verteilung durch maße der zentralen tendenz : welcher wert ist am typischsten fĂŒr die verteilung ?

      (hierbei geht es um durchschnitsswerte, also mittelwert, median oder modus, die den “typischen “ wert in der verteilung beschreiben )

    • 2beschreibung der schiefe der verteilung: liegen besonders viele werte links bzw. rechts der verteilungsmitte

      (die schiefe zeigt, ob die verteilung symmetrisch ist oder zb wie viele werte eher niedrig (linksschief) oder hoch (rechtsschief) liegen

    • 2beschreibung der verteilung durch streuungsmaße: wie sehr unterscheiden sich die werte voneinander

(mit streuungsmaßnahmen wie standardabweichung oder varianz kann man messen, wie stark die werte streuen - also ob alle sehr Ă€hnlich oder sehr unterschiedlich sind )

6.1 Grundlagen fĂŒr die Auswahl von Verfahren

auswertung und darstellung von daten aus eignungsverfahren

streuungsmaße

  1. was sind streuungsmaße und welche funktion erfĂŒllen sie in der eignungsdiagnostik?

  2. was ist der unterschied zwischen varianz (SD hoch 2 ) und standardabweichung (SD)?

  3. warum ist der Interquartiabstand (IQA) in bestimmten fÀllen aussagekrÀftiger als die Spannweite ?

    was sagt die spannweite und der IQA aus?


  • 1Streuungsmaße:

    (streuungsmaße zeigen, wie weit die einzelnen werte einer verteilung vom mittelwert abweichen- sie sagen also etwas ĂŒber die unterschiedlichkeit (heteorgenitĂ€t) der werte aus) sie liefern wichtige hinweise zur interpretation von testergebnissen )

  • spannweite (range)

    (die spannweite ist die differenz zwischen dem grĂ¶ĂŸten und dem kleibsten wert in der verteilung. sie gibt an, wie breit der wertebereich ist.

  • Interquartilabstand (IQA)

    (der IQA ist der bereich, in dem die mittleren 50% der werte liegen. er ist weniger anfĂ€llig fĂŒr ausreißer als die spannweite)

  • 2Varianz (SD hoch 2)

    (die varianz beschreibt die durchschnittliche quadratische abweichung der werte vom mittelwert. je grĂ¶ĂŸer die varianz, desto unterschiedlicher sind die werte.

  • 2standardabweichung

(die standardabweichung ist die wurzel aus der varianz und gibt an, wie stark die werte im schnitt vom mittelwert abweichen- in derselben einheit wie die messwerte.)


(abbildung: zeigt eine normalverteilte verteilung der werte, bei der die streuung symmetrisch um den mittelwert herum erfolgt. die höhe der kurve entspricht der hÀufigkeit )(NORMALE abbildung wo graph mit links hÀufigkeit steht )


  1. (antwort: weil der IQA nur die mittleren 50% der werte betrachtet und daher nicht von ausreißern beeinflusst wird- im gegensatz zur spannweite , die durch extreme einzelwerte verzerrt sein kann )


6.1 grundlagen fĂŒr die auswahl von verfahren

auswertung und darstellung von daten aus eignungsverfahren

zusammenhangsmaße : korrelationen

  1. was sind zusammenhangsmaße in der eignungsdiagnostkik?

  2. welche korrelationsarten können je nach skalenniveau verwendet werden ?

  3. wozu sind korrelationen in der eignungsdiagnostik besonders wichtig ?

  4. welche beispiele werden genannt bezogen auf korrelationen ?

  • 1zusammenhangsmaße: Korrelationen

    (korrelationen sind statistische kennwerte, die zusammenhÀnge zwischen zwei variablen beschreiben zb ob mit steigender intelligenz auch der beurfserfolg steigt)

    • 1Einfache Korrelationen (zb auch reliabilitĂ€ts- und validitĂ€ts-koeffizienten )

      (einfache korrelationen geben an, wie stark zwei variablen miteinander zusammenhĂ€ngen. sie umfassen auch wichtige testgĂŒtekriterien: reliabilitĂ€t (zuverlĂ€ssigkeit ) und validitĂ€t (gĂŒltigkeit eines tests )

    • 2je nach skalenniveau: pearson, Biserial etc.

      (je nachdem, welche art von daten vorliegt (zb metrisch , ordinal) verwendet man unterschiedliche korrelationskoeffizienten:

      pearson korrelation: fĂŒr metrische daten

      biseriale korrelation: zb bei kombination von dichotomen und metrischen daten )

    • 3wichtig fĂŒr die validierung und evaluation von eignungsverfahren

      (korrelationen sind essenziell , um zu prĂŒfen, ob ein eignungsdiagnostisches verfahren wirklich misst, was es soll (validierung) und wie gut es in der praxis funktioniert) (evaluation)

    • 4beispiele:

      • zusammenhang von intelligenz und berufserfolg ?

      • zusammenhang von geschlecht und aufstiegschance ?

      • zusammenhang von extraversion und fĂŒhrungserfolg?

6.1 Grundlage fĂŒr die auswahl von Verfahren

auswertung und darstellung von daten aus eignungsverfahren

zusammenhangsmape: Multiple Regression

  1. wozu dient die multiple regression im rahmen eignungsdiagnostischer verfahren ?

  2. welche informationen liefert eine regression ĂŒber die prĂ€diktoren eines eignungsdiagnostik- verfahrens ?

  3. wofĂŒr wird die multiple regression im bereich der eignungsdiagnostik hĂ€ufig verwendet?


  • 1zusammenhangsmaße: Multiple Regression

    (Multiple regression ist ein statistisches verfahren, das untersucht, wie gut mehrere merkmale (prÀdiktoren ) gemeinsam ein ergebnis (zb beurfserfolg) vorhersagen können. )


    • 1bspw.: Bestimmung der prĂ€diktionskraft von prĂ€diktoren

      (mit hilfe der multiplen regression kann man feststellen, wie stark bestimmte merkmale (zb intelligenz, schulnoten ) etwas vorhersagen können zb den berufserfolg)

      • 1prĂ€diktoren zb: IQ, Schulnoten , interviews , AC-Scores

        (diese merkmale nennt man prĂ€diktoren , also eigenschaften oder testergebnisse, die zur vorhersage dienen alos das ziel haben zb berufserfolg vorherzusagen . AC steht fĂŒr Assessment center)

      • kriterium: berufserfolg

        (das kriterium ist das, was vorhergesagt werden soll- hier: der erfolg im beruf)

    • 3oft auch als gĂŒltigkeitsnachweis von verfahren

      (die multiple regression wird hĂ€ufig genutzt, um die validitĂ€t (gĂŒltigkeit) eines eignungsverfahrens zu belegen, also ob das verfahren tatsĂ€chlich das misst, was es messen soll (Zb berfuserfolg vorhergesagt)

    • 2regression liefert informationen ĂŒber


      (die regression sagt uns wie viel einfluss die prÀdiktoren auf das kriterium haben )

      • 2den gemeinsamen vorhersagebeitrag aller prĂ€diktoren (R quadrat , AIC 7 BIC)

        (zeigt wie gut alle prĂ€diktoren zusammen das kritierium erklĂ€ren können. r quadrat ist das bestimmtheitsmaß , AIC/ BIC sind informationskriterien )

      • 2den vorhersagebeitrag jedes einzelnen prĂ€diktors (stand. gewichte ß)


(zeigt wie stark jeder einzelne prĂ€diktor zb IQ das ergebnis beeinflusst. das ß-gewicht sagt, wie wichtig dieser faktor im verhĂ€ltnis zu den anderen ist- unabhĂ€ngig von der maßeinheit )

6.1 Grundlagen fĂŒr die auswahl von verfahren

auswertung und darstellung von daten aus eignunsgsverfahren

zusammenhangsmaße: Multiple regression

  1. was ist laut DIN 2016 bei der nutzung multipler regressionsmodelle notwendig und warum ?

  2. was sind berichtspflichten bei der verwendung multipler regression ?

  3. was bedeutet inkrementelle validitÀt und was fordert die DIN 2016 dazu?


  • 1kreuzvalidierung nötig

    (nach DIN-norm 2016 muss bei der nutzung multipler regressionsmodelle eine kreuzvalidierung erfolgen. das bedeutet: man darf die modelle nicht nur an einer stichprobe testen, sondern muss sie auf einer anderen ĂŒberprĂŒfen )

    • 1trennung von modellentwicklung und anwendung

      (die stichprobe , mit der ein modell entwickelt wird (zb welche prĂ€diktoren einfließen ) soll nicht identisch mit der sein, bei der das modell getestet wird- sonst besteht die gefahr der ĂŒberanpassung (overfitting )

    • 1auswahl der prĂ€diktoren und höhe des multiplen zusammenhangs an neuer stichprobe ĂŒberprĂŒfen

      (man soll prĂŒfen, ob die gefundenen zusammenhĂ€nge (zb IQ + SCHULNOten—> beurfserolg) auch bei einer anderen personengruppe gĂŒltig sind - das ist kreuzvalidierung

    • 2berichtspflichten : R , ß, einfache Kriteriums-Korrelationen

      (im bericht mĂŒssen die folgende werte angegeben werden: R = multipler zusammenhang aller prĂ€diktoren mit dem kriterium, ß= standardisierte einzelbeitrĂ€ge der prĂ€diktoren, einfache korrelationen = jeder einzelne prĂ€diktor mit dem kriterium )

  • 3inkrementelle validitĂ€t

    (neue (zusĂ€tzliche) prĂ€diktoren mĂŒssen einen zusĂ€tzlichen beitrag zur vorhersage leisten, um sinnvoll zu sein )

    • inkrementelle prĂ€diktoren tragen zur vorhersagegenauigkeit bei

      (ein prĂ€diktor hat inkrementelle validitĂ€t, wenn er ĂŒber die bereits verwendeten prĂ€diktoren hinaus neue erklĂ€rende informationen liefert )

    • auswahl von verfahren: zb assessment -center + intelligenztest oder nur assessment-center?

      (diese frage prĂŒft, ob sich zb ein intelligenztest zusĂ€tzlich zum assessment center lohnt. wenn ja, hat er inkrementelle validitĂ€t)

    • bei der auswahl von verfahren nur solche berĂŒcksichtigen , die prĂ€diktionskraft verbessern

(laut din soll man nur verfahren auswÀhlen die einen zusÀtzlichen vorhersagewert liefern- also keine unnötigen tests einsetzen )

6.2 Testtheorien

zielsetzung von testtheorien

welche theoretische grundlage ist notwendig, um aus beobachteten testergebnissen rĂŒckschlĂŒsse ziehen zu können, und was ist das ziel dabei ?


  1. was beschreibt die messgenauigkeit und was ist ihr ziel laut testtheorie ?

  2. welche 2 testtheorien werden genannt ? und was unterscheidet sie ?


  • zielsetzung von testtheorien

    • 1theoretische grundlage fĂŒr die rĂŒckschlĂŒsse, die wir aus den beobachteten testergebnissen ziehen können (plausibles messmodell)

      (testtehorien liefern das theoretische fundament, mit dem wir ĂŒberhaupt sinnvoll aus testergebnissen rĂŒckschlĂŒsse auf zugrundeliegende merkmale ziehen können. diese rĂŒckschlĂŒsse setzen ein plausibles messmodell voraus )

      • messen in der eignungsdiagnostik bzw. der psychologie vs. in den naturwissenschaften

        (das messen in der psychologie (zb intelligenztests) unterscheidet sich von messungen in naturwissenschaften (zb temperatur ) es ist indirekter und basiert stÀrker auf modellen ))

      • 3messen vs. zĂ€hlen (strukturerhaltende abbildung

        (zÀhlen ist eine direkte erfassung (zb anzahl richtiger antworten ) wÀhrend messen eine theoretisch modellbasierte abbildung eines merkmals auf zahlen ist (zb intelligenz)

      • 1,3ziel: absicherung der eindimensionalitĂ€t von messwerten PTT

        (das ziel besteht darin, sicherzustellen, dass ein test nur ein einziges konstrukt (eine dimension ) misst - also zb nicht gleichzeitig intelligenz und motivation )

      • 3probabilistische testtheorie (PTT)

        (eine testtheorie, die davon ausgeht, dass die wahrscheinlichkeit, eine aufgbae zu lösen, von einer latenten fÀhigkeit abhÀngt-typisches beispiel : Item response theorie (IRT)

    • 2Messgenauigkeit : wie genau können wir merkmale quantifizieren , die wir in der realitĂ€t beobachten ?

      (es geht um die prÀzision psychologischer messungen- also wie zuverlÀssig ein test das misst, was er messen soll)

      • das beobachtete ergebnis kann auch durch einen fehler bei der messung erklĂ€rt / beeinflusst werden

        (testergebnisse setzen sich aus wahrem wert + messfehler zusammen. die testtheorie berĂŒcksichtigt diese fehlerkomonente )

      • 2,3ziel: absicherung der messgenauigkeit von messwerten KTT

        (ziel ist, durch testtheorie sicherzustellen, dass die gemessenen werte verlÀsslich (reliabel) sind also möglichst wenig messfehler enthalten )

      • klassische testtheorie (KTT)

        (eine der zentralen theorien zur messgenauigkeit : sie geht davon aus, dass jede beobachtete messung aus einem wahren wert und einem messfehler besteht


6.2 Testtheorien

6.2.1 Latente und manifeste variablen

eignungsmerkmale sind konstrukte

  1. was sind eignungsmerkmale in der testtheorie, und wie werden sie unterschieden ?

  2. nenne beispiele fĂŒr manifeste variablen, was kennzeichnet sie ?

  3. wie lÀsst sich das latente merkmal extraversion laut abbildung operationalisieren ?

1eignungsmerkmale sind konstrukte

(eignungsmerkmale wie zb extraversion oder intelligenz sind keine direkt beobachtbaren eigenschaften- sie sind gedankliche modelle also theoretische konstrukte , mit denen wir verhalten erklÀren )

  • 1auch : nicht - beobachtbare sachverhalte, latente variablen

    (diese eignungsmerkmale sind nicht direkt sichtbar, man nennt sie deshalb latente variablen (zb extraversion , motivation ) sie mĂŒssen indirekt erschlossen werden

  • 1können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen zb lĂ€cheln , vermeidungsverhalten, reaktionszeiten )

(latente variablen zeigen sich indirekt zb durch verhalten , das wir beobachten können. solche direkt beobachtbaren merkmale heißen manifeste variablen . beispiele: lĂ€cheön, schnelle reaktion, vermeidung . diese beobachtbaren variablen geben hinweise auf das dahinterliegende konstrukt )

(abbildung: in der grafik wird das konstrukt extraversion als latente variable dargestellt.

pfeile fĂŒhren von verhaltensweisen wie : gerne viele leute um 3sich, leicht zum lachen zu bringen, besonders fröhlich , zu dem latenten konstrukt.

3diese aussagen sind indikatoren , also manifeste variablen , die durch einen fragebogen (extraversionsskala des NEO-FFI) erhoben werden.

fazit: latente variablen wie extraversion lassen sich ĂŒber manifeste variablen (verhaltensindikatoren ) erschließen .

6.2 Testtheorien

6.2.1 Latente und manifeste variablen

eignungsmerkmale sind konstrukte

1was sind eignungsmerkmale

was ist der unterschied zwischen reflektiven und formativen latenten variablen ?

nenne beispiele fĂŒr manifeste variablen

was versteht man unter latenten variablen , und wie sind sie zu beobachten ?

Was zeigt die Abbildung

  • 1eignungsmerkmale sind konstrukte

    (eignungsmerkmale (zb intelligenz, extraversion ) sind theoretische begriffe - sie existieren nicht sichtbar, sondern werden als konstrukte gedacht, um verhalten zu erklÀren )

    • auch : nicht-beobachtbare sachverhalte, latente variablen

      (diese konstrukte sind nicht direkt beobachtbar und werden in der testtheorie als latente variablen bezeichnet

    • können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen , zb lĂ€cheln, vermeidungsverhalten , reaktionszeiten )

      (diese latenten variablen zeigen sich im verhalten also durch manifeste variablen , also durch direkt beobachtbare dinge wie zb reaktionen, gesichtsausdruck oder handlungen

    • unterscheidung reflektive vs formative latente varibalen

      (es gibt 2 arten von latenten variablen: reflektive: die lantente variable sagt das verhalten vorher (zb extraversion —> viel reden )

      (formative : die beobachtetetn variablen formen / kombinieren das konstrukt (zb bildung = summe von schulnote , abschluss, dauer )

(abbildung:

Die Abbildung zeigt zwei Wege zwischen latenter und manifester Variable:

Reflektive latente Variable → manifeste Variable

➀ Die latente Variable verursacht die beobachtete Reaktion.

Beispiel: Extraversion → LĂ€cheln, Redseligkeit

Formative latente Variable ← manifeste Variable

➀ Die latente Variable entsteht aus einer Kombination beobachteter Merkmale.

Beispiel: Beruflicher Erfolg ergibt sich aus Einkommen + Aufstieg + Zufriedenheit.)

6.2 Testtheorien

6.2.2 Klassische Testtheorie

  1. was ist die grundannahme der klassischen testtheorie (KTT)?

  2. was ist der wahre wert t einer person gemĂ€ĂŸ der klassischen testtheorie?

  3. welche funktion erfĂŒllt die klassische testtheorie (KTT) in der Eignungsdiagnostik ?

  • 3Klassische Testtheorie (KTT)

    (die klassische testtheorie ist eine grundlage fĂŒr die meisten messtheoretischen fundierten fragebögen. sie bilden die theoretische basis , auf der viele psychologische tests beruhen)

    • 3Grundlage fĂŒr die meisten messtheoretisch fundierten fragebögen

    • 3 ist eine messfehlertheorie

      (die KTT ist eine theorie ĂŒber messfehler. sie geht davon aus, dass jeder gemessene wert aus einem wahren wert und einem fehler besteht )

    • 3 dient zur grundlage fĂŒr die bestimmung der zuverlĂ€ssigkeit eines messwertes

      (mit der KTT kann man berechnen, wie verlÀsslich ein testwert ist - also wie viel des wertes echt (true score) ist und wie viel fehleranteil (error)

  • Grundannahme 1 und 2 der KTT : 1

    • 1Grundannahme 1: Jeder beobachtete Wert einer person setzt sich zusammen aus einem wahren wert Tau (t) und einem Messfehler (e)

    • UND 1. Formel mit Xperson gehört zur grundnnahme 1

      (beobachteter wert = wahrer wert + fehler)

    • 2 2. Grundannahme der wahre wert t der person ist definiert als der erwartungswert der beobachteten werte der person und 2.formel mit t person gehört zur grundannahme 2

      (der wahre wert ist der statistische mittelwert, der sich ergeben wĂŒrde, wenn man unendlich oft misst.

6.2 Testtheorien

6.2.2 Klassische Testtheorie

Folgerungen aus den grundannahmen

  1. wie ist die zuverlÀssigkeit laut klassischer testtheorie definiert ?

  2. wie lautet die formel fĂŒr die reliabilitĂ€t in der klassichen testtheorie ?

  3. warum braucht man unterschiedliche schĂ€tzer fĂŒr die reliabilitĂ€t ? und welche gibt es ?

  • Folgerungen aus den grundannahmen

    • 1wenn wir den messfehler der items kennen, können wir die zuverlĂ€ssigkeit des tests bestimmen

    • (wenn wir wissen , wie stark ein test durch messfehler beeinflusst wird, können wir berechnen, wie verlĂ€sslich die gemessenen werte sind. das ist die reliabilitĂ€t.

    • 1zuverlĂ€ssigkeit ist definiert als der grad der genauigkeit eines verfahrens, mit dem es das gemessene merkmal erfasst

      (wie prÀzise misst ein test wirklich das, was er messen soll? je weniger messfehler, desto höher die zuverlÀssigkeit.)

    • 2die KTT definiert die reliabilitĂ€t als verhĂ€ltnis der varianz der wahren werte zu der varianz der beobachteten werte

    • 2formel erklĂ€rung bild

    • 3unterschiedliche schĂ€tzer, weil wahren wert t nicht bekannt

      (da man wahre werte nicht direkt beobachten kann, braucht man indirekte methoden , um die reliabilitÀt zu schÀtzen.

      • 3retest, paralleltest, split-half, interne konsistenz

        (retest: wiederholung des tests zu einem spÀteren zeitpunkt)

        (paralleltest: zwei inhaltlich Àquivalente tests )

        (split half : interne teilung eines tests (zb gerade / ungerade items )

        (interne konsistenz: zb cronbachs alpha )

  1. 2 Testtheorien

6.2.2 Klassiche Testtheorie

  1. welche zwei zentralen kennwerte nennt die klassische testtheorie (KTT) zur beurteilung von testitems ?

  2. was ist mit “trennschĂ€rfe” gemeint und wie wird sie berechnet ?

  3. welcher aspekt steht bei der beurteilung einzelner items im fokus ?

  4. warum benutzt man nicht die korrelation mit dem gesamttest inklusive des betreffenden items ?

  5. bonusfrage tieferes verstÀndnis: wie hÀngt die trennschÀrfe mit der validitÀt eines items zusammen?



  • weitere kennwerte der KTT beziehen sich auf die einzelnen testitems

    (neben reliabilitÀt etc. betrachtet man in der KTT auch Item-bezogene kennwerte , also wie sich jedes einzelne item im test verhÀlt)

  • 1.zwei zentrale kennwerte: trennschĂ€rfe , itemschwierigkeit

    (in der Ktt sind besonders trennschÀrfe (zusammenhang mit gesamttest ) und itemschwierigkeit (wie schwer ein item ist ) wichtige qualitÀtsmerkmale )

  • 3.fokus: passung einzelner items und schwierigkeitsverhĂ€ltnis

    (man prĂŒft , ob ein einzelnes item gut zum test passt zb in bezug auf seine schwierigekeit und seinen zusammenhang mit dem gesamten test )

  • 2.trennschĂ€rfe

    • 2korrelation eines items mit der summe der restlichen items eines tests

      (die trennschĂ€rfe gibt an, wie stark ein einzelnes item mit dem gesamtergbebnis (gesamtscore) der anderen items zusammenhĂ€ngt. man lĂ€sst das item selbst dabei weg, um die korrelation nicht kĂŒnstlich zu erhöhen. je höher die trennschĂ€rfe desto besser pasts das item inhaltlich zum gesamten test- es misst offenbar dasselbe konstrukt wie die anderen items.

      trennschÀrfe= korrelation zwischen einem item und der summe der anderen items (ohne sich selbst)

    • 2summe restlicher items fungiert als schĂ€tzgrĂ¶ĂŸe fĂŒr den wert der person auf der latenten variable

      (die summe der restlichen items (also alle items außer dem betrachteten) dient als schĂ€tzwert fĂŒr das latente merkmal , das du mit dem test erfassen willst (zb intelligenz , extraversion )

      man nimmt also an: wenn jemand bei den anderen items gut abschneidet , hat die person vermutlich auch einen hohen wahren wert auf dem konstrukt. die anderen items sagen voraus, wo die person auf der latenten skala ungefÀhr steht )

    • 2man prĂŒft, wie hoch ein item mit dem konstrukt zusammenhĂ€ngt

      (der test soll ein bestimmtes merkmal (zb extraversion ) messen. ein item (zb ich spreche gerne mit fremden ) sollte daher genau dieses konstrukt widerspiegeln. man testet also , ob das item mit dem gesamtwert korreliert, der als schÀtzung des konstrukt gilt )

      (ein gutes item zeigt: ich messe auch wirklich das zielkonstrukt)

  • (4: weil das item dann mit sich selbst korreliert wĂ€re das wĂŒrde die trennschĂ€rfe kĂŒnstlich erhöhen . deshalb verwendet man die summe der restlichen items )


    1. (hohe trenschĂ€rfe deutet darauf hin, dass ein item das gleiche misst wie der rest des tests —>spricht fĂŒr eine hohe inhaltliche validitĂ€t des items im bezug auf das zu messende konstrukt )

(

6.2 Testtheorien

6.2.2 Klassiche testtheorie

itemschwierigkeit

  1. inwiefern unterscheiden sich items laut der klassischen testtheorie?

  2. was ist das ziel eines tests im hinblick auf die itemschwierigkeit ?

  3. wie wird die itemschwierigkeit bestimmt und dargestellt ?

  4. was veranschaulicht das beispiel mit den 100 kandidat*innen und dem wert 0.10 in bezug auf die itemschwierigkeit ?


  • itemschwierigkeit dh:

    • —>1items unterscheiden sich in ihrer schwierigkeit / leichtigkeit

    • 2ziel eines tests: unterschiedliche merkmalsbereiche der kandidat*innen differenzieren

      (ein guter test sollte nicht nur die sehr guten oder sehr schlechten kandidat*innen erkennen, sondern ĂŒber das gesamte fĂ€higkeitsspektrum unterschiede sichtbar machen )

    • 3itemschwierigkeit wird durch den mittelwert bestimmt: relativer anteill richtig gelöster items

      (schwierigkeit: durchschnittlicher anteil richtiger lösungen. )

    • beispiel: 100 kandidaten , 10 lösen das item

      —>schwierigkeit =0.10

      (leicht lösbar fĂŒr 10%)

    • leistungstest: “im durchschnitt lösen 10 % der kandidat*innen das item”

      (item ist schwer)

    • persönlichkeitstests: “im durchschnitt stimmen 10% der kandidat*innen bei dem item zu “

(item wird selten bejaht , eher ungewöhnliches verhalten )


  1. (das beispiel zeigt , wie. man die itemschwierigkeit berechnet: man nimmt den anteil der personen, die ein item richtig beantworten ( bei einem leistungstest) oder zustimmen (bei einem persönlichkeitstest)

    wenn 100 personen ein item bearbeiten und nur 10 davon es richtig beantworten, ergibt sich: itemschwierigkeit = 10 von 100 = 0,10

    das bedeutet: in einem leistungstest : nur 10% haben es richtig gelöst —> das item ist schwer.

    in einem persönlichkeitstest: nur 10% stimmen zu —> es ist ein selten zutreffendes verhalten oder merkmal.

    wichtig: je niedriger der wert, desto schwieriger ist das item (weil es nur wenige richtig oder zustimmend beantworten )


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie PTT

  1. womit beschÀftigt sich die probabilistische testtheorie (PTT?)

  2. welcher andere begriff wird ebenfalls fĂŒr die probabilistische testtheorie verwendet ?

  3. was ist die zentrale frage der PTT?

  4. Wie gehen die parameter in die modelle der PTT ein ?

  5. wie beeinflusst die anzahl der parameter die komlexitÀt des modells ?



  • Probabilistische Testtheorie (PTT)

    (das ist eine mdoerne testtheorie, die wahrscheinlichkieten verwendet, um zu erklÀren, wie wahrscheinlich es ist, dass eine testperson ein bestimmtes item richtig beantwortet )


    • 1BeschĂ€ftigt sich mit statistischen modellen, die das antwortverhalten einer testperson auf das item erklĂ€ren

      (PTT untersucht, wie personen auf bestimmte testaufgaben reagieren , basierend auf mathematischen modellen. diese modelle sagen mit welcher wahrscheinlichkeit jemand ein item richtig löst )

    • 2auch item-response-theorie (IRT)

      (die PTT ist auch unter dem begriff item - response- theorie (IRT) bekannt. das meint genau diese modellfamilie.

    • 3zentrale frage: von welchen parametern hĂ€ngt die erfolgreiche itembeantwortung ab ?

      (die PTT fragt: was beeinflusst , ob eine person ein item richtig beantwortet? (zb ihre fÀhgikeit (personenparameter ), die schwierigkeit des items oder auch zufall. )


      • 4die hypothetisierten parameter gehen dabei als numerische grĂ¶ĂŸe in statistsch-theoretische modelle ein

        (diese einflussfakotren (parameter) wie zb fÀhigkeit oder itemschwierigkeit werden mathematisch beschrieben, also als zahlenwerte im modell verwendet )

      • 5je nach modell werden mehr / weniger parameter integriert, also die komplexititĂ€t des erklĂ€rungsmodells erhöht

        (in der PTT Probabilistischen testtheorie gibt es verschiedene modelle , die sich darin unterscheiden, wie viele paramter sie berĂŒcksichtigen, um das antwortverhalten zu erkĂ€ren.

        mehr parameter = genaueres modell, aber auch komplexer und aufwÀndiger

        die wichtigsten paramter (je nach modell):

        1. item -schwierigkeit: wie schwer ist das item? (zb wird es nur von leuten mit hoher fÀhigkeit gelöst ?)

        2. diskrimination:

          wie gut untscheidet ein item zwischen personen mit niedriger und hoher ausprÀgung eines merkmals ?

          ein hoher diskriminationswert bedeutet, dass das item sehr gut zwischen zb schwachen und starken testpersonen differenziert.

        3. ratewahrscheinlichkeit: wahrscheinlichkeit, ein item durch raten richtig zu beantworten (zb bei multiple choice )


6.2 Testtheorien

6.2.3 Probabilistische testtheorie

modelle der probabilistischen testtheorie

welche gehören dazu ?

erklÀre die abbildungen

  • modelle der probabilistischen testtheorie :

  • - Rasch-modell (1 PL)

  • -Birnbaum oder 2 PL-modell

  • 3PL -Modell

  • Ordinales Rasch-Modell / Partial-Credti-Modell

  • 
 und viele weitere

Modelle der Probabilistischen Testtheorie“

Die Abbildungen rechts zeigen typische Item-Charakteristik-Kurven (Item Response Functions, IRF) aus der IRT (Item Response Theory). Ich erklÀre dir jede der drei Abbildungen einzeln:

đŸ”· Obere Abbildung – Rasch-Modell (1PL-Modell)

Was ist zu sehen?

Eine typische S-Kurve (logistische Funktion) fĂŒr ein Item im Rasch-Modell.

Achsen:

x-Achse (Theta, Ξ): FĂ€higkeit der Person (z. B. Intelligenz, Extraversion, etc.)

y-Achse (p): Wahrscheinlichkeit, das Item richtig zu lösen

ErklÀrung:

Das Rasch-Modell geht davon aus, dass nur die Item-Schwierigkeit zÀhlt.

Alle Items haben dieselbe Diskrimination. Je höher Ξ (Personenmerkmal), desto wahrscheinlicher die richtige Lösung.

✅ Wichtig: Es ist ein 1-Parameter-Modell (1PL) – nur die Item-Schwierigkeit wird berĂŒcksichtigt.

đŸ”· Mittlere Abbildung – Birnbaum-/2PL-Modell

Was ist zu sehen?

Mehrere Kurven fĂŒr verschiedene Items mit unterschiedlicher Steigung.

Achsen:

x-Achse (Theta): PersonenfÀhigkeit

y-Achse (p): Antwortwahrscheinlichkeit

ErklÀrung:

Im 2PL-Modell (Birnbaum-Modell) kommen zwei Parameter pro Item ins Spiel:

Item-Schwierigkeit (Lage der Kurve auf der x-Achse)

Item-Diskrimination (Steilheit der Kurve → wie stark das Item zwischen Personen mit unterschiedlichem ξ unterscheidet)

✅ Die Steilheit der Kurven variiert: Das zeigt Unterschiede in der TrennschĂ€rfe (Diskrimination).

đŸ”· Untere Abbildung – 3PL-Modell

Was ist zu sehen?

S-Kurven, die nicht bei p = 0 starten, sondern eine untere Schranke haben.

Achsen:

x-Achse (Theta): FĂ€higkeit

y-Achse (p): Antwortwahrscheinlichkeit

ErklÀrung:

Das 3PL-Modell berĂŒcksichtigt neben Schwierigkeit und Diskrimination zusĂ€tzlich:

Ratewahrscheinlichkeit (guessing parameter) – also die Wahrscheinlichkeit, ein Item auch bei geringer FĂ€higkeit richtig zu beantworten (z. B. durch Raten bei MC-Fragen)

✅ Die Kurve beginnt bei einer positiven Ratewahrscheinlichkeit (z. B. 0.2 = 20 %).

🧠 Fazit zur Folie – Modelle der Probabilistischen Testtheorie

Die drei gezeigten Abbildungen zeigen die Entwicklung von einfachen hin zu komplexeren Modellen innerhalb der Probabilistischen Testtheorie (PTT).

Das Rasch-Modell (1PL) ist das einfachste Modell. Es berĂŒcksichtigt nur einen einzigen Parameter pro Item: die Item-Schwierigkeit. Das bedeutet, dass alle Items im Modell als gleich trennscharf betrachtet werden. Die Wahrscheinlichkeit, ein Item richtig zu beantworten, hĂ€ngt dabei ausschließlich von der FĂ€higkeit der Person und der Schwierigkeit des Items ab.

Das Birnbaum- oder 2PL-Modell erweitert das Rasch-Modell um einen zweiten Parameter: die Diskrimination. Dieser gibt an, wie gut ein Item zwischen Personen mit unterschiedlicher MerkmalsausprĂ€gung unterscheiden kann. In der Darstellung zeigt sich das durch unterschiedlich steile Kurven – je steiler die Kurve, desto trennschĂ€rfer das Item.

Das 3PL-Modell geht noch einen Schritt weiter: Neben Schwierigkeit und Diskrimination wird auch die Ratewahrscheinlichkeit (sogenannter guessing parameter) berĂŒcksichtigt. Dieser beschreibt die Wahrscheinlichkeit, ein Item allein durch Raten richtig zu beantworten. In der Grafik erkennt man das daran, dass die Kurven nicht mehr bei einer Wahrscheinlichkeit von null beginnen, sondern bei einer positiven Ratewahrscheinlichkeit (z. B. 20 %).

Insgesamt zeigen die Abbildungen also, wie die Modelle immer mehr Parameter integrieren – und dadurch auch immer komplexer, aber gleichzeitig prĂ€ziser werden.

6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das Rasch-Modell (1 PL)

was erklÀrt das modell? wozu dient es ?

  1. wie heißt das einfachste und bekannteste modell der probabilistischen testtheorie?

  2. welche annahme trifft das rasch-modell ĂŒber die itemlösung ?

  3. was ist mit personenfÀhigkeit im rasch-modell gemeint ?

  4. was passiert laut Rasch-modell, wenn die personenfĂ€higkeit die Itemschwierigkeit ĂŒbersteigt ?


  • Das Rasch - modell (1 PL):

    (es soll erklÀren , wie wahrscheinlich es ist, dass eine person ein bestimmtes item richtig löst , und zwar abhÀngig von zwei fakotren: itemschwierigkeit - wie schwer ist die aufgabe? und personenfÀhigkeit- wie stark ist die ausprÀgung der person auf der gemessenen eigenschaft (zb intelligenz ?) es wird zb eingestezt um faire , vergleichbare testergebnisse zu erzielen, weil es zwischen person und item unterscheidet- unabhÀngig davon, welche items jemand gelöst hat. ziel: objektive, personen- und itemunabhÀnginge messung)


    • 1das einfachste und bekannteste modell: Dichotom -logistisches modell

      (das rasch-modell gehört zur familie der probabilistischen modelle und ist besonders einfach, weil es mit nur zwei antwortmöglichkeiten (dichotom zb richtig 7 falsch ) arbeitet. es ist in der praxis weit verbreitet und bekannt )


    • 2annahme : itemlösung hĂ€ngt nur von 2 parametern ab

      (das modell geht davon aus, dass nur zwei faktoren bestimmen, ob eine testperson ein item richtig beantwortet : (1.) wie schwierig das item ist und 2. wie fÀhig die person ist)

      • 2itemschwierigkeit

        (dieser paramter beschreibt , wie anspruchsvoll ein item ist, also wie schwer es den meisten personen fÀllt , es zu lösen )

      • 2personenfĂ€higkeit

        (das meint, wie stark eine person in einer bestimmten eigenschaft oder fÀhigkeit ausgeprÀgt ist- zum beispiel intelligenz oder exraversion. je höher die fÀhigkeit , desto wahrscheinlicher eine richtige antwort )

    • 3personenfĂ€higkeit ist die ausprĂ€gung der person auf einer latenten variable (meint auch die ausprĂ€gung auf persönlichkeitsmerkmalen)

      (latente variablen sind nicht direkt messbar , sondern nur ĂŒber verhaltensindikatoren . die personenfĂ€higkeit beschreibt also eine nicht-beobachtbare fĂ€higkeit oder eigenschafr der testperosn , wie zb ihre inteligenz oder ihr grad an extraversion )

    • 4je mehr die personenfĂ€higkeit die itemschwierigkeit ĂŒbersteigt, desto wahrscheinlicher wird das item gelöst )

    • (wenn die fĂ€higkeit einer person deutlich grĂ¶ĂŸer its als die schwierigkeit des items, dann steigt die wahrscheinlichkeit , dass die person das item richtig beantwiortet. dies ist der zentrale mechanismus des rasch-modells )

    📌 Wann verwendet man das Rasch-Modell?)

    1. WĂ€hrend der Testentwicklung (Fragebogenkonstruktion):

    ✅ Zur Itemanalyse:

    Man prĂŒft, ob alle Items zum gleichen Konstrukt gehören (z. B. Extraversion) und ob sie sich in ihrer Schwierigkeit sinnvoll unterscheiden.

    ✅ Zur Auswahl geeigneter Items:

    Man behÀlt nur die Items, die zuverlÀssig zwischen Personen mit unterschiedlicher AusprÀgung auf der latenten Variable unterscheiden.

    2. WĂ€hrend der Testauswertung:

    ✅ Zur Berechnung von Personenwerten (FĂ€higkeitsparametern):

    Man nutzt das Modell, um die FÀhigkeit/Veranlagung einer Person unabhÀngig von den konkret gelösten Items zu schÀtzen.

    ✅ Zur Erstellung von Item-Charakteristik-Kurven:

    Diese zeigen, wie stark die Wahrscheinlichkeit einer richtigen Lösung von der PersonenfÀhigkeit abhÀngt.

    3. Zur QualitÀtssicherung von Tests:

    ✅ Wenn ein Test rasch-skalierbar ist, bedeutet das:

    Die Items messen ein gemeinsames Merkmal,

    Der Test erfĂŒllt wichtige GĂŒtekriterien wie ObjektivitĂ€t, ReliabilitĂ€t, Fairness.


  • 📌 Zusammenfassung (kurz):

    Man verwendet das Rasch-Modell, um wÀhrend der Konstruktion und Auswertung eines Fragebogens sicherzustellen, dass Items einheitlich und fair ein Merkmal messen.


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

wenn das rasch-modell gilt , treten fĂŒr die testdiagnostik nĂŒtzliche folgen ein

  1. welche rolle spielt der summenwert der items in einem test nach dem rasch -modell ?

  2. was bedeutet es, dass der testscore im rasch-modell “statistisch eindimensional” ist ?

  3. was ist unter “spezifischer objektvitĂ€t” im rasch-modell zu verstehen ?



wenn das Rasch-modell gilt, treten fĂŒr die testdiagnostik nĂŒtzliche folgen ein

  • erschöpfende statistik

    • 1der summenwert der items enthĂ€lt alle informationen die man braucht

    • (in einem test nach dem rasch modell reicht es, die anzahl richtig gelöster items (summenwert) zu kennen- man braucht keine zusĂ€tzlichen daten ĂŒber die antworten, um die fĂ€higkeit einer person zu beurteilen )

    • 1verrechnungsvorschrift des einfachen addierens der items abgesichert

    • (die einfache addition der itemantworten (zb =0/1) genĂŒgt, es ist mathematisch zulĂ€ssig, die rohwerte ohne gewichtung oder transformation zu summieren )

    • voraussetzung sind gleiche itemtrennschĂ€rfen

      (alle items mĂŒssen gleich gut zwischen personen mit unterschiedlicher fĂ€higkeit unterscheiden können. nur dann ist die addition sinnvoll und korrekt im sinne des modells )

    • man misst und zĂ€hlt nicht nur punkte

      (auch wenn man summiert, steckt mehr dahinter: die summenwerte werden in fĂ€higkeiten auf einer latenten skala ĂŒbersetzt- es geht also nicht bloß um “mehr punkte= besser” , sondern um eine mathematisch fundierte aussagen ĂŒber die zugrundeliegende fĂ€higkeit. )


    • (🎯 Worum geht's beim ersten Satz („Der Summenwert der Items enthĂ€lt alle Informationen, die man braucht.“)?

      👉 Bedeutung:

      Wenn das Rasch-Modell gilt, dann genĂŒgt es fĂŒr die SchĂ€tzung der FĂ€higkeit einer Person, nur die Summe der richtig gelösten Items zu betrachten. Man braucht keine weiteren Infos ĂŒber das Antwortmuster – nur die Gesamtpunktzahl zĂ€hlt.

      💡 Beispiel:

      Wenn Person A 7 Items richtig löst und Person B nur 4, dann wissen wir aus Sicht des Rasch-Modells alles, was wir brauchen, um zu sagen: Person A ist fĂ€higer als Person B – unabhĂ€ngig davon, welche Items sie gelöst haben.

      đŸ€” Aber warum heißt es dann „Man misst und zĂ€hlt nicht nur Punkte“?

      👉 Bedeutung:

      Das klingt wie ein Widerspruch, ist es aber nicht!

      Was hier gemeint ist: Auch wenn mathematisch nur die Punktzahl verwendet wird, bedeutet das nicht, dass man „bloß zĂ€hlt“.

      Denn:

      Die Punktzahl wird nicht direkt interpretiert, sondern sie dient dazu, eine latente FÀhigkeit (wie Intelligenz oder Extraversion) auf einer Skala zu schÀtzen.

      💡 Konkret:

      Du sagst also nicht:

      „Person A hat 7 Punkte, also ist sie gut.“

      Sondern:

      „Die 7 Punkte entsprechen im Rasch-Modell einer bestimmten FĂ€higkeit auf einer mathematischen Skala.“

      ✅ Fazit (ganz einfach gesagt):

      Man zĂ€hlt Punkte – ja.

      Aber diese Punkte stehen fĂŒr etwas Tieferes (nĂ€mlich: eine Eigenschaft/FĂ€higkeit der Person).

      Die Punkte reichen mathematisch aus, um die FĂ€higkeit zu bestimmen.

      Aber die Bedeutung entsteht erst durch das Modell, nicht durch das bloße ZĂ€hlen.



  • 2testscore ist statistisch eindimensional

    • 2der test ist nur auf eine latente dimension zurĂŒckzufĂŒhren

    • (der test misst nur ein einziges merkmal (zb mathematische fĂ€higkeit oder extraversion) es gibt keine vermischung verschiedener merkmale - das ist eine kernannahme des rasch-modells )

  • 3spezifische objektivitĂ€t von vergleichen

    • 3unterschiede zwischen personen gleich, egal wie schwierig items sind

      (zwei personen können miteinander verglichen werden, auch wenn sie unterschiedliche items bearbeitet haben - solange diese items dem rasch-modell entsprechen. die schwierigkeit verzerrt den vergleich nicht. )

    • 3unterschiede zwischen items gleich, egal wie fĂ€higkeit personen sind

    • (umgekehrt können auch items verglichen werden, obwohl sie von unterschiedlichen personen bearbeitet wurden- die fĂ€higkeit der person beeinflusst die vergleichbarkeit der items nicht, wenn das modell gilt)


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

die gĂŒltigkeit des rasch-modells kann ĂŒberprĂŒft werden

  1. wie kann die gĂŒltigkeit des rasch-modells ĂŒberprĂŒft werden ?

  2. was passiert beim graphischen modelltest mit der stichprobe ?

  3. wann gilt das rasch-modell im graphischen modelltest als “augenscheinlich” gĂŒltig ?

1die gĂŒltigkeit des rasch-modells kann ĂŒberprĂŒft werden

(ddas bedeutet: man kann testen ob ein datensatz wirklich den annahmen des rasch-modells entspricht (zb eindimensionale struktur , gleiche trennschÀrfe etc)

  • 1meist inferenzstatistische modelltests

    (in der regel verwendet man statistische verfahren, um systematisch zu prĂŒfen, ob das modell zur realitĂ€t passt )

  • 1hĂ€ufig eingesetzt: graphischer modell-test

    (der sogenannte graphische modelltest ist ein hĂ€ufig genutztes verfahren zur ĂŒberprĂŒfung der rasch-modell-gĂŒltigkeit , weil er ergebnisse visuell veranschaulicht )

    • 2teiliung der stcihprobe am median des gesamtscores

      (die gesamtgruppe wird in zwei teilgruppen aufgeteit: eine mit scores unter dem median und eine mit scores ĂŒber dem median )

    • 2in beiden teilstichproben werden itemparameter getrennt geschĂ€tzt

    • (fĂŒr jede teilgruppe werden seperat die itemschwierigkeiten berechnet)

    • 3vergleich der itemparameter auf abweichungen: gĂŒltigkeit des rasch-modells “augenscheinlich”

(wenn die itemparameter (zb schwierigkeit ) in beiden gruppen sehr Ă€hnlich sind , ist das ein hinweis darauf, dass das rasch-modell gĂŒltig ist - man erkennt es auf einen blick im plot )

Die grĂŒne Streudiagramm-Grafik zeigt das Ergebnis des graphischen Modelltests, der prĂŒft, ob die Itemparameter stabil sind – also unabhĂ€ngig davon, ob eine Personengruppe ein hohes oder niedriges Gesamtergebnis hat.

đŸ”č Achsenbeschriftung:

x-Achse: „MA > Md“

→ Das sind die Itemparameter (meist Schwierigkeit) der Gruppe mit höheren Gesamtscores (ĂŒber dem Median).

y-Achse: „MA ≀ Md“

→ Das sind die Itemparameter derselben Items bei der Gruppe mit niedrigeren Gesamtscores (unter dem Median).

đŸ”č Punkte:

Jeder Punkt steht fĂŒr ein Item, z. B. Punkt „3“ ist das dritte Item im Test.

Die Punkte zeigen, wie Àhnlich oder unterschiedlich das jeweilige Item in beiden Gruppen funktioniert.

đŸ”č Diagonale Linie (45°-Linie):

Das ist die Idealgerade, auf der alle Punkte liegen wĂŒrden, wenn die Itemparameter in beiden Gruppen exakt gleich sind.

Das wÀre perfekt im Sinne des Rasch-Modells: Es bedeutet, dass die Items unabhÀngig von der FÀhigkeit der Teilgruppe gleich funktionieren.

đŸ”č Interpretation:

Die Punkte liegen sehr nah an der Diagonale → das heißt: Die Itemparameter sind stabil.

Das spricht fĂŒr die GĂŒltigkeit des Rasch-Modells im Sinne eines „augenscheinlich passenden“ Modells (visuelle PrĂŒfung).

Der RÂČ-Wert (0,953) unten rechts zeigt, dass es eine sehr starke lineare Übereinstimmung gibt.

✅ Fazit:

Die Abbildung zeigt, dass die Itemparameter zwischen den beiden Teilstichproben kaum abweichen. Damit stĂŒtzt das Ergebnis das Rasch-Modell – es scheint fĂŒr diese Daten gĂŒltig zu sein.

6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das Birnbaum oder 2PL-Modell

  1. was ist beim birnbaum - oder 2PL - Modell denkbar im hinblick auf die testitems ?

  2. was liegt im fall unterschiedlich “guter” testitems im 2PL-Modell vor ?

  3. welche folge hat es, wenn unterschiedliche itemtrennschÀrfen vorliegen ?

  4. von welchen parametern hÀngt die itemlösung im 2PL-/Birnbaum-modell ab ?



Das Birnbaum oder 2PL-Modell

  • 1.denkbar, dass testitems unterschiedlich “gute “ indikatoren fĂŒr das latente konstrukt sein können

  • (manche items eines tests sind bessere oder schlechtere messinstrumente fĂŒr das, was man eigentlich messen will (zb intelligenz / extraversion ) . es ist also möglich, dass einige fragen besser zwischen personen mit hoher und niedriger ausprĂ€gung auf einem merkmal unterscheiden als andere )

    1. in diesem fall liegen unterschiedliche itemtrennschÀrfen vor

  • (das bedeutet die items haben unterschiedliche “unterscheidungsfĂ€higkeit”. ein trennscharfes item erkennt besser ob jemand wirklich viel oder wenig von dem gemessenen merkmal hat. ein weniger trennscharfes item bringt weniger aussagekraft mit sich )

  • 3.folge: das modell muss um einen parameter erweitert werden

    • (wĂ€hrend das rasch-modell (1pl) Nur zwei parameter verwendet (itemschwieirigkeit und personenfĂ€higkeit ) braucht man hier einen zusĂ€tzlichen dritten parameter , nĂ€mlich den trennschĂ€rfeparameter . weil man jetzt nicht mehr davon ausgeht, dass alle items gleich trennscharf sind )


      4.annahme: itemlösung hÀngt von diesen parametern ab

    • (die wahrscheinlichkeit dass ein item richtig gelöst wird, hĂ€ngt nun von:

      • 4itemschwierigkeit (wie schwer ist das item)

      • 4personenfĂ€higkeit (wie fĂ€hig ist die person

      • 4trennschĂ€rfeparamter (wie gut kann das item zwischen fĂ€higkeitsniveaus unterscheiden

        ab

    • (birnbaum = 2 pl modell und es heißt so weil es 2 parameter verwendet (itemschwie, und trennschĂ€rfe)


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das 3PL-Modell

  1. was versteht man unter dem 3Pl

  2. was könnte beim 3PL-Modell zusÀtzlich eine Rolle bei der Itembeantwortung spielen ?

  3. welche folge ergibt sich daraus fĂŒr das modell?

  4. von welchen parametern hÀngt laut dem 3PL-Modell die Itemlösung ab?


1Das 3PL-Modell

(das 3PL-Modell (Three-Parameter-Logistic Model) ist ein modell der probabilistischen Testtheorie. es erweitert die vorherigen modelle (zb Rasch- oder 2PL-Modelle) um einen weiteren einflussfaktor: das zufÀllige Raten. das modell geht davon aus, dass die wahrscheinlichkeit, ein item richtig zu lösen, von 3 itemparametern abhÀngt: 1. itemschwierigkeit- wie schwer das item ist , 2. trennschÀrfeparameter- wie gut das item zwischen personen unterscheidet, 3. rateparameter - wie wahrscheinlich es ist, dass die testperson das item durch raten richtig beantwortet.

zusĂ€tzlich fließt auch die personenfĂ€higkeit ein (wie gut jemand im gemessenen merkmal ausgeprĂ€gt ist ), aber diese wird nicht als itemparameter gezĂ€hlt , daher “3PL”. )


  • 2es könnte durch die auswahl mehrerer Antwortmöglichkeiten auch das zufĂ€llige Raten eine rolle spielen

    (in tests mit mehrfachauswahl (MS) können Teilnehmende items auch richtig beantworten, obwohl sie die antwort nicht wissen- einfach durch zufall. dieses raten kann das testergebnis verzerren und muss daher im modell berĂŒcksichtigt werden )

  • 3folge: wir mĂŒssen zusĂ€tzlich einen rateparameter in das modell aufnehmen

    (weil raten eine rolle spielt, reicht es nicht mehr aus, nur die personenfĂ€higkeit und itemschwierigkeit zu betrachten. es wird ein zusĂ€tzlicher parameter (der rateparameter) eingefĂŒhrt, um den einfluss des ratens mathematisch zu modellieren. )

  • 4annahme: itemlösung hĂ€ngt von diesen parametern ab

    (die wahrscheinlichkeit, dass eine person ein item korrekt löst, hÀngt im 3PL-Modell nicht nur von zwei , sondern von vier inhaltlichen paramtern plus dem rateparameter ab: )

    • 4itemschwierigkeit

      (gibt an wie schwer das item im vergleich zu den fÀhigkeiten der personen ist )

    • 4personenfĂ€higkeit

      (beschreibt, wie stark eine person das zu messende merkmal (zb intelligenz) ausgeprÀgt hat )

    • 4trennschĂ€rfeparameter

      (zeigt wie gut ein item zwischen verschiedenen fÀhigkeitsniveaus unterscheiden kann )

    • 4rateparameter

      (schÀtzt, mit welcher wahrscheinlichkeit jemand das item durch raten korrekt lösen kann (zb bei 25% bei vier antwortmöglichkeiten )

  • (warum heißt es dann 3PL obwohl es 4 parameter sind ?= der Name 3PL bezieht sich nur auf die drei item-bezogenen parameter: der name 3PL bezieht sich nur auf die drei item-bezogenen parameter: schwierigkeit, trennschĂ€rfe und rateparameter. die personenfĂ€higkeit ist kein itemparameter sondern eine personenbezogene variable-deshalb wird sie nicht mitgezĂ€hlt im namen des modells.)


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

Das Ordinale Rasch-Modell / Partial Credit Modell

  1. was versteht man unter dem ordinalen rasch modell / partial credit modell ?

  2. was sagt das modell im ordinalen rasch-modell / partial credit modell vorher?

  3. von welchen parametern hÀngt die itemlösung im ordinalen rasch-modell ab ?


1Das Ordinale Rasch-Modell / Partial Credit Modell

diese ĂŒberschrift benennt zwei namen fĂŒr dasselbe modell- es geht um ein erweitertes rasch-modell - es geht um ein erweitertes rasch-modell , das nicht nur mit zwei antwortmöglichkeiten (dichotom) , sondern mit mehrstufigen antwortoptionen arbeiten kann. ordinal bedeutet: die antwortkategorien haben eine rangfolge, aber die abstĂ€nde sind nicht zwingend gleich groß (wie bei likert-skalen: zb 1 = stimme gar nicht zu bis 5= stimme voll zu )

Partial credit modell heßt wörtlich: teilpunkte-modell. das bedeutet : eine person kann teilpunkte bekommen, je nachdem wie “nah” ihre antwort an der vollen zustimmung bzw richtigen antwort liegt . also die ĂŒberschrift verweist auf ein modell das fĂŒr mehrstufige antwortformate geeignet ist und in der probabilistischen testtheorie verwendet wird, um feiner zu differenzieren, wie personen auf items antworten )

(

  • 1ist eine erweiterung des dichotomen modells auf sogenannte likert-skalen

    (das ursprĂŒngliche rasch-modell (1PL) geht von dichotomen antworten aus (zb richtig vs falsch ) das ordinale rasch modell erweitert dieses modell auf mehrstufige antwortmöglichkeiten, wie man sie auf likert-skalen findet (zb 1= stimme gar nicht zu
 5= stimme voll zu )

  • 2modell sagt vorher, welche antwortkategorie eine person wĂ€hlt

    (das modell berechnet die wahrscheinlichkeit, mit der eine person eine bestimmte antwortkategorie (zb eine bestimmte likert-stufe) auswÀhlt, je nach ihrer merkmalsausprÀgung und den schwellenwerten des items)

    (ein schwellenwert des items (auch antwortschwelle genannt) ist die grenze zwischen 2 antwortkategorien bei mehrtsufigen skalen (zb likert-skalen. stell dir ein item vor mit 5 antwortmöglichkeiten: ich bin gerne unter menschen, zwischen diesen 5 antwortkategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2 , eine grenze zwischen 2 und 3 
 usw. zwischen diesen 5 kategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2, usw. diese schwellenwerte legen fest bei welcher merkmalsausprĂ€gung (zb extraversion ) eine person eher die eine oder die nĂ€chste antwortkategorie wĂ€hlt. ein schwellenwert des items ist der punkt auf der skala der latenten eigenschaft zb extraversion, an dem eine person “umspringt” von einer antwortkategorie zur nĂ€chsten )

  • 3annahme: itemlösung hĂ€ngt von diesen parametern ab

    (das modell basiert auf zwei zentralen einflussfaktoren -also zwei parametern - die bestimmen, wie wahrscheinlich eine person eine bestimmte antwortkategorie auswÀhlt)


    • 3eigenschaftsausprĂ€gung (personenparameter)

      (das ist die individuelle ausprÀgung einer person im interessierenden merkmal (zb extraversion, einstellung etc). sie wirkt sich auf die wahl der antwortkategorie aus)

    • 3schwellenparameter (antwortschwellen der testitems)

      (diese parameter geben an, an welcher stelle auf der skala (zb latente fĂ€higkeit oder einstellung) eine person von einer antwortkategorie zur nĂ€chsten ĂŒbergeht. beispiel : ab welcher ausprĂ€gung stimmt jemand “eher zu “ statt “neutral” zu )


6.2 Testtheorien

6.2.3 Probabilistische Testtheorie

schÀtzung von modellparametern

skalierung von personen- und itemparametern

  1. was ist die conditional maximum likelihood-methode (CML) und wofĂŒr wird sie verwendet?

  2. welch einheit wird in der probabilistischen testtheorie fĂŒr personen- und itemparameter verwendet und was bedeutet das ?

  3. wie lassen sich logit-werte interpretieren und wie groß ist der mögliche wertebereich ?


  • schĂ€tzung von modellparametern

    (hier geht es daurm, WIE man in der probabilistischen testtheorie bestimmte werte (“parameter”) berechnet - zb wie schwierig ein item ist oder wie fĂ€hig eine person ist. diese parameter können nicht direkt beobachtet, sondern nur mathematisch geschĂ€tzt werden- meist mit dem computer )

    • 1computerbasierte schĂ€tzung, rechenintensives iteratives verfahren

      (modelle der probabilistischen testtheorie können nicht einfach per hand gelöst werden. sie brauchen einen computer , der viele rechendurchlÀufe (iterativ) macht, bis das beste ergebnis gefunden ist. das verfahren ist aufwendig (rechenintensiv )

    • 1conditional maximum - likelihood -methode (cML)

      (dies ist ein spezielles statistisches verfahren, mit dem man modellparameter (zb fÀhigkeit einer person oder schwierigkeit eines items) möglichst genau schÀtzt. es wird hÀufig im rasch-modell verwendet )

    • 1werte werden so geschĂ€tzt, wie sie fĂŒr die beobachteteten testwerte am plausibelsten sind (maximum likelihood)


  • skalierung von personen- und itemparametern

  • (in diesem abschnitt wird erklĂ€rt, in welcher einheit diese geschĂ€tzten werte dargstellt werden (logits) und wie man sie interpretieren kann (zb was bedeutet +3 logits? außerdem wird gezeigt, dass man fĂ€higkeiten von personen und schwierigkeiten von items direkt vergleichen kann, weil sie auf derselben skala liegen )


    • 2mit derselben einheit erfasst: logits

      (die geschĂ€tzten werte (zb fĂŒr fĂ€higkeit oder schwierigkeit) werden alle in der gleichen einheit angegeben , nĂ€mlich in logits (=logistische einheiten ), so sind sie vergleichbar.

    • 2können direkt zueinander in bezug gesetzt werden

      (da beides (person und item) in logits gemessen wird, kann man sie direkt vergleichen. wenn zb person = 1.5 logits und item = o.5 logits —> die person hat eine höhere fĂ€higkeit als die item-schwierigkeit )

    • 3werte von plus 3: sehr hihe fĂ€higkeits-/eigenschaftsausprĂ€gung

      (wenn jemand +3 logits hat, ist das eine sehr starke ausprÀgung (zb sehr hohe mathematische fÀhigkeit oder sehr hohe extraversion )

    • 3werte von minus 3 : sehr niedrige fĂ€higkeits/- eigenschaftsausprĂ€gung

      (-3 logits bedeutet eine sehr geringe ausprÀgung - die person hat die eigenschaft kaum (zb sehr geringe lesekompetenz )

    • 3theoretisch geht der wertebereich von +unendlich bis -unendlich zeichen (forever zeichen)

(in der theorie sind die werte unbegrenz nach oben und unzen , also unednlich hohe oder niedrige ausprÀgungen wÀren möglich. in der praxis kommen aber meist werte zwischen -3 und +3 vor. )


(1: die CML ist ein rechenintensives iteratives verfahren , das in der probabilistischen testtheorie verwendet wird. es handelt sich um eine methode zur schĂ€tzung von modellparametern. werte werden so geschĂ€tzt, wie sie fĂŒr die beobachteten testwerte am plausibelsten sind (maximum likelihood)

6.2 Testtheorien

6.2.3 Probabilistische testtheorie

zuverlÀssigkeit in PTT-Modellen

  1. was wird in der klassischen testtheorie KTT ĂŒber messfehler angenommen ?

  2. was berĂŒcksichtigt die item-response-theorie (IRT) in bezug auf die messung ?

  3. wie wird der messfehler in der IRT differenziert ?

  4. was ist ein messfehler


  • ZuverlĂ€ssigkeit in PTT-Modellen

    • 1in der KTT: annahme, dass messfehler fĂŒr alle personen unabhĂ€ngig von ihrer fĂ€higkeit / eigenschaft gleich ausfĂ€llt.

      (in der klassischen testtheorie ktt wird davon ausgegangen, dass jeder mensch - egal wie gut oder schlecht er in einem bereich ist- densleben messfehler hat. die ungenauigkeit bei der messung ist also fĂŒr alle gleich, unabhĂ€ngig vom fĂ€higkeitsniveau )

    • in der IRT:

      • 2BerĂŒcksichtigung, welche informationen items ĂŒber die messung einer fĂ€higkeit / eigenschaft liefern

        (in der item-response-theorie (IRT) wird genau geschaut, wie viel ein bestimmtes item ĂŒber die fĂ€higkeit einer person aussagt. manche aufgaben sagen mehr ĂŒber die fĂ€higkeit aus als andere- diese unterschiede werden in der IRT berĂŒcksichtigt.

      • 3fĂŒr jede ausprĂ€gung der person kann ein messfehler angegeben werden

(im gegensatz zur KTT hĂ€ngt der messfehler in der IRT vom fĂ€higkeitsniveau der getesteten person ab. das heißt: je nachdem, wie stark oder schwach jemand in einem bereich ist, ist der messfehler unterschiedlich groß- und wird individuell angegeben )


(ein messfehler ist die abweichung zwischen dem wahren wert (den wir eigentlich messen wollen ) und dem beobachteten testergebnis. du machst also einen test, aber dein ergebnis ist nicht exakt ddein “wahres können “ sondern enthĂ€lt auch zufallseinflĂŒsse zb konzentration, missverstĂ€ndnisse in der frage, glĂŒck oder pech beim raten ) diese zufĂ€llige abweichung ist der messfehler. man geht in der psychologie immer davon aus, dass kein test perfekt misst, sondern immer ein gewisser fehler dabei ist )

6.3 GĂŒtekriterien

6.3.1 ReliabilitÀt, Konfidenzintervalle und kritische differenzen

  1. was ist laut DIN 2016 die voraussetzung fĂŒr ReliabilitĂ€tsangaben ? was versteht man unter reliabilitĂ€t?

  2. welche schĂ€tzer gibt es fĂŒr die reliabilitĂ€t und was bedeuten sie ?

  3. wofĂŒr werden die genannten schĂ€tzer verwendet ?


  • 1reliabilitĂ€tsangaben mĂŒssen aus empirischen studien abgeleitet sein

    (man darf die reliabilitÀt (also die zuverlÀssigkeit eines tests) nicht einfach schÀtzen oder annhemen, sondern sie muss in echten studien mit daten nachgewiesen werden. das bedeutet : es braucht empirische belege, damit man sagen kann , wie genau ein test misst. (beispiel din 2016 fordert das auch formell )

    ReliabilitÀt= ein test ist reliabel, wenn er genau und frei von zufallsschwankungen misst. dh wenn man denselben test mehrmals durchfphrt, sollte immer wieder ein Àhnliches ergebnis herauskommen- unter denselben bedingungen )

  • 2,3unterschiedliche schĂ€tzer fĂŒr die reliabilitĂ€t von testwerten

    (es gibt verschiedene möglichkeiten wie man die reliabilitĂ€t berechnen kann - je nach aufbau und zweck des tests. diese methoden heißen “schĂ€tzer”, weil sie die genauigkeit (reliabilitĂ€t ) eines testergebnisses abschĂ€tzen.


    • 2retest-korrelation

      (der gleiche test wird zweimal derselben person gegeben (mit etwas zeit dazwischen ). wenn die ergebnisse Ă€hnlich bleiben, ist der test stabil—>hohe reliabilitĂ€t.

    • 2paralleltest-korrelation

      (zwei vergleichbare tests, die dasselbe messen, werden gegeben. wenn die ergebnisse korrelieren , ist der test zuverlÀssig.

    • 2split-half-korrelation

      (ein test wird in zwei hĂ€lften geteilt (zb gerade vs ungerade items) , und deren ergebnisse werden miteinandeer verglichen. hohe korrelation —> test ist in sich stimmig.

    • 2interne konsistenz / cronbachs alpha

      (misst, wie stark die einzelnen items eines tests zusammenhĂ€ngen. cronbachs alpha ist der hĂ€ufigste wert dafĂŒr. hoher wert = items messen vermutlich das gleiche konstrukt.

    • 3(sie sind schĂ€tzer fĂŒr die reliabilitĂ€t von testwerten )



6.3 GĂŒtekriterien

6.3.1 reliabilitÀt , konfidenzintervalle und kritische differenzen

entwicklung eines reliablen tests bzw. testwerts


  1. welche zwei einflussgrĂ¶ĂŸen sind zentral fĂŒr die entwicklung eines reliablen tests ?

  2. was ist ein merkmal von variante 1 zur testentwicklung und was muss der test dabei erfassen können ?

  3. was zeichnet variante 2 aus und wofĂŒr eignet sich das ?


  • entwicklung eines reliablen tests bzw. testwerts

    (ziel ist es, testverfahren so zu gestalten , dass sie zuverlÀssig (reliabel) messen - also bei wiederholter anwendung vergleichbare ergebnisse liefern )


    • 1zentrale einflussgrĂ¶ĂŸen: testlĂ€nge und mittlere korrelationshöhe der items

      (die reliabilitÀt hÀngt stark davon ab: 1. wie viele items ein test enthÀlt (testlÀnge) 2. wie stark die items miteinander korrelieren - je Àhnlicher sie das gleiche messen, desto besser (mittlere korrelation )

    • 2variante 1:

      • 2wenige, aber hochkorrelierte items

        (wenn nur wenige items im test enthalten sind, mĂŒssen diese sehr stark miteinander zusammenhĂ€ngen , um zuverlĂ€ssig zu sein )

      • 2test muss einen engen verhaltensausschnitt erfassen (bspw. ich gehe abends gerne aus )

        (misst ein konkretes verhalten (enge ausrichtung )

    • 3variante 2:

      • 3große anzahl von items, langer test

        (wenn man viele items einsetzt, kann man damit auch breitere merkmalsbereiche erfassen.)

      • 3test kann auch breiten verhaltensauschnitt erfassen (bspw. ich bin ein geselliger mensch )

(ist ein allgemein gehaltener item, der viele verschiedene alltagssituationen abdecken kann )

6.3 GĂŒtekriterien

6.3.1 ReliabilitÀt , konfidenzintervalle und kritsiche differenzen

AktualitÀt von ReliabilitÀtsschÀtzungen


  1. warum mĂŒssen reliabilitĂ€tsschĂ€tzungen regelmĂ€ĂŸig ĂŒberprĂŒft werden ?

  2. was schreibt die DIN 33430 im hinblick auf reliabilitÀtsschÀtzungen vor ?

  3. wie lang ist der maximale zeitraum fĂŒr die ĂŒberprĂŒfung laut DIN 33430 und was gilt , wenn dieser ĂŒberschritten wird ?


1aktualitÀt von ReliabilitÀtsschÀtzungen

  • 1die art, wie menschen einen test ausfĂŒllen und die aktualitĂ€t von items kann sich mit der zeit Ă€ndern

    (das bedeutet: menschen verÀndern sich, sprache wandelt sich, gesellschaftliche normen ebenso. ein item , das vor jahren eindeutig war, kann heute unklar oder anders verstanden werden )

  • 2DIN 33430 fordert eine regelmĂ€ĂŸige ĂŒberprĂŒfung der zuverlĂ€ssigkeits - Kennwerte eines tests

    (laut dieser norm soll man nicht einfach “ewig” dieselben reliabilitĂ€tswerte verwenden - es muss nur regelmĂ€ĂŸig geprĂŒft werden, ob der test noch zuverlĂ€ssig ist )

  • 3zeitraum : 8 jahre

    (die norm DIN 33430 Nennt einen festen zeitraum: spĂ€testens alle 8 jahre mĂŒssen reliabilitĂ€tskennwerte ĂŒberprĂŒft werden.

  • 3wenn die schĂ€tzwerte 8 jahre nicht gepĂŒrft wurden, muss begrĂŒndet werden, warum das verfahren dennoch ausgewĂ€hlt wurde

  • (ausnahme: wenn man einen alten test nutzt, der lĂ€nger als 8 jahre nicht akutalisiert wurde, muss man in der testdokumentation gut erklĂ€ren, warum man ihn trotzdem verwendet )


6.3 GĂŒtekriterien

6.3.1 ReliabilitÀt , konfidenzintervalle und kritische differenzen

stichprobenabhÀngigkeit von reliabilitÀsschÀtzungen

  1. warum muss die reliabilitÀt eines testwerts anhand einer relevanten stichprobe geschÀtzt werden ?

  2. was passiert, wenn man die reliabilitÀt in einer zu breiten stichprobe schÀtzt und warum ?

  3. was beeinflusst die merkmalsvarianz die reliabilitÀtsschÀtzung ?


  • stichproben von reliabilitĂ€tsschĂ€tzungen

    • 1reliabilitĂ€t eines testwerts muss anhand einer fĂŒr unsere fragestellung relevanten stichprobe geschĂ€tzt werden

      (die reliabilitĂ€t ist nicht einfach allgemein gĂŒltig, sie hĂ€ngt davon ab , FÜR WEN der test verwendet wird. man muss die reliabilitĂ€t an genau der zielgruppe schĂ€tzen, fĂŒr die man den test einsetzen will )


    • 2beispiel aus der eignungsdiagnostik :

      (ein praktisches beispiel um das problem zu verdeutlichen )

      • ein unternehmen möchte nur gymnasiasten als kandidaten fĂŒr das auswahlverfahren akzeptieren

        (das ziel ist : nur gymnasiasten sollen gestestet und ausgewÀhlt werden )

      • 2es soll ein intelligenztest durchgefĂŒhrt werden

        (um die eignung zu prĂŒfen , wird ein intelligenztest verwendet )

      • 2wird die reliabilitĂ€tsschĂ€tzung in einer stichprobe mit allen schultypen vorgenommen, wird die reliabilitĂ€t ĂŒberschĂ€tzt

        (wenn man den test an allen schĂŒlern (haupt, real, gymnasium) usw. testet, wirkt der test zuverlĂ€ssiger , als er fĂŒr gymnasiasten wirklich ist. denn: die unterschiede zwischen schĂŒlern aller schulformen sind grĂ¶ĂŸer—> das tĂ€uscht höhere reliabilitĂ€t vor.

      • 2grund: intelligenz und schulische leistung hĂ€ngen zusammen

        (je nach schultyp variiert im durchschnitt auch die intelligenzleistung - also misst man grĂ¶ĂŸere unterschiede )

      • 2gymnasiasten unterscheiden sich untereinander weniger, als sich schĂŒler zwischen schulen unterscheiden

        (je nach schultyp variiert im durchschnitt auch die intelligenzleistung- also misst man grĂ¶ĂŸere unterschiede )

    • 3je höher die merkmalsvarianz, desto höher die reliabilitĂ€tsschĂ€tzung

    • (varianz= unterschiedlichkeit. wenn man eine gemischte gruppe testet, ist mehr unterschied zwischen den personen —> dadurch erscheint der test als zuverlĂ€ssiger , als er in einer einheitlichen gruppe (zb nur gymnasiasten ) tatsĂ€chlich ist ) .

  • 2. die reliabilitĂ€t wird ĂŒberschĂ€tzt, weil bei grĂ¶ĂŸerer merkmalsvarianz (zb durch unterschiedliche schultypen) die unterschiede zwischen den personen grĂ¶ĂŸer sind, wodurch der test zuverlĂ€ssiger erscheint, als er es in einer homogeneren zielgruppe ist )


6.3 GĂŒtekriterien

6.3.1 ReliabilitÀt, konfidenzintervalle und kritische differenzen

grĂ¶ĂŸe der teilstichproben


  1. was wird zur schÀtzung der zuverlÀssigkeit bei teilstichproben gesagt ?

  2. welche aussage macht din 33430 zur grĂ¶ĂŸe der teilstichproben ?

  3. was gilt fĂŒr schĂ€tzungen aus kleineren stichproben ?

  4. was sind teilstichproben ?


  • grĂ¶ĂŸe der teilstichproben

    • 1die zuverlĂ€ssigkeit sollte fĂŒr jede interessierende teilstichprobe getrennt geschĂ€tzt werden

    • (die aussage bedeutet, dass man die reliabilitĂ€t (also die messgenauigkeit eines tests) nicht einfach allgemein angeben sollte. stattdessen sollte sie fĂŒr jede relevante untergruppe (zb mĂ€nner, frauen , altersgruppen, schultypen ) eigentlich seperat berechnet werden, weil sie sich zwischen gruppen unterscheiden kann

    • 2DIN 33430 macht keine aussagen zur grĂ¶ĂŸe der teilstichproben

    • (die din norm , die anforderungen an berufsbezogene eigungsdiagnostik stellt, legt keine bestimmte anzahl an personen fest, die in teilstichproben enthalten sein mĂŒssen, um die reliabilitĂ€t zu berechnen)

    • richtwert: im idealfall 400 personen (huber, 1973)

    • (es gibt eine empfehlung aus der fachliteraturm wonach etwa 400 personen aus stichprobengrĂ¶ĂŸe ideal wĂ€ren, um eine verlĂ€ssliche schĂ€tzung der reliabilitĂ€t zu erhalten )

    • 3schĂ€tzungen aus kleineren stichproben

      (hier beginnt eine neue aussageeinheit, die sich mit kleinen gruppen beschÀftigt )

      • 3nicht zwangslĂ€ufig abzulehnen

        (dh auch kleine stichproben können verwendet werden- sie sind nicht automatisch unbrauchbar )

      • 3sie liefern nur eine weniger prĂ€zise schĂ€tzung

        (der nachteil kleiner stichproben ist aber, dass die genauigkeit der schÀtzung leidet- die reliabilitÀtsangaben sind dann unsicherer oder schwankender.

      • 4(teilstichproben sind untergruppen einer grĂ¶ĂŸeren stichprobe, die bestimmte merkmale gemeinsam haben. man verwendet sie zb um die zuverlĂ€ssigkeit (reliabilitĂ€t) eines tests getrennt fĂŒr verschiedene gruppen zu ĂŒberprĂŒfen. zb wenn man einen eignungstest fĂŒr schĂŒler durchfĂŒhrt könnten teilstichproben sein : nur gymnasien, nur realschĂŒler.. , nur schĂŒler eines bestimmten alters , geschlechts ) laut folie sollte fĂŒr jede interessierenden teilstichprobe die zuverlĂ€ssigkeit getrennt geschĂ€tzt werden, weil sich die testgĂŒtekriterien je nach gruppe unterscheiden können )


6.3 GĂŒtekriterien

6.3.1 ReliabilitÀt, Konfidenzintervalle und kritische Differenzen

Berechnung kritischer Differenzen

  1. wozu dient die berechnung kritischer differenzen in der eignungsdiagnostik?

  2. was muss bei der berechnung kritischer differenzen berĂŒcksichtigt werden ?

  3. was sagt uns die kritische differenz aus ?

  4. wie sieht die formel aus , rechne mit beispiel

  • 1Berechnung kritischer differenzen

    (wie groß muss der unterschied zwischen zwei testwerten sein, damit man sagen kann, dass er wirklich beutsam ist- also nicht nur durch zufall entstanden ? man berechnet also eine “kritische differenz” = einen schwellenwert, ab dem man sagen darf: ja, diese person ist tatsĂ€chlich besser als die andere )

    • 1in der eignungsdiagnostik mĂŒssen wir kandidat*innen miteinander vergleichen : wer hat den höheren wert im intelligenztest, person A oder B?

      (in auswahlverfahren (zb bei bewerbungen ) soll geklÀrt werden, welche person einen höheren testwert hat. man vergleicht also personen direkt miteinander)

    • 2Messfehler muss berĂŒcksichtigt werden

      (man darf nicht nur den unterschied der zahlen vergleichen, sondern muss auch den statistischen messfehler mit einbeziehen, da testergebnisse nie ganz exakt sind)

    • 3die kritische differenz sagt uns zu welchem ausmaß unterschiede zu einer gewissen wahrscheinlichkeit durch zufall bedingt sind

      (die “kritische differenz” ist ein schwellenwert. ist der unterschied zwischen zwei testwerten kleiner als dieser wert, dann ist der unterschied statistisch nicht bedeutsam (er könnte zufĂ€llig sein )

      (der schwellenwert also die “kritische differenz” ist der grenzwert, ab dem ein unterschied zwischen zwei testwerten statistisch signifikant ist- also nicht mehr zufĂ€llig sein kann. wenn der unterschied kleiner ist als dieser schwellenwert , ist er nicht bedeutsam. er hĂ€ngt ab von: 1.der varianz (VAR(X): varianz der testwerte. das ist ein maß dafĂŒr, wie stark die testergebnisse insgesamt streuen. wenn die werte sehr weit auseinanderliegen, ist die varianz groß. mehr streuung —> grĂ¶ĂŸere unsicherheit —> höhere kritische differenz.

      (2.REL= ReliabilitĂ€t: das ist ein maß fĂŒr die zuverlĂ€ssigkeit des tests. sie zeigt, wie genau und stabil ein test misst. je höher die reliabilitĂ€t , desto kleiner ist die kritische differenz , weil man dem testergebnis mehr vertrauen kann.

      bei niedriger reliabilitĂ€t muss der unterschied grĂ¶ĂŸer sein, um bedeutsam zu sein)

    • (3. 1,96=sicherheitsfaktor fĂŒr 95% wahrscheinlichkeit:

      der wert 1,96 kommt aus der statistik und bedeutet, dass man mit 95% sicherheit sagen kann: der unterschied ist nicht durch zufall entstandenn” je höher dieser sicherheitsfaktor , desto grĂ¶ĂŸer wird die kritische differenz. )

      (viel streuung + wenig reliabilitĂ€t + hohe sicherheit = grĂ¶ĂŸere kritische differenz nötig, um unterschiede als echt zu bewerten )

    • formel

    • (mit dieser formel berechnet man den wert, ab dem ein unterschied als statistisch bedeutsam gelten kann )

    • beispiel: person a: IQ= 125 , Person B: IQ= 122

    • kritische differenz entspricht 9.4 IQ-Punkten

    • dh Person A liegt innerhalb des konfidenzintervalls von person B

    • schlussfolgerung: A ist nicht signifikant besser als B

  • (beispiel erklĂ€rt: Person A: IQ 125,

    Person B IQ 122

    das sieht erstmal so aus, als sei person A besser als B weil 125 grĂ¶ĂŸer ist als 122

    aber: die kritische differenz (also der schwellenwert) liegt bei 9,4 punkten. dh: damit man sicher sagen kann , dass A besser ist als B, mĂŒsste der unterschied mindestens 9,4 punkte betragen. tatsĂ€chlich ist der unterschied nur 3 punkte. das liegt unter der kritischen differenz.

    fazit / schlussfolgerung: A ist nicht signifikant besser als B.)

(formel: zb varianz ist 5 und reliabilitĂ€t 0.7 (reliabilitĂ€t kann nicht 7 sein, weil das wĂ€re dann grĂ¶ĂŸer als 1 und das ist unmöglich bei einer reliabilitĂ€t!) merken!

6.3 GĂŒtekriterien

6.3.1 ReliabilitÀt, Konfidenzintervalle und kritsiche differenzen

klassifikation von kandidat*innen


  1. welche art von persönlichkeitstets arbeiten mit kategorialen persönlichkeitsmerkmalen und wie werden kandidat*innen darin eingeteilt ?

  2. was muss bei der einteilung in klassen anhand von testergebnissen beachtet werden ?

  3. wie wird die reliabilitĂ€t von klassifikationen geschĂ€tzt und welches maß kann verwendet werden ?


  • klassifikation von kandidat*innen

    • 1manche tests arbeiten mit kategorialen persönlichkeitsmerkmalen (sog. typentests, wie bspw. Myers-Briggs-Type-Indicator)

      (kategoriale merkmale wie in typentests: bei typentests wird die persönlichkeit nicht als ein kontinuum (eine skala) dargestellt, sondern als feste kategorie (typ) . beispeil: der Myers-Briggs-Type Indicator (MBTI) teilt personen nicht einfach in “mehr oder weniger introvertiert ein sondern sagt : du bist entweder “introvertiert (I) oder extravertiert (E) - kein zwischenwert. daraus ergibt sich zb. ein typ wie “ISTJ) (wichtig: in der persönlichkeitspsychologie sind viele merkmale eigentlich kontinuierlich (zb introversion / extraversion). ein kontinuerliches merkmal bedeutet es kann viele abstufungen annehmen nicht nur “entweder -oder”, sondern alles dazischen. bsp extraversion: du bist nicht nur entweder extravertiert oder introvertoert sondern du kannst irgendwo auf einer skala dazwischen liegen, eher introvertiert, sehr introvertiert, neutral
 )

      aber typentests vereinafchen das und sagen: du wirst einem vom wenigen typen zugeordnet. das nennt man kategoriale einteilung- unabhÀngig davon, dass das merkmal (zb introversion ) theoretisch ein kontinuum ist ) (das merkmal ist ein kontinuum - wie eine linie oder skala, auf der man stufenlos verschiedene werte annehmen kann. bei typentests eben nicht )

    • 2einteilung von kandidat*innen in verschiedenen klassen

      (wenn ein test menschen in klassen einteilt, muss statistisch belegt wrrden, dass diese klasseneinteilung valide ist- also nicht willkĂŒrlich. das geschieht zb mit methoden wie : clusteranalyse —> ĂŒberprĂŒft, ob sich natĂŒrliche gruppen in den daten bilden ,

      mixed-rasch-modelle—>erweitertes IRT-Modell, das unterschiede zwischen gruppen erlaubt )

    • 2anzahl der aus einem testergebnissen resultierenden klassen muss anhand statistischer verfahren nachgewiesen werden

      • 2clusteranalyse

      • 2mixed-rasch-modelle

    • reliabilitĂ€tsschĂ€tzung fĂŒr klassifikationen / typentests

    • (auch wenn jemand in eine klasse eingeteilt wird, stellt sich die frage: wĂŒrde dieselbe person beim nĂ€chsten mal wieder in dieselbe klasse fallen ? diese stabilitĂ€t der klassifikation wird Ă€hnlich wie reliabilitĂ€t bewertet )

      • 3pendant zur reliabilitĂ€tsschĂ€tzung ist stabilitĂ€t der klassfikation ĂŒber zwei messzeitpunkte hinweg

        (die “reliabilitĂ€t” bei typentests bezieht sich darauf, ob sich die klassifikation ĂŒber die zeit nicht Ă€ndert- also bei einer wiederholten testung stabil bleibt )

      • 3 maß fĂŒr ĂŒbereinstimmung der klassifikation (zb Cohens Kappa )

(um diese stabilitĂ€t bzw. ĂŒbereinstimmung zu messen, wird cohens kappa verwendet- ein statistisches maß, das angibt, wie stark zwei klassifikationen ĂŒbereinstimmen , ĂŒber zufall hinaus )

6.3 GĂŒtekriterien

6.3.2 ValiditÀt

Zentrales GĂŒtekriterium nach DIN 33430 ist die theoretische fundierung eines tests

  1. was versteht man unter validitÀt?

  2. was ist laut DIN 33430 das zentrale gĂŒtekriterium eines tests?

  3. welche anforderungen bestehen an die entwicklung und theoretische fundierung von tests, damit sie als valide gelten ?

  4. wie muss validitÀt nachgewiesen werden und wie wird sie definiert ?


  • 1validitĂ€t

    (validitĂ€t ist eines der wichtigsten gĂŒtekriterien in der testtheorie - sie sagt aus, ob ein test wirklich das misst, was er zu messen vorgibt )

  • 2Zentrales gĂŒtekriterium nach DIN 33430 ist die theoretische fundierung eines tests

    (tests gelten nur dann als valide, wenn sie auf einer klaren psychologischen theorie basieren- also nicht einfach nur erfunden wurden, sondern fachlich fundiert sind )

    • 3theoriegeleitete entwicklung geht klar aus verfahrenshinweisen hervor

      (ein gut entwickelter test enthÀlt verweise darauf, welche theorie ihm zugrunde liegt zb big five bei persönlichkeitstests)

    • 3verankerung der testitems und des testkonzepts in einer psychologischen theorie

      (einzelne fragen (items) und das gesamte testprinzip mĂŒssen sich logisch aus einer psychologischen theorie ableiten )

    • 3definition des nomologischen netztes des konstrukts

      (das nomologische netz beschreibt, wie ein konstrukt (zb intelligenz ) mit anderen konzepten zusammenhĂ€ngt. die testentwicklung muss also auch klĂ€ren, wie das konstrukt in ein grĂ¶ĂŸeres theoretisches system eingebettet ist )

    • 4validitĂ€t muss anhand empirischer und konzeptueller argumente und daten belegt werden (

      —>verfahrenshinweise)

      (es reicht nicht nur, zu behaupten, dass ein test gĂŒltig ist- man muss das durch forschung, daten und argumente belegen )

  • 4validitĂ€t: Ausmaß, in dem interpretationen von eignungsdiagnostischen informationen zutreffend sind

(der kern der validitÀt ist, dass die aussagen , die man aus einem test ableitet, auch wirklich stimmen )

6.3 GĂŒtekriterien

6.3.2 ValiditÀt

  1. worum gehts bei der inhaltsvaliditÀt?

  2. was versteht man unter kriteriumsvaliditÀt

  3. was sind zb kriterien fĂŒr eignungsbeurteilungen

  4. welche anforderungen stellt die din 33430 an die verwendung von kriterien in der eignungsdiagnostik, und welche richtlinien mĂŒssen dabei beachtet werden ?

  5. was bedeutet konstruktvaliditÀt und worauf muss man dabei laut DIN 33430 besonders achten ?

  • 1InhaltsvaliditĂ€t

    (es geht darum , ob die inhalte des tests das zu messende konstrukt wirklich vollstÀndig abdecken. bsp wenn du teamfÀhigkeit messen willst, sollten die items auch verschiedene aspekte davon ansprechen zb kommunikation , kooperation , konfliktlösung . aber je breiter du das konstrukt badeckst, desto unreliabler kann der test werden (weil die items weniger miteinander korrelieren . das ist das spannungsfeld konstruktabdeckung vs reliabilitÀt )

    • 1spannungsfeld Konstruktabdeckung vs reliabilitĂ€t bei itemselektion

  • 2kriteriumsvaliditĂ€t

    (hier prĂŒft man , ob die testergebnisse mit einem konkreten Ă€ußeren kriterium zusammenhĂ€ngen zb erfolg im beruf oder schule. beispiel fĂŒr kriterien fĂŒr eignungsbeurteilungen:

    • 3kriterien fĂŒr eignungsbeurteilungen: vorgesetztenbeurteilungen, erreichte hierarchiestufe, verkaufszahlen, jahresverdienst

    • 4(din 2016 sagt worauf man bei den kriterien achten sollte: richtlinien zu kriterien

      (Zb was sind typische Kriterien fĂŒr Leistungserfolg, Verkaufszahlen im Betrieb anschauen zb sind erfolgskriterien , und die DIN sagt es ist sinnvoll mehrere Kriterien zu verwenden, weil jedes Kriterium hat auch SchwĂ€chen , jedes Kriterium sollte sinnvoll den Berufserfolh zb abbilden K)

      • 4mehrere kriterien verwenden

      (man soll nicht nur ein einzelnes kriterium nehmen sondern mehrere, um die eignung sicher zu beurteilen. das erhöht die aussagekraft und die objektivitÀt der beurteilung )

      • 4referenzgruppe sollte im testmanual angegeben sein

        (es muss klar sein , auf welche zielgruppe zb schĂŒler, fĂŒhrungskrĂ€fte ) sich die testergebnisse beziehen. das steht im testmanual ,damit man die ergebnisse richtig einordnen kann )

      • 4explizite hypothesen ĂŒber vermutete zusammenhĂ€nge

        (es sollen im vorfeld klare annahmen formuliert werden zb höhere intelligenz hĂ€ngt mit höherem beruflichen erfolg zusammen ) so kann man spĂ€ter ĂŒberprĂŒfen, ob der zusammenhang wirklich besteht )

      • 4empirische nachweise ĂŒber die angemessenheit des kriteriums

        (es muss durch daten gezeigt werden, dass das kriterium (zb jahresverdienst oder vorgesetztenurteil) wirklich geeignet ist, um eignung zu beurteilen. man darf also nicht einfach irgendwas als kriterium nehmen )

  • 5konstruktvalidtĂ€t

  • (hier schaut man passt der test zum theoretischen konstrukt? und: wie gut grenzt er sich von anderen konstrukten ab ? man achtet dabei auf: konvergente validitĂ€t: hohe korrelation mit tests, die etwas Ă€hnliches mesen, diskriminante validitĂ€t= geringe korrelation mit tests, die etwas anderes messen

    alles soll zusammen in ein nomologisches netz passen (eine art theorie-netzt, in dem das konstrukt sinnvoll eingebettet ist )

    • 5beachtung angrenzender bzw. ĂŒberlappender konstrukte (—>konvergente und diskriminante validitĂ€t , nomologisches netz)

(konvergente validitÀt = hoch ist gut , diskriminante validitÀt= hoc isz schlecht)

K: alle Aspekte des Konstrukts mĂŒssen abgedeckt werden anhand der Items

= InhaltsvaliditÀt

6.3 GĂŒtekriterien

6.3.2 ValiditÀt


Genrelle anmerkungen zur gĂŒltigkeit

  1. wie alt dĂŒrden gĂŒltigkeitsnachweise laut din 2016 maximal sein ?

  2. wofĂŒr kann die gĂŒltigkeit eines verfahrens gelten und was ist dabei zu beachten ?

  3. was muss bei der beurteilung der nachweise zur validitÀt beachtet werden ?


  • Generelle Anmerkungen zur GĂŒltigkeit

  • 1GĂŒltigkeitsnachweise nicht Ă€lter als 8 jahre

    (nach din norm sollen nachweise ĂŒber die gĂŒltigkeit eines tests nicht Ă€lter als 8 jahre sein. warum ? weil sich die welt und das verhalten der menschen verĂ€ndern- tests sollen aktuell bleiben )

  • 2gĂŒltigkeit fĂŒr das ganze verfahren vs. nur fĂŒr manche messwerte ? —-> verfahrenshinweise

    (wenn ein psychologisches testverfahren verwendet wird zb test mit mehreren skalen wie teamfĂ€higkeit , leistungsbereitschaft und belastbarkeit ist entscheidend: wurde das gesamte verfahren auf validitĂ€t getestet, also wurde gezeigt , dass alle skalen gemeinsam das messen, was sie messen sollen ?ODER wurde nur eine oder einzelne skalen auf validitĂ€t geprĂŒft zb nur die skala teamfĂ€higkeit ? was bedeutet das konkret? auf validitĂ€t getestet heißt es wurde empirisch ĂŒberprĂŒft ob die ergebnisse der skala tatsĂ€chlich mit dem verhalten oder dem merkmal ĂŒbereinstimmen , das sie messen soll) wie kann es sein das nur eine skala getestet wurde? )=das kommt oft vor wenn zb ein test viele skalen enthĂ€lt, aber die validitĂ€tsstudie nur fĂŒr einen teil gemacht wurde- zb wurde nur ĂŒberprĂŒft , ob die skala teamfĂ€higkeit mit fremdbeurteilungen durch vorgesetzte zusammenhĂ€ngt. andere skalen wir belastbarkeit oder leistungsbereitschaft wurden vielleicht nicht validiert also nicht getestet ob sie wirklich diese eigenschaften messen dh also nur fĂŒr diese eine skala gibt es wissenschaftliche belege, dass sie das gewĂŒnschte merkmal abbildet. fĂŒr die anderen fehlt dieser nachweis.

    was sind verfahrenshinweise: verfahrenshinweise zb im testmanual geben genau an, welche teile des verfahrens validiert wurden, und fĂŒr welche messwerte die gĂŒltigkeit empirisch belegt ist )

  • 3bei der beurteilung der nachweise muss kontext beachtet werden

    (es reicht nicht einfah zu schauen, ob es einen validitÀtsnachweis gibt. man muss immer den anwendungskontext betrachten zb wo, wie und warum der test gemacht wurde )

  • jetzt folgen beispiele fĂŒr kontextabhĂ€nginge einflĂŒsse:

    • 3auswahlsituation vs bearbeitung daheim bzw. “zum spaß”

      (macht jemand den test in einer ernsten auswahlprĂŒfung , sind die ergebnisse anders als bei lockerer online-selbstanwendung daheim. das beeinflusst die gĂŒltigkeit. )

    • 3sozial erwĂŒnschtes antworten wirkt sich auf konstruktgĂŒltigkeit aus

      (menschen geben manchmal antworten , die “gut dastehen lassen” sollen, statt ehrlich zu antworten. das nennt man sozial erwĂŒnschtes antworten- und es kann die gĂŒltigkeit eines tests stark verzerren )

    • 3berĂŒcksichtigung von grundquote und selektionsquote

      (diese beiden quoten beeinflussen die interpretation von testergebnissen: grundquote: anteil der geeigneten personen in der gesamtquote

      selektionsquote: anteil der personen die man am ende auswÀhlt. je nach zusammensetzung der gruppe Àndert sich die aussagekraft eines tests)


6.3 GĂŒtekriterien

6.3.2 ValiditÀt

beachtung von korrekturen bei der interpretation

  1. was muss bei der interpretation von korrelationen beachtet werden ?

  2. was bedeutet varianzeinschrÀnkung und wie wirkt sie sich aus ?

  3. was ist eine mögliche lösung bei varianzeinschrÀnkung ?


  • beachtung von korrekturen bei der interpretation

    (In der psychologischen Diagnostik werden statistische Korrekturen (z. B. bei Korrelationen) vorgenommen, um Verzerrungen zu korrigieren.

    Eine Korrelation beschreibt den Zusammenhang zwischen zwei Merkmalen.

    Beispiel: Wenn man untersucht, ob es einen Zusammenhang zwischen Intelligenz und Berufserfolg gibt, berechnet man die Korrelation zwischen Intelligenztestwerten und GehÀltern.

    → Ist die Korrelation z. B. 0,60, bedeutet das: Je höher die Intelligenz, desto höher tendenziell das Gehalt.

    Wenn aber z. B. nur sehr Ă€hnliche Personen getestet wurden (z. B. nur Bewerber mit sehr guten Schulnoten), dann ist die Varianz eingeschrĂ€nkt – es gibt weniger Unterschiede zwischen den Personen.

    → Das kann die Korrelation kĂŒnstlich verkleinern, also z. B. statt 0,60 nur 0,30 zeigen.

    Deshalb gibt es Korrekturformeln, mit denen man die ursprĂŒngliche Korrelation „hochrechnet“.

    Aber: Diese korrigierten Korrelationen darf man nicht einfach ohne Hinweis interpretieren.

    Man muss also beachten, ob und wie die Werte korrigiert wurden, sonst zieht man falsche Schlussfolgerungen.)


    • 1oft werden korrelationen statistisch aufgewertet oder korrigiert

      (man verÀndert korrelationen (zusammenhÀnge zwischen zwei werten ) rechnerisch, zum beispiel um verzerrungen zu bereinigen )

    • 1dies muss bei der interpretation beachtet werden

      (wenn korrelationen verĂ€ndert wurden, muss man das bei der auswertung und bewertung der ergebnisse berĂŒcksichtigen- sonst könnten sie falsch verstanden werden )

    • 2varianzeinschrĂ€nkung

      (das bedeutet, dass die streuung (unterschiedlichkeit) der messwerte verringert wird zb weil nur noch bestimmte personen getestet werden )

      • 2beispiel: mehrstufiger bewerbungsprozess

      • ein auswahlverfahren , bei dem bewerber*innen in mehreren runden aussortiert werden )

      • 2auf jeder stufe wird die bewerberzahl reduziert

        (nach jeder runde bleiben weniger personen ĂŒbrig- es wird also immer selektiver )

      • 2varianz der messwerte reduziert sich

        (wenn nur noch Ă€hnlich gute bewerber*innen ĂŒbrig sind, gibt es weniger unterschiede in den testergebnissen )

      • 2korrelationskoeffizienten sinken, kriteriumsvaliditĂ€t wird unterschĂ€tzt

        (weil es weniger unterschiede gibt, erscheint der zusammenhang mit dem kriterium (zb berufserfolg) kleiner, als er in wahrheit ist )

    • 3lösung: korrekturformeln (—>sowohl korrigierte als auch unkorrigierte werte abgeben!)

(man kann diese verzerrung mathematisch ausgleichen. dabei ist wichtig, immer beide werte mitzuteilen, den korrigierten und den ursprĂŒnglichen)


6.3 GĂŒtekriterien

6.3.2 ValiditÀt

Beachtung von korrekturen bei der interpretation


  1. was gilt grundsĂ€tzlich fĂŒr messgenauigkeit in der eignungsdiagnostik?

  2. was passiert mit der korrelationshöhe durch messfehler?

  3. wie kann man die korrelation gegen den einfluss von messfehlern korrigieren ?

  4. was versteht man unter minderungskorrektur ?


beachtung von korrekturen bei der interpretation

(In der psychologischen Diagnostik werden statistische Korrekturen (z. B. bei Korrelationen) vorgenommen, um Verzerrungen zu korrigieren.

Eine Korrelation beschreibt den Zusammenhang zwischen zwei Merkmalen.

Beispiel: Wenn man untersucht, ob es einen Zusammenhang zwischen Intelligenz und Berufserfolg gibt, berechnet man die Korrelation zwischen Intelligenztestwerten und GehÀltern.

→ Ist die Korrelation z. B. 0,60, bedeutet das: Je höher die Intelligenz, desto höher tendenziell das Gehalt.

Wenn aber z. B. nur sehr Ă€hnliche Personen getestet wurden (z. B. nur Bewerber mit sehr guten Schulnoten), dann ist die Varianz eingeschrĂ€nkt – es gibt weniger Unterschiede zwischen den Personen.

→ Das kann die Korrelation kĂŒnstlich verkleinern, also z. B. statt 0,60 nur 0,30 zeigen.

Deshalb gibt es Korrekturformeln, mit denen man die ursprĂŒngliche Korrelation „hochrechnet“.

Aber: Diese korrigierten Korrelationen darf man nicht einfach ohne Hinweis interpretieren.

Man muss also beachten, ob und wie die Werte korrigiert wurden, sonst zieht man falsche Schlussfolgerungen.)


4minderungskorrektur

(in der eignungsdiagnostik wird oft untersucht wie stark zwei merkmale zusammenhĂ€ngen zb intelligenz und berufserfolg. dieser zusammenhang wird statistisch als korrelation ausgedrĂŒckt. korrelation bedeutet: je höher die ausprĂ€gung in merkmal A desto höher (oder niedriger) tendenziell auch in merkmal B. aber: wenn die tests , mit denen diese merkmale gemessen werden, messfehler enthalten, wird die gemessene korrelation geringer ausfallen als sie in wirklichkeit ist - man sagt , sie wird verwaschen oder gedeckelt. die minderungskorrektur ist ein verfahren, das diesen einfluss von messfehlern ausgleicht, um die “wahre” korrelation zwischen zwei merkmalen besser schĂ€tzen zu können. je nach methode spricht man von einfacher oder doppelter minderungskorrektur - je nachdem, ob einer oder beide tests messfehler haben )

  • 1eine perfekt genaue messung gibt es in der eignunsgdiagnostik nicht

    (in der eignungsdiagnostik ist jede messung mit fehlern behaftet- zb durch unklare items, mĂŒdigkeit oder missverstĂ€ndnisse. eine fehlerfreie =(perfekte) messung existiert nicht )

  • 2korrelationshöhe wird durch messfehler verwĂ€ssert (“gedeckelt”)

  • (der messfehler senkt die beobachtbare korrelation: dh selbst wenn zwei merkmale in wirklichkeit stark zusammenĂ€ngen, sieht die gemessene korrelation kleiner aus , weil der messfehler den zusammenhang verdeckt bzw gedeckelt hat )

  • 3korrektur der korrelations-minderung durch messfehler: einfache oder doppelte minderungskorrektur

(man kann die verfÀlschte korrelation rechnerusch korrigieren, um heruaszufinden, wie stark der zusammenhnag ohne messfehler wÀre. dabei gibt es zwei varianten: einfache minderungskorrektur: nur ein merkmal (zb der test ) wird auf seinen messfehler hin korrigiert. ) doppelte minderungskorrektur: beide merkmale (zb test und kriterium ) werden korrigiert.

6.3 GĂŒtekriterien

6.3.3 ObjektivitÀt

  1. was beschreibt objektivitÀt laut Definition nach din 2016?

  2. was ist ein kriterium fĂŒr ein objektives testverfahren in hinblick auf die diagnostiker*innen ?

  3. welche arten von objektivitÀt werden unterschieden und was sagen sie aus ?


  • 1grad, in dem die ergebnisse eines verfahrens unabhĂ€ngig von eignungsdiagnostiker*in bzw. irrelevanten einflĂŒssen sind

    (objektivitĂ€t beschreibt, wie wenig das ergebnis eines tests davon beeinflusst wird, wer den test durchfĂŒhrt oder auswertet. ein guter test sollte nicht abhĂ€ngig von der person sein, die ihn betreut, sondern immer die gleichen resultate liefern, egal wer beteiligt ist )

  • 2unterschiedliche diagnostiker*innen sollen mit einem testverfahren zu gleichen ergebnissen kommen

    (wenn mehrere fachleute denselben test verwenden , sollten sie zu denselben ergebnissen kommen- zb bei bewertung einer leistung oder auswahlentscheodung. das ist ein zeichen dafĂŒr, dass der test objektiv ist und nicht von der meinung oder auslegung einzelner abhĂ€ngt )

  • 3drei arten von objektivitĂ€t:

    (es gibt 3 spezifische formen, wie objektvitĂ€t ĂŒberprĂŒft wird:

  • durchfĂŒhrungsobjektvitĂ€t

    (der test wird fĂŒr alle personen gleich durchgefĂŒhrt (zb gleiche anweisungen, gleiche bedingungen )

  • auswertungsobjektivitĂ€t

    (die auswertung erfolgt eindeutig und regelgeleitet , sodass zwei personen zum gleichen ergebnis kommen )

  • interpretationsobjektivitĂ€t

    (die bedeutung der ergebnisse wird einheitlich interpretiert -also unabhÀngig vom urteil einzelner diagnostiker*innen )


6.3 GĂŒtekriterien

6.3.3 ObjektivitÀt

DurchfĂŒhrungsobjektivitĂ€t

  1. was schreibt die DIN zur DurchfĂŒhrungsobjektivitĂ€t vor ?

  2. was gehört zur standardisierung des testungsprozesses ?

  3. was muss bei computertestungen beachtet werden , um durchfĂŒhrungsobjektivitĂ€t sicherzustellen ?

durchfĂŒhrungsobjektivitĂ€t:

  • 1DIN macht klare vorgaben fĂŒr verfahrens- und handhabungshinweise

    (die DIN norm schreibt genau vor, wie das testverfahren durchgefphrt werden soll. zie ist, dass alle testpersonen unter denselben bedingungen getestet werden, damit keine verzerrung entsteht )

  • 2standardisierung des testungsprozesses

    (es geht darum den gesamten ablauf beim testen einheitlich zu gestalten, damit alle personen dieselbe bedingungen erleben, egal , wer den test durchfĂŒhrt)

  • unterpunkte der standardisierung)

    • 2klare beschreibung aller ablĂ€ufe

      (es wird festgelegt, was wann und wie im test passiert , um willkĂŒr und unterschiede zu vermeiden )

    • 2mĂŒndliche aufgabeninstruktionen

      (auch gesprochene anweisungen (zb bitte lösen sie die aufgabe jetzt ) mĂŒssen klar geregelt sein, damit jeder dieselben infos bekommt)

    • 2materialgestaltung

      (die verwendeten materialien (zb testhefte, bilder, gegenstĂ€nde ) mĂŒssen gleich aufgebaut und gestaltet sein, damit sie keine ungewollten effekte hervorrufen )

    • K : = möglichs ihst wenige MissverstĂ€ndnisse

      gibt es das Problem nicht, der macht alles immer auf die selbe art und Weise,zb prĂ€sentieren der Items , Auswertung undso dafĂŒr muss systemstavilitĂ€t gewĂ€hrleistet sind )

    • 2regeln zum umgang mit nachfragen

      (es muss klar geregelt sein, wie diagnostiker*innen auf rĂŒckfragen von testpersonen reagieren dĂŒrfen zb dĂŒrfen sie keine hinweise zur richtigen lösung geben )

  • 3bei computertestungen

    (dieser punkt beschreibt zusĂ€tzliche regelungen speziell fĂŒr computergestĂŒtzte tests:

  • unterpunkte dazu:

    • 3prĂŒfung von hardware- und softwareanforderungen des diagnostischen verfahrens

      (es muss vorher sichergestellt werden, dass der computer / das system alle technischen voraussetzungen erfĂŒllt ( zb richtige bildschrimauflösung, programm lĂ€uft stabil)

    • 3systemstablitĂ€t / funktionsfĂ€higkeit auf betriebssystemplattformen sicherstellen

      (der test darf auf keinem computer abstĂŒrzen . es muss zuverlĂ€ssig laufen, egal ob windows , mac etc)

    • 3instruktion technischer besonderheiten des verfahrens

      (wenn es technische besonderheiten gibt (zb spezielles antwortsystem) mĂŒssen diese genau erklĂ€rt werden, damit niemand einen nachteil hat )

6.3 GĂŒtekriterien

6.3.3 ObjektivitÀt

DurchfĂŒhrungsobjektivitĂ€t

  1. welche drei durchfĂŒhrungsmodi werden bei online -testungen unterschieden ?

  • DurchfĂŒhrungsobjektivitĂ€t

    • 1bei online-testungen werden drei durchfĂŒhrungsmodi unterschieden

      (bei online tests gibt es drei unterschiedliche arten , wie diese durchgefĂŒhrt werden können, je nachdem wie stark die durchfĂŒhrung kontrolliert ist )

    • K die ObjektivitĂ€t kann eingeschrĂ€nkt sein wenn
 durchfĂŒhrungsobjektivitĂ€t wird eingeschrĂ€nkt wenn zb Testung von Zuhause durchgefĂŒhrt wird

    • 1geschĂŒtzte testung

      (dies ist die sicherste und strengste form der durchfĂŒhrung:)

      • in einem testzentrum

      • (die testperson absolviert den test vor ort, also nicht zuhause)

      • aufsichtsperson anwesend

        (eine person ĂŒberwacht ob der test korrekt und ohne tĂ€uschung durchgefĂŒhrt wird)

    • 1teilgeschĂŒtzte testung

      (diese variante ist ein mittelweg zwischen völliger kontrolle und gar keiner )

      • kann auch von zuhause durchgefĂŒhrt werden

        (die testperson darf den test außerhalb eines testzentrums absolvieren.)

      • durch benutzernamen und password authentifiziert

        (die testperson muss sich mit zugangsdaten anmelden- das stellt zumindest minimal sicher, dass die richtige person teilnimmt )

    • 1ungeschĂŒtzte testung

      (diese form hat keinerlei sicherheitsvorkehrungen )

      • keine art des schutzes und der authentifizierung

        (es gibt keine ĂŒberprĂŒfung der identitĂ€t oder regeln fĂŒr die durchfĂŒhrung - jede*r kann teilnehmen ,ohne kontrolle )

6.3 GĂŒtekriterien

6.3.3 ObjektivitÀt

  1. wovon hĂ€ngt die auswahl des durchfĂŒhrungsmodus ab ?

  2. wann ist ein ungeschĂŒtzter testdurchfĂŒhrungsmodus angemessen ?

  3. was ist ein nachteil teilgeschĂŒtzter testung?

  4. wozu werden teil- oder ungeschĂŒtzte testungen v.a eingesetzt ?

  5. was sind beispiele fĂŒr verletzungen der prozessstandardisierung ?

  • 1auswahl des durchfĂŒhrungsmodus

    (alle durchfĂŒhrungsmodi in dieser folie beziehen sich auf online testungen. die aussagen beziehen sich ganz allgemein auf eignungsdiagnostische verfahren- dh: diese regeln zur durchfĂŒhrungsobjektivitĂ€t gelten fĂŒt eignungstests (zb berufsauswahl), intelligenztests (wenn sie fĂŒr auswahl oder diagnostik verwendet werden), leistungstests, persönlichkeitstests , screenings, computergestĂŒtzte tests

  • K wie man das macht hĂ€ngt vom Testikel ab

    • 1hĂ€ngt vom testungsziel ab

      (die entscheidung wie ein test durchgefĂŒhrt wird (geschĂŒtzt, teilgeschĂŒtzt oder ungeschĂŒtzt hĂ€ngt davon ab, wofĂŒr der test verwendet wird. beispiel: wenn es um eine erste grobe auswahl geht (screening) reicht oft eine ungeschĂŒtzte durchfĂŒhrung. wenn es aber um entscheidende personalauswahl geht, ist eine geschĂŒtzte testung erforderlich, bei der klare bedingungen herrschen (zb im testzentrum mit aufsicht )

    • 2ungeschĂŒtzt ist angemessen bei einem screening (ziel des ersten auswahlschrittes ist selbstselektion )

      (bei einem screening geht es darum, dass ungeeignete personen sich selbst aussortieren. in so einem fall reicht ein ungeschĂŒtzter test, weil es nur eine grobe vorentscheidung ist. beispiel: eine firma möchte nur bewerber mit sehr guten englischkenntnissen-also macht sie einen offenen online-test. wer dort scheitert, bewirbt sich erst gar nicht weiter )

    • 3teilgeschĂŒtzt

      (das ist ein mittelweg : man kann den test zwar von zu hause machen, aber man braucht zb einen zugangscode oder ein passwort. das stellt zumindest gewÀhrleistet, dass die person autorisiert ist, aber eine vollstÀndige kontrolle wie im testzentrum fehlt)

      • 3unklare personenidentitĂ€t , da der test auch von freunden bearbeitet werden kann, höhere manipulierbarkeit , einschrĂ€nkung der durchfĂŒhrungsobjektivitĂ€t

        (bei teilgeschĂŒtzter oder ungeschĂŒtzter testung ist nicht immer klar, ob die getestete person wirklich selbst antwortet. so kann zb ein freund helfen oder sogar ganz ĂŒbernehmen. das beeintrĂ€chtigt die durchfĂŒhrungsobjektivitĂ€t, weil das verfahren nicht mehr unabhĂ€ngig von Ă€ußeren einflĂŒssen ist )

      • 4v.a zu screening-zwecken

        (gerade bei screening-verfahren , wo es erstmal nur darum geht, eine grobe vorauswahl zu treffen, wird oft auch ungeschĂŒtzte oder teilgeschĂŒtzte durchfĂŒhrung gesetzt. das spart aufwand und kosten , ist aber nur dann sinnvoll, wenn die ergebnisse nicht fĂŒr finale entscheidungen verwendet werden )

  • 5verletzungen der prozessstandardisierung

    (wenn der ablauf des tests nicht fĂŒr alle gleich ist, dann leidet die objektivitĂ€t . beispiele fĂŒr solche verletzungen sind:

  • K das kann immer mal wieder auftreten

    • 5bspw. lösungsirrelevantes lob oder verstĂ€rkung durch nicken kann einflĂŒsse auf die leistung der kandidaten haben

      (wenn eine testleitung zb unbewusst positive rĂŒckmeldung gibt (gut gemacht”) oder zustimmendes nicken kann das die leistung steigern. das bedeutet: die ergebnisse hĂ€ngen nicht nur von den fĂ€higkeiten, sondern auch von Ă€ußeren faktoren ab —>objektivitĂ€t leidet. )

    • 5absichtliche / ubabsichtliche hilfestellungen (zb aus sympathie)

    • (wenn testleiter zb aus sympathie mehr erklĂ€rt oder hinweise gibt (bewusst oder unbewusst) , werden ergebnisse verfĂ€lscht. auch das senkt die objektivitĂ€t , weil die leistung nicht mehr nur vom kandidaten abhĂ€ngt. )

    • 5vergleich mit vergleichsstichprobe nicht mehr möglich

      (wenn der ablauf nicht standardisiert war, kann man die ergebnisse nicht fair mit anderen vergleichen. bsp: wenn eine person hilfe bekommt und eine andere nicht, sind ihre werte nicht mehr gleichwertig. das verfÀlscht die vergleichbarkeit mit normwerten oder vergleichsgruppen.)

    • K zb kein nicken weil man unbeaufsichtigt Hilfestellung gibt Richtung lösungshinweise

(die auswahl wie ein test durchgefĂŒhrt wird, hĂ€ngt stark vom ziel der testung ab. es gibt dafĂŒr 3 durchfphrungsmodi bei online-testungen:

geschĂŒtzte testung: diese erfolgt in einem testzentrum, unter aufsicht, damit niemand schummeln oder sich helfen lassen kann. sie eignet sich besonders fĂŒr entscheidende testphasen , in denen höchste objektivitĂ€t und sicherheit gefordert ist.

  1. teilgeschĂŒtzte testung= diese wird zb von zu hause durchgefĂŒhrt, aber es gibt eine gewisse kontrolle, etwa ĂŒber benutzernamen und passwort. sie ist eine kompromisslösung , wenn nicht vollstĂ€ndig ĂŒberwacht werden kann, aber dennoch etwas sicherheit nötig ist .

  2. ungeschĂŒtzte testung: diese erfolgt ohne jede kontrolle, also ohne authentifizierung oder aufsicht. das kann zb sinnboll sein bei einem screening wo es nur darum geht , dass sich ungeeignete personen selbst aussortieren. in diesem fall wird die geringe objektivitĂ€t in kauf genommen, weil der test noch keine bindende entscheidung begrĂŒndet.

fazit: je nachdem, ob man nur eine vorauswahl treffen oder eine bindende entscheidung fÀllen will, ist einer dieser modi angemessen. deshalb hÀngt die wahl des modus vom testziel ab )

6.3 GĂŒtekriterien

6.3.4 normen und ergebnisrĂŒckmeldung

normorientierte diagnostik

  1. welche 3 anforderungen stellt DIN 2016 an vergleichsstichproben in der normorientierten diagnostik?

  2. was ist die grundlage fĂŒr normorientierte diagnostik ?

  3. was bedeutet normorientierte diagnostik?

  4. Was zeigt die Abbildung

  • 3normorientierte diagnostik :

    (dabei werden die ergebnisse einer getesteten person mit denen einer vergleichsgruppe verglichen. es geht also nicht darum, ob jemand ein bestimmtest kriterium erfĂŒllt sondern wie gut oder schlecht jemand im vergleich zu anderen abschneidet. )

  • —>antwort 3: vergleichs- bzw normstichprobe (normorientierte diagnostik)

    • 2normtabellen von vergleichsstichproben in testmanualen

      (diese vergleichswerte (normen ) sind in testmanualen hinterlegt. dort stehen normtabellen , die zb sagen: ein rohwert von 12 entspricht einem IQ von 110 oder dieser wert ist besser als 85% der vergleichsgruppe )

    • 1anforderungen: (din , 2016)

      (hier geht es um mindeststandards fĂŒr die normtabellen:

      • 1nicht Ă€lter als 8 jahre

        (die normdaten sollen aktuell sein. eine vergleichsgruppe von vor 20 jahren wĂ€re zb nicht mehr reprĂ€sentativ. daher fordert DIN 2016, dass die normdaten höchstens 8 jahre alt sein dĂŒrfen )

      • 1möglichst reprĂ€sentativ fĂŒr zielgruppe und anwendungskontext des verfahrens

        (die vergleichsgruppe soll möglichst Ă€hnlich zu den personen sein, die getestet werden. also: wenn ein test fĂŒr studierende gedacht ist, soll die vergleichsgruppe ebenfalls aus studierenden bestehen- nicht aus kindern oder senioren )

      • 1zusammensetzung der stichprobe muss bekannt sein

        (es soll klar dokumentiert sein, wer in der vergleichsgruppe war (zb alter , bildung , geschlecht ) . nur so kann man einschÀtzen, wie aussagekrÀftig der vergleich ist )

    (erklrÀung zur abbildung:

  • die grafik zeigt eine normalverteilungskurve - die typische glockenkurve in der :

    mitte (0)= durchschnitt (ca 68% liegen zwischen -1 und +1 standardabweichung )

  • links (-2 , -3 usw.)= unterdurchschnittlich / auffĂ€llig

  • rechts (+2 , +3 usw) = ĂŒberdurchschnittlich / auffĂ€llig

  • die verschiedenen skalen rechts (iq werte, t wertem z werte , stanine usw. zeigen wie rohwerte in standardwerte umgerechnet werden, um sie vergleichbarer zu machen. jede skala hat ihre eigene verteilung aber sie beziehen sich auf die gleiche normalverteilung )

  • bsp: ein z -wert von 0 enstrpciht einem iq-wert von 100, einem t wert von 50 oder einem stanine wert von 5 —-> alles durchschnitt )

6.3 GĂŒtekriterien

6.3.4 Normen und ergebnisrĂŒckmeldung

normorientierete diagnostik

1.. was sollte bei der ergebnisrĂŒckmeldung in der normorientierten diagnostik vermieden werden ?

was ist laut folie eine inhaltlich haltbare aussage zu einem testergebnis ?

wwas ist eine praktische vorgehensweise bei der normorientierten diagnostik?

was macht die din nicht ?

was zeigt die abbildung ?

  • normorientierte diagnostik:

    • 3in der praxis etablierte kategorien fĂŒr ergebnisrĂŒckmeldung beziehen messfehler ein

      (in der praxis werden ergebnisbereiche wie “unterdurchschnittlich , ĂŒberdurchschnittlich verwendet. dabei wird berĂŒcksichtigt, dass ein gemessener wert durch messfehler beeinflusst sein kann )

    • 4keine konvention der DIN

      (die DIN-Norm macht keine verbindlichen vorgaben, wie genau die ergebnisrĂŒckmeldung zu gestalten ist- es gibt also keinen einhetilichen standard.

    • 1vermeidung von “pseudogenauigkeit “

      (es soll vermieden werden, falsche genauigkeiten vorzutÀuschen, zb durch aussagen wie herrx hat genau 101 punkte. solche scheinbar exakten werte ignorieren die unsicherheit durch messfehler .

    • 2entscheidung fĂŒr inhaltlich haltbare aussage: “herr x erzielt im IST2000-R ein durchschnittliches bis ĂŒberdurchschnittliches ergebnis”

      (statt prĂ€ziser , aber irrefĂŒhrender zahlenangbane wird eine sinnvolle , interpretierbare aussage gemacht, die den messfehler mit einbezieht. hier heißt es: die punktzahl liegt im bereich: durchschnittlich bis ĂŒberdurchschnittlich , ohne eine scheinbare genauigkeit vorzutĂ€uschen.)

(erklÀrung der abbildung:

die grafik zeigt vier messwerte mit konfidenzintervallen, jeweils auf einer skala von 85 bis 115: jeder grĂŒne balken stellt das konfidenzintervall dar —>also den bereich, in dem der “wahre wert” mit zb 95%iger sicherheit liegt. der gestrichelte strich bei 100 ist der mittelwert bzw. das zentrum des durchschnittsbereichs. der rote pfeil makiert vermutlich das konfidenzintervall von Herr X, der laut beispiel eine punktzahl hat, die in den durchschnittlichen bis ĂŒberdurchschnittlichen bereich reicht.

die bitschaft: ein punktwert alleine sagt wenig. erst durch die darstellung des konfidenzintervalls erkennt man wie genau oder ungenau die aussage ist. deshalb spricht man besser von einem ergebnisbereich als von einem festen punktwert.

(auf der abbildung rechts mit den horizontalen linien siehst du grĂŒne balken mit strichen, die sich ĂŒber zb. den wertebreich 85-115 erstrecken. das sind konfidenzintervalle zu den einzelnen testergebnissen. ein konfidenzintervall zeigt : zwischen welchen werten der wahre testwert vermutlich liegt- zb wegen messfehlern. zum beispiel: eine person hat einen testwert vin 100. das konfidenzintervall reicht von 85 bis 115 - das bedeutet : der wahre wert liegt mit hoher wahrscheinlichkeit irgendwo zwischen 85 und 115. also von unterdurchschnittlich bis ĂŒberdurchschnittlich. die folie sagt es gibt keine offizielle din-konvention, wie genau rĂŒckmeldungen aussehen mĂŒssen. deshlab soll man keine pseudogenauigkeit vortĂ€uschen (zb herr x hat genau 103 punkte) stattdessen sollte man inhaltlich haltbare aussagen machen: herr x erzielt ein durchschnittliches bis ĂŒberdurchschnittliches ergebnis. diese formulierung berĂŒcksichtigt das konfidenzintervall - also den bereich, in dem das ergebnis mit hoher wahrscheinlichkeit liegt. )

6.3 GĂŒtekriterien

6.3.4 Normen und ergebnisrĂŒckmeldung

kriterienorientierte diagnostik

  1. warum sind normen nicht immer anwendbar ?

  2. worum geht es bei der kriterienorientierten diagnostik manchmal stattdessen ?

  3. was ist beim beispiel der eignungsprĂŒfung von piloten entscheidend ?

  • Kriterienorientierte diagnostik

    • 1normen sind jedoch nicht fĂŒr jede eignungsdiagnostische fragestellung anwendbar

      (nicht immer sinnvoll, eine person mit anderen zu vergleichen. in bestimmten situationen reicht es nicht, nur zu wissen , wo jemand im vergleich steht- es kommt auf das erreichen bestimmter anforderungen an)

    • 2manchmal wollen wir nicht wissen , wie kandidat*in im vergleich zu anderen steht, sondern ob bestimmte kriterien erfĂŒllt werden

      (hier interessiert nicht der rang im vergleich , sondern ob jemand ein festgelegtes ziel oder mindestmaß erreicht hat. es geht also um ja / neun - nicht besser / schlechter)

    • 3beispiel: eignungsprĂŒfung von piloten

      (das beispiel veranschaulicht : nicht wichtig ist ob jemand mehr knöpfe kennt als andere, sondern ob alle relevanten knöpfe bekannt sind- weil das eine mindestvoraussetzung fĂŒr die tĂ€tigkeit als pilot ist )

      • ob der kandidat mehr knöpfe im cockpit kennt als andere ist nicht relevant

        (wettbewerb ist in diesem fall nicht das ziel- es gibt kein “besser als andere “ sondern nur geeignet oder nicht geeignet )

      • es ist wichtig, dass er alle knöpfe kennt (inhaltlich definiertes kriterium )

        (der fokus liegt auf einem festgelegten standard (zb vollstĂ€ndiges wissen ) das ist ein konkretes kriterium , das unabhĂ€ngig vom vergleich zu anderen erfĂŒllt sein muss )

K geht. Datum das er die richtigen Knöpfe kennt und nicht mehr als andere = festgelegtes Kriterium

6.3 GĂŒtekriterien

6.3.5 Fairness

  1. was darf die anwendung eines verfahrens laut din 2016 nicht tun ?

  2. welche eigenschaften, kenntnisse oder fertigkeiten dĂŒrfen das ergebnis nicht beeinflussen ?

  3. was sind beispiele fĂŒr solche irrelevanten einflussfaktoren ?

  4. was soll mit betroffenen personen geschehen ?

  5. wann dĂŒrfen verfahren angepasst werden und wann nicht ?

  • K kann rechtliche Inokulationen haben

  • 1.anwendung der verfahren darf nicht zu benachteiligung oder bevorzugung einzelner kandidaten oder gruppen fĂŒhren

    (ein testverfahren ist nur dann fair, wenn niemand durch das verfahren selbst einen vorteil oder nachteil hat- zum beispiel wegen seiner herkunft , sprache oder körperlichen einschrÀnkungen)

  • 2.keine eigenschaften, kenntnisse , fertigkeiten sollen das ergebnis beeinflussen, die nicht zum erfassenden eignungsmerkmal gehören

    (nur die fĂŒr die eignung relevanten merkmale dĂŒrfen eine rolle spielen. andere, nicht zur aufgabe passende fĂ€higkeiten (zb computerkenntnisse bei einem handwerklichen test) dĂŒrfen das ergebnis nicht verfĂ€schen

    • beispiele fĂŒr solche irrelevanten merkmale:)

    • 3mangelnde sprachkenntnisse

      (könnte das ergebnis in einem schriftlichen test negativ beeinflussen, obwohl die aufgabe nichts mit der sprache zu tun hat )

    • 3beeintrĂ€chtigungen des seh- und hörvermögens

      (wenn der job keine perfekte sinne voraussetzt, dĂŒrfen diese einschrĂ€nkungen das testergebnis nicht verfĂ€schen )

    • 3(mangelnde) vorerfahrung mit computern

      (sollte keinen einfluss haben,wenn der test zb ĂŒber den computer lĂ€uft, die aufgabe selbst aber nichts mit IT zu tun hat )

  • 4betroffene personen sollten nach spezifischen bedĂŒrfnissen befragt und das verfahren, falls fachlich vertretbar, angepasst werden

    (wenn jemand einschrĂ€nkungen oder besondere bedrĂŒfnisse hat, soll nach möglichkeiten gefragt und geprĂŒft werden, ob der test angepasst werden kann- aber nur , wenn das fachlich vertretbar ist )

    • 5anpassungen mĂŒssen sich positiv auf die verfahrensbearbeitung auswirken, mĂŒssen aber irrelevant fĂŒr das eignungsmerkmal sein

      (die Ànderung soll nur die barriere beseitigen. aber darf nicht das eignungsmerkmal selbst beeinflussen

    • 5wenn aber die in frage stehende tĂ€tigkeit zb sehtĂŒchtigkeit erfordert (fahrzeugfĂŒhrer) , darf verfahren nicht angepasst bzw. ersetzt werden

    • (in fĂ€llen in denen eine bestimmte fĂ€higkeit zentral fĂŒr die tĂ€tigkeit ist, darf man den test nicht anpassen, da das kriterium dann nicht mehr gemessen wird )

zusammenfassung wichtigsten punkte

  1. welche statistischen verfahren werden typischerweise zur auswertung von daten in eignungsverfahren genutzt?

  2. welche funktion haben testtheorien in der eignungsdiagnostik?

  3. woran kann man laut DIN 2016 erkennen, ob ein verfahren in der eignungsdiagnostik geeignet ist ?


  • 1fĂŒr die auswertung und darstellung von daten aus eignungsverfahren werden meist deskriptive statistiken, korrelationen und regressionen verwendet

    (um die ergebnisse aus tests (zb eignungstests) verstÀndlich zu machen, nutzt man deskriptive statistik (zb mittelwerte, streuung ), korrelationen (zusammenhÀnge zwischen merkmalen ) und regressionen (vorhersagemodelle) . so erkennt man zum beispiel ob bessere testergebnisse mit höherer berufseignung zusammenhÀngen


  • 2testtheorien liefern die theoretische grundlage fĂŒr psychometrische tests und fragebögen, die in eignungsdiagnostischen untersuchungen zum einsatz kommen können

    (hinter guten tests stehen psychologische testtheorien zb klassische testtheorie, die erklÀren, wie ein test valide und zuverlÀssig misst. diese theorien geben vor, wie ein fragebogen oder test aufgebaut sein muss, damit er wikrlich die eignung misst, um die es geht )

  • 3anhand der gĂŒtekriterien , die in testmanualen unbedingt aufegfĂŒhrt werden sollten (din, 2016) kann beurteilt werden, ob ein bestimmtes verfahren im rahmen einer eignungsdiagnostischen untersuchung valide und nĂŒtzliche informationen ĂŒber kandidat*innen erbringt

    (die gĂŒtekriterien (zb objektivitĂ€t , reliabilitĂ€t , validitĂ€t , fairness ) mĂŒssen laut norm (din 33430) im testhandbuch enthalten sein. nur wenn diese kriterien erfĂŒllt sind, darf man den test als zuverlĂ€ssig und aussagekrĂ€ftig fĂŒr die eignungsbeurteilung verwenden )


LERNCAMP

1. Was ist der Unterschied zwischen Messen und ZĂ€hlen?

(Diese Definition stammt aus frĂŒheren Folien zur Grundlagenmessung, sinngemĂ€ĂŸ ergĂ€nzt, weil sie nicht direkt in deinen letzten Folien auftauchte. Falls du eine Folie dazu hast, kannst du sie gern noch hochladen.)

📌 ZĂ€hlen: Erfassen von Anzahlen (z. B. wie viele Aufgaben richtig gelöst wurden).

📌 Messen: Zuordnen von Zahlen zu MerkmalsausprĂ€gungen nach bestimmten Regeln (z. B. Intelligenztestwerte).

2. Aus welchen GrĂŒnden können Korrelationen zwischen Messwerten von Eignungstests und Kriterien zu hoch oder zu niedrig ausfallen?

→ Zu niedrig wegen VarianzeinschrĂ€nkung:

„Varianz der Messwerte reduziert sich – Korrelationseffizienten sinken, KriteriumsvaliditĂ€t wird unterschĂ€tzt“

→ Zu niedrig wegen Messfehlern:

„Korrelationshöhe wird durch Messfehler verwĂ€ssert (‚gedeckelt‘)“

→ Lösung:

„Korrektur der Korrelations-Minderung durch Messfehler: einfache oder doppelte Minderungskorrektur“

3. In welchen FĂ€llen im Rahmen der Eignungsdiagnostik sind formative latente Variablen reflektiven latenten Variablen vorzuziehen?

(Dieser Punkt wurde nicht direkt in deinen Folien genannt. Falls du die Folie hast, bitte hochladen. Sonst kann ich dir eine standardisierte Antwort liefern.)

4. Beschreiben Sie jeweils einen Vor- und einen Nachteil einer minderungskorrigierten Kriteriumskorrelation.

✅ Vorteil:

„Korrektur der Korrelations-Minderung durch Messfehler“

✅ Nachteil:

(implizit): Kann zu ĂŒberschĂ€tzten Werten fĂŒhren, wenn reliabilitĂ€tsbezogene Korrekturwerte ungenau sind (nicht direkt auf Folien – ggf. ergĂ€nzen, wenn gefragt)

5. Warum muss die ZuverlĂ€ssigkeit eines Tests bei der Interpretation eines Testwerts unbedingt berĂŒcksichtigt werden?

„Korrela­tionshöhe wird durch Messfehler verwĂ€ssert (‚gedeckelt‘)“

→ Deshalb: **„Einfacher oder doppelter Minderungskorrektur“ notwendig, um richtige Aussagen ĂŒber ValiditĂ€t zu treffen.

Author

Nipu D.

Informationen

Zuletzt geÀndert