Übersicht
6.1 Grundlagen für die Auswahl von Verfahren
Stichproben in der Eignungsdiagnostik
1was bedeutet “stichprobe” in der eignungsdiagnostik und welche bedeutung hat sie ?
was ist ein zentrales merkmal guter eignungsdiagnostik in bezug auf stichproben?
welche informationen müssen zu stichproben laut DIN in testverfahren enthalten sein und warum ?
1In eignungsdiagnostischen untersuchungen werden stichproben gezogen: auswahl aus begrenzter anzahl an kandidat*innen
(In der eignungsdiagnostik wird nicht die gesamte zielgruppe untersucht, sondern eine begrenzte auswahl von personen - das nennt man stichprobe. diese stichprobe besteht aus kandidat*innen, die zum beispiel zu einem auswahlverfahren eingeladen werden. die ergebnisse dieser personen sollen dabei rückschlüsse auf die eignung oder passung liefern)
1anhand der stichprobe werden rückschlüsse auf andere mitglieder der organisation gezogen
(die ergebnisse der getesteten kandidatinnen sollen verallgemeinert werden- dh man schließt von der leistung oder dem verhalten der stichprobe auf die eignung anderer zb wie geeignet jemand für eine bestimmte rolle in der organisation ist oder wie gut die auswahlmethode im allgemeinen funktioniert.)
2merkmal guter eignungsdiagnostik: genaue beschreibung der stichprobe
(eine gute eignungsdiagnostische untersuchung erfordert eine klare und transparente beschreibung der getesteten gruppe. dh es muss dokumentiert werden, wer getestet wurde (alter, geschlecht, bildung etc)- nur so können die ergebnisse eingeordnet, verglichen oder auf andere kontexte übertragen werden)
3in den verfahrenshinweisen von testverfahren
(in den offiziellen testmanualen odder handbüchern steht, welche art von stichprobe bei der testentwicklung verwendet wurde. das ist wichtig,um zu prüfen , ob der test zur eigenen zielgruppe passt.)
alter, geschlecht, bildung, situation in der das eignungsverfahren durchlaufen wird (zb freiwillige / anonyme teilnahme, ernstfallbedingung)
(diese angaben sind zentral um die aussagekraft unf fairness des verfahrens zu beurteilen. ein test, der zb nur mit studierenden unter laborbedingungen entwickelt wurde, könnte in einer realen bewerbungssituation mit fachkräften nicht angemessen funktionieren)
3grundlage für vergleichbarkeit der kandidat*innen
(wenn die stichprobe gut dokumentiert ist, können die ergebnisse verschiedener gruppen oder verfahren fair miteinander verglichen werden. das erhöht die güte und transparenz eignungsdiagnostischer maßnahmen.
6.1 Grundlagen für die auswahl von verfahren
repräsentativität von stichproben
was ist notwendig , um valide rückschlüsse auf eine population ziehen zu können ?
was zeigt das beispiel mit den 30-35 jährigen frauen aus bayern?
worauf gelten die an einer stichprobe ermittelten größen ( zb mittelwerte , reliabilität)
1um valide rückschlüsse auf eine population ziehen zu können, muss eine stichprobe repräsentativ für diese population sein
(wenn man aussagen auf die gesamtbevölkerung übertragen möchte, muss die stichprobe diese population möglichst gut widerspiegeln)
2beispiel für mangelnde repräsentativität
2man möchte aussagen über das intelligenzniveau von deutschen arbeitnehmern treffen
2man zieht eine stichprobe die lediglich aus 30-35 jährigen frauen aus bayern besteht
(2dieses beispiel zeigt mangelnde repräsentativität , weil die stichprobe zu einseitig ist. sie umfasst weder männer noch andere altersgruppen oder regionen deutschlands- daher sind keine gültigen rückschlüsse auf “alle arbeitnehmer” möglich.
3die an einer stichprobe ermittelten größen (zb mittelwerte, standardabweichungen, reliabilitäts- und validitätskoeffizienten) gelten nur für die stichprobe oder für populationen, die wie die stichprobe zusammengesetzt sind.
(alle berechneten kennwerte (wie durchschnitt, reliabilität usw) sind nur dann übertragbar, wenn die zielpopulation ähnlich zusammengesetzt ist wie die untersuchte stichprobe)
auswertung und darstellung von daten aus eignungsverfahren
lernen
was ist ein beispiel für die durchführung eines eignungsdiagnostischen verfahrens ?
welche 4 arten der ergebnisdarstellung (vom eignungsdiagnostischen verfahrens also hier dem wissenstests) gibt es hierbei?
und was bedeuten bzw was wird dabei gefragt jeweils
1beispiel: es wird ein wissenstest mit 30 bewerber*innen durchgeführt
(es handelt sich um ein konkretes beispiel zur auswertung von testergebnissen einer stichprobe von 30 personen in einem eignungsdiagnostischen verfahren )
2wie soll die darstellung der ergebnisse erfolgen ? welche statistischen kennwerte können genutzt werden ?
(es wird gefragt, wie man die ergebnisse statistisch sinnvoll darstellen kann- also welche kennzahlen man berechnen sollte, um die verteilung zu beschreiben )
2betrachtung der verteilung der werte : wie oft kommen die einzelnen werte vor
(das ist eine häufigkeitsverteilung- man schaut , wie oft bestimmte werte auftreten (zb wie viele personen welche punktzahl erreicht haben)
2beschreibung der verteilung durch maße der zentralen tendenz : welcher wert ist am typischsten für die verteilung ?
(hierbei geht es um durchschnitsswerte, also mittelwert, median oder modus, die den “typischen “ wert in der verteilung beschreiben )
2beschreibung der schiefe der verteilung: liegen besonders viele werte links bzw. rechts der verteilungsmitte
(die schiefe zeigt, ob die verteilung symmetrisch ist oder zb wie viele werte eher niedrig (linksschief) oder hoch (rechtsschief) liegen
2beschreibung der verteilung durch streuungsmaße: wie sehr unterscheiden sich die werte voneinander
(mit streuungsmaßnahmen wie standardabweichung oder varianz kann man messen, wie stark die werte streuen - also ob alle sehr ähnlich oder sehr unterschiedlich sind )
6.1 Grundlage für die auswahl von verfahren
welche grafische methode wird zur darstellung der verteilung von werten genannt? und was zeigt man dadurch ?
welche maße der zentralen tendenz werden unterschieden? und was sagen die jeweils aus?
was bedeuten symmetrische und schiefe verteilungen ?
1histogramme der werte
(ein histogramm ist eine grafische darstellung der häufigkeiten von werten. es zeigt, wie oft bestimmte ergebnisse in einem test vorkamen)
2maße der zentralen tendenz
(diese maße beschreiben, welcher wert in einer verteilung typisch oder repräsentativ ist. es gibt verschiedene arten davon:
modalwert
(der modalwert ist der am häufigsten vorkommende wert in einer verteilung)
median
(der median ist der wert , der in der mitte liegt, wenn alle werte der größe nach sortiert sind. die eine hälfte der werte liegt darunter, die andere darüber)
arithmetisches mittel (mittelwert)
(der mittelwert ist die summe aller werte geteilt durch die anzahl der werte)
3symmetrische / schiefe verteilungen
(eine symmetrische verteilung bedeutet: die verteilung ist gleichmäßig links und rechts vom mittelwert. eine schiefe verteilung bedeutet: es gibt einen überhang zu einer seite (mehr niedrige oder mehr hohe werte)
welche maße der zentralen tendenz werden unterschieden? was sagen die aus?
welche verteilungsformen werden beschrieben ? was bedeuten die?
was ist ein histogramm und wofür wird es verwendet?
zeig auch an der grafik wie es aussieht
3histogramme der werte
(ein histogramm zeigt grafisch, wie oft bestimmte werte innerhalb eines tests vorkommen. es hilft, die verteilung der ergebnisse visuell zu erfassen.)
1maße der zentralen tendenz
(diese maße geben an, welcher wert in einer verteilung am typischsten oder repräsentativsten ist) :
(der modalwert ist der wert, der am häufigsten in der verteilung auftritt)
(der median ist der mittlere wert einer geordneten datenreihe, die hälfe der werte liegt darüber, die andere darunter)
(das arithmetische mittel ist der durchschnittswert , berechnet aus der summe aller werte geteilt durch ihre anzahl)
2symmetrisch / schiefe verteilungen
(beschreibt die form der verteilung)
rechtsteil
(die verteilung ist nach rechts verzerrt- es gibt viele niedrige, aber wenige hohe werte )
linkssteil
(die verteilung ist nach links verzerrt, es gibt viele hohe aber wenige niedrige werte)
mehrgipflige verteilungen
(eine mehrgipflige verteilung hat mehrere modalwerte- es gibt mehrere häufigkeitsspitzen . das weißt auf unterschiedliche gruppen innerhalb der stichprobe hin )
streuungsmaße
was sind streuungsmaße und welche funktion erfüllen sie in der eignungsdiagnostik?
was ist der unterschied zwischen varianz (SD hoch 2 ) und standardabweichung (SD)?
warum ist der Interquartiabstand (IQA) in bestimmten fällen aussagekräftiger als die Spannweite ?
was sagt die spannweite und der IQA aus?
1Streuungsmaße:
(streuungsmaße zeigen, wie weit die einzelnen werte einer verteilung vom mittelwert abweichen- sie sagen also etwas über die unterschiedlichkeit (heteorgenität) der werte aus) sie liefern wichtige hinweise zur interpretation von testergebnissen )
spannweite (range)
(die spannweite ist die differenz zwischen dem größten und dem kleibsten wert in der verteilung. sie gibt an, wie breit der wertebereich ist.
Interquartilabstand (IQA)
(der IQA ist der bereich, in dem die mittleren 50% der werte liegen. er ist weniger anfällig für ausreißer als die spannweite)
2Varianz (SD hoch 2)
(die varianz beschreibt die durchschnittliche quadratische abweichung der werte vom mittelwert. je größer die varianz, desto unterschiedlicher sind die werte.
2standardabweichung
(die standardabweichung ist die wurzel aus der varianz und gibt an, wie stark die werte im schnitt vom mittelwert abweichen- in derselben einheit wie die messwerte.)
(abbildung: zeigt eine normalverteilte verteilung der werte, bei der die streuung symmetrisch um den mittelwert herum erfolgt. die höhe der kurve entspricht der häufigkeit )(NORMALE abbildung wo graph mit links häufigkeit steht )
(antwort: weil der IQA nur die mittleren 50% der werte betrachtet und daher nicht von ausreißern beeinflusst wird- im gegensatz zur spannweite , die durch extreme einzelwerte verzerrt sein kann )
6.1 grundlagen für die auswahl von verfahren
zusammenhangsmaße : korrelationen
was sind zusammenhangsmaße in der eignungsdiagnostkik?
welche korrelationsarten können je nach skalenniveau verwendet werden ?
wozu sind korrelationen in der eignungsdiagnostik besonders wichtig ?
welche beispiele werden genannt bezogen auf korrelationen ?
1zusammenhangsmaße: Korrelationen
(korrelationen sind statistische kennwerte, die zusammenhänge zwischen zwei variablen beschreiben zb ob mit steigender intelligenz auch der beurfserfolg steigt)
1Einfache Korrelationen (zb auch reliabilitäts- und validitäts-koeffizienten )
(einfache korrelationen geben an, wie stark zwei variablen miteinander zusammenhängen. sie umfassen auch wichtige testgütekriterien: reliabilität (zuverlässigkeit ) und validität (gültigkeit eines tests )
2je nach skalenniveau: pearson, Biserial etc.
(je nachdem, welche art von daten vorliegt (zb metrisch , ordinal) verwendet man unterschiedliche korrelationskoeffizienten:
pearson korrelation: für metrische daten
biseriale korrelation: zb bei kombination von dichotomen und metrischen daten )
3wichtig für die validierung und evaluation von eignungsverfahren
(korrelationen sind essenziell , um zu prüfen, ob ein eignungsdiagnostisches verfahren wirklich misst, was es soll (validierung) und wie gut es in der praxis funktioniert) (evaluation)
4beispiele:
zusammenhang von intelligenz und berufserfolg ?
zusammenhang von geschlecht und aufstiegschance ?
zusammenhang von extraversion und führungserfolg?
6.1 Grundlage für die auswahl von Verfahren
zusammenhangsmape: Multiple Regression
wozu dient die multiple regression im rahmen eignungsdiagnostischer verfahren ?
welche informationen liefert eine regression über die prädiktoren eines eignungsdiagnostik- verfahrens ?
wofür wird die multiple regression im bereich der eignungsdiagnostik häufig verwendet?
1zusammenhangsmaße: Multiple Regression
(Multiple regression ist ein statistisches verfahren, das untersucht, wie gut mehrere merkmale (prädiktoren ) gemeinsam ein ergebnis (zb beurfserfolg) vorhersagen können. )
1bspw.: Bestimmung der prädiktionskraft von prädiktoren
(mit hilfe der multiplen regression kann man feststellen, wie stark bestimmte merkmale (zb intelligenz, schulnoten ) etwas vorhersagen können zb den berufserfolg)
1prädiktoren zb: IQ, Schulnoten , interviews , AC-Scores
(diese merkmale nennt man prädiktoren , also eigenschaften oder testergebnisse, die zur vorhersage dienen alos das ziel haben zb berufserfolg vorherzusagen . AC steht für Assessment center)
kriterium: berufserfolg
(das kriterium ist das, was vorhergesagt werden soll- hier: der erfolg im beruf)
3oft auch als gültigkeitsnachweis von verfahren
(die multiple regression wird häufig genutzt, um die validität (gültigkeit) eines eignungsverfahrens zu belegen, also ob das verfahren tatsächlich das misst, was es messen soll (Zb berfuserfolg vorhergesagt)
2regression liefert informationen über…
(die regression sagt uns wie viel einfluss die prädiktoren auf das kriterium haben )
2den gemeinsamen vorhersagebeitrag aller prädiktoren (R quadrat , AIC 7 BIC)
(zeigt wie gut alle prädiktoren zusammen das kritierium erklären können. r quadrat ist das bestimmtheitsmaß , AIC/ BIC sind informationskriterien )
2den vorhersagebeitrag jedes einzelnen prädiktors (stand. gewichte ß)
(zeigt wie stark jeder einzelne prädiktor zb IQ das ergebnis beeinflusst. das ß-gewicht sagt, wie wichtig dieser faktor im verhältnis zu den anderen ist- unabhängig von der maßeinheit )
auswertung und darstellung von daten aus eignunsgsverfahren
zusammenhangsmaße: Multiple regression
was ist laut DIN 2016 bei der nutzung multipler regressionsmodelle notwendig und warum ?
was sind berichtspflichten bei der verwendung multipler regression ?
was bedeutet inkrementelle validität und was fordert die DIN 2016 dazu?
1kreuzvalidierung nötig
(nach DIN-norm 2016 muss bei der nutzung multipler regressionsmodelle eine kreuzvalidierung erfolgen. das bedeutet: man darf die modelle nicht nur an einer stichprobe testen, sondern muss sie auf einer anderen überprüfen )
1trennung von modellentwicklung und anwendung
(die stichprobe , mit der ein modell entwickelt wird (zb welche prädiktoren einfließen ) soll nicht identisch mit der sein, bei der das modell getestet wird- sonst besteht die gefahr der überanpassung (overfitting )
1auswahl der prädiktoren und höhe des multiplen zusammenhangs an neuer stichprobe überprüfen
(man soll prüfen, ob die gefundenen zusammenhänge (zb IQ + SCHULNOten—> beurfserolg) auch bei einer anderen personengruppe gültig sind - das ist kreuzvalidierung
2berichtspflichten : R , ß, einfache Kriteriums-Korrelationen
(im bericht müssen die folgende werte angegeben werden: R = multipler zusammenhang aller prädiktoren mit dem kriterium, ß= standardisierte einzelbeiträge der prädiktoren, einfache korrelationen = jeder einzelne prädiktor mit dem kriterium )
3inkrementelle validität
(neue (zusätzliche) prädiktoren müssen einen zusätzlichen beitrag zur vorhersage leisten, um sinnvoll zu sein )
inkrementelle prädiktoren tragen zur vorhersagegenauigkeit bei
(ein prädiktor hat inkrementelle validität, wenn er über die bereits verwendeten prädiktoren hinaus neue erklärende informationen liefert )
auswahl von verfahren: zb assessment -center + intelligenztest oder nur assessment-center?
(diese frage prüft, ob sich zb ein intelligenztest zusätzlich zum assessment center lohnt. wenn ja, hat er inkrementelle validität)
bei der auswahl von verfahren nur solche berücksichtigen , die prädiktionskraft verbessern
(laut din soll man nur verfahren auswählen die einen zusätzlichen vorhersagewert liefern- also keine unnötigen tests einsetzen )
6.2 Testtheorien
zielsetzung von testtheorien
welche theoretische grundlage ist notwendig, um aus beobachteten testergebnissen rückschlüsse ziehen zu können, und was ist das ziel dabei ?
was beschreibt die messgenauigkeit und was ist ihr ziel laut testtheorie ?
welche 2 testtheorien werden genannt ? und was unterscheidet sie ?
1theoretische grundlage für die rückschlüsse, die wir aus den beobachteten testergebnissen ziehen können (plausibles messmodell)
(testtehorien liefern das theoretische fundament, mit dem wir überhaupt sinnvoll aus testergebnissen rückschlüsse auf zugrundeliegende merkmale ziehen können. diese rückschlüsse setzen ein plausibles messmodell voraus )
messen in der eignungsdiagnostik bzw. der psychologie vs. in den naturwissenschaften
(das messen in der psychologie (zb intelligenztests) unterscheidet sich von messungen in naturwissenschaften (zb temperatur ) es ist indirekter und basiert stärker auf modellen ))
3messen vs. zählen (strukturerhaltende abbildung
(zählen ist eine direkte erfassung (zb anzahl richtiger antworten ) während messen eine theoretisch modellbasierte abbildung eines merkmals auf zahlen ist (zb intelligenz)
1,3ziel: absicherung der eindimensionalität von messwerten PTT
(das ziel besteht darin, sicherzustellen, dass ein test nur ein einziges konstrukt (eine dimension ) misst - also zb nicht gleichzeitig intelligenz und motivation )
3probabilistische testtheorie (PTT)
(eine testtheorie, die davon ausgeht, dass die wahrscheinlichkeit, eine aufgbae zu lösen, von einer latenten fähigkeit abhängt-typisches beispiel : Item response theorie (IRT)
2Messgenauigkeit : wie genau können wir merkmale quantifizieren , die wir in der realität beobachten ?
(es geht um die präzision psychologischer messungen- also wie zuverlässig ein test das misst, was er messen soll)
das beobachtete ergebnis kann auch durch einen fehler bei der messung erklärt / beeinflusst werden
(testergebnisse setzen sich aus wahrem wert + messfehler zusammen. die testtheorie berücksichtigt diese fehlerkomonente )
2,3ziel: absicherung der messgenauigkeit von messwerten KTT
(ziel ist, durch testtheorie sicherzustellen, dass die gemessenen werte verlässlich (reliabel) sind also möglichst wenig messfehler enthalten )
klassische testtheorie (KTT)
(eine der zentralen theorien zur messgenauigkeit : sie geht davon aus, dass jede beobachtete messung aus einem wahren wert und einem messfehler besteht
6.2.1 Latente und manifeste variablen
eignungsmerkmale sind konstrukte
was sind eignungsmerkmale in der testtheorie, und wie werden sie unterschieden ?
nenne beispiele für manifeste variablen, was kennzeichnet sie ?
wie lässt sich das latente merkmal extraversion laut abbildung operationalisieren ?
1eignungsmerkmale sind konstrukte
(eignungsmerkmale wie zb extraversion oder intelligenz sind keine direkt beobachtbaren eigenschaften- sie sind gedankliche modelle also theoretische konstrukte , mit denen wir verhalten erklären )
1auch : nicht - beobachtbare sachverhalte, latente variablen
(diese eignungsmerkmale sind nicht direkt sichtbar, man nennt sie deshalb latente variablen (zb extraversion , motivation ) sie müssen indirekt erschlossen werden
1können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen zb lächeln , vermeidungsverhalten, reaktionszeiten )
(latente variablen zeigen sich indirekt zb durch verhalten , das wir beobachten können. solche direkt beobachtbaren merkmale heißen manifeste variablen . beispiele: lächeön, schnelle reaktion, vermeidung . diese beobachtbaren variablen geben hinweise auf das dahinterliegende konstrukt )
(abbildung: in der grafik wird das konstrukt extraversion als latente variable dargestellt.
pfeile führen von verhaltensweisen wie : gerne viele leute um 3sich, leicht zum lachen zu bringen, besonders fröhlich , zu dem latenten konstrukt.
3diese aussagen sind indikatoren , also manifeste variablen , die durch einen fragebogen (extraversionsskala des NEO-FFI) erhoben werden.
fazit: latente variablen wie extraversion lassen sich über manifeste variablen (verhaltensindikatoren ) erschließen .
1was sind eignungsmerkmale
was ist der unterschied zwischen reflektiven und formativen latenten variablen ?
nenne beispiele für manifeste variablen
was versteht man unter latenten variablen , und wie sind sie zu beobachten ?
Was zeigt die Abbildung
(eignungsmerkmale (zb intelligenz, extraversion ) sind theoretische begriffe - sie existieren nicht sichtbar, sondern werden als konstrukte gedacht, um verhalten zu erklären )
auch : nicht-beobachtbare sachverhalte, latente variablen
(diese konstrukte sind nicht direkt beobachtbar und werden in der testtheorie als latente variablen bezeichnet
können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen , zb lächeln, vermeidungsverhalten , reaktionszeiten )
(diese latenten variablen zeigen sich im verhalten also durch manifeste variablen , also durch direkt beobachtbare dinge wie zb reaktionen, gesichtsausdruck oder handlungen
unterscheidung reflektive vs formative latente varibalen
(es gibt 2 arten von latenten variablen: reflektive: die lantente variable sagt das verhalten vorher (zb extraversion —> viel reden )
(formative : die beobachtetetn variablen formen / kombinieren das konstrukt (zb bildung = summe von schulnote , abschluss, dauer )
(abbildung:
Die Abbildung zeigt zwei Wege zwischen latenter und manifester Variable:
Reflektive latente Variable → manifeste Variable
➤ Die latente Variable verursacht die beobachtete Reaktion.
Beispiel: Extraversion → Lächeln, Redseligkeit
Formative latente Variable ← manifeste Variable
➤ Die latente Variable entsteht aus einer Kombination beobachteter Merkmale.
Beispiel: Beruflicher Erfolg ergibt sich aus Einkommen + Aufstieg + Zufriedenheit.)
6.2.2 Klassische Testtheorie
was ist die grundannahme der klassischen testtheorie (KTT)?
was ist der wahre wert t einer person gemäß der klassischen testtheorie?
welche funktion erfüllt die klassische testtheorie (KTT) in der Eignungsdiagnostik ?
3Klassische Testtheorie (KTT)
(die klassische testtheorie ist eine grundlage für die meisten messtheoretischen fundierten fragebögen. sie bilden die theoretische basis , auf der viele psychologische tests beruhen)
3Grundlage für die meisten messtheoretisch fundierten fragebögen
3 ist eine messfehlertheorie
(die KTT ist eine theorie über messfehler. sie geht davon aus, dass jeder gemessene wert aus einem wahren wert und einem fehler besteht )
3 dient zur grundlage für die bestimmung der zuverlässigkeit eines messwertes
(mit der KTT kann man berechnen, wie verlässlich ein testwert ist - also wie viel des wertes echt (true score) ist und wie viel fehleranteil (error)
Grundannahme 1 und 2 der KTT : 1
1Grundannahme 1: Jeder beobachtete Wert einer person setzt sich zusammen aus einem wahren wert Tau (t) und einem Messfehler (e)
UND 1. Formel mit Xperson gehört zur grundnnahme 1
(beobachteter wert = wahrer wert + fehler)
2 2. Grundannahme der wahre wert t der person ist definiert als der erwartungswert der beobachteten werte der person und 2.formel mit t person gehört zur grundannahme 2
(der wahre wert ist der statistische mittelwert, der sich ergeben würde, wenn man unendlich oft misst.
Folgerungen aus den grundannahmen
wie ist die zuverlässigkeit laut klassischer testtheorie definiert ?
wie lautet die formel für die reliabilität in der klassichen testtheorie ?
warum braucht man unterschiedliche schätzer für die reliabilität ? und welche gibt es ?
1wenn wir den messfehler der items kennen, können wir die zuverlässigkeit des tests bestimmen
(wenn wir wissen , wie stark ein test durch messfehler beeinflusst wird, können wir berechnen, wie verlässlich die gemessenen werte sind. das ist die reliabilität.
1zuverlässigkeit ist definiert als der grad der genauigkeit eines verfahrens, mit dem es das gemessene merkmal erfasst
(wie präzise misst ein test wirklich das, was er messen soll? je weniger messfehler, desto höher die zuverlässigkeit.)
2die KTT definiert die reliabilität als verhältnis der varianz der wahren werte zu der varianz der beobachteten werte
2formel erklärung bild
3unterschiedliche schätzer, weil wahren wert t nicht bekannt
(da man wahre werte nicht direkt beobachten kann, braucht man indirekte methoden , um die reliabilität zu schätzen.
3retest, paralleltest, split-half, interne konsistenz
(retest: wiederholung des tests zu einem späteren zeitpunkt)
(paralleltest: zwei inhaltlich äquivalente tests )
(split half : interne teilung eines tests (zb gerade / ungerade items )
(interne konsistenz: zb cronbachs alpha )
2 Testtheorien
6.2.2 Klassiche Testtheorie
welche zwei zentralen kennwerte nennt die klassische testtheorie (KTT) zur beurteilung von testitems ?
was ist mit “trennschärfe” gemeint und wie wird sie berechnet ?
welcher aspekt steht bei der beurteilung einzelner items im fokus ?
warum benutzt man nicht die korrelation mit dem gesamttest inklusive des betreffenden items ?
bonusfrage tieferes verständnis: wie hängt die trennschärfe mit der validität eines items zusammen?
weitere kennwerte der KTT beziehen sich auf die einzelnen testitems
(neben reliabilität etc. betrachtet man in der KTT auch Item-bezogene kennwerte , also wie sich jedes einzelne item im test verhält)
1.zwei zentrale kennwerte: trennschärfe , itemschwierigkeit
(in der Ktt sind besonders trennschärfe (zusammenhang mit gesamttest ) und itemschwierigkeit (wie schwer ein item ist ) wichtige qualitätsmerkmale )
3.fokus: passung einzelner items und schwierigkeitsverhältnis
(man prüft , ob ein einzelnes item gut zum test passt zb in bezug auf seine schwierigekeit und seinen zusammenhang mit dem gesamten test )
2.trennschärfe
2korrelation eines items mit der summe der restlichen items eines tests
(die trennschärfe gibt an, wie stark ein einzelnes item mit dem gesamtergbebnis (gesamtscore) der anderen items zusammenhängt. man lässt das item selbst dabei weg, um die korrelation nicht künstlich zu erhöhen. je höher die trennschärfe desto besser pasts das item inhaltlich zum gesamten test- es misst offenbar dasselbe konstrukt wie die anderen items.
trennschärfe= korrelation zwischen einem item und der summe der anderen items (ohne sich selbst)
2summe restlicher items fungiert als schätzgröße für den wert der person auf der latenten variable
(die summe der restlichen items (also alle items außer dem betrachteten) dient als schätzwert für das latente merkmal , das du mit dem test erfassen willst (zb intelligenz , extraversion )
man nimmt also an: wenn jemand bei den anderen items gut abschneidet , hat die person vermutlich auch einen hohen wahren wert auf dem konstrukt. die anderen items sagen voraus, wo die person auf der latenten skala ungefähr steht )
2man prüft, wie hoch ein item mit dem konstrukt zusammenhängt
(der test soll ein bestimmtes merkmal (zb extraversion ) messen. ein item (zb ich spreche gerne mit fremden ) sollte daher genau dieses konstrukt widerspiegeln. man testet also , ob das item mit dem gesamtwert korreliert, der als schätzung des konstrukt gilt )
(ein gutes item zeigt: ich messe auch wirklich das zielkonstrukt)
(4: weil das item dann mit sich selbst korreliert wäre das würde die trennschärfe künstlich erhöhen . deshalb verwendet man die summe der restlichen items )
(hohe trenschärfe deutet darauf hin, dass ein item das gleiche misst wie der rest des tests —>spricht für eine hohe inhaltliche validität des items im bezug auf das zu messende konstrukt )
(
6.2.2 Klassiche testtheorie
itemschwierigkeit
inwiefern unterscheiden sich items laut der klassischen testtheorie?
was ist das ziel eines tests im hinblick auf die itemschwierigkeit ?
wie wird die itemschwierigkeit bestimmt und dargestellt ?
was veranschaulicht das beispiel mit den 100 kandidat*innen und dem wert 0.10 in bezug auf die itemschwierigkeit ?
itemschwierigkeit dh:
—>1items unterscheiden sich in ihrer schwierigkeit / leichtigkeit
2ziel eines tests: unterschiedliche merkmalsbereiche der kandidat*innen differenzieren
(ein guter test sollte nicht nur die sehr guten oder sehr schlechten kandidat*innen erkennen, sondern über das gesamte fähigkeitsspektrum unterschiede sichtbar machen )
3itemschwierigkeit wird durch den mittelwert bestimmt: relativer anteill richtig gelöster items
(schwierigkeit: durchschnittlicher anteil richtiger lösungen. )
beispiel: 100 kandidaten , 10 lösen das item
—>schwierigkeit =0.10
(leicht lösbar für 10%)
leistungstest: “im durchschnitt lösen 10 % der kandidat*innen das item”
(item ist schwer)
persönlichkeitstests: “im durchschnitt stimmen 10% der kandidat*innen bei dem item zu “
(item wird selten bejaht , eher ungewöhnliches verhalten )
(das beispiel zeigt , wie. man die itemschwierigkeit berechnet: man nimmt den anteil der personen, die ein item richtig beantworten ( bei einem leistungstest) oder zustimmen (bei einem persönlichkeitstest)
wenn 100 personen ein item bearbeiten und nur 10 davon es richtig beantworten, ergibt sich: itemschwierigkeit = 10 von 100 = 0,10
das bedeutet: in einem leistungstest : nur 10% haben es richtig gelöst —> das item ist schwer.
in einem persönlichkeitstest: nur 10% stimmen zu —> es ist ein selten zutreffendes verhalten oder merkmal.
wichtig: je niedriger der wert, desto schwieriger ist das item (weil es nur wenige richtig oder zustimmend beantworten )
6.2.3 Probabilistische Testtheorie PTT
womit beschäftigt sich die probabilistische testtheorie (PTT?)
welcher andere begriff wird ebenfalls für die probabilistische testtheorie verwendet ?
was ist die zentrale frage der PTT?
Wie gehen die parameter in die modelle der PTT ein ?
wie beeinflusst die anzahl der parameter die komlexität des modells ?
Probabilistische Testtheorie (PTT)
(das ist eine mdoerne testtheorie, die wahrscheinlichkieten verwendet, um zu erklären, wie wahrscheinlich es ist, dass eine testperson ein bestimmtes item richtig beantwortet )
1Beschäftigt sich mit statistischen modellen, die das antwortverhalten einer testperson auf das item erklären
(PTT untersucht, wie personen auf bestimmte testaufgaben reagieren , basierend auf mathematischen modellen. diese modelle sagen mit welcher wahrscheinlichkeit jemand ein item richtig löst )
2auch item-response-theorie (IRT)
(die PTT ist auch unter dem begriff item - response- theorie (IRT) bekannt. das meint genau diese modellfamilie.
3zentrale frage: von welchen parametern hängt die erfolgreiche itembeantwortung ab ?
(die PTT fragt: was beeinflusst , ob eine person ein item richtig beantwortet? (zb ihre fähgikeit (personenparameter ), die schwierigkeit des items oder auch zufall. )
4die hypothetisierten parameter gehen dabei als numerische größe in statistsch-theoretische modelle ein
(diese einflussfakotren (parameter) wie zb fähigkeit oder itemschwierigkeit werden mathematisch beschrieben, also als zahlenwerte im modell verwendet )
5je nach modell werden mehr / weniger parameter integriert, also die komplexitität des erklärungsmodells erhöht
(in der PTT Probabilistischen testtheorie gibt es verschiedene modelle , die sich darin unterscheiden, wie viele paramter sie berücksichtigen, um das antwortverhalten zu erkären.
mehr parameter = genaueres modell, aber auch komplexer und aufwändiger
die wichtigsten paramter (je nach modell):
item -schwierigkeit: wie schwer ist das item? (zb wird es nur von leuten mit hoher fähigkeit gelöst ?)
diskrimination:
wie gut untscheidet ein item zwischen personen mit niedriger und hoher ausprägung eines merkmals ?
ein hoher diskriminationswert bedeutet, dass das item sehr gut zwischen zb schwachen und starken testpersonen differenziert.
ratewahrscheinlichkeit: wahrscheinlichkeit, ein item durch raten richtig zu beantworten (zb bei multiple choice )
6.2.3 Probabilistische testtheorie
modelle der probabilistischen testtheorie
welche gehören dazu ?
erkläre die abbildungen
modelle der probabilistischen testtheorie :
- Rasch-modell (1 PL)
-Birnbaum oder 2 PL-modell
3PL -Modell
Ordinales Rasch-Modell / Partial-Credti-Modell
… und viele weitere
Modelle der Probabilistischen Testtheorie“
Die Abbildungen rechts zeigen typische Item-Charakteristik-Kurven (Item Response Functions, IRF) aus der IRT (Item Response Theory). Ich erkläre dir jede der drei Abbildungen einzeln:
🔷 Obere Abbildung – Rasch-Modell (1PL-Modell)
Was ist zu sehen?
Eine typische S-Kurve (logistische Funktion) für ein Item im Rasch-Modell.
Achsen:
x-Achse (Theta, θ): Fähigkeit der Person (z. B. Intelligenz, Extraversion, etc.)
y-Achse (p): Wahrscheinlichkeit, das Item richtig zu lösen
Erklärung:
Das Rasch-Modell geht davon aus, dass nur die Item-Schwierigkeit zählt.
Alle Items haben dieselbe Diskrimination. Je höher θ (Personenmerkmal), desto wahrscheinlicher die richtige Lösung.
✅ Wichtig: Es ist ein 1-Parameter-Modell (1PL) – nur die Item-Schwierigkeit wird berücksichtigt.
🔷 Mittlere Abbildung – Birnbaum-/2PL-Modell
Mehrere Kurven für verschiedene Items mit unterschiedlicher Steigung.
x-Achse (Theta): Personenfähigkeit
y-Achse (p): Antwortwahrscheinlichkeit
Im 2PL-Modell (Birnbaum-Modell) kommen zwei Parameter pro Item ins Spiel:
Item-Schwierigkeit (Lage der Kurve auf der x-Achse)
Item-Diskrimination (Steilheit der Kurve → wie stark das Item zwischen Personen mit unterschiedlichem θ unterscheidet)
✅ Die Steilheit der Kurven variiert: Das zeigt Unterschiede in der Trennschärfe (Diskrimination).
🔷 Untere Abbildung – 3PL-Modell
S-Kurven, die nicht bei p = 0 starten, sondern eine untere Schranke haben.
x-Achse (Theta): Fähigkeit
Das 3PL-Modell berücksichtigt neben Schwierigkeit und Diskrimination zusätzlich:
Ratewahrscheinlichkeit (guessing parameter) – also die Wahrscheinlichkeit, ein Item auch bei geringer Fähigkeit richtig zu beantworten (z. B. durch Raten bei MC-Fragen)
✅ Die Kurve beginnt bei einer positiven Ratewahrscheinlichkeit (z. B. 0.2 = 20 %).
🧠 Fazit zur Folie – Modelle der Probabilistischen Testtheorie
Die drei gezeigten Abbildungen zeigen die Entwicklung von einfachen hin zu komplexeren Modellen innerhalb der Probabilistischen Testtheorie (PTT).
Das Rasch-Modell (1PL) ist das einfachste Modell. Es berücksichtigt nur einen einzigen Parameter pro Item: die Item-Schwierigkeit. Das bedeutet, dass alle Items im Modell als gleich trennscharf betrachtet werden. Die Wahrscheinlichkeit, ein Item richtig zu beantworten, hängt dabei ausschließlich von der Fähigkeit der Person und der Schwierigkeit des Items ab.
Das Birnbaum- oder 2PL-Modell erweitert das Rasch-Modell um einen zweiten Parameter: die Diskrimination. Dieser gibt an, wie gut ein Item zwischen Personen mit unterschiedlicher Merkmalsausprägung unterscheiden kann. In der Darstellung zeigt sich das durch unterschiedlich steile Kurven – je steiler die Kurve, desto trennschärfer das Item.
Das 3PL-Modell geht noch einen Schritt weiter: Neben Schwierigkeit und Diskrimination wird auch die Ratewahrscheinlichkeit (sogenannter guessing parameter) berücksichtigt. Dieser beschreibt die Wahrscheinlichkeit, ein Item allein durch Raten richtig zu beantworten. In der Grafik erkennt man das daran, dass die Kurven nicht mehr bei einer Wahrscheinlichkeit von null beginnen, sondern bei einer positiven Ratewahrscheinlichkeit (z. B. 20 %).
Insgesamt zeigen die Abbildungen also, wie die Modelle immer mehr Parameter integrieren – und dadurch auch immer komplexer, aber gleichzeitig präziser werden.
6.2.3 Probabilistische Testtheorie
Das Rasch-Modell (1 PL)
was erklärt das modell? wozu dient es ?
wie heißt das einfachste und bekannteste modell der probabilistischen testtheorie?
welche annahme trifft das rasch-modell über die itemlösung ?
was ist mit personenfähigkeit im rasch-modell gemeint ?
was passiert laut Rasch-modell, wenn die personenfähigkeit die Itemschwierigkeit übersteigt ?
Das Rasch - modell (1 PL):
(es soll erklären , wie wahrscheinlich es ist, dass eine person ein bestimmtes item richtig löst , und zwar abhängig von zwei fakotren: itemschwierigkeit - wie schwer ist die aufgabe? und personenfähigkeit- wie stark ist die ausprägung der person auf der gemessenen eigenschaft (zb intelligenz ?) es wird zb eingestezt um faire , vergleichbare testergebnisse zu erzielen, weil es zwischen person und item unterscheidet- unabhängig davon, welche items jemand gelöst hat. ziel: objektive, personen- und itemunabhänginge messung)
1das einfachste und bekannteste modell: Dichotom -logistisches modell
(das rasch-modell gehört zur familie der probabilistischen modelle und ist besonders einfach, weil es mit nur zwei antwortmöglichkeiten (dichotom zb richtig 7 falsch ) arbeitet. es ist in der praxis weit verbreitet und bekannt )
2annahme : itemlösung hängt nur von 2 parametern ab
(das modell geht davon aus, dass nur zwei faktoren bestimmen, ob eine testperson ein item richtig beantwortet : (1.) wie schwierig das item ist und 2. wie fähig die person ist)
2itemschwierigkeit
(dieser paramter beschreibt , wie anspruchsvoll ein item ist, also wie schwer es den meisten personen fällt , es zu lösen )
2personenfähigkeit
(das meint, wie stark eine person in einer bestimmten eigenschaft oder fähigkeit ausgeprägt ist- zum beispiel intelligenz oder exraversion. je höher die fähigkeit , desto wahrscheinlicher eine richtige antwort )
3personenfähigkeit ist die ausprägung der person auf einer latenten variable (meint auch die ausprägung auf persönlichkeitsmerkmalen)
(latente variablen sind nicht direkt messbar , sondern nur über verhaltensindikatoren . die personenfähigkeit beschreibt also eine nicht-beobachtbare fähigkeit oder eigenschafr der testperosn , wie zb ihre inteligenz oder ihr grad an extraversion )
4je mehr die personenfähigkeit die itemschwierigkeit übersteigt, desto wahrscheinlicher wird das item gelöst )
(wenn die fähigkeit einer person deutlich größer its als die schwierigkeit des items, dann steigt die wahrscheinlichkeit , dass die person das item richtig beantwiortet. dies ist der zentrale mechanismus des rasch-modells )
📌 Wann verwendet man das Rasch-Modell?)
1. Während der Testentwicklung (Fragebogenkonstruktion):
✅ Zur Itemanalyse:
Man prüft, ob alle Items zum gleichen Konstrukt gehören (z. B. Extraversion) und ob sie sich in ihrer Schwierigkeit sinnvoll unterscheiden.
✅ Zur Auswahl geeigneter Items:
Man behält nur die Items, die zuverlässig zwischen Personen mit unterschiedlicher Ausprägung auf der latenten Variable unterscheiden.
2. Während der Testauswertung:
✅ Zur Berechnung von Personenwerten (Fähigkeitsparametern):
Man nutzt das Modell, um die Fähigkeit/Veranlagung einer Person unabhängig von den konkret gelösten Items zu schätzen.
✅ Zur Erstellung von Item-Charakteristik-Kurven:
Diese zeigen, wie stark die Wahrscheinlichkeit einer richtigen Lösung von der Personenfähigkeit abhängt.
3. Zur Qualitätssicherung von Tests:
✅ Wenn ein Test rasch-skalierbar ist, bedeutet das:
Die Items messen ein gemeinsames Merkmal,
Der Test erfüllt wichtige Gütekriterien wie Objektivität, Reliabilität, Fairness.
📌 Zusammenfassung (kurz):
Man verwendet das Rasch-Modell, um während der Konstruktion und Auswertung eines Fragebogens sicherzustellen, dass Items einheitlich und fair ein Merkmal messen.
wenn das rasch-modell gilt , treten für die testdiagnostik nützliche folgen ein
welche rolle spielt der summenwert der items in einem test nach dem rasch -modell ?
was bedeutet es, dass der testscore im rasch-modell “statistisch eindimensional” ist ?
was ist unter “spezifischer objektvität” im rasch-modell zu verstehen ?
wenn das Rasch-modell gilt, treten für die testdiagnostik nützliche folgen ein
erschöpfende statistik
1der summenwert der items enthält alle informationen die man braucht
(in einem test nach dem rasch modell reicht es, die anzahl richtig gelöster items (summenwert) zu kennen- man braucht keine zusätzlichen daten über die antworten, um die fähigkeit einer person zu beurteilen )
1verrechnungsvorschrift des einfachen addierens der items abgesichert
(die einfache addition der itemantworten (zb =0/1) genügt, es ist mathematisch zulässig, die rohwerte ohne gewichtung oder transformation zu summieren )
voraussetzung sind gleiche itemtrennschärfen
(alle items müssen gleich gut zwischen personen mit unterschiedlicher fähigkeit unterscheiden können. nur dann ist die addition sinnvoll und korrekt im sinne des modells )
man misst und zählt nicht nur punkte
(auch wenn man summiert, steckt mehr dahinter: die summenwerte werden in fähigkeiten auf einer latenten skala übersetzt- es geht also nicht bloß um “mehr punkte= besser” , sondern um eine mathematisch fundierte aussagen über die zugrundeliegende fähigkeit. )
(🎯 Worum geht's beim ersten Satz („Der Summenwert der Items enthält alle Informationen, die man braucht.“)?
👉 Bedeutung:
Wenn das Rasch-Modell gilt, dann genügt es für die Schätzung der Fähigkeit einer Person, nur die Summe der richtig gelösten Items zu betrachten. Man braucht keine weiteren Infos über das Antwortmuster – nur die Gesamtpunktzahl zählt.
💡 Beispiel:
Wenn Person A 7 Items richtig löst und Person B nur 4, dann wissen wir aus Sicht des Rasch-Modells alles, was wir brauchen, um zu sagen: Person A ist fähiger als Person B – unabhängig davon, welche Items sie gelöst haben.
🤔 Aber warum heißt es dann „Man misst und zählt nicht nur Punkte“?
Das klingt wie ein Widerspruch, ist es aber nicht!
Was hier gemeint ist: Auch wenn mathematisch nur die Punktzahl verwendet wird, bedeutet das nicht, dass man „bloß zählt“.
Denn:
Die Punktzahl wird nicht direkt interpretiert, sondern sie dient dazu, eine latente Fähigkeit (wie Intelligenz oder Extraversion) auf einer Skala zu schätzen.
💡 Konkret:
Du sagst also nicht:
„Person A hat 7 Punkte, also ist sie gut.“
Sondern:
„Die 7 Punkte entsprechen im Rasch-Modell einer bestimmten Fähigkeit auf einer mathematischen Skala.“
✅ Fazit (ganz einfach gesagt):
Man zählt Punkte – ja.
Aber diese Punkte stehen für etwas Tieferes (nämlich: eine Eigenschaft/Fähigkeit der Person).
Die Punkte reichen mathematisch aus, um die Fähigkeit zu bestimmen.
Aber die Bedeutung entsteht erst durch das Modell, nicht durch das bloße Zählen.
2testscore ist statistisch eindimensional
2der test ist nur auf eine latente dimension zurückzuführen
(der test misst nur ein einziges merkmal (zb mathematische fähigkeit oder extraversion) es gibt keine vermischung verschiedener merkmale - das ist eine kernannahme des rasch-modells )
3spezifische objektivität von vergleichen
3unterschiede zwischen personen gleich, egal wie schwierig items sind
(zwei personen können miteinander verglichen werden, auch wenn sie unterschiedliche items bearbeitet haben - solange diese items dem rasch-modell entsprechen. die schwierigkeit verzerrt den vergleich nicht. )
3unterschiede zwischen items gleich, egal wie fähigkeit personen sind
(umgekehrt können auch items verglichen werden, obwohl sie von unterschiedlichen personen bearbeitet wurden- die fähigkeit der person beeinflusst die vergleichbarkeit der items nicht, wenn das modell gilt)
die gültigkeit des rasch-modells kann überprüft werden
wie kann die gültigkeit des rasch-modells überprüft werden ?
was passiert beim graphischen modelltest mit der stichprobe ?
wann gilt das rasch-modell im graphischen modelltest als “augenscheinlich” gültig ?
1die gültigkeit des rasch-modells kann überprüft werden
(ddas bedeutet: man kann testen ob ein datensatz wirklich den annahmen des rasch-modells entspricht (zb eindimensionale struktur , gleiche trennschärfe etc)
1meist inferenzstatistische modelltests
(in der regel verwendet man statistische verfahren, um systematisch zu prüfen, ob das modell zur realität passt )
1häufig eingesetzt: graphischer modell-test
(der sogenannte graphische modelltest ist ein häufig genutztes verfahren zur überprüfung der rasch-modell-gültigkeit , weil er ergebnisse visuell veranschaulicht )
2teiliung der stcihprobe am median des gesamtscores
(die gesamtgruppe wird in zwei teilgruppen aufgeteit: eine mit scores unter dem median und eine mit scores über dem median )
2in beiden teilstichproben werden itemparameter getrennt geschätzt
(für jede teilgruppe werden seperat die itemschwierigkeiten berechnet)
3vergleich der itemparameter auf abweichungen: gültigkeit des rasch-modells “augenscheinlich”
(wenn die itemparameter (zb schwierigkeit ) in beiden gruppen sehr ähnlich sind , ist das ein hinweis darauf, dass das rasch-modell gültig ist - man erkennt es auf einen blick im plot )
Die grüne Streudiagramm-Grafik zeigt das Ergebnis des graphischen Modelltests, der prüft, ob die Itemparameter stabil sind – also unabhängig davon, ob eine Personengruppe ein hohes oder niedriges Gesamtergebnis hat.
🔹 Achsenbeschriftung:
x-Achse: „MA > Md“
→ Das sind die Itemparameter (meist Schwierigkeit) der Gruppe mit höheren Gesamtscores (über dem Median).
y-Achse: „MA ≤ Md“
→ Das sind die Itemparameter derselben Items bei der Gruppe mit niedrigeren Gesamtscores (unter dem Median).
🔹 Punkte:
Jeder Punkt steht für ein Item, z. B. Punkt „3“ ist das dritte Item im Test.
Die Punkte zeigen, wie ähnlich oder unterschiedlich das jeweilige Item in beiden Gruppen funktioniert.
🔹 Diagonale Linie (45°-Linie):
Das ist die Idealgerade, auf der alle Punkte liegen würden, wenn die Itemparameter in beiden Gruppen exakt gleich sind.
Das wäre perfekt im Sinne des Rasch-Modells: Es bedeutet, dass die Items unabhängig von der Fähigkeit der Teilgruppe gleich funktionieren.
🔹 Interpretation:
Die Punkte liegen sehr nah an der Diagonale → das heißt: Die Itemparameter sind stabil.
Das spricht für die Gültigkeit des Rasch-Modells im Sinne eines „augenscheinlich passenden“ Modells (visuelle Prüfung).
Der R²-Wert (0,953) unten rechts zeigt, dass es eine sehr starke lineare Übereinstimmung gibt.
✅ Fazit:
Die Abbildung zeigt, dass die Itemparameter zwischen den beiden Teilstichproben kaum abweichen. Damit stützt das Ergebnis das Rasch-Modell – es scheint für diese Daten gültig zu sein.
Das Birnbaum oder 2PL-Modell
was ist beim birnbaum - oder 2PL - Modell denkbar im hinblick auf die testitems ?
was liegt im fall unterschiedlich “guter” testitems im 2PL-Modell vor ?
welche folge hat es, wenn unterschiedliche itemtrennschärfen vorliegen ?
von welchen parametern hängt die itemlösung im 2PL-/Birnbaum-modell ab ?
1.denkbar, dass testitems unterschiedlich “gute “ indikatoren für das latente konstrukt sein können
(manche items eines tests sind bessere oder schlechtere messinstrumente für das, was man eigentlich messen will (zb intelligenz / extraversion ) . es ist also möglich, dass einige fragen besser zwischen personen mit hoher und niedriger ausprägung auf einem merkmal unterscheiden als andere )
in diesem fall liegen unterschiedliche itemtrennschärfen vor
(das bedeutet die items haben unterschiedliche “unterscheidungsfähigkeit”. ein trennscharfes item erkennt besser ob jemand wirklich viel oder wenig von dem gemessenen merkmal hat. ein weniger trennscharfes item bringt weniger aussagekraft mit sich )
3.folge: das modell muss um einen parameter erweitert werden
(während das rasch-modell (1pl) Nur zwei parameter verwendet (itemschwieirigkeit und personenfähigkeit ) braucht man hier einen zusätzlichen dritten parameter , nämlich den trennschärfeparameter . weil man jetzt nicht mehr davon ausgeht, dass alle items gleich trennscharf sind )
4.annahme: itemlösung hängt von diesen parametern ab
(die wahrscheinlichkeit dass ein item richtig gelöst wird, hängt nun von:
4itemschwierigkeit (wie schwer ist das item)
4personenfähigkeit (wie fähig ist die person
4trennschärfeparamter (wie gut kann das item zwischen fähigkeitsniveaus unterscheiden
ab
(birnbaum = 2 pl modell und es heißt so weil es 2 parameter verwendet (itemschwie, und trennschärfe)
Das 3PL-Modell
was versteht man unter dem 3Pl
was könnte beim 3PL-Modell zusätzlich eine Rolle bei der Itembeantwortung spielen ?
welche folge ergibt sich daraus für das modell?
von welchen parametern hängt laut dem 3PL-Modell die Itemlösung ab?
1Das 3PL-Modell
(das 3PL-Modell (Three-Parameter-Logistic Model) ist ein modell der probabilistischen Testtheorie. es erweitert die vorherigen modelle (zb Rasch- oder 2PL-Modelle) um einen weiteren einflussfaktor: das zufällige Raten. das modell geht davon aus, dass die wahrscheinlichkeit, ein item richtig zu lösen, von 3 itemparametern abhängt: 1. itemschwierigkeit- wie schwer das item ist , 2. trennschärfeparameter- wie gut das item zwischen personen unterscheidet, 3. rateparameter - wie wahrscheinlich es ist, dass die testperson das item durch raten richtig beantwortet.
zusätzlich fließt auch die personenfähigkeit ein (wie gut jemand im gemessenen merkmal ausgeprägt ist ), aber diese wird nicht als itemparameter gezählt , daher “3PL”. )
2es könnte durch die auswahl mehrerer Antwortmöglichkeiten auch das zufällige Raten eine rolle spielen
(in tests mit mehrfachauswahl (MS) können Teilnehmende items auch richtig beantworten, obwohl sie die antwort nicht wissen- einfach durch zufall. dieses raten kann das testergebnis verzerren und muss daher im modell berücksichtigt werden )
3folge: wir müssen zusätzlich einen rateparameter in das modell aufnehmen
(weil raten eine rolle spielt, reicht es nicht mehr aus, nur die personenfähigkeit und itemschwierigkeit zu betrachten. es wird ein zusätzlicher parameter (der rateparameter) eingeführt, um den einfluss des ratens mathematisch zu modellieren. )
4annahme: itemlösung hängt von diesen parametern ab
(die wahrscheinlichkeit, dass eine person ein item korrekt löst, hängt im 3PL-Modell nicht nur von zwei , sondern von vier inhaltlichen paramtern plus dem rateparameter ab: )
4itemschwierigkeit
(gibt an wie schwer das item im vergleich zu den fähigkeiten der personen ist )
4personenfähigkeit
(beschreibt, wie stark eine person das zu messende merkmal (zb intelligenz) ausgeprägt hat )
4trennschärfeparameter
(zeigt wie gut ein item zwischen verschiedenen fähigkeitsniveaus unterscheiden kann )
4rateparameter
(schätzt, mit welcher wahrscheinlichkeit jemand das item durch raten korrekt lösen kann (zb bei 25% bei vier antwortmöglichkeiten )
(warum heißt es dann 3PL obwohl es 4 parameter sind ?= der Name 3PL bezieht sich nur auf die drei item-bezogenen parameter: der name 3PL bezieht sich nur auf die drei item-bezogenen parameter: schwierigkeit, trennschärfe und rateparameter. die personenfähigkeit ist kein itemparameter sondern eine personenbezogene variable-deshalb wird sie nicht mitgezählt im namen des modells.)
Das Ordinale Rasch-Modell / Partial Credit Modell
was versteht man unter dem ordinalen rasch modell / partial credit modell ?
was sagt das modell im ordinalen rasch-modell / partial credit modell vorher?
von welchen parametern hängt die itemlösung im ordinalen rasch-modell ab ?
1Das Ordinale Rasch-Modell / Partial Credit Modell
diese überschrift benennt zwei namen für dasselbe modell- es geht um ein erweitertes rasch-modell - es geht um ein erweitertes rasch-modell , das nicht nur mit zwei antwortmöglichkeiten (dichotom) , sondern mit mehrstufigen antwortoptionen arbeiten kann. ordinal bedeutet: die antwortkategorien haben eine rangfolge, aber die abstände sind nicht zwingend gleich groß (wie bei likert-skalen: zb 1 = stimme gar nicht zu bis 5= stimme voll zu )
Partial credit modell heßt wörtlich: teilpunkte-modell. das bedeutet : eine person kann teilpunkte bekommen, je nachdem wie “nah” ihre antwort an der vollen zustimmung bzw richtigen antwort liegt . also die überschrift verweist auf ein modell das für mehrstufige antwortformate geeignet ist und in der probabilistischen testtheorie verwendet wird, um feiner zu differenzieren, wie personen auf items antworten )
1ist eine erweiterung des dichotomen modells auf sogenannte likert-skalen
(das ursprüngliche rasch-modell (1PL) geht von dichotomen antworten aus (zb richtig vs falsch ) das ordinale rasch modell erweitert dieses modell auf mehrstufige antwortmöglichkeiten, wie man sie auf likert-skalen findet (zb 1= stimme gar nicht zu… 5= stimme voll zu )
2modell sagt vorher, welche antwortkategorie eine person wählt
(das modell berechnet die wahrscheinlichkeit, mit der eine person eine bestimmte antwortkategorie (zb eine bestimmte likert-stufe) auswählt, je nach ihrer merkmalsausprägung und den schwellenwerten des items)
(ein schwellenwert des items (auch antwortschwelle genannt) ist die grenze zwischen 2 antwortkategorien bei mehrtsufigen skalen (zb likert-skalen. stell dir ein item vor mit 5 antwortmöglichkeiten: ich bin gerne unter menschen, zwischen diesen 5 antwortkategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2 , eine grenze zwischen 2 und 3 … usw. zwischen diesen 5 kategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2, usw. diese schwellenwerte legen fest bei welcher merkmalsausprägung (zb extraversion ) eine person eher die eine oder die nächste antwortkategorie wählt. ein schwellenwert des items ist der punkt auf der skala der latenten eigenschaft zb extraversion, an dem eine person “umspringt” von einer antwortkategorie zur nächsten )
3annahme: itemlösung hängt von diesen parametern ab
(das modell basiert auf zwei zentralen einflussfaktoren -also zwei parametern - die bestimmen, wie wahrscheinlich eine person eine bestimmte antwortkategorie auswählt)
3eigenschaftsausprägung (personenparameter)
(das ist die individuelle ausprägung einer person im interessierenden merkmal (zb extraversion, einstellung etc). sie wirkt sich auf die wahl der antwortkategorie aus)
3schwellenparameter (antwortschwellen der testitems)
(diese parameter geben an, an welcher stelle auf der skala (zb latente fähigkeit oder einstellung) eine person von einer antwortkategorie zur nächsten übergeht. beispiel : ab welcher ausprägung stimmt jemand “eher zu “ statt “neutral” zu )
schätzung von modellparametern
skalierung von personen- und itemparametern
was ist die conditional maximum likelihood-methode (CML) und wofür wird sie verwendet?
welch einheit wird in der probabilistischen testtheorie für personen- und itemparameter verwendet und was bedeutet das ?
wie lassen sich logit-werte interpretieren und wie groß ist der mögliche wertebereich ?
(hier geht es daurm, WIE man in der probabilistischen testtheorie bestimmte werte (“parameter”) berechnet - zb wie schwierig ein item ist oder wie fähig eine person ist. diese parameter können nicht direkt beobachtet, sondern nur mathematisch geschätzt werden- meist mit dem computer )
1computerbasierte schätzung, rechenintensives iteratives verfahren
(modelle der probabilistischen testtheorie können nicht einfach per hand gelöst werden. sie brauchen einen computer , der viele rechendurchläufe (iterativ) macht, bis das beste ergebnis gefunden ist. das verfahren ist aufwendig (rechenintensiv )
1conditional maximum - likelihood -methode (cML)
(dies ist ein spezielles statistisches verfahren, mit dem man modellparameter (zb fähigkeit einer person oder schwierigkeit eines items) möglichst genau schätzt. es wird häufig im rasch-modell verwendet )
1werte werden so geschätzt, wie sie für die beobachteteten testwerte am plausibelsten sind (maximum likelihood)
(in diesem abschnitt wird erklärt, in welcher einheit diese geschätzten werte dargstellt werden (logits) und wie man sie interpretieren kann (zb was bedeutet +3 logits? außerdem wird gezeigt, dass man fähigkeiten von personen und schwierigkeiten von items direkt vergleichen kann, weil sie auf derselben skala liegen )
2mit derselben einheit erfasst: logits
(die geschätzten werte (zb für fähigkeit oder schwierigkeit) werden alle in der gleichen einheit angegeben , nämlich in logits (=logistische einheiten ), so sind sie vergleichbar.
2können direkt zueinander in bezug gesetzt werden
(da beides (person und item) in logits gemessen wird, kann man sie direkt vergleichen. wenn zb person = 1.5 logits und item = o.5 logits —> die person hat eine höhere fähigkeit als die item-schwierigkeit )
3werte von plus 3: sehr hihe fähigkeits-/eigenschaftsausprägung
(wenn jemand +3 logits hat, ist das eine sehr starke ausprägung (zb sehr hohe mathematische fähigkeit oder sehr hohe extraversion )
3werte von minus 3 : sehr niedrige fähigkeits/- eigenschaftsausprägung
(-3 logits bedeutet eine sehr geringe ausprägung - die person hat die eigenschaft kaum (zb sehr geringe lesekompetenz )
3theoretisch geht der wertebereich von +unendlich bis -unendlich zeichen (forever zeichen)
(in der theorie sind die werte unbegrenz nach oben und unzen , also unednlich hohe oder niedrige ausprägungen wären möglich. in der praxis kommen aber meist werte zwischen -3 und +3 vor. )
(1: die CML ist ein rechenintensives iteratives verfahren , das in der probabilistischen testtheorie verwendet wird. es handelt sich um eine methode zur schätzung von modellparametern. werte werden so geschätzt, wie sie für die beobachteten testwerte am plausibelsten sind (maximum likelihood)
zuverlässigkeit in PTT-Modellen
was wird in der klassischen testtheorie KTT über messfehler angenommen ?
was berücksichtigt die item-response-theorie (IRT) in bezug auf die messung ?
wie wird der messfehler in der IRT differenziert ?
was ist ein messfehler
Zuverlässigkeit in PTT-Modellen
1in der KTT: annahme, dass messfehler für alle personen unabhängig von ihrer fähigkeit / eigenschaft gleich ausfällt.
(in der klassischen testtheorie ktt wird davon ausgegangen, dass jeder mensch - egal wie gut oder schlecht er in einem bereich ist- densleben messfehler hat. die ungenauigkeit bei der messung ist also für alle gleich, unabhängig vom fähigkeitsniveau )
in der IRT:
2Berücksichtigung, welche informationen items über die messung einer fähigkeit / eigenschaft liefern
(in der item-response-theorie (IRT) wird genau geschaut, wie viel ein bestimmtes item über die fähigkeit einer person aussagt. manche aufgaben sagen mehr über die fähigkeit aus als andere- diese unterschiede werden in der IRT berücksichtigt.
3für jede ausprägung der person kann ein messfehler angegeben werden
(im gegensatz zur KTT hängt der messfehler in der IRT vom fähigkeitsniveau der getesteten person ab. das heißt: je nachdem, wie stark oder schwach jemand in einem bereich ist, ist der messfehler unterschiedlich groß- und wird individuell angegeben )
(ein messfehler ist die abweichung zwischen dem wahren wert (den wir eigentlich messen wollen ) und dem beobachteten testergebnis. du machst also einen test, aber dein ergebnis ist nicht exakt ddein “wahres können “ sondern enthält auch zufallseinflüsse zb konzentration, missverständnisse in der frage, glück oder pech beim raten ) diese zufällige abweichung ist der messfehler. man geht in der psychologie immer davon aus, dass kein test perfekt misst, sondern immer ein gewisser fehler dabei ist )
6.3 Gütekriterien
6.3.1 Reliabilität, Konfidenzintervalle und kritische differenzen
was ist laut DIN 2016 die voraussetzung für Reliabilitätsangaben ? was versteht man unter reliabilität?
welche schätzer gibt es für die reliabilität und was bedeuten sie ?
wofür werden die genannten schätzer verwendet ?
1reliabilitätsangaben müssen aus empirischen studien abgeleitet sein
(man darf die reliabilität (also die zuverlässigkeit eines tests) nicht einfach schätzen oder annhemen, sondern sie muss in echten studien mit daten nachgewiesen werden. das bedeutet : es braucht empirische belege, damit man sagen kann , wie genau ein test misst. (beispiel din 2016 fordert das auch formell )
Reliabilität= ein test ist reliabel, wenn er genau und frei von zufallsschwankungen misst. dh wenn man denselben test mehrmals durchfphrt, sollte immer wieder ein ähnliches ergebnis herauskommen- unter denselben bedingungen )
2,3unterschiedliche schätzer für die reliabilität von testwerten
(es gibt verschiedene möglichkeiten wie man die reliabilität berechnen kann - je nach aufbau und zweck des tests. diese methoden heißen “schätzer”, weil sie die genauigkeit (reliabilität ) eines testergebnisses abschätzen.
2retest-korrelation
(der gleiche test wird zweimal derselben person gegeben (mit etwas zeit dazwischen ). wenn die ergebnisse ähnlich bleiben, ist der test stabil—>hohe reliabilität.
2paralleltest-korrelation
(zwei vergleichbare tests, die dasselbe messen, werden gegeben. wenn die ergebnisse korrelieren , ist der test zuverlässig.
2split-half-korrelation
(ein test wird in zwei hälften geteilt (zb gerade vs ungerade items) , und deren ergebnisse werden miteinandeer verglichen. hohe korrelation —> test ist in sich stimmig.
2interne konsistenz / cronbachs alpha
(misst, wie stark die einzelnen items eines tests zusammenhängen. cronbachs alpha ist der häufigste wert dafür. hoher wert = items messen vermutlich das gleiche konstrukt.
3(sie sind schätzer für die reliabilität von testwerten )
6.3.1 reliabilität , konfidenzintervalle und kritische differenzen
entwicklung eines reliablen tests bzw. testwerts
welche zwei einflussgrößen sind zentral für die entwicklung eines reliablen tests ?
was ist ein merkmal von variante 1 zur testentwicklung und was muss der test dabei erfassen können ?
was zeichnet variante 2 aus und wofür eignet sich das ?
(ziel ist es, testverfahren so zu gestalten , dass sie zuverlässig (reliabel) messen - also bei wiederholter anwendung vergleichbare ergebnisse liefern )
1zentrale einflussgrößen: testlänge und mittlere korrelationshöhe der items
(die reliabilität hängt stark davon ab: 1. wie viele items ein test enthält (testlänge) 2. wie stark die items miteinander korrelieren - je ähnlicher sie das gleiche messen, desto besser (mittlere korrelation )
2variante 1:
2wenige, aber hochkorrelierte items
(wenn nur wenige items im test enthalten sind, müssen diese sehr stark miteinander zusammenhängen , um zuverlässig zu sein )
2test muss einen engen verhaltensausschnitt erfassen (bspw. ich gehe abends gerne aus )
(misst ein konkretes verhalten (enge ausrichtung )
3variante 2:
3große anzahl von items, langer test
(wenn man viele items einsetzt, kann man damit auch breitere merkmalsbereiche erfassen.)
3test kann auch breiten verhaltensauschnitt erfassen (bspw. ich bin ein geselliger mensch )
(ist ein allgemein gehaltener item, der viele verschiedene alltagssituationen abdecken kann )
6.3.1 Reliabilität , konfidenzintervalle und kritsiche differenzen
Aktualität von Reliabilitätsschätzungen
warum müssen reliabilitätsschätzungen regelmäßig überprüft werden ?
was schreibt die DIN 33430 im hinblick auf reliabilitätsschätzungen vor ?
wie lang ist der maximale zeitraum für die überprüfung laut DIN 33430 und was gilt , wenn dieser überschritten wird ?
1aktualität von Reliabilitätsschätzungen
1die art, wie menschen einen test ausfüllen und die aktualität von items kann sich mit der zeit ändern
(das bedeutet: menschen verändern sich, sprache wandelt sich, gesellschaftliche normen ebenso. ein item , das vor jahren eindeutig war, kann heute unklar oder anders verstanden werden )
2DIN 33430 fordert eine regelmäßige überprüfung der zuverlässigkeits - Kennwerte eines tests
(laut dieser norm soll man nicht einfach “ewig” dieselben reliabilitätswerte verwenden - es muss nur regelmäßig geprüft werden, ob der test noch zuverlässig ist )
3zeitraum : 8 jahre
(die norm DIN 33430 Nennt einen festen zeitraum: spätestens alle 8 jahre müssen reliabilitätskennwerte überprüft werden.
3wenn die schätzwerte 8 jahre nicht gepürft wurden, muss begründet werden, warum das verfahren dennoch ausgewählt wurde
(ausnahme: wenn man einen alten test nutzt, der länger als 8 jahre nicht akutalisiert wurde, muss man in der testdokumentation gut erklären, warum man ihn trotzdem verwendet )
6.3.1 Reliabilität , konfidenzintervalle und kritische differenzen
stichprobenabhängigkeit von reliabilitässchätzungen
warum muss die reliabilität eines testwerts anhand einer relevanten stichprobe geschätzt werden ?
was passiert, wenn man die reliabilität in einer zu breiten stichprobe schätzt und warum ?
was beeinflusst die merkmalsvarianz die reliabilitätsschätzung ?
stichproben von reliabilitätsschätzungen
1reliabilität eines testwerts muss anhand einer für unsere fragestellung relevanten stichprobe geschätzt werden
(die reliabilität ist nicht einfach allgemein gültig, sie hängt davon ab , FÜR WEN der test verwendet wird. man muss die reliabilität an genau der zielgruppe schätzen, für die man den test einsetzen will )
2beispiel aus der eignungsdiagnostik :
(ein praktisches beispiel um das problem zu verdeutlichen )
ein unternehmen möchte nur gymnasiasten als kandidaten für das auswahlverfahren akzeptieren
(das ziel ist : nur gymnasiasten sollen gestestet und ausgewählt werden )
2es soll ein intelligenztest durchgeführt werden
(um die eignung zu prüfen , wird ein intelligenztest verwendet )
2wird die reliabilitätsschätzung in einer stichprobe mit allen schultypen vorgenommen, wird die reliabilität überschätzt
(wenn man den test an allen schülern (haupt, real, gymnasium) usw. testet, wirkt der test zuverlässiger , als er für gymnasiasten wirklich ist. denn: die unterschiede zwischen schülern aller schulformen sind größer—> das täuscht höhere reliabilität vor.
2grund: intelligenz und schulische leistung hängen zusammen
(je nach schultyp variiert im durchschnitt auch die intelligenzleistung - also misst man größere unterschiede )
2gymnasiasten unterscheiden sich untereinander weniger, als sich schüler zwischen schulen unterscheiden
(je nach schultyp variiert im durchschnitt auch die intelligenzleistung- also misst man größere unterschiede )
3je höher die merkmalsvarianz, desto höher die reliabilitätsschätzung
(varianz= unterschiedlichkeit. wenn man eine gemischte gruppe testet, ist mehr unterschied zwischen den personen —> dadurch erscheint der test als zuverlässiger , als er in einer einheitlichen gruppe (zb nur gymnasiasten ) tatsächlich ist ) .
2. die reliabilität wird überschätzt, weil bei größerer merkmalsvarianz (zb durch unterschiedliche schultypen) die unterschiede zwischen den personen größer sind, wodurch der test zuverlässiger erscheint, als er es in einer homogeneren zielgruppe ist )
6.3.1 Reliabilität, konfidenzintervalle und kritische differenzen
größe der teilstichproben
was wird zur schätzung der zuverlässigkeit bei teilstichproben gesagt ?
welche aussage macht din 33430 zur größe der teilstichproben ?
was gilt für schätzungen aus kleineren stichproben ?
was sind teilstichproben ?
1die zuverlässigkeit sollte für jede interessierende teilstichprobe getrennt geschätzt werden
(die aussage bedeutet, dass man die reliabilität (also die messgenauigkeit eines tests) nicht einfach allgemein angeben sollte. stattdessen sollte sie für jede relevante untergruppe (zb männer, frauen , altersgruppen, schultypen ) eigentlich seperat berechnet werden, weil sie sich zwischen gruppen unterscheiden kann
2DIN 33430 macht keine aussagen zur größe der teilstichproben
(die din norm , die anforderungen an berufsbezogene eigungsdiagnostik stellt, legt keine bestimmte anzahl an personen fest, die in teilstichproben enthalten sein müssen, um die reliabilität zu berechnen)
richtwert: im idealfall 400 personen (huber, 1973)
(es gibt eine empfehlung aus der fachliteraturm wonach etwa 400 personen aus stichprobengröße ideal wären, um eine verlässliche schätzung der reliabilität zu erhalten )
3schätzungen aus kleineren stichproben
(hier beginnt eine neue aussageeinheit, die sich mit kleinen gruppen beschäftigt )
3nicht zwangsläufig abzulehnen
(dh auch kleine stichproben können verwendet werden- sie sind nicht automatisch unbrauchbar )
3sie liefern nur eine weniger präzise schätzung
(der nachteil kleiner stichproben ist aber, dass die genauigkeit der schätzung leidet- die reliabilitätsangaben sind dann unsicherer oder schwankender.
4(teilstichproben sind untergruppen einer größeren stichprobe, die bestimmte merkmale gemeinsam haben. man verwendet sie zb um die zuverlässigkeit (reliabilität) eines tests getrennt für verschiedene gruppen zu überprüfen. zb wenn man einen eignungstest für schüler durchführt könnten teilstichproben sein : nur gymnasien, nur realschüler.. , nur schüler eines bestimmten alters , geschlechts ) laut folie sollte für jede interessierenden teilstichprobe die zuverlässigkeit getrennt geschätzt werden, weil sich die testgütekriterien je nach gruppe unterscheiden können )
berechnung der konfidenzintervalle
welchen zweck hat die berechnung von konfidenzintervallen ?
was beschreibt ein konfidenzintervall bei testwerten ?
wie lautet die formel zur berechnung des konfidenzintervalls ?
berechnung der konfidenzintervallen
1zweck: messpräzision berechnen
8das ziel der konfidenzintervalle ist es, zu bestimmen, wie genau ein gemessener testwert (x) ist- also wie stark er vom wahren wert t (tau) abweichen lönnte )
2intervall, in dem der wahre wert t (tau?) mit einer gewissen wahrscheinlichkeit (oft gewählt: 95% ) befindet
3formel
(das konfidenzintervall zeigt einen bereich an, in dem der wahre wert einer person mit 95%iger sicherheit liegt. beispiel: wenn jemand 100 punkte erzielt, und das intervall reicht von 95 bis 105, dann liegt sein wahrer wert mit 95%iger wahrscheinlichkeit innerhalb dieses bereichs. )
40
Zuletzt geändertvor 2 Tagen