Ăbersicht
Notizen rein
6.1 Grundlagen fĂŒr die Auswahl von Verfahren
Stichproben in der Eignungsdiagnostik
1was bedeutet âstichprobeâ in der eignungsdiagnostik und welche bedeutung hat sie ?
was ist ein zentrales merkmal guter eignungsdiagnostik in bezug auf stichproben?
welche informationen mĂŒssen zu stichproben laut DIN in testverfahren enthalten sein und warum ?
1In eignungsdiagnostischen untersuchungen werden stichproben gezogen: auswahl aus begrenzter anzahl an kandidat*innen
(In der eignungsdiagnostik wird nicht die gesamte zielgruppe untersucht, sondern eine begrenzte auswahl von personen - das nennt man stichprobe. diese stichprobe besteht aus kandidat*innen, die zum beispiel zu einem auswahlverfahren eingeladen werden. die ergebnisse dieser personen sollen dabei rĂŒckschlĂŒsse auf die eignung oder passung liefern)
1anhand der stichprobe werden rĂŒckschlĂŒsse auf andere mitglieder der organisation gezogen
(die ergebnisse der getesteten kandidatinnen sollen verallgemeinert werden- dh man schlieĂt von der leistung oder dem verhalten der stichprobe auf die eignung anderer zb wie geeignet jemand fĂŒr eine bestimmte rolle in der organisation ist oder wie gut die auswahlmethode im allgemeinen funktioniert.)
2merkmal guter eignungsdiagnostik: genaue beschreibung der stichprobe
(eine gute eignungsdiagnostische untersuchung erfordert eine klare und transparente beschreibung der getesteten gruppe. dh es muss dokumentiert werden, wer getestet wurde (alter, geschlecht, bildung etc)- nur so können die ergebnisse eingeordnet, verglichen oder auf andere kontexte ĂŒbertragen werden)
3in den verfahrenshinweisen von testverfahren
(in den offiziellen testmanualen odder handbĂŒchern steht, welche art von stichprobe bei der testentwicklung verwendet wurde. das ist wichtig,um zu prĂŒfen , ob der test zur eigenen zielgruppe passt.)
alter, geschlecht, bildung, situation in der das eignungsverfahren durchlaufen wird (zb freiwillige / anonyme teilnahme, ernstfallbedingung)
(diese angaben sind zentral um die aussagekraft unf fairness des verfahrens zu beurteilen. ein test, der zb nur mit studierenden unter laborbedingungen entwickelt wurde, könnte in einer realen bewerbungssituation mit fachkrÀften nicht angemessen funktionieren)
3grundlage fĂŒr vergleichbarkeit der kandidat*innen
(wenn die stichprobe gut dokumentiert ist, können die ergebnisse verschiedener gruppen oder verfahren fair miteinander verglichen werden. das erhöht die gĂŒte und transparenz eignungsdiagnostischer maĂnahmen.
6.1 Grundlagen fĂŒr die auswahl von verfahren
reprÀsentativitÀt von stichproben
was ist notwendig , um valide rĂŒckschlĂŒsse auf eine population ziehen zu können ?
was zeigt das beispiel mit den 30-35 jÀhrigen frauen aus bayern?
worauf gelten die an einer stichprobe ermittelten gröĂen ( zb mittelwerte , reliabilitĂ€t)
1um valide rĂŒckschlĂŒsse auf eine population ziehen zu können, muss eine stichprobe reprĂ€sentativ fĂŒr diese population sein
(wenn man aussagen auf die gesamtbevölkerung ĂŒbertragen möchte, muss die stichprobe diese population möglichst gut widerspiegeln)
2beispiel fĂŒr mangelnde reprĂ€sentativitĂ€t
2man möchte aussagen ĂŒber das intelligenzniveau von deutschen arbeitnehmern treffen
2man zieht eine stichprobe die lediglich aus 30-35 jÀhrigen frauen aus bayern besteht
(2dieses beispiel zeigt mangelnde reprĂ€sentativitĂ€t , weil die stichprobe zu einseitig ist. sie umfasst weder mĂ€nner noch andere altersgruppen oder regionen deutschlands- daher sind keine gĂŒltigen rĂŒckschlĂŒsse auf âalle arbeitnehmerâ möglich.
3die an einer stichprobe ermittelten gröĂen (zb mittelwerte, standardabweichungen, reliabilitĂ€ts- und validitĂ€tskoeffizienten) gelten nur fĂŒr die stichprobe oder fĂŒr populationen, die wie die stichprobe zusammengesetzt sind.
(alle berechneten kennwerte (wie durchschnitt, reliabilitĂ€t usw) sind nur dann ĂŒbertragbar, wenn die zielpopulation Ă€hnlich zusammengesetzt ist wie die untersuchte stichprobe)
auswertung und darstellung von daten aus eignungsverfahren
lernen
was ist ein beispiel fĂŒr die durchfĂŒhrung eines eignungsdiagnostischen verfahrens ?
welche 4 arten der ergebnisdarstellung (vom eignungsdiagnostischen verfahrens also hier dem wissenstests) gibt es hierbei?
und was bedeuten bzw was wird dabei gefragt jeweils
1beispiel: es wird ein wissenstest mit 30 bewerber*innen durchgefĂŒhrt
(es handelt sich um ein konkretes beispiel zur auswertung von testergebnissen einer stichprobe von 30 personen in einem eignungsdiagnostischen verfahren )
2wie soll die darstellung der ergebnisse erfolgen ? welche statistischen kennwerte können genutzt werden ?
(es wird gefragt, wie man die ergebnisse statistisch sinnvoll darstellen kann- also welche kennzahlen man berechnen sollte, um die verteilung zu beschreiben )
2betrachtung der verteilung der werte : wie oft kommen die einzelnen werte vor
(das ist eine hÀufigkeitsverteilung- man schaut , wie oft bestimmte werte auftreten (zb wie viele personen welche punktzahl erreicht haben)
2beschreibung der verteilung durch maĂe der zentralen tendenz : welcher wert ist am typischsten fĂŒr die verteilung ?
(hierbei geht es um durchschnitsswerte, also mittelwert, median oder modus, die den âtypischen â wert in der verteilung beschreiben )
2beschreibung der schiefe der verteilung: liegen besonders viele werte links bzw. rechts der verteilungsmitte
(die schiefe zeigt, ob die verteilung symmetrisch ist oder zb wie viele werte eher niedrig (linksschief) oder hoch (rechtsschief) liegen
2beschreibung der verteilung durch streuungsmaĂe: wie sehr unterscheiden sich die werte voneinander
(mit streuungsmaĂnahmen wie standardabweichung oder varianz kann man messen, wie stark die werte streuen - also ob alle sehr Ă€hnlich oder sehr unterschiedlich sind )
6.1 Grundlage fĂŒr die auswahl von verfahren
welche grafische methode wird zur darstellung der verteilung von werten genannt? und was zeigt man dadurch ?
welche maĂe der zentralen tendenz werden unterschieden? und was sagen die jeweils aus?
was bedeuten symmetrische und schiefe verteilungen ?
1histogramme der werte
(ein histogramm ist eine grafische darstellung der hÀufigkeiten von werten. es zeigt, wie oft bestimmte ergebnisse in einem test vorkamen)
2maĂe der zentralen tendenz
(diese maĂe beschreiben, welcher wert in einer verteilung typisch oder reprĂ€sentativ ist. es gibt verschiedene arten davon:
modalwert
(der modalwert ist der am hÀufigsten vorkommende wert in einer verteilung)
median
(der median ist der wert , der in der mitte liegt, wenn alle werte der gröĂe nach sortiert sind. die eine hĂ€lfte der werte liegt darunter, die andere darĂŒber)
arithmetisches mittel (mittelwert)
(der mittelwert ist die summe aller werte geteilt durch die anzahl der werte)
3symmetrische / schiefe verteilungen
(eine symmetrische verteilung bedeutet: die verteilung ist gleichmĂ€Ăig links und rechts vom mittelwert. eine schiefe verteilung bedeutet: es gibt einen ĂŒberhang zu einer seite (mehr niedrige oder mehr hohe werte)
welche maĂe der zentralen tendenz werden unterschieden? was sagen die aus?
welche verteilungsformen werden beschrieben ? was bedeuten die?
was ist ein histogramm und wofĂŒr wird es verwendet?
zeig auch an der grafik wie es aussieht
3histogramme der werte
(ein histogramm zeigt grafisch, wie oft bestimmte werte innerhalb eines tests vorkommen. es hilft, die verteilung der ergebnisse visuell zu erfassen.)
1maĂe der zentralen tendenz
(diese maĂe geben an, welcher wert in einer verteilung am typischsten oder reprĂ€sentativsten ist) :
(der modalwert ist der wert, der am hÀufigsten in der verteilung auftritt)
(der median ist der mittlere wert einer geordneten datenreihe, die hĂ€lfe der werte liegt darĂŒber, die andere darunter)
(das arithmetische mittel ist der durchschnittswert , berechnet aus der summe aller werte geteilt durch ihre anzahl)
2symmetrisch / schiefe verteilungen
(beschreibt die form der verteilung)
rechtsteil
(die verteilung ist nach rechts verzerrt- es gibt viele niedrige, aber wenige hohe werte )
linkssteil
(die verteilung ist nach links verzerrt, es gibt viele hohe aber wenige niedrige werte)
mehrgipflige verteilungen
(eine mehrgipflige verteilung hat mehrere modalwerte- es gibt mehrere hĂ€ufigkeitsspitzen . das weiĂt auf unterschiedliche gruppen innerhalb der stichprobe hin )
streuungsmaĂe
was sind streuungsmaĂe und welche funktion erfĂŒllen sie in der eignungsdiagnostik?
was ist der unterschied zwischen varianz (SD hoch 2 ) und standardabweichung (SD)?
warum ist der Interquartiabstand (IQA) in bestimmten fÀllen aussagekrÀftiger als die Spannweite ?
was sagt die spannweite und der IQA aus?
1StreuungsmaĂe:
(streuungsmaĂe zeigen, wie weit die einzelnen werte einer verteilung vom mittelwert abweichen- sie sagen also etwas ĂŒber die unterschiedlichkeit (heteorgenitĂ€t) der werte aus) sie liefern wichtige hinweise zur interpretation von testergebnissen )
spannweite (range)
(die spannweite ist die differenz zwischen dem gröĂten und dem kleibsten wert in der verteilung. sie gibt an, wie breit der wertebereich ist.
Interquartilabstand (IQA)
(der IQA ist der bereich, in dem die mittleren 50% der werte liegen. er ist weniger anfĂ€llig fĂŒr ausreiĂer als die spannweite)
2Varianz (SD hoch 2)
(die varianz beschreibt die durchschnittliche quadratische abweichung der werte vom mittelwert. je gröĂer die varianz, desto unterschiedlicher sind die werte.
2standardabweichung
(die standardabweichung ist die wurzel aus der varianz und gibt an, wie stark die werte im schnitt vom mittelwert abweichen- in derselben einheit wie die messwerte.)
(abbildung: zeigt eine normalverteilte verteilung der werte, bei der die streuung symmetrisch um den mittelwert herum erfolgt. die höhe der kurve entspricht der hÀufigkeit )(NORMALE abbildung wo graph mit links hÀufigkeit steht )
(antwort: weil der IQA nur die mittleren 50% der werte betrachtet und daher nicht von ausreiĂern beeinflusst wird- im gegensatz zur spannweite , die durch extreme einzelwerte verzerrt sein kann )
6.1 grundlagen fĂŒr die auswahl von verfahren
zusammenhangsmaĂe : korrelationen
was sind zusammenhangsmaĂe in der eignungsdiagnostkik?
welche korrelationsarten können je nach skalenniveau verwendet werden ?
wozu sind korrelationen in der eignungsdiagnostik besonders wichtig ?
welche beispiele werden genannt bezogen auf korrelationen ?
1zusammenhangsmaĂe: Korrelationen
(korrelationen sind statistische kennwerte, die zusammenhÀnge zwischen zwei variablen beschreiben zb ob mit steigender intelligenz auch der beurfserfolg steigt)
1Einfache Korrelationen (zb auch reliabilitÀts- und validitÀts-koeffizienten )
(einfache korrelationen geben an, wie stark zwei variablen miteinander zusammenhĂ€ngen. sie umfassen auch wichtige testgĂŒtekriterien: reliabilitĂ€t (zuverlĂ€ssigkeit ) und validitĂ€t (gĂŒltigkeit eines tests )
2je nach skalenniveau: pearson, Biserial etc.
(je nachdem, welche art von daten vorliegt (zb metrisch , ordinal) verwendet man unterschiedliche korrelationskoeffizienten:
pearson korrelation: fĂŒr metrische daten
biseriale korrelation: zb bei kombination von dichotomen und metrischen daten )
3wichtig fĂŒr die validierung und evaluation von eignungsverfahren
(korrelationen sind essenziell , um zu prĂŒfen, ob ein eignungsdiagnostisches verfahren wirklich misst, was es soll (validierung) und wie gut es in der praxis funktioniert) (evaluation)
4beispiele:
zusammenhang von intelligenz und berufserfolg ?
zusammenhang von geschlecht und aufstiegschance ?
zusammenhang von extraversion und fĂŒhrungserfolg?
6.1 Grundlage fĂŒr die auswahl von Verfahren
zusammenhangsmape: Multiple Regression
wozu dient die multiple regression im rahmen eignungsdiagnostischer verfahren ?
welche informationen liefert eine regression ĂŒber die prĂ€diktoren eines eignungsdiagnostik- verfahrens ?
wofĂŒr wird die multiple regression im bereich der eignungsdiagnostik hĂ€ufig verwendet?
1zusammenhangsmaĂe: Multiple Regression
(Multiple regression ist ein statistisches verfahren, das untersucht, wie gut mehrere merkmale (prÀdiktoren ) gemeinsam ein ergebnis (zb beurfserfolg) vorhersagen können. )
1bspw.: Bestimmung der prÀdiktionskraft von prÀdiktoren
(mit hilfe der multiplen regression kann man feststellen, wie stark bestimmte merkmale (zb intelligenz, schulnoten ) etwas vorhersagen können zb den berufserfolg)
1prÀdiktoren zb: IQ, Schulnoten , interviews , AC-Scores
(diese merkmale nennt man prĂ€diktoren , also eigenschaften oder testergebnisse, die zur vorhersage dienen alos das ziel haben zb berufserfolg vorherzusagen . AC steht fĂŒr Assessment center)
kriterium: berufserfolg
(das kriterium ist das, was vorhergesagt werden soll- hier: der erfolg im beruf)
3oft auch als gĂŒltigkeitsnachweis von verfahren
(die multiple regression wird hĂ€ufig genutzt, um die validitĂ€t (gĂŒltigkeit) eines eignungsverfahrens zu belegen, also ob das verfahren tatsĂ€chlich das misst, was es messen soll (Zb berfuserfolg vorhergesagt)
2regression liefert informationen ĂŒberâŠ
(die regression sagt uns wie viel einfluss die prÀdiktoren auf das kriterium haben )
2den gemeinsamen vorhersagebeitrag aller prÀdiktoren (R quadrat , AIC 7 BIC)
(zeigt wie gut alle prÀdiktoren zusammen das kritierium erklÀren können. r quadrat ist das bestimmtheitsmaà , AIC/ BIC sind informationskriterien )
2den vorhersagebeitrag jedes einzelnen prĂ€diktors (stand. gewichte Ă)
(zeigt wie stark jeder einzelne prĂ€diktor zb IQ das ergebnis beeinflusst. das Ă-gewicht sagt, wie wichtig dieser faktor im verhĂ€ltnis zu den anderen ist- unabhĂ€ngig von der maĂeinheit )
auswertung und darstellung von daten aus eignunsgsverfahren
zusammenhangsmaĂe: Multiple regression
was ist laut DIN 2016 bei der nutzung multipler regressionsmodelle notwendig und warum ?
was sind berichtspflichten bei der verwendung multipler regression ?
was bedeutet inkrementelle validitÀt und was fordert die DIN 2016 dazu?
1kreuzvalidierung nötig
(nach DIN-norm 2016 muss bei der nutzung multipler regressionsmodelle eine kreuzvalidierung erfolgen. das bedeutet: man darf die modelle nicht nur an einer stichprobe testen, sondern muss sie auf einer anderen ĂŒberprĂŒfen )
1trennung von modellentwicklung und anwendung
(die stichprobe , mit der ein modell entwickelt wird (zb welche prĂ€diktoren einflieĂen ) soll nicht identisch mit der sein, bei der das modell getestet wird- sonst besteht die gefahr der ĂŒberanpassung (overfitting )
1auswahl der prĂ€diktoren und höhe des multiplen zusammenhangs an neuer stichprobe ĂŒberprĂŒfen
(man soll prĂŒfen, ob die gefundenen zusammenhĂ€nge (zb IQ + SCHULNOtenâ> beurfserolg) auch bei einer anderen personengruppe gĂŒltig sind - das ist kreuzvalidierung
2berichtspflichten : R , Ă, einfache Kriteriums-Korrelationen
(im bericht mĂŒssen die folgende werte angegeben werden: R = multipler zusammenhang aller prĂ€diktoren mit dem kriterium, Ă= standardisierte einzelbeitrĂ€ge der prĂ€diktoren, einfache korrelationen = jeder einzelne prĂ€diktor mit dem kriterium )
3inkrementelle validitÀt
(neue (zusĂ€tzliche) prĂ€diktoren mĂŒssen einen zusĂ€tzlichen beitrag zur vorhersage leisten, um sinnvoll zu sein )
inkrementelle prÀdiktoren tragen zur vorhersagegenauigkeit bei
(ein prĂ€diktor hat inkrementelle validitĂ€t, wenn er ĂŒber die bereits verwendeten prĂ€diktoren hinaus neue erklĂ€rende informationen liefert )
auswahl von verfahren: zb assessment -center + intelligenztest oder nur assessment-center?
(diese frage prĂŒft, ob sich zb ein intelligenztest zusĂ€tzlich zum assessment center lohnt. wenn ja, hat er inkrementelle validitĂ€t)
bei der auswahl von verfahren nur solche berĂŒcksichtigen , die prĂ€diktionskraft verbessern
(laut din soll man nur verfahren auswÀhlen die einen zusÀtzlichen vorhersagewert liefern- also keine unnötigen tests einsetzen )
6.2 Testtheorien
zielsetzung von testtheorien
welche theoretische grundlage ist notwendig, um aus beobachteten testergebnissen rĂŒckschlĂŒsse ziehen zu können, und was ist das ziel dabei ?
was beschreibt die messgenauigkeit und was ist ihr ziel laut testtheorie ?
welche 2 testtheorien werden genannt ? und was unterscheidet sie ?
1theoretische grundlage fĂŒr die rĂŒckschlĂŒsse, die wir aus den beobachteten testergebnissen ziehen können (plausibles messmodell)
(testtehorien liefern das theoretische fundament, mit dem wir ĂŒberhaupt sinnvoll aus testergebnissen rĂŒckschlĂŒsse auf zugrundeliegende merkmale ziehen können. diese rĂŒckschlĂŒsse setzen ein plausibles messmodell voraus )
messen in der eignungsdiagnostik bzw. der psychologie vs. in den naturwissenschaften
(das messen in der psychologie (zb intelligenztests) unterscheidet sich von messungen in naturwissenschaften (zb temperatur ) es ist indirekter und basiert stÀrker auf modellen ))
3messen vs. zÀhlen (strukturerhaltende abbildung
(zÀhlen ist eine direkte erfassung (zb anzahl richtiger antworten ) wÀhrend messen eine theoretisch modellbasierte abbildung eines merkmals auf zahlen ist (zb intelligenz)
1,3ziel: absicherung der eindimensionalitÀt von messwerten PTT
(das ziel besteht darin, sicherzustellen, dass ein test nur ein einziges konstrukt (eine dimension ) misst - also zb nicht gleichzeitig intelligenz und motivation )
3probabilistische testtheorie (PTT)
(eine testtheorie, die davon ausgeht, dass die wahrscheinlichkeit, eine aufgbae zu lösen, von einer latenten fÀhigkeit abhÀngt-typisches beispiel : Item response theorie (IRT)
2Messgenauigkeit : wie genau können wir merkmale quantifizieren , die wir in der realitÀt beobachten ?
(es geht um die prÀzision psychologischer messungen- also wie zuverlÀssig ein test das misst, was er messen soll)
das beobachtete ergebnis kann auch durch einen fehler bei der messung erklÀrt / beeinflusst werden
(testergebnisse setzen sich aus wahrem wert + messfehler zusammen. die testtheorie berĂŒcksichtigt diese fehlerkomonente )
2,3ziel: absicherung der messgenauigkeit von messwerten KTT
(ziel ist, durch testtheorie sicherzustellen, dass die gemessenen werte verlÀsslich (reliabel) sind also möglichst wenig messfehler enthalten )
klassische testtheorie (KTT)
(eine der zentralen theorien zur messgenauigkeit : sie geht davon aus, dass jede beobachtete messung aus einem wahren wert und einem messfehler besteht
6.2.1 Latente und manifeste variablen
eignungsmerkmale sind konstrukte
was sind eignungsmerkmale in der testtheorie, und wie werden sie unterschieden ?
nenne beispiele fĂŒr manifeste variablen, was kennzeichnet sie ?
wie lÀsst sich das latente merkmal extraversion laut abbildung operationalisieren ?
1eignungsmerkmale sind konstrukte
(eignungsmerkmale wie zb extraversion oder intelligenz sind keine direkt beobachtbaren eigenschaften- sie sind gedankliche modelle also theoretische konstrukte , mit denen wir verhalten erklÀren )
1auch : nicht - beobachtbare sachverhalte, latente variablen
(diese eignungsmerkmale sind nicht direkt sichtbar, man nennt sie deshalb latente variablen (zb extraversion , motivation ) sie mĂŒssen indirekt erschlossen werden
1können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen zb lÀcheln , vermeidungsverhalten, reaktionszeiten )
(latente variablen zeigen sich indirekt zb durch verhalten , das wir beobachten können. solche direkt beobachtbaren merkmale heiĂen manifeste variablen . beispiele: lĂ€cheön, schnelle reaktion, vermeidung . diese beobachtbaren variablen geben hinweise auf das dahinterliegende konstrukt )
(abbildung: in der grafik wird das konstrukt extraversion als latente variable dargestellt.
pfeile fĂŒhren von verhaltensweisen wie : gerne viele leute um 3sich, leicht zum lachen zu bringen, besonders fröhlich , zu dem latenten konstrukt.
3diese aussagen sind indikatoren , also manifeste variablen , die durch einen fragebogen (extraversionsskala des NEO-FFI) erhoben werden.
fazit: latente variablen wie extraversion lassen sich ĂŒber manifeste variablen (verhaltensindikatoren ) erschlieĂen .
1was sind eignungsmerkmale
was ist der unterschied zwischen reflektiven und formativen latenten variablen ?
nenne beispiele fĂŒr manifeste variablen
was versteht man unter latenten variablen , und wie sind sie zu beobachten ?
Was zeigt die Abbildung
(eignungsmerkmale (zb intelligenz, extraversion ) sind theoretische begriffe - sie existieren nicht sichtbar, sondern werden als konstrukte gedacht, um verhalten zu erklÀren )
auch : nicht-beobachtbare sachverhalte, latente variablen
(diese konstrukte sind nicht direkt beobachtbar und werden in der testtheorie als latente variablen bezeichnet
können aus beobachtbaren verhaltensweisen erschlossen werden (manifeste variablen , zb lÀcheln, vermeidungsverhalten , reaktionszeiten )
(diese latenten variablen zeigen sich im verhalten also durch manifeste variablen , also durch direkt beobachtbare dinge wie zb reaktionen, gesichtsausdruck oder handlungen
unterscheidung reflektive vs formative latente varibalen
(es gibt 2 arten von latenten variablen: reflektive: die lantente variable sagt das verhalten vorher (zb extraversion â> viel reden )
(formative : die beobachtetetn variablen formen / kombinieren das konstrukt (zb bildung = summe von schulnote , abschluss, dauer )
(abbildung:
Die Abbildung zeigt zwei Wege zwischen latenter und manifester Variable:
Reflektive latente Variable â manifeste Variable
†Die latente Variable verursacht die beobachtete Reaktion.
Beispiel: Extraversion â LĂ€cheln, Redseligkeit
Formative latente Variable â manifeste Variable
†Die latente Variable entsteht aus einer Kombination beobachteter Merkmale.
Beispiel: Beruflicher Erfolg ergibt sich aus Einkommen + Aufstieg + Zufriedenheit.)
6.2.2 Klassische Testtheorie
was ist die grundannahme der klassischen testtheorie (KTT)?
was ist der wahre wert t einer person gemÀà der klassischen testtheorie?
welche funktion erfĂŒllt die klassische testtheorie (KTT) in der Eignungsdiagnostik ?
3Klassische Testtheorie (KTT)
(die klassische testtheorie ist eine grundlage fĂŒr die meisten messtheoretischen fundierten fragebögen. sie bilden die theoretische basis , auf der viele psychologische tests beruhen)
3Grundlage fĂŒr die meisten messtheoretisch fundierten fragebögen
3 ist eine messfehlertheorie
(die KTT ist eine theorie ĂŒber messfehler. sie geht davon aus, dass jeder gemessene wert aus einem wahren wert und einem fehler besteht )
3 dient zur grundlage fĂŒr die bestimmung der zuverlĂ€ssigkeit eines messwertes
(mit der KTT kann man berechnen, wie verlÀsslich ein testwert ist - also wie viel des wertes echt (true score) ist und wie viel fehleranteil (error)
Grundannahme 1 und 2 der KTT : 1
1Grundannahme 1: Jeder beobachtete Wert einer person setzt sich zusammen aus einem wahren wert Tau (t) und einem Messfehler (e)
UND 1. Formel mit Xperson gehört zur grundnnahme 1
(beobachteter wert = wahrer wert + fehler)
2 2. Grundannahme der wahre wert t der person ist definiert als der erwartungswert der beobachteten werte der person und 2.formel mit t person gehört zur grundannahme 2
(der wahre wert ist der statistische mittelwert, der sich ergeben wĂŒrde, wenn man unendlich oft misst.
Folgerungen aus den grundannahmen
wie ist die zuverlÀssigkeit laut klassischer testtheorie definiert ?
wie lautet die formel fĂŒr die reliabilitĂ€t in der klassichen testtheorie ?
warum braucht man unterschiedliche schĂ€tzer fĂŒr die reliabilitĂ€t ? und welche gibt es ?
1wenn wir den messfehler der items kennen, können wir die zuverlÀssigkeit des tests bestimmen
(wenn wir wissen , wie stark ein test durch messfehler beeinflusst wird, können wir berechnen, wie verlÀsslich die gemessenen werte sind. das ist die reliabilitÀt.
1zuverlÀssigkeit ist definiert als der grad der genauigkeit eines verfahrens, mit dem es das gemessene merkmal erfasst
(wie prÀzise misst ein test wirklich das, was er messen soll? je weniger messfehler, desto höher die zuverlÀssigkeit.)
2die KTT definiert die reliabilitÀt als verhÀltnis der varianz der wahren werte zu der varianz der beobachteten werte
2formel erklÀrung bild
3unterschiedliche schÀtzer, weil wahren wert t nicht bekannt
(da man wahre werte nicht direkt beobachten kann, braucht man indirekte methoden , um die reliabilitÀt zu schÀtzen.
3retest, paralleltest, split-half, interne konsistenz
(retest: wiederholung des tests zu einem spÀteren zeitpunkt)
(paralleltest: zwei inhaltlich Àquivalente tests )
(split half : interne teilung eines tests (zb gerade / ungerade items )
(interne konsistenz: zb cronbachs alpha )
2 Testtheorien
6.2.2 Klassiche Testtheorie
welche zwei zentralen kennwerte nennt die klassische testtheorie (KTT) zur beurteilung von testitems ?
was ist mit âtrennschĂ€rfeâ gemeint und wie wird sie berechnet ?
welcher aspekt steht bei der beurteilung einzelner items im fokus ?
warum benutzt man nicht die korrelation mit dem gesamttest inklusive des betreffenden items ?
bonusfrage tieferes verstÀndnis: wie hÀngt die trennschÀrfe mit der validitÀt eines items zusammen?
weitere kennwerte der KTT beziehen sich auf die einzelnen testitems
(neben reliabilitÀt etc. betrachtet man in der KTT auch Item-bezogene kennwerte , also wie sich jedes einzelne item im test verhÀlt)
1.zwei zentrale kennwerte: trennschÀrfe , itemschwierigkeit
(in der Ktt sind besonders trennschÀrfe (zusammenhang mit gesamttest ) und itemschwierigkeit (wie schwer ein item ist ) wichtige qualitÀtsmerkmale )
3.fokus: passung einzelner items und schwierigkeitsverhÀltnis
(man prĂŒft , ob ein einzelnes item gut zum test passt zb in bezug auf seine schwierigekeit und seinen zusammenhang mit dem gesamten test )
2.trennschÀrfe
2korrelation eines items mit der summe der restlichen items eines tests
(die trennschĂ€rfe gibt an, wie stark ein einzelnes item mit dem gesamtergbebnis (gesamtscore) der anderen items zusammenhĂ€ngt. man lĂ€sst das item selbst dabei weg, um die korrelation nicht kĂŒnstlich zu erhöhen. je höher die trennschĂ€rfe desto besser pasts das item inhaltlich zum gesamten test- es misst offenbar dasselbe konstrukt wie die anderen items.
trennschÀrfe= korrelation zwischen einem item und der summe der anderen items (ohne sich selbst)
2summe restlicher items fungiert als schĂ€tzgröĂe fĂŒr den wert der person auf der latenten variable
(die summe der restlichen items (also alle items auĂer dem betrachteten) dient als schĂ€tzwert fĂŒr das latente merkmal , das du mit dem test erfassen willst (zb intelligenz , extraversion )
man nimmt also an: wenn jemand bei den anderen items gut abschneidet , hat die person vermutlich auch einen hohen wahren wert auf dem konstrukt. die anderen items sagen voraus, wo die person auf der latenten skala ungefÀhr steht )
2man prĂŒft, wie hoch ein item mit dem konstrukt zusammenhĂ€ngt
(der test soll ein bestimmtes merkmal (zb extraversion ) messen. ein item (zb ich spreche gerne mit fremden ) sollte daher genau dieses konstrukt widerspiegeln. man testet also , ob das item mit dem gesamtwert korreliert, der als schÀtzung des konstrukt gilt )
(ein gutes item zeigt: ich messe auch wirklich das zielkonstrukt)
(4: weil das item dann mit sich selbst korreliert wĂ€re das wĂŒrde die trennschĂ€rfe kĂŒnstlich erhöhen . deshalb verwendet man die summe der restlichen items )
(hohe trenschĂ€rfe deutet darauf hin, dass ein item das gleiche misst wie der rest des tests â>spricht fĂŒr eine hohe inhaltliche validitĂ€t des items im bezug auf das zu messende konstrukt )
(
6.2.2 Klassiche testtheorie
itemschwierigkeit
inwiefern unterscheiden sich items laut der klassischen testtheorie?
was ist das ziel eines tests im hinblick auf die itemschwierigkeit ?
wie wird die itemschwierigkeit bestimmt und dargestellt ?
was veranschaulicht das beispiel mit den 100 kandidat*innen und dem wert 0.10 in bezug auf die itemschwierigkeit ?
itemschwierigkeit dh:
â>1items unterscheiden sich in ihrer schwierigkeit / leichtigkeit
2ziel eines tests: unterschiedliche merkmalsbereiche der kandidat*innen differenzieren
(ein guter test sollte nicht nur die sehr guten oder sehr schlechten kandidat*innen erkennen, sondern ĂŒber das gesamte fĂ€higkeitsspektrum unterschiede sichtbar machen )
3itemschwierigkeit wird durch den mittelwert bestimmt: relativer anteill richtig gelöster items
(schwierigkeit: durchschnittlicher anteil richtiger lösungen. )
beispiel: 100 kandidaten , 10 lösen das item
â>schwierigkeit =0.10
(leicht lösbar fĂŒr 10%)
leistungstest: âim durchschnitt lösen 10 % der kandidat*innen das itemâ
(item ist schwer)
persönlichkeitstests: âim durchschnitt stimmen 10% der kandidat*innen bei dem item zu â
(item wird selten bejaht , eher ungewöhnliches verhalten )
(das beispiel zeigt , wie. man die itemschwierigkeit berechnet: man nimmt den anteil der personen, die ein item richtig beantworten ( bei einem leistungstest) oder zustimmen (bei einem persönlichkeitstest)
wenn 100 personen ein item bearbeiten und nur 10 davon es richtig beantworten, ergibt sich: itemschwierigkeit = 10 von 100 = 0,10
das bedeutet: in einem leistungstest : nur 10% haben es richtig gelöst â> das item ist schwer.
in einem persönlichkeitstest: nur 10% stimmen zu â> es ist ein selten zutreffendes verhalten oder merkmal.
wichtig: je niedriger der wert, desto schwieriger ist das item (weil es nur wenige richtig oder zustimmend beantworten )
6.2.3 Probabilistische Testtheorie PTT
womit beschÀftigt sich die probabilistische testtheorie (PTT?)
welcher andere begriff wird ebenfalls fĂŒr die probabilistische testtheorie verwendet ?
was ist die zentrale frage der PTT?
Wie gehen die parameter in die modelle der PTT ein ?
wie beeinflusst die anzahl der parameter die komlexitÀt des modells ?
Probabilistische Testtheorie (PTT)
(das ist eine mdoerne testtheorie, die wahrscheinlichkieten verwendet, um zu erklÀren, wie wahrscheinlich es ist, dass eine testperson ein bestimmtes item richtig beantwortet )
1BeschÀftigt sich mit statistischen modellen, die das antwortverhalten einer testperson auf das item erklÀren
(PTT untersucht, wie personen auf bestimmte testaufgaben reagieren , basierend auf mathematischen modellen. diese modelle sagen mit welcher wahrscheinlichkeit jemand ein item richtig löst )
2auch item-response-theorie (IRT)
(die PTT ist auch unter dem begriff item - response- theorie (IRT) bekannt. das meint genau diese modellfamilie.
3zentrale frage: von welchen parametern hÀngt die erfolgreiche itembeantwortung ab ?
(die PTT fragt: was beeinflusst , ob eine person ein item richtig beantwortet? (zb ihre fÀhgikeit (personenparameter ), die schwierigkeit des items oder auch zufall. )
4die hypothetisierten parameter gehen dabei als numerische gröĂe in statistsch-theoretische modelle ein
(diese einflussfakotren (parameter) wie zb fÀhigkeit oder itemschwierigkeit werden mathematisch beschrieben, also als zahlenwerte im modell verwendet )
5je nach modell werden mehr / weniger parameter integriert, also die komplexititÀt des erklÀrungsmodells erhöht
(in der PTT Probabilistischen testtheorie gibt es verschiedene modelle , die sich darin unterscheiden, wie viele paramter sie berĂŒcksichtigen, um das antwortverhalten zu erkĂ€ren.
mehr parameter = genaueres modell, aber auch komplexer und aufwÀndiger
die wichtigsten paramter (je nach modell):
item -schwierigkeit: wie schwer ist das item? (zb wird es nur von leuten mit hoher fÀhigkeit gelöst ?)
diskrimination:
wie gut untscheidet ein item zwischen personen mit niedriger und hoher ausprÀgung eines merkmals ?
ein hoher diskriminationswert bedeutet, dass das item sehr gut zwischen zb schwachen und starken testpersonen differenziert.
ratewahrscheinlichkeit: wahrscheinlichkeit, ein item durch raten richtig zu beantworten (zb bei multiple choice )
6.2.3 Probabilistische testtheorie
modelle der probabilistischen testtheorie
welche gehören dazu ?
erklÀre die abbildungen
modelle der probabilistischen testtheorie :
- Rasch-modell (1 PL)
-Birnbaum oder 2 PL-modell
3PL -Modell
Ordinales Rasch-Modell / Partial-Credti-Modell
⊠und viele weitere
Modelle der Probabilistischen Testtheorieâ
Die Abbildungen rechts zeigen typische Item-Charakteristik-Kurven (Item Response Functions, IRF) aus der IRT (Item Response Theory). Ich erklÀre dir jede der drei Abbildungen einzeln:
đ· Obere Abbildung â Rasch-Modell (1PL-Modell)
Was ist zu sehen?
Eine typische S-Kurve (logistische Funktion) fĂŒr ein Item im Rasch-Modell.
Achsen:
x-Achse (Theta, Ξ): FĂ€higkeit der Person (z.âŻB. Intelligenz, Extraversion, etc.)
y-Achse (p): Wahrscheinlichkeit, das Item richtig zu lösen
ErklÀrung:
Das Rasch-Modell geht davon aus, dass nur die Item-Schwierigkeit zÀhlt.
Alle Items haben dieselbe Diskrimination. Je höher Ξ (Personenmerkmal), desto wahrscheinlicher die richtige Lösung.
â Wichtig: Es ist ein 1-Parameter-Modell (1PL) â nur die Item-Schwierigkeit wird berĂŒcksichtigt.
đ· Mittlere Abbildung â Birnbaum-/2PL-Modell
Mehrere Kurven fĂŒr verschiedene Items mit unterschiedlicher Steigung.
x-Achse (Theta): PersonenfÀhigkeit
y-Achse (p): Antwortwahrscheinlichkeit
Im 2PL-Modell (Birnbaum-Modell) kommen zwei Parameter pro Item ins Spiel:
Item-Schwierigkeit (Lage der Kurve auf der x-Achse)
Item-Diskrimination (Steilheit der Kurve â wie stark das Item zwischen Personen mit unterschiedlichem Ξ unterscheidet)
â Die Steilheit der Kurven variiert: Das zeigt Unterschiede in der TrennschĂ€rfe (Diskrimination).
đ· Untere Abbildung â 3PL-Modell
S-Kurven, die nicht bei p = 0 starten, sondern eine untere Schranke haben.
x-Achse (Theta): FĂ€higkeit
Das 3PL-Modell berĂŒcksichtigt neben Schwierigkeit und Diskrimination zusĂ€tzlich:
Ratewahrscheinlichkeit (guessing parameter) â also die Wahrscheinlichkeit, ein Item auch bei geringer FĂ€higkeit richtig zu beantworten (z.âŻB. durch Raten bei MC-Fragen)
â Die Kurve beginnt bei einer positiven Ratewahrscheinlichkeit (z.âŻB. 0.2 = 20âŻ%).
đ§ Fazit zur Folie â Modelle der Probabilistischen Testtheorie
Die drei gezeigten Abbildungen zeigen die Entwicklung von einfachen hin zu komplexeren Modellen innerhalb der Probabilistischen Testtheorie (PTT).
Das Rasch-Modell (1PL) ist das einfachste Modell. Es berĂŒcksichtigt nur einen einzigen Parameter pro Item: die Item-Schwierigkeit. Das bedeutet, dass alle Items im Modell als gleich trennscharf betrachtet werden. Die Wahrscheinlichkeit, ein Item richtig zu beantworten, hĂ€ngt dabei ausschlieĂlich von der FĂ€higkeit der Person und der Schwierigkeit des Items ab.
Das Birnbaum- oder 2PL-Modell erweitert das Rasch-Modell um einen zweiten Parameter: die Diskrimination. Dieser gibt an, wie gut ein Item zwischen Personen mit unterschiedlicher MerkmalsausprĂ€gung unterscheiden kann. In der Darstellung zeigt sich das durch unterschiedlich steile Kurven â je steiler die Kurve, desto trennschĂ€rfer das Item.
Das 3PL-Modell geht noch einen Schritt weiter: Neben Schwierigkeit und Diskrimination wird auch die Ratewahrscheinlichkeit (sogenannter guessing parameter) berĂŒcksichtigt. Dieser beschreibt die Wahrscheinlichkeit, ein Item allein durch Raten richtig zu beantworten. In der Grafik erkennt man das daran, dass die Kurven nicht mehr bei einer Wahrscheinlichkeit von null beginnen, sondern bei einer positiven Ratewahrscheinlichkeit (z.âŻB. 20âŻ%).
Insgesamt zeigen die Abbildungen also, wie die Modelle immer mehr Parameter integrieren â und dadurch auch immer komplexer, aber gleichzeitig prĂ€ziser werden.
6.2.3 Probabilistische Testtheorie
Das Rasch-Modell (1 PL)
was erklÀrt das modell? wozu dient es ?
wie heiĂt das einfachste und bekannteste modell der probabilistischen testtheorie?
welche annahme trifft das rasch-modell ĂŒber die itemlösung ?
was ist mit personenfÀhigkeit im rasch-modell gemeint ?
was passiert laut Rasch-modell, wenn die personenfĂ€higkeit die Itemschwierigkeit ĂŒbersteigt ?
Das Rasch - modell (1 PL):
(es soll erklÀren , wie wahrscheinlich es ist, dass eine person ein bestimmtes item richtig löst , und zwar abhÀngig von zwei fakotren: itemschwierigkeit - wie schwer ist die aufgabe? und personenfÀhigkeit- wie stark ist die ausprÀgung der person auf der gemessenen eigenschaft (zb intelligenz ?) es wird zb eingestezt um faire , vergleichbare testergebnisse zu erzielen, weil es zwischen person und item unterscheidet- unabhÀngig davon, welche items jemand gelöst hat. ziel: objektive, personen- und itemunabhÀnginge messung)
1das einfachste und bekannteste modell: Dichotom -logistisches modell
(das rasch-modell gehört zur familie der probabilistischen modelle und ist besonders einfach, weil es mit nur zwei antwortmöglichkeiten (dichotom zb richtig 7 falsch ) arbeitet. es ist in der praxis weit verbreitet und bekannt )
2annahme : itemlösung hÀngt nur von 2 parametern ab
(das modell geht davon aus, dass nur zwei faktoren bestimmen, ob eine testperson ein item richtig beantwortet : (1.) wie schwierig das item ist und 2. wie fÀhig die person ist)
2itemschwierigkeit
(dieser paramter beschreibt , wie anspruchsvoll ein item ist, also wie schwer es den meisten personen fÀllt , es zu lösen )
2personenfÀhigkeit
(das meint, wie stark eine person in einer bestimmten eigenschaft oder fÀhigkeit ausgeprÀgt ist- zum beispiel intelligenz oder exraversion. je höher die fÀhigkeit , desto wahrscheinlicher eine richtige antwort )
3personenfÀhigkeit ist die ausprÀgung der person auf einer latenten variable (meint auch die ausprÀgung auf persönlichkeitsmerkmalen)
(latente variablen sind nicht direkt messbar , sondern nur ĂŒber verhaltensindikatoren . die personenfĂ€higkeit beschreibt also eine nicht-beobachtbare fĂ€higkeit oder eigenschafr der testperosn , wie zb ihre inteligenz oder ihr grad an extraversion )
4je mehr die personenfĂ€higkeit die itemschwierigkeit ĂŒbersteigt, desto wahrscheinlicher wird das item gelöst )
(wenn die fĂ€higkeit einer person deutlich gröĂer its als die schwierigkeit des items, dann steigt die wahrscheinlichkeit , dass die person das item richtig beantwiortet. dies ist der zentrale mechanismus des rasch-modells )
đ Wann verwendet man das Rasch-Modell?)
1. WĂ€hrend der Testentwicklung (Fragebogenkonstruktion):
â Zur Itemanalyse:
Man prĂŒft, ob alle Items zum gleichen Konstrukt gehören (z.âŻB. Extraversion) und ob sie sich in ihrer Schwierigkeit sinnvoll unterscheiden.
â Zur Auswahl geeigneter Items:
Man behÀlt nur die Items, die zuverlÀssig zwischen Personen mit unterschiedlicher AusprÀgung auf der latenten Variable unterscheiden.
2. WĂ€hrend der Testauswertung:
â Zur Berechnung von Personenwerten (FĂ€higkeitsparametern):
Man nutzt das Modell, um die FÀhigkeit/Veranlagung einer Person unabhÀngig von den konkret gelösten Items zu schÀtzen.
â Zur Erstellung von Item-Charakteristik-Kurven:
Diese zeigen, wie stark die Wahrscheinlichkeit einer richtigen Lösung von der PersonenfÀhigkeit abhÀngt.
3. Zur QualitÀtssicherung von Tests:
â Wenn ein Test rasch-skalierbar ist, bedeutet das:
Die Items messen ein gemeinsames Merkmal,
Der Test erfĂŒllt wichtige GĂŒtekriterien wie ObjektivitĂ€t, ReliabilitĂ€t, Fairness.
đ Zusammenfassung (kurz):
Man verwendet das Rasch-Modell, um wÀhrend der Konstruktion und Auswertung eines Fragebogens sicherzustellen, dass Items einheitlich und fair ein Merkmal messen.
wenn das rasch-modell gilt , treten fĂŒr die testdiagnostik nĂŒtzliche folgen ein
welche rolle spielt der summenwert der items in einem test nach dem rasch -modell ?
was bedeutet es, dass der testscore im rasch-modell âstatistisch eindimensionalâ ist ?
was ist unter âspezifischer objektvitĂ€tâ im rasch-modell zu verstehen ?
wenn das Rasch-modell gilt, treten fĂŒr die testdiagnostik nĂŒtzliche folgen ein
erschöpfende statistik
1der summenwert der items enthÀlt alle informationen die man braucht
(in einem test nach dem rasch modell reicht es, die anzahl richtig gelöster items (summenwert) zu kennen- man braucht keine zusĂ€tzlichen daten ĂŒber die antworten, um die fĂ€higkeit einer person zu beurteilen )
1verrechnungsvorschrift des einfachen addierens der items abgesichert
(die einfache addition der itemantworten (zb =0/1) genĂŒgt, es ist mathematisch zulĂ€ssig, die rohwerte ohne gewichtung oder transformation zu summieren )
voraussetzung sind gleiche itemtrennschÀrfen
(alle items mĂŒssen gleich gut zwischen personen mit unterschiedlicher fĂ€higkeit unterscheiden können. nur dann ist die addition sinnvoll und korrekt im sinne des modells )
man misst und zÀhlt nicht nur punkte
(auch wenn man summiert, steckt mehr dahinter: die summenwerte werden in fĂ€higkeiten auf einer latenten skala ĂŒbersetzt- es geht also nicht bloĂ um âmehr punkte= besserâ , sondern um eine mathematisch fundierte aussagen ĂŒber die zugrundeliegende fĂ€higkeit. )
(đŻ Worum geht's beim ersten Satz (âDer Summenwert der Items enthĂ€lt alle Informationen, die man braucht.â)?
đ Bedeutung:
Wenn das Rasch-Modell gilt, dann genĂŒgt es fĂŒr die SchĂ€tzung der FĂ€higkeit einer Person, nur die Summe der richtig gelösten Items zu betrachten. Man braucht keine weiteren Infos ĂŒber das Antwortmuster â nur die Gesamtpunktzahl zĂ€hlt.
đĄ Beispiel:
Wenn Person A 7 Items richtig löst und Person B nur 4, dann wissen wir aus Sicht des Rasch-Modells alles, was wir brauchen, um zu sagen: Person A ist fĂ€higer als Person B â unabhĂ€ngig davon, welche Items sie gelöst haben.
đ€ Aber warum heiĂt es dann âMan misst und zĂ€hlt nicht nur Punkteâ?
Das klingt wie ein Widerspruch, ist es aber nicht!
Was hier gemeint ist: Auch wenn mathematisch nur die Punktzahl verwendet wird, bedeutet das nicht, dass man âbloĂ zĂ€hltâ.
Denn:
Die Punktzahl wird nicht direkt interpretiert, sondern sie dient dazu, eine latente FÀhigkeit (wie Intelligenz oder Extraversion) auf einer Skala zu schÀtzen.
đĄ Konkret:
Du sagst also nicht:
âPerson A hat 7 Punkte, also ist sie gut.â
Sondern:
âDie 7 Punkte entsprechen im Rasch-Modell einer bestimmten FĂ€higkeit auf einer mathematischen Skala.â
â Fazit (ganz einfach gesagt):
Man zĂ€hlt Punkte â ja.
Aber diese Punkte stehen fĂŒr etwas Tieferes (nĂ€mlich: eine Eigenschaft/FĂ€higkeit der Person).
Die Punkte reichen mathematisch aus, um die FĂ€higkeit zu bestimmen.
Aber die Bedeutung entsteht erst durch das Modell, nicht durch das bloĂe ZĂ€hlen.
2testscore ist statistisch eindimensional
2der test ist nur auf eine latente dimension zurĂŒckzufĂŒhren
(der test misst nur ein einziges merkmal (zb mathematische fÀhigkeit oder extraversion) es gibt keine vermischung verschiedener merkmale - das ist eine kernannahme des rasch-modells )
3spezifische objektivitÀt von vergleichen
3unterschiede zwischen personen gleich, egal wie schwierig items sind
(zwei personen können miteinander verglichen werden, auch wenn sie unterschiedliche items bearbeitet haben - solange diese items dem rasch-modell entsprechen. die schwierigkeit verzerrt den vergleich nicht. )
3unterschiede zwischen items gleich, egal wie fÀhigkeit personen sind
(umgekehrt können auch items verglichen werden, obwohl sie von unterschiedlichen personen bearbeitet wurden- die fÀhigkeit der person beeinflusst die vergleichbarkeit der items nicht, wenn das modell gilt)
die gĂŒltigkeit des rasch-modells kann ĂŒberprĂŒft werden
wie kann die gĂŒltigkeit des rasch-modells ĂŒberprĂŒft werden ?
was passiert beim graphischen modelltest mit der stichprobe ?
wann gilt das rasch-modell im graphischen modelltest als âaugenscheinlichâ gĂŒltig ?
1die gĂŒltigkeit des rasch-modells kann ĂŒberprĂŒft werden
(ddas bedeutet: man kann testen ob ein datensatz wirklich den annahmen des rasch-modells entspricht (zb eindimensionale struktur , gleiche trennschÀrfe etc)
1meist inferenzstatistische modelltests
(in der regel verwendet man statistische verfahren, um systematisch zu prĂŒfen, ob das modell zur realitĂ€t passt )
1hÀufig eingesetzt: graphischer modell-test
(der sogenannte graphische modelltest ist ein hĂ€ufig genutztes verfahren zur ĂŒberprĂŒfung der rasch-modell-gĂŒltigkeit , weil er ergebnisse visuell veranschaulicht )
2teiliung der stcihprobe am median des gesamtscores
(die gesamtgruppe wird in zwei teilgruppen aufgeteit: eine mit scores unter dem median und eine mit scores ĂŒber dem median )
2in beiden teilstichproben werden itemparameter getrennt geschÀtzt
(fĂŒr jede teilgruppe werden seperat die itemschwierigkeiten berechnet)
3vergleich der itemparameter auf abweichungen: gĂŒltigkeit des rasch-modells âaugenscheinlichâ
(wenn die itemparameter (zb schwierigkeit ) in beiden gruppen sehr Ă€hnlich sind , ist das ein hinweis darauf, dass das rasch-modell gĂŒltig ist - man erkennt es auf einen blick im plot )
Die grĂŒne Streudiagramm-Grafik zeigt das Ergebnis des graphischen Modelltests, der prĂŒft, ob die Itemparameter stabil sind â also unabhĂ€ngig davon, ob eine Personengruppe ein hohes oder niedriges Gesamtergebnis hat.
đč Achsenbeschriftung:
x-Achse: âMA > Mdâ
â Das sind die Itemparameter (meist Schwierigkeit) der Gruppe mit höheren Gesamtscores (ĂŒber dem Median).
y-Achse: âMA †Mdâ
â Das sind die Itemparameter derselben Items bei der Gruppe mit niedrigeren Gesamtscores (unter dem Median).
đč Punkte:
Jeder Punkt steht fĂŒr ein Item, z.âŻB. Punkt â3â ist das dritte Item im Test.
Die Punkte zeigen, wie Àhnlich oder unterschiedlich das jeweilige Item in beiden Gruppen funktioniert.
đč Diagonale Linie (45°-Linie):
Das ist die Idealgerade, auf der alle Punkte liegen wĂŒrden, wenn die Itemparameter in beiden Gruppen exakt gleich sind.
Das wÀre perfekt im Sinne des Rasch-Modells: Es bedeutet, dass die Items unabhÀngig von der FÀhigkeit der Teilgruppe gleich funktionieren.
đč Interpretation:
Die Punkte liegen sehr nah an der Diagonale â das heiĂt: Die Itemparameter sind stabil.
Das spricht fĂŒr die GĂŒltigkeit des Rasch-Modells im Sinne eines âaugenscheinlich passendenâ Modells (visuelle PrĂŒfung).
Der RÂČ-Wert (0,953) unten rechts zeigt, dass es eine sehr starke lineare Ăbereinstimmung gibt.
â Fazit:
Die Abbildung zeigt, dass die Itemparameter zwischen den beiden Teilstichproben kaum abweichen. Damit stĂŒtzt das Ergebnis das Rasch-Modell â es scheint fĂŒr diese Daten gĂŒltig zu sein.
Das Birnbaum oder 2PL-Modell
was ist beim birnbaum - oder 2PL - Modell denkbar im hinblick auf die testitems ?
was liegt im fall unterschiedlich âguterâ testitems im 2PL-Modell vor ?
welche folge hat es, wenn unterschiedliche itemtrennschÀrfen vorliegen ?
von welchen parametern hÀngt die itemlösung im 2PL-/Birnbaum-modell ab ?
1.denkbar, dass testitems unterschiedlich âgute â indikatoren fĂŒr das latente konstrukt sein können
(manche items eines tests sind bessere oder schlechtere messinstrumente fĂŒr das, was man eigentlich messen will (zb intelligenz / extraversion ) . es ist also möglich, dass einige fragen besser zwischen personen mit hoher und niedriger ausprĂ€gung auf einem merkmal unterscheiden als andere )
in diesem fall liegen unterschiedliche itemtrennschÀrfen vor
(das bedeutet die items haben unterschiedliche âunterscheidungsfĂ€higkeitâ. ein trennscharfes item erkennt besser ob jemand wirklich viel oder wenig von dem gemessenen merkmal hat. ein weniger trennscharfes item bringt weniger aussagekraft mit sich )
3.folge: das modell muss um einen parameter erweitert werden
(wÀhrend das rasch-modell (1pl) Nur zwei parameter verwendet (itemschwieirigkeit und personenfÀhigkeit ) braucht man hier einen zusÀtzlichen dritten parameter , nÀmlich den trennschÀrfeparameter . weil man jetzt nicht mehr davon ausgeht, dass alle items gleich trennscharf sind )
4.annahme: itemlösung hÀngt von diesen parametern ab
(die wahrscheinlichkeit dass ein item richtig gelöst wird, hÀngt nun von:
4itemschwierigkeit (wie schwer ist das item)
4personenfÀhigkeit (wie fÀhig ist die person
4trennschÀrfeparamter (wie gut kann das item zwischen fÀhigkeitsniveaus unterscheiden
ab
(birnbaum = 2 pl modell und es heiĂt so weil es 2 parameter verwendet (itemschwie, und trennschĂ€rfe)
Das 3PL-Modell
was versteht man unter dem 3Pl
was könnte beim 3PL-Modell zusÀtzlich eine Rolle bei der Itembeantwortung spielen ?
welche folge ergibt sich daraus fĂŒr das modell?
von welchen parametern hÀngt laut dem 3PL-Modell die Itemlösung ab?
1Das 3PL-Modell
(das 3PL-Modell (Three-Parameter-Logistic Model) ist ein modell der probabilistischen Testtheorie. es erweitert die vorherigen modelle (zb Rasch- oder 2PL-Modelle) um einen weiteren einflussfaktor: das zufÀllige Raten. das modell geht davon aus, dass die wahrscheinlichkeit, ein item richtig zu lösen, von 3 itemparametern abhÀngt: 1. itemschwierigkeit- wie schwer das item ist , 2. trennschÀrfeparameter- wie gut das item zwischen personen unterscheidet, 3. rateparameter - wie wahrscheinlich es ist, dass die testperson das item durch raten richtig beantwortet.
zusĂ€tzlich flieĂt auch die personenfĂ€higkeit ein (wie gut jemand im gemessenen merkmal ausgeprĂ€gt ist ), aber diese wird nicht als itemparameter gezĂ€hlt , daher â3PLâ. )
2es könnte durch die auswahl mehrerer Antwortmöglichkeiten auch das zufÀllige Raten eine rolle spielen
(in tests mit mehrfachauswahl (MS) können Teilnehmende items auch richtig beantworten, obwohl sie die antwort nicht wissen- einfach durch zufall. dieses raten kann das testergebnis verzerren und muss daher im modell berĂŒcksichtigt werden )
3folge: wir mĂŒssen zusĂ€tzlich einen rateparameter in das modell aufnehmen
(weil raten eine rolle spielt, reicht es nicht mehr aus, nur die personenfĂ€higkeit und itemschwierigkeit zu betrachten. es wird ein zusĂ€tzlicher parameter (der rateparameter) eingefĂŒhrt, um den einfluss des ratens mathematisch zu modellieren. )
4annahme: itemlösung hÀngt von diesen parametern ab
(die wahrscheinlichkeit, dass eine person ein item korrekt löst, hÀngt im 3PL-Modell nicht nur von zwei , sondern von vier inhaltlichen paramtern plus dem rateparameter ab: )
4itemschwierigkeit
(gibt an wie schwer das item im vergleich zu den fÀhigkeiten der personen ist )
4personenfÀhigkeit
(beschreibt, wie stark eine person das zu messende merkmal (zb intelligenz) ausgeprÀgt hat )
4trennschÀrfeparameter
(zeigt wie gut ein item zwischen verschiedenen fÀhigkeitsniveaus unterscheiden kann )
4rateparameter
(schÀtzt, mit welcher wahrscheinlichkeit jemand das item durch raten korrekt lösen kann (zb bei 25% bei vier antwortmöglichkeiten )
(warum heiĂt es dann 3PL obwohl es 4 parameter sind ?= der Name 3PL bezieht sich nur auf die drei item-bezogenen parameter: der name 3PL bezieht sich nur auf die drei item-bezogenen parameter: schwierigkeit, trennschĂ€rfe und rateparameter. die personenfĂ€higkeit ist kein itemparameter sondern eine personenbezogene variable-deshalb wird sie nicht mitgezĂ€hlt im namen des modells.)
Das Ordinale Rasch-Modell / Partial Credit Modell
was versteht man unter dem ordinalen rasch modell / partial credit modell ?
was sagt das modell im ordinalen rasch-modell / partial credit modell vorher?
von welchen parametern hÀngt die itemlösung im ordinalen rasch-modell ab ?
1Das Ordinale Rasch-Modell / Partial Credit Modell
diese ĂŒberschrift benennt zwei namen fĂŒr dasselbe modell- es geht um ein erweitertes rasch-modell - es geht um ein erweitertes rasch-modell , das nicht nur mit zwei antwortmöglichkeiten (dichotom) , sondern mit mehrstufigen antwortoptionen arbeiten kann. ordinal bedeutet: die antwortkategorien haben eine rangfolge, aber die abstĂ€nde sind nicht zwingend gleich groĂ (wie bei likert-skalen: zb 1 = stimme gar nicht zu bis 5= stimme voll zu )
Partial credit modell heĂt wörtlich: teilpunkte-modell. das bedeutet : eine person kann teilpunkte bekommen, je nachdem wie ânahâ ihre antwort an der vollen zustimmung bzw richtigen antwort liegt . also die ĂŒberschrift verweist auf ein modell das fĂŒr mehrstufige antwortformate geeignet ist und in der probabilistischen testtheorie verwendet wird, um feiner zu differenzieren, wie personen auf items antworten )
1ist eine erweiterung des dichotomen modells auf sogenannte likert-skalen
(das ursprĂŒngliche rasch-modell (1PL) geht von dichotomen antworten aus (zb richtig vs falsch ) das ordinale rasch modell erweitert dieses modell auf mehrstufige antwortmöglichkeiten, wie man sie auf likert-skalen findet (zb 1= stimme gar nicht zu⊠5= stimme voll zu )
2modell sagt vorher, welche antwortkategorie eine person wÀhlt
(das modell berechnet die wahrscheinlichkeit, mit der eine person eine bestimmte antwortkategorie (zb eine bestimmte likert-stufe) auswÀhlt, je nach ihrer merkmalsausprÀgung und den schwellenwerten des items)
(ein schwellenwert des items (auch antwortschwelle genannt) ist die grenze zwischen 2 antwortkategorien bei mehrtsufigen skalen (zb likert-skalen. stell dir ein item vor mit 5 antwortmöglichkeiten: ich bin gerne unter menschen, zwischen diesen 5 antwortkategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2 , eine grenze zwischen 2 und 3 ⊠usw. zwischen diesen 5 kategorien gibt es schwellenwerte also eine grenze zwischen stufe 1 und 2, usw. diese schwellenwerte legen fest bei welcher merkmalsausprĂ€gung (zb extraversion ) eine person eher die eine oder die nĂ€chste antwortkategorie wĂ€hlt. ein schwellenwert des items ist der punkt auf der skala der latenten eigenschaft zb extraversion, an dem eine person âumspringtâ von einer antwortkategorie zur nĂ€chsten )
3annahme: itemlösung hÀngt von diesen parametern ab
(das modell basiert auf zwei zentralen einflussfaktoren -also zwei parametern - die bestimmen, wie wahrscheinlich eine person eine bestimmte antwortkategorie auswÀhlt)
3eigenschaftsausprÀgung (personenparameter)
(das ist die individuelle ausprÀgung einer person im interessierenden merkmal (zb extraversion, einstellung etc). sie wirkt sich auf die wahl der antwortkategorie aus)
3schwellenparameter (antwortschwellen der testitems)
(diese parameter geben an, an welcher stelle auf der skala (zb latente fĂ€higkeit oder einstellung) eine person von einer antwortkategorie zur nĂ€chsten ĂŒbergeht. beispiel : ab welcher ausprĂ€gung stimmt jemand âeher zu â statt âneutralâ zu )
schÀtzung von modellparametern
skalierung von personen- und itemparametern
was ist die conditional maximum likelihood-methode (CML) und wofĂŒr wird sie verwendet?
welch einheit wird in der probabilistischen testtheorie fĂŒr personen- und itemparameter verwendet und was bedeutet das ?
wie lassen sich logit-werte interpretieren und wie groà ist der mögliche wertebereich ?
(hier geht es daurm, WIE man in der probabilistischen testtheorie bestimmte werte (âparameterâ) berechnet - zb wie schwierig ein item ist oder wie fĂ€hig eine person ist. diese parameter können nicht direkt beobachtet, sondern nur mathematisch geschĂ€tzt werden- meist mit dem computer )
1computerbasierte schÀtzung, rechenintensives iteratives verfahren
(modelle der probabilistischen testtheorie können nicht einfach per hand gelöst werden. sie brauchen einen computer , der viele rechendurchlÀufe (iterativ) macht, bis das beste ergebnis gefunden ist. das verfahren ist aufwendig (rechenintensiv )
1conditional maximum - likelihood -methode (cML)
(dies ist ein spezielles statistisches verfahren, mit dem man modellparameter (zb fÀhigkeit einer person oder schwierigkeit eines items) möglichst genau schÀtzt. es wird hÀufig im rasch-modell verwendet )
1werte werden so geschĂ€tzt, wie sie fĂŒr die beobachteteten testwerte am plausibelsten sind (maximum likelihood)
(in diesem abschnitt wird erklĂ€rt, in welcher einheit diese geschĂ€tzten werte dargstellt werden (logits) und wie man sie interpretieren kann (zb was bedeutet +3 logits? auĂerdem wird gezeigt, dass man fĂ€higkeiten von personen und schwierigkeiten von items direkt vergleichen kann, weil sie auf derselben skala liegen )
2mit derselben einheit erfasst: logits
(die geschĂ€tzten werte (zb fĂŒr fĂ€higkeit oder schwierigkeit) werden alle in der gleichen einheit angegeben , nĂ€mlich in logits (=logistische einheiten ), so sind sie vergleichbar.
2können direkt zueinander in bezug gesetzt werden
(da beides (person und item) in logits gemessen wird, kann man sie direkt vergleichen. wenn zb person = 1.5 logits und item = o.5 logits â> die person hat eine höhere fĂ€higkeit als die item-schwierigkeit )
3werte von plus 3: sehr hihe fÀhigkeits-/eigenschaftsausprÀgung
(wenn jemand +3 logits hat, ist das eine sehr starke ausprÀgung (zb sehr hohe mathematische fÀhigkeit oder sehr hohe extraversion )
3werte von minus 3 : sehr niedrige fÀhigkeits/- eigenschaftsausprÀgung
(-3 logits bedeutet eine sehr geringe ausprÀgung - die person hat die eigenschaft kaum (zb sehr geringe lesekompetenz )
3theoretisch geht der wertebereich von +unendlich bis -unendlich zeichen (forever zeichen)
(in der theorie sind die werte unbegrenz nach oben und unzen , also unednlich hohe oder niedrige ausprÀgungen wÀren möglich. in der praxis kommen aber meist werte zwischen -3 und +3 vor. )
(1: die CML ist ein rechenintensives iteratives verfahren , das in der probabilistischen testtheorie verwendet wird. es handelt sich um eine methode zur schĂ€tzung von modellparametern. werte werden so geschĂ€tzt, wie sie fĂŒr die beobachteten testwerte am plausibelsten sind (maximum likelihood)
zuverlÀssigkeit in PTT-Modellen
was wird in der klassischen testtheorie KTT ĂŒber messfehler angenommen ?
was berĂŒcksichtigt die item-response-theorie (IRT) in bezug auf die messung ?
wie wird der messfehler in der IRT differenziert ?
was ist ein messfehler
ZuverlÀssigkeit in PTT-Modellen
1in der KTT: annahme, dass messfehler fĂŒr alle personen unabhĂ€ngig von ihrer fĂ€higkeit / eigenschaft gleich ausfĂ€llt.
(in der klassischen testtheorie ktt wird davon ausgegangen, dass jeder mensch - egal wie gut oder schlecht er in einem bereich ist- densleben messfehler hat. die ungenauigkeit bei der messung ist also fĂŒr alle gleich, unabhĂ€ngig vom fĂ€higkeitsniveau )
in der IRT:
2BerĂŒcksichtigung, welche informationen items ĂŒber die messung einer fĂ€higkeit / eigenschaft liefern
(in der item-response-theorie (IRT) wird genau geschaut, wie viel ein bestimmtes item ĂŒber die fĂ€higkeit einer person aussagt. manche aufgaben sagen mehr ĂŒber die fĂ€higkeit aus als andere- diese unterschiede werden in der IRT berĂŒcksichtigt.
3fĂŒr jede ausprĂ€gung der person kann ein messfehler angegeben werden
(im gegensatz zur KTT hĂ€ngt der messfehler in der IRT vom fĂ€higkeitsniveau der getesteten person ab. das heiĂt: je nachdem, wie stark oder schwach jemand in einem bereich ist, ist der messfehler unterschiedlich groĂ- und wird individuell angegeben )
(ein messfehler ist die abweichung zwischen dem wahren wert (den wir eigentlich messen wollen ) und dem beobachteten testergebnis. du machst also einen test, aber dein ergebnis ist nicht exakt ddein âwahres können â sondern enthĂ€lt auch zufallseinflĂŒsse zb konzentration, missverstĂ€ndnisse in der frage, glĂŒck oder pech beim raten ) diese zufĂ€llige abweichung ist der messfehler. man geht in der psychologie immer davon aus, dass kein test perfekt misst, sondern immer ein gewisser fehler dabei ist )
6.3 GĂŒtekriterien
6.3.1 ReliabilitÀt, Konfidenzintervalle und kritische differenzen
was ist laut DIN 2016 die voraussetzung fĂŒr ReliabilitĂ€tsangaben ? was versteht man unter reliabilitĂ€t?
welche schĂ€tzer gibt es fĂŒr die reliabilitĂ€t und was bedeuten sie ?
wofĂŒr werden die genannten schĂ€tzer verwendet ?
1reliabilitĂ€tsangaben mĂŒssen aus empirischen studien abgeleitet sein
(man darf die reliabilitÀt (also die zuverlÀssigkeit eines tests) nicht einfach schÀtzen oder annhemen, sondern sie muss in echten studien mit daten nachgewiesen werden. das bedeutet : es braucht empirische belege, damit man sagen kann , wie genau ein test misst. (beispiel din 2016 fordert das auch formell )
ReliabilitÀt= ein test ist reliabel, wenn er genau und frei von zufallsschwankungen misst. dh wenn man denselben test mehrmals durchfphrt, sollte immer wieder ein Àhnliches ergebnis herauskommen- unter denselben bedingungen )
2,3unterschiedliche schĂ€tzer fĂŒr die reliabilitĂ€t von testwerten
(es gibt verschiedene möglichkeiten wie man die reliabilitĂ€t berechnen kann - je nach aufbau und zweck des tests. diese methoden heiĂen âschĂ€tzerâ, weil sie die genauigkeit (reliabilitĂ€t ) eines testergebnisses abschĂ€tzen.
2retest-korrelation
(der gleiche test wird zweimal derselben person gegeben (mit etwas zeit dazwischen ). wenn die ergebnisse Ă€hnlich bleiben, ist der test stabilâ>hohe reliabilitĂ€t.
2paralleltest-korrelation
(zwei vergleichbare tests, die dasselbe messen, werden gegeben. wenn die ergebnisse korrelieren , ist der test zuverlÀssig.
2split-half-korrelation
(ein test wird in zwei hĂ€lften geteilt (zb gerade vs ungerade items) , und deren ergebnisse werden miteinandeer verglichen. hohe korrelation â> test ist in sich stimmig.
2interne konsistenz / cronbachs alpha
(misst, wie stark die einzelnen items eines tests zusammenhĂ€ngen. cronbachs alpha ist der hĂ€ufigste wert dafĂŒr. hoher wert = items messen vermutlich das gleiche konstrukt.
3(sie sind schĂ€tzer fĂŒr die reliabilitĂ€t von testwerten )
6.3.1 reliabilitÀt , konfidenzintervalle und kritische differenzen
entwicklung eines reliablen tests bzw. testwerts
welche zwei einflussgröĂen sind zentral fĂŒr die entwicklung eines reliablen tests ?
was ist ein merkmal von variante 1 zur testentwicklung und was muss der test dabei erfassen können ?
was zeichnet variante 2 aus und wofĂŒr eignet sich das ?
(ziel ist es, testverfahren so zu gestalten , dass sie zuverlÀssig (reliabel) messen - also bei wiederholter anwendung vergleichbare ergebnisse liefern )
1zentrale einflussgröĂen: testlĂ€nge und mittlere korrelationshöhe der items
(die reliabilitÀt hÀngt stark davon ab: 1. wie viele items ein test enthÀlt (testlÀnge) 2. wie stark die items miteinander korrelieren - je Àhnlicher sie das gleiche messen, desto besser (mittlere korrelation )
2variante 1:
2wenige, aber hochkorrelierte items
(wenn nur wenige items im test enthalten sind, mĂŒssen diese sehr stark miteinander zusammenhĂ€ngen , um zuverlĂ€ssig zu sein )
2test muss einen engen verhaltensausschnitt erfassen (bspw. ich gehe abends gerne aus )
(misst ein konkretes verhalten (enge ausrichtung )
3variante 2:
3groĂe anzahl von items, langer test
(wenn man viele items einsetzt, kann man damit auch breitere merkmalsbereiche erfassen.)
3test kann auch breiten verhaltensauschnitt erfassen (bspw. ich bin ein geselliger mensch )
(ist ein allgemein gehaltener item, der viele verschiedene alltagssituationen abdecken kann )
6.3.1 ReliabilitÀt , konfidenzintervalle und kritsiche differenzen
AktualitÀt von ReliabilitÀtsschÀtzungen
warum mĂŒssen reliabilitĂ€tsschĂ€tzungen regelmĂ€Ăig ĂŒberprĂŒft werden ?
was schreibt die DIN 33430 im hinblick auf reliabilitÀtsschÀtzungen vor ?
wie lang ist der maximale zeitraum fĂŒr die ĂŒberprĂŒfung laut DIN 33430 und was gilt , wenn dieser ĂŒberschritten wird ?
1aktualitÀt von ReliabilitÀtsschÀtzungen
1die art, wie menschen einen test ausfĂŒllen und die aktualitĂ€t von items kann sich mit der zeit Ă€ndern
(das bedeutet: menschen verÀndern sich, sprache wandelt sich, gesellschaftliche normen ebenso. ein item , das vor jahren eindeutig war, kann heute unklar oder anders verstanden werden )
2DIN 33430 fordert eine regelmĂ€Ăige ĂŒberprĂŒfung der zuverlĂ€ssigkeits - Kennwerte eines tests
(laut dieser norm soll man nicht einfach âewigâ dieselben reliabilitĂ€tswerte verwenden - es muss nur regelmĂ€Ăig geprĂŒft werden, ob der test noch zuverlĂ€ssig ist )
3zeitraum : 8 jahre
(die norm DIN 33430 Nennt einen festen zeitraum: spĂ€testens alle 8 jahre mĂŒssen reliabilitĂ€tskennwerte ĂŒberprĂŒft werden.
3wenn die schĂ€tzwerte 8 jahre nicht gepĂŒrft wurden, muss begrĂŒndet werden, warum das verfahren dennoch ausgewĂ€hlt wurde
(ausnahme: wenn man einen alten test nutzt, der lÀnger als 8 jahre nicht akutalisiert wurde, muss man in der testdokumentation gut erklÀren, warum man ihn trotzdem verwendet )
6.3.1 ReliabilitÀt , konfidenzintervalle und kritische differenzen
stichprobenabhÀngigkeit von reliabilitÀsschÀtzungen
warum muss die reliabilitÀt eines testwerts anhand einer relevanten stichprobe geschÀtzt werden ?
was passiert, wenn man die reliabilitÀt in einer zu breiten stichprobe schÀtzt und warum ?
was beeinflusst die merkmalsvarianz die reliabilitÀtsschÀtzung ?
stichproben von reliabilitÀtsschÀtzungen
1reliabilitĂ€t eines testwerts muss anhand einer fĂŒr unsere fragestellung relevanten stichprobe geschĂ€tzt werden
(die reliabilitĂ€t ist nicht einfach allgemein gĂŒltig, sie hĂ€ngt davon ab , FĂR WEN der test verwendet wird. man muss die reliabilitĂ€t an genau der zielgruppe schĂ€tzen, fĂŒr die man den test einsetzen will )
2beispiel aus der eignungsdiagnostik :
(ein praktisches beispiel um das problem zu verdeutlichen )
ein unternehmen möchte nur gymnasiasten als kandidaten fĂŒr das auswahlverfahren akzeptieren
(das ziel ist : nur gymnasiasten sollen gestestet und ausgewÀhlt werden )
2es soll ein intelligenztest durchgefĂŒhrt werden
(um die eignung zu prĂŒfen , wird ein intelligenztest verwendet )
2wird die reliabilitĂ€tsschĂ€tzung in einer stichprobe mit allen schultypen vorgenommen, wird die reliabilitĂ€t ĂŒberschĂ€tzt
(wenn man den test an allen schĂŒlern (haupt, real, gymnasium) usw. testet, wirkt der test zuverlĂ€ssiger , als er fĂŒr gymnasiasten wirklich ist. denn: die unterschiede zwischen schĂŒlern aller schulformen sind gröĂerâ> das tĂ€uscht höhere reliabilitĂ€t vor.
2grund: intelligenz und schulische leistung hÀngen zusammen
(je nach schultyp variiert im durchschnitt auch die intelligenzleistung - also misst man gröĂere unterschiede )
2gymnasiasten unterscheiden sich untereinander weniger, als sich schĂŒler zwischen schulen unterscheiden
(je nach schultyp variiert im durchschnitt auch die intelligenzleistung- also misst man gröĂere unterschiede )
3je höher die merkmalsvarianz, desto höher die reliabilitÀtsschÀtzung
(varianz= unterschiedlichkeit. wenn man eine gemischte gruppe testet, ist mehr unterschied zwischen den personen â> dadurch erscheint der test als zuverlĂ€ssiger , als er in einer einheitlichen gruppe (zb nur gymnasiasten ) tatsĂ€chlich ist ) .
2. die reliabilitĂ€t wird ĂŒberschĂ€tzt, weil bei gröĂerer merkmalsvarianz (zb durch unterschiedliche schultypen) die unterschiede zwischen den personen gröĂer sind, wodurch der test zuverlĂ€ssiger erscheint, als er es in einer homogeneren zielgruppe ist )
6.3.1 ReliabilitÀt, konfidenzintervalle und kritische differenzen
gröĂe der teilstichproben
was wird zur schÀtzung der zuverlÀssigkeit bei teilstichproben gesagt ?
welche aussage macht din 33430 zur gröĂe der teilstichproben ?
was gilt fĂŒr schĂ€tzungen aus kleineren stichproben ?
was sind teilstichproben ?
1die zuverlĂ€ssigkeit sollte fĂŒr jede interessierende teilstichprobe getrennt geschĂ€tzt werden
(die aussage bedeutet, dass man die reliabilitĂ€t (also die messgenauigkeit eines tests) nicht einfach allgemein angeben sollte. stattdessen sollte sie fĂŒr jede relevante untergruppe (zb mĂ€nner, frauen , altersgruppen, schultypen ) eigentlich seperat berechnet werden, weil sie sich zwischen gruppen unterscheiden kann
2DIN 33430 macht keine aussagen zur gröĂe der teilstichproben
(die din norm , die anforderungen an berufsbezogene eigungsdiagnostik stellt, legt keine bestimmte anzahl an personen fest, die in teilstichproben enthalten sein mĂŒssen, um die reliabilitĂ€t zu berechnen)
richtwert: im idealfall 400 personen (huber, 1973)
(es gibt eine empfehlung aus der fachliteraturm wonach etwa 400 personen aus stichprobengröĂe ideal wĂ€ren, um eine verlĂ€ssliche schĂ€tzung der reliabilitĂ€t zu erhalten )
3schÀtzungen aus kleineren stichproben
(hier beginnt eine neue aussageeinheit, die sich mit kleinen gruppen beschÀftigt )
3nicht zwangslÀufig abzulehnen
(dh auch kleine stichproben können verwendet werden- sie sind nicht automatisch unbrauchbar )
3sie liefern nur eine weniger prÀzise schÀtzung
(der nachteil kleiner stichproben ist aber, dass die genauigkeit der schÀtzung leidet- die reliabilitÀtsangaben sind dann unsicherer oder schwankender.
4(teilstichproben sind untergruppen einer gröĂeren stichprobe, die bestimmte merkmale gemeinsam haben. man verwendet sie zb um die zuverlĂ€ssigkeit (reliabilitĂ€t) eines tests getrennt fĂŒr verschiedene gruppen zu ĂŒberprĂŒfen. zb wenn man einen eignungstest fĂŒr schĂŒler durchfĂŒhrt könnten teilstichproben sein : nur gymnasien, nur realschĂŒler.. , nur schĂŒler eines bestimmten alters , geschlechts ) laut folie sollte fĂŒr jede interessierenden teilstichprobe die zuverlĂ€ssigkeit getrennt geschĂ€tzt werden, weil sich die testgĂŒtekriterien je nach gruppe unterscheiden können )
berechnung der konfidenzintervalle
welchen zweck hat die berechnung von konfidenzintervallen ?
was beschreibt ein konfidenzintervall bei testwerten ?
wie lautet die formel zur berechnung des konfidenzintervalls ?
berechnung der konfidenzintervallen
1zweck: messprÀzision berechnen
8das ziel der konfidenzintervalle ist es, zu bestimmen, wie genau ein gemessener testwert (x) ist- also wie stark er vom wahren wert t (tau) abweichen lönnte )
2intervall, in dem der wahre wert t (tau?) mit einer gewissen wahrscheinlichkeit (oft gewÀhlt: 95% ) befindet
3formel
(das konfidenzintervall zeigt einen bereich an, in dem der wahre wert einer person mit 95%iger sicherheit liegt. beispiel: wenn jemand 100 punkte erzielt, und das intervall reicht von 95 bis 105, dann liegt sein wahrer wert mit 95%iger wahrscheinlichkeit innerhalb dieses bereichs. )
6.3.1 ReliabilitÀt, Konfidenzintervalle und kritische Differenzen
Berechnung kritischer Differenzen
wozu dient die berechnung kritischer differenzen in der eignungsdiagnostik?
was muss bei der berechnung kritischer differenzen berĂŒcksichtigt werden ?
was sagt uns die kritische differenz aus ?
wie sieht die formel aus , rechne mit beispiel
1Berechnung kritischer differenzen
(wie groĂ muss der unterschied zwischen zwei testwerten sein, damit man sagen kann, dass er wirklich beutsam ist- also nicht nur durch zufall entstanden ? man berechnet also eine âkritische differenzâ = einen schwellenwert, ab dem man sagen darf: ja, diese person ist tatsĂ€chlich besser als die andere )
1in der eignungsdiagnostik mĂŒssen wir kandidat*innen miteinander vergleichen : wer hat den höheren wert im intelligenztest, person A oder B?
(in auswahlverfahren (zb bei bewerbungen ) soll geklÀrt werden, welche person einen höheren testwert hat. man vergleicht also personen direkt miteinander)
2Messfehler muss berĂŒcksichtigt werden
(man darf nicht nur den unterschied der zahlen vergleichen, sondern muss auch den statistischen messfehler mit einbeziehen, da testergebnisse nie ganz exakt sind)
3die kritische differenz sagt uns zu welchem ausmaĂ unterschiede zu einer gewissen wahrscheinlichkeit durch zufall bedingt sind
(die âkritische differenzâ ist ein schwellenwert. ist der unterschied zwischen zwei testwerten kleiner als dieser wert, dann ist der unterschied statistisch nicht bedeutsam (er könnte zufĂ€llig sein )
(der schwellenwert also die âkritische differenzâ ist der grenzwert, ab dem ein unterschied zwischen zwei testwerten statistisch signifikant ist- also nicht mehr zufĂ€llig sein kann. wenn der unterschied kleiner ist als dieser schwellenwert , ist er nicht bedeutsam. er hĂ€ngt ab von: 1.der varianz (VAR(X): varianz der testwerte. das ist ein maĂ dafĂŒr, wie stark die testergebnisse insgesamt streuen. wenn die werte sehr weit auseinanderliegen, ist die varianz groĂ. mehr streuung â> gröĂere unsicherheit â> höhere kritische differenz.
(2.REL= ReliabilitĂ€t: das ist ein maĂ fĂŒr die zuverlĂ€ssigkeit des tests. sie zeigt, wie genau und stabil ein test misst. je höher die reliabilitĂ€t , desto kleiner ist die kritische differenz , weil man dem testergebnis mehr vertrauen kann.
bei niedriger reliabilitĂ€t muss der unterschied gröĂer sein, um bedeutsam zu sein)
(3. 1,96=sicherheitsfaktor fĂŒr 95% wahrscheinlichkeit:
der wert 1,96 kommt aus der statistik und bedeutet, dass man mit 95% sicherheit sagen kann: der unterschied ist nicht durch zufall entstandennâ je höher dieser sicherheitsfaktor , desto gröĂer wird die kritische differenz. )
(viel streuung + wenig reliabilitĂ€t + hohe sicherheit = gröĂere kritische differenz nötig, um unterschiede als echt zu bewerten )
formel
(mit dieser formel berechnet man den wert, ab dem ein unterschied als statistisch bedeutsam gelten kann )
beispiel: person a: IQ= 125 , Person B: IQ= 122
kritische differenz entspricht 9.4 IQ-Punkten
dh Person A liegt innerhalb des konfidenzintervalls von person B
schlussfolgerung: A ist nicht signifikant besser als B
(beispiel erklÀrt: Person A: IQ 125,
Person B IQ 122
das sieht erstmal so aus, als sei person A besser als B weil 125 gröĂer ist als 122
aber: die kritische differenz (also der schwellenwert) liegt bei 9,4 punkten. dh: damit man sicher sagen kann , dass A besser ist als B, mĂŒsste der unterschied mindestens 9,4 punkte betragen. tatsĂ€chlich ist der unterschied nur 3 punkte. das liegt unter der kritischen differenz.
fazit / schlussfolgerung: A ist nicht signifikant besser als B.)
(formel: zb varianz ist 5 und reliabilitĂ€t 0.7 (reliabilitĂ€t kann nicht 7 sein, weil das wĂ€re dann gröĂer als 1 und das ist unmöglich bei einer reliabilitĂ€t!) merken!
6.3.1 ReliabilitÀt, Konfidenzintervalle und kritsiche differenzen
klassifikation von kandidat*innen
welche art von persönlichkeitstets arbeiten mit kategorialen persönlichkeitsmerkmalen und wie werden kandidat*innen darin eingeteilt ?
was muss bei der einteilung in klassen anhand von testergebnissen beachtet werden ?
wie wird die reliabilitÀt von klassifikationen geschÀtzt und welches maà kann verwendet werden ?
1manche tests arbeiten mit kategorialen persönlichkeitsmerkmalen (sog. typentests, wie bspw. Myers-Briggs-Type-Indicator)
(kategoriale merkmale wie in typentests: bei typentests wird die persönlichkeit nicht als ein kontinuum (eine skala) dargestellt, sondern als feste kategorie (typ) . beispeil: der Myers-Briggs-Type Indicator (MBTI) teilt personen nicht einfach in âmehr oder weniger introvertiert ein sondern sagt : du bist entweder âintrovertiert (I) oder extravertiert (E) - kein zwischenwert. daraus ergibt sich zb. ein typ wie âISTJ) (wichtig: in der persönlichkeitspsychologie sind viele merkmale eigentlich kontinuierlich (zb introversion / extraversion). ein kontinuerliches merkmal bedeutet es kann viele abstufungen annehmen nicht nur âentweder -oderâ, sondern alles dazischen. bsp extraversion: du bist nicht nur entweder extravertiert oder introvertoert sondern du kannst irgendwo auf einer skala dazwischen liegen, eher introvertiert, sehr introvertiert, neutral⊠)
aber typentests vereinafchen das und sagen: du wirst einem vom wenigen typen zugeordnet. das nennt man kategoriale einteilung- unabhÀngig davon, dass das merkmal (zb introversion ) theoretisch ein kontinuum ist ) (das merkmal ist ein kontinuum - wie eine linie oder skala, auf der man stufenlos verschiedene werte annehmen kann. bei typentests eben nicht )
2einteilung von kandidat*innen in verschiedenen klassen
(wenn ein test menschen in klassen einteilt, muss statistisch belegt wrrden, dass diese klasseneinteilung valide ist- also nicht willkĂŒrlich. das geschieht zb mit methoden wie : clusteranalyse â> ĂŒberprĂŒft, ob sich natĂŒrliche gruppen in den daten bilden ,
mixed-rasch-modelleâ>erweitertes IRT-Modell, das unterschiede zwischen gruppen erlaubt )
2anzahl der aus einem testergebnissen resultierenden klassen muss anhand statistischer verfahren nachgewiesen werden
2clusteranalyse
2mixed-rasch-modelle
reliabilitĂ€tsschĂ€tzung fĂŒr klassifikationen / typentests
(auch wenn jemand in eine klasse eingeteilt wird, stellt sich die frage: wĂŒrde dieselbe person beim nĂ€chsten mal wieder in dieselbe klasse fallen ? diese stabilitĂ€t der klassifikation wird Ă€hnlich wie reliabilitĂ€t bewertet )
3pendant zur reliabilitĂ€tsschĂ€tzung ist stabilitĂ€t der klassfikation ĂŒber zwei messzeitpunkte hinweg
(die âreliabilitĂ€tâ bei typentests bezieht sich darauf, ob sich die klassifikation ĂŒber die zeit nicht Ă€ndert- also bei einer wiederholten testung stabil bleibt )
3 maĂ fĂŒr ĂŒbereinstimmung der klassifikation (zb Cohens Kappa )
(um diese stabilitĂ€t bzw. ĂŒbereinstimmung zu messen, wird cohens kappa verwendet- ein statistisches maĂ, das angibt, wie stark zwei klassifikationen ĂŒbereinstimmen , ĂŒber zufall hinaus )
6.3.2 ValiditÀt
Zentrales GĂŒtekriterium nach DIN 33430 ist die theoretische fundierung eines tests
was versteht man unter validitÀt?
was ist laut DIN 33430 das zentrale gĂŒtekriterium eines tests?
welche anforderungen bestehen an die entwicklung und theoretische fundierung von tests, damit sie als valide gelten ?
wie muss validitÀt nachgewiesen werden und wie wird sie definiert ?
1validitÀt
(validitĂ€t ist eines der wichtigsten gĂŒtekriterien in der testtheorie - sie sagt aus, ob ein test wirklich das misst, was er zu messen vorgibt )
2Zentrales gĂŒtekriterium nach DIN 33430 ist die theoretische fundierung eines tests
(tests gelten nur dann als valide, wenn sie auf einer klaren psychologischen theorie basieren- also nicht einfach nur erfunden wurden, sondern fachlich fundiert sind )
3theoriegeleitete entwicklung geht klar aus verfahrenshinweisen hervor
(ein gut entwickelter test enthÀlt verweise darauf, welche theorie ihm zugrunde liegt zb big five bei persönlichkeitstests)
3verankerung der testitems und des testkonzepts in einer psychologischen theorie
(einzelne fragen (items) und das gesamte testprinzip mĂŒssen sich logisch aus einer psychologischen theorie ableiten )
3definition des nomologischen netztes des konstrukts
(das nomologische netz beschreibt, wie ein konstrukt (zb intelligenz ) mit anderen konzepten zusammenhĂ€ngt. die testentwicklung muss also auch klĂ€ren, wie das konstrukt in ein gröĂeres theoretisches system eingebettet ist )
4validitÀt muss anhand empirischer und konzeptueller argumente und daten belegt werden (
â>verfahrenshinweise)
(es reicht nicht nur, zu behaupten, dass ein test gĂŒltig ist- man muss das durch forschung, daten und argumente belegen )
4validitĂ€t: AusmaĂ, in dem interpretationen von eignungsdiagnostischen informationen zutreffend sind
(der kern der validitÀt ist, dass die aussagen , die man aus einem test ableitet, auch wirklich stimmen )
worum gehts bei der inhaltsvaliditÀt?
was versteht man unter kriteriumsvaliditÀt
was sind zb kriterien fĂŒr eignungsbeurteilungen
welche anforderungen stellt die din 33430 an die verwendung von kriterien in der eignungsdiagnostik, und welche richtlinien mĂŒssen dabei beachtet werden ?
was bedeutet konstruktvaliditÀt und worauf muss man dabei laut DIN 33430 besonders achten ?
1InhaltsvaliditÀt
(es geht darum , ob die inhalte des tests das zu messende konstrukt wirklich vollstÀndig abdecken. bsp wenn du teamfÀhigkeit messen willst, sollten die items auch verschiedene aspekte davon ansprechen zb kommunikation , kooperation , konfliktlösung . aber je breiter du das konstrukt badeckst, desto unreliabler kann der test werden (weil die items weniger miteinander korrelieren . das ist das spannungsfeld konstruktabdeckung vs reliabilitÀt )
1spannungsfeld Konstruktabdeckung vs reliabilitÀt bei itemselektion
2kriteriumsvaliditÀt
(hier prĂŒft man , ob die testergebnisse mit einem konkreten Ă€uĂeren kriterium zusammenhĂ€ngen zb erfolg im beruf oder schule. beispiel fĂŒr kriterien fĂŒr eignungsbeurteilungen:
3kriterien fĂŒr eignungsbeurteilungen: vorgesetztenbeurteilungen, erreichte hierarchiestufe, verkaufszahlen, jahresverdienst
4(din 2016 sagt worauf man bei den kriterien achten sollte: richtlinien zu kriterien
(Zb was sind typische Kriterien fĂŒr Leistungserfolg, Verkaufszahlen im Betrieb anschauen zb sind erfolgskriterien , und die DIN sagt es ist sinnvoll mehrere Kriterien zu verwenden, weil jedes Kriterium hat auch SchwĂ€chen , jedes Kriterium sollte sinnvoll den Berufserfolh zb abbilden K)
4mehrere kriterien verwenden
(man soll nicht nur ein einzelnes kriterium nehmen sondern mehrere, um die eignung sicher zu beurteilen. das erhöht die aussagekraft und die objektivitÀt der beurteilung )
4referenzgruppe sollte im testmanual angegeben sein
(es muss klar sein , auf welche zielgruppe zb schĂŒler, fĂŒhrungskrĂ€fte ) sich die testergebnisse beziehen. das steht im testmanual ,damit man die ergebnisse richtig einordnen kann )
4explizite hypothesen ĂŒber vermutete zusammenhĂ€nge
(es sollen im vorfeld klare annahmen formuliert werden zb höhere intelligenz hĂ€ngt mit höherem beruflichen erfolg zusammen ) so kann man spĂ€ter ĂŒberprĂŒfen, ob der zusammenhang wirklich besteht )
4empirische nachweise ĂŒber die angemessenheit des kriteriums
(es muss durch daten gezeigt werden, dass das kriterium (zb jahresverdienst oder vorgesetztenurteil) wirklich geeignet ist, um eignung zu beurteilen. man darf also nicht einfach irgendwas als kriterium nehmen )
5konstruktvalidtÀt
(hier schaut man passt der test zum theoretischen konstrukt? und: wie gut grenzt er sich von anderen konstrukten ab ? man achtet dabei auf: konvergente validitÀt: hohe korrelation mit tests, die etwas Àhnliches mesen, diskriminante validitÀt= geringe korrelation mit tests, die etwas anderes messen
alles soll zusammen in ein nomologisches netz passen (eine art theorie-netzt, in dem das konstrukt sinnvoll eingebettet ist )
5beachtung angrenzender bzw. ĂŒberlappender konstrukte (â>konvergente und diskriminante validitĂ€t , nomologisches netz)
(konvergente validitÀt = hoch ist gut , diskriminante validitÀt= hoc isz schlecht)
K: alle Aspekte des Konstrukts mĂŒssen abgedeckt werden anhand der Items
= InhaltsvaliditÀt
Genrelle anmerkungen zur gĂŒltigkeit
wie alt dĂŒrden gĂŒltigkeitsnachweise laut din 2016 maximal sein ?
wofĂŒr kann die gĂŒltigkeit eines verfahrens gelten und was ist dabei zu beachten ?
was muss bei der beurteilung der nachweise zur validitÀt beachtet werden ?
Generelle Anmerkungen zur GĂŒltigkeit
1GĂŒltigkeitsnachweise nicht Ă€lter als 8 jahre
(nach din norm sollen nachweise ĂŒber die gĂŒltigkeit eines tests nicht Ă€lter als 8 jahre sein. warum ? weil sich die welt und das verhalten der menschen verĂ€ndern- tests sollen aktuell bleiben )
2gĂŒltigkeit fĂŒr das ganze verfahren vs. nur fĂŒr manche messwerte ? â-> verfahrenshinweise
(wenn ein psychologisches testverfahren verwendet wird zb test mit mehreren skalen wie teamfĂ€higkeit , leistungsbereitschaft und belastbarkeit ist entscheidend: wurde das gesamte verfahren auf validitĂ€t getestet, also wurde gezeigt , dass alle skalen gemeinsam das messen, was sie messen sollen ?ODER wurde nur eine oder einzelne skalen auf validitĂ€t geprĂŒft zb nur die skala teamfĂ€higkeit ? was bedeutet das konkret? auf validitĂ€t getestet heiĂt es wurde empirisch ĂŒberprĂŒft ob die ergebnisse der skala tatsĂ€chlich mit dem verhalten oder dem merkmal ĂŒbereinstimmen , das sie messen soll) wie kann es sein das nur eine skala getestet wurde? )=das kommt oft vor wenn zb ein test viele skalen enthĂ€lt, aber die validitĂ€tsstudie nur fĂŒr einen teil gemacht wurde- zb wurde nur ĂŒberprĂŒft , ob die skala teamfĂ€higkeit mit fremdbeurteilungen durch vorgesetzte zusammenhĂ€ngt. andere skalen wir belastbarkeit oder leistungsbereitschaft wurden vielleicht nicht validiert also nicht getestet ob sie wirklich diese eigenschaften messen dh also nur fĂŒr diese eine skala gibt es wissenschaftliche belege, dass sie das gewĂŒnschte merkmal abbildet. fĂŒr die anderen fehlt dieser nachweis.
was sind verfahrenshinweise: verfahrenshinweise zb im testmanual geben genau an, welche teile des verfahrens validiert wurden, und fĂŒr welche messwerte die gĂŒltigkeit empirisch belegt ist )
3bei der beurteilung der nachweise muss kontext beachtet werden
(es reicht nicht einfah zu schauen, ob es einen validitÀtsnachweis gibt. man muss immer den anwendungskontext betrachten zb wo, wie und warum der test gemacht wurde )
jetzt folgen beispiele fĂŒr kontextabhĂ€nginge einflĂŒsse:
3auswahlsituation vs bearbeitung daheim bzw. âzum spaĂâ
(macht jemand den test in einer ernsten auswahlprĂŒfung , sind die ergebnisse anders als bei lockerer online-selbstanwendung daheim. das beeinflusst die gĂŒltigkeit. )
3sozial erwĂŒnschtes antworten wirkt sich auf konstruktgĂŒltigkeit aus
(menschen geben manchmal antworten , die âgut dastehen lassenâ sollen, statt ehrlich zu antworten. das nennt man sozial erwĂŒnschtes antworten- und es kann die gĂŒltigkeit eines tests stark verzerren )
3berĂŒcksichtigung von grundquote und selektionsquote
(diese beiden quoten beeinflussen die interpretation von testergebnissen: grundquote: anteil der geeigneten personen in der gesamtquote
selektionsquote: anteil der personen die man am ende auswÀhlt. je nach zusammensetzung der gruppe Àndert sich die aussagekraft eines tests)
beachtung von korrekturen bei der interpretation
was muss bei der interpretation von korrelationen beachtet werden ?
was bedeutet varianzeinschrÀnkung und wie wirkt sie sich aus ?
was ist eine mögliche lösung bei varianzeinschrÀnkung ?
(In der psychologischen Diagnostik werden statistische Korrekturen (z.âŻB. bei Korrelationen) vorgenommen, um Verzerrungen zu korrigieren.
Eine Korrelation beschreibt den Zusammenhang zwischen zwei Merkmalen.
Beispiel: Wenn man untersucht, ob es einen Zusammenhang zwischen Intelligenz und Berufserfolg gibt, berechnet man die Korrelation zwischen Intelligenztestwerten und GehÀltern.
â Ist die Korrelation z.âŻB. 0,60, bedeutet das: Je höher die Intelligenz, desto höher tendenziell das Gehalt.
Wenn aber z.âŻB. nur sehr Ă€hnliche Personen getestet wurden (z.âŻB. nur Bewerber mit sehr guten Schulnoten), dann ist die Varianz eingeschrĂ€nkt â es gibt weniger Unterschiede zwischen den Personen.
â Das kann die Korrelation kĂŒnstlich verkleinern, also z.âŻB. statt 0,60 nur 0,30 zeigen.
Deshalb gibt es Korrekturformeln, mit denen man die ursprĂŒngliche Korrelation âhochrechnetâ.
Aber: Diese korrigierten Korrelationen darf man nicht einfach ohne Hinweis interpretieren.
Man muss also beachten, ob und wie die Werte korrigiert wurden, sonst zieht man falsche Schlussfolgerungen.)
1oft werden korrelationen statistisch aufgewertet oder korrigiert
(man verÀndert korrelationen (zusammenhÀnge zwischen zwei werten ) rechnerisch, zum beispiel um verzerrungen zu bereinigen )
1dies muss bei der interpretation beachtet werden
(wenn korrelationen verĂ€ndert wurden, muss man das bei der auswertung und bewertung der ergebnisse berĂŒcksichtigen- sonst könnten sie falsch verstanden werden )
2varianzeinschrÀnkung
(das bedeutet, dass die streuung (unterschiedlichkeit) der messwerte verringert wird zb weil nur noch bestimmte personen getestet werden )
2beispiel: mehrstufiger bewerbungsprozess
ein auswahlverfahren , bei dem bewerber*innen in mehreren runden aussortiert werden )
2auf jeder stufe wird die bewerberzahl reduziert
(nach jeder runde bleiben weniger personen ĂŒbrig- es wird also immer selektiver )
2varianz der messwerte reduziert sich
(wenn nur noch Ă€hnlich gute bewerber*innen ĂŒbrig sind, gibt es weniger unterschiede in den testergebnissen )
2korrelationskoeffizienten sinken, kriteriumsvaliditÀt wird unterschÀtzt
(weil es weniger unterschiede gibt, erscheint der zusammenhang mit dem kriterium (zb berufserfolg) kleiner, als er in wahrheit ist )
3lösung: korrekturformeln (â>sowohl korrigierte als auch unkorrigierte werte abgeben!)
(man kann diese verzerrung mathematisch ausgleichen. dabei ist wichtig, immer beide werte mitzuteilen, den korrigierten und den ursprĂŒnglichen)
Beachtung von korrekturen bei der interpretation
was gilt grundsĂ€tzlich fĂŒr messgenauigkeit in der eignungsdiagnostik?
was passiert mit der korrelationshöhe durch messfehler?
wie kann man die korrelation gegen den einfluss von messfehlern korrigieren ?
was versteht man unter minderungskorrektur ?
4minderungskorrektur
(in der eignungsdiagnostik wird oft untersucht wie stark zwei merkmale zusammenhĂ€ngen zb intelligenz und berufserfolg. dieser zusammenhang wird statistisch als korrelation ausgedrĂŒckt. korrelation bedeutet: je höher die ausprĂ€gung in merkmal A desto höher (oder niedriger) tendenziell auch in merkmal B. aber: wenn die tests , mit denen diese merkmale gemessen werden, messfehler enthalten, wird die gemessene korrelation geringer ausfallen als sie in wirklichkeit ist - man sagt , sie wird verwaschen oder gedeckelt. die minderungskorrektur ist ein verfahren, das diesen einfluss von messfehlern ausgleicht, um die âwahreâ korrelation zwischen zwei merkmalen besser schĂ€tzen zu können. je nach methode spricht man von einfacher oder doppelter minderungskorrektur - je nachdem, ob einer oder beide tests messfehler haben )
1eine perfekt genaue messung gibt es in der eignunsgdiagnostik nicht
(in der eignungsdiagnostik ist jede messung mit fehlern behaftet- zb durch unklare items, mĂŒdigkeit oder missverstĂ€ndnisse. eine fehlerfreie =(perfekte) messung existiert nicht )
2korrelationshöhe wird durch messfehler verwĂ€ssert (âgedeckeltâ)
(der messfehler senkt die beobachtbare korrelation: dh selbst wenn zwei merkmale in wirklichkeit stark zusammenÀngen, sieht die gemessene korrelation kleiner aus , weil der messfehler den zusammenhang verdeckt bzw gedeckelt hat )
3korrektur der korrelations-minderung durch messfehler: einfache oder doppelte minderungskorrektur
(man kann die verfÀlschte korrelation rechnerusch korrigieren, um heruaszufinden, wie stark der zusammenhnag ohne messfehler wÀre. dabei gibt es zwei varianten: einfache minderungskorrektur: nur ein merkmal (zb der test ) wird auf seinen messfehler hin korrigiert. ) doppelte minderungskorrektur: beide merkmale (zb test und kriterium ) werden korrigiert.
6.3.3 ObjektivitÀt
was beschreibt objektivitÀt laut Definition nach din 2016?
was ist ein kriterium fĂŒr ein objektives testverfahren in hinblick auf die diagnostiker*innen ?
welche arten von objektivitÀt werden unterschieden und was sagen sie aus ?
1grad, in dem die ergebnisse eines verfahrens unabhĂ€ngig von eignungsdiagnostiker*in bzw. irrelevanten einflĂŒssen sind
(objektivitĂ€t beschreibt, wie wenig das ergebnis eines tests davon beeinflusst wird, wer den test durchfĂŒhrt oder auswertet. ein guter test sollte nicht abhĂ€ngig von der person sein, die ihn betreut, sondern immer die gleichen resultate liefern, egal wer beteiligt ist )
2unterschiedliche diagnostiker*innen sollen mit einem testverfahren zu gleichen ergebnissen kommen
(wenn mehrere fachleute denselben test verwenden , sollten sie zu denselben ergebnissen kommen- zb bei bewertung einer leistung oder auswahlentscheodung. das ist ein zeichen dafĂŒr, dass der test objektiv ist und nicht von der meinung oder auslegung einzelner abhĂ€ngt )
3drei arten von objektivitÀt:
(es gibt 3 spezifische formen, wie objektvitĂ€t ĂŒberprĂŒft wird:
durchfĂŒhrungsobjektvitĂ€t
(der test wird fĂŒr alle personen gleich durchgefĂŒhrt (zb gleiche anweisungen, gleiche bedingungen )
auswertungsobjektivitÀt
(die auswertung erfolgt eindeutig und regelgeleitet , sodass zwei personen zum gleichen ergebnis kommen )
interpretationsobjektivitÀt
(die bedeutung der ergebnisse wird einheitlich interpretiert -also unabhÀngig vom urteil einzelner diagnostiker*innen )
DurchfĂŒhrungsobjektivitĂ€t
was schreibt die DIN zur DurchfĂŒhrungsobjektivitĂ€t vor ?
was gehört zur standardisierung des testungsprozesses ?
was muss bei computertestungen beachtet werden , um durchfĂŒhrungsobjektivitĂ€t sicherzustellen ?
durchfĂŒhrungsobjektivitĂ€t:
1DIN macht klare vorgaben fĂŒr verfahrens- und handhabungshinweise
(die DIN norm schreibt genau vor, wie das testverfahren durchgefphrt werden soll. zie ist, dass alle testpersonen unter denselben bedingungen getestet werden, damit keine verzerrung entsteht )
2standardisierung des testungsprozesses
(es geht darum den gesamten ablauf beim testen einheitlich zu gestalten, damit alle personen dieselbe bedingungen erleben, egal , wer den test durchfĂŒhrt)
unterpunkte der standardisierung)
2klare beschreibung aller ablÀufe
(es wird festgelegt, was wann und wie im test passiert , um willkĂŒr und unterschiede zu vermeiden )
2mĂŒndliche aufgabeninstruktionen
(auch gesprochene anweisungen (zb bitte lösen sie die aufgabe jetzt ) mĂŒssen klar geregelt sein, damit jeder dieselben infos bekommt)
2materialgestaltung
(die verwendeten materialien (zb testhefte, bilder, gegenstĂ€nde ) mĂŒssen gleich aufgebaut und gestaltet sein, damit sie keine ungewollten effekte hervorrufen )
K : = möglichs ihst wenige MissverstÀndnisse
gibt es das Problem nicht, der macht alles immer auf die selbe art und Weise,zb prĂ€sentieren der Items , Auswertung undso dafĂŒr muss systemstavilitĂ€t gewĂ€hrleistet sind )
2regeln zum umgang mit nachfragen
(es muss klar geregelt sein, wie diagnostiker*innen auf rĂŒckfragen von testpersonen reagieren dĂŒrfen zb dĂŒrfen sie keine hinweise zur richtigen lösung geben )
3bei computertestungen
(dieser punkt beschreibt zusĂ€tzliche regelungen speziell fĂŒr computergestĂŒtzte tests:
unterpunkte dazu:
3prĂŒfung von hardware- und softwareanforderungen des diagnostischen verfahrens
(es muss vorher sichergestellt werden, dass der computer / das system alle technischen voraussetzungen erfĂŒllt ( zb richtige bildschrimauflösung, programm lĂ€uft stabil)
3systemstablitÀt / funktionsfÀhigkeit auf betriebssystemplattformen sicherstellen
(der test darf auf keinem computer abstĂŒrzen . es muss zuverlĂ€ssig laufen, egal ob windows , mac etc)
3instruktion technischer besonderheiten des verfahrens
(wenn es technische besonderheiten gibt (zb spezielles antwortsystem) mĂŒssen diese genau erklĂ€rt werden, damit niemand einen nachteil hat )
welche drei durchfĂŒhrungsmodi werden bei online -testungen unterschieden ?
1bei online-testungen werden drei durchfĂŒhrungsmodi unterschieden
(bei online tests gibt es drei unterschiedliche arten , wie diese durchgefĂŒhrt werden können, je nachdem wie stark die durchfĂŒhrung kontrolliert ist )
K die ObjektivitĂ€t kann eingeschrĂ€nkt sein wenn⊠durchfĂŒhrungsobjektivitĂ€t wird eingeschrĂ€nkt wenn zb Testung von Zuhause durchgefĂŒhrt wird
1geschĂŒtzte testung
(dies ist die sicherste und strengste form der durchfĂŒhrung:)
in einem testzentrum
(die testperson absolviert den test vor ort, also nicht zuhause)
aufsichtsperson anwesend
(eine person ĂŒberwacht ob der test korrekt und ohne tĂ€uschung durchgefĂŒhrt wird)
1teilgeschĂŒtzte testung
(diese variante ist ein mittelweg zwischen völliger kontrolle und gar keiner )
kann auch von zuhause durchgefĂŒhrt werden
(die testperson darf den test auĂerhalb eines testzentrums absolvieren.)
durch benutzernamen und password authentifiziert
(die testperson muss sich mit zugangsdaten anmelden- das stellt zumindest minimal sicher, dass die richtige person teilnimmt )
1ungeschĂŒtzte testung
(diese form hat keinerlei sicherheitsvorkehrungen )
keine art des schutzes und der authentifizierung
(es gibt keine ĂŒberprĂŒfung der identitĂ€t oder regeln fĂŒr die durchfĂŒhrung - jede*r kann teilnehmen ,ohne kontrolle )
wovon hĂ€ngt die auswahl des durchfĂŒhrungsmodus ab ?
wann ist ein ungeschĂŒtzter testdurchfĂŒhrungsmodus angemessen ?
was ist ein nachteil teilgeschĂŒtzter testung?
wozu werden teil- oder ungeschĂŒtzte testungen v.a eingesetzt ?
was sind beispiele fĂŒr verletzungen der prozessstandardisierung ?
1auswahl des durchfĂŒhrungsmodus
(alle durchfĂŒhrungsmodi in dieser folie beziehen sich auf online testungen. die aussagen beziehen sich ganz allgemein auf eignungsdiagnostische verfahren- dh: diese regeln zur durchfĂŒhrungsobjektivitĂ€t gelten fĂŒt eignungstests (zb berufsauswahl), intelligenztests (wenn sie fĂŒr auswahl oder diagnostik verwendet werden), leistungstests, persönlichkeitstests , screenings, computergestĂŒtzte tests
K wie man das macht hÀngt vom Testikel ab
1hÀngt vom testungsziel ab
(die entscheidung wie ein test durchgefĂŒhrt wird (geschĂŒtzt, teilgeschĂŒtzt oder ungeschĂŒtzt hĂ€ngt davon ab, wofĂŒr der test verwendet wird. beispiel: wenn es um eine erste grobe auswahl geht (screening) reicht oft eine ungeschĂŒtzte durchfĂŒhrung. wenn es aber um entscheidende personalauswahl geht, ist eine geschĂŒtzte testung erforderlich, bei der klare bedingungen herrschen (zb im testzentrum mit aufsicht )
2ungeschĂŒtzt ist angemessen bei einem screening (ziel des ersten auswahlschrittes ist selbstselektion )
(bei einem screening geht es darum, dass ungeeignete personen sich selbst aussortieren. in so einem fall reicht ein ungeschĂŒtzter test, weil es nur eine grobe vorentscheidung ist. beispiel: eine firma möchte nur bewerber mit sehr guten englischkenntnissen-also macht sie einen offenen online-test. wer dort scheitert, bewirbt sich erst gar nicht weiter )
3teilgeschĂŒtzt
(das ist ein mittelweg : man kann den test zwar von zu hause machen, aber man braucht zb einen zugangscode oder ein passwort. das stellt zumindest gewÀhrleistet, dass die person autorisiert ist, aber eine vollstÀndige kontrolle wie im testzentrum fehlt)
3unklare personenidentitĂ€t , da der test auch von freunden bearbeitet werden kann, höhere manipulierbarkeit , einschrĂ€nkung der durchfĂŒhrungsobjektivitĂ€t
(bei teilgeschĂŒtzter oder ungeschĂŒtzter testung ist nicht immer klar, ob die getestete person wirklich selbst antwortet. so kann zb ein freund helfen oder sogar ganz ĂŒbernehmen. das beeintrĂ€chtigt die durchfĂŒhrungsobjektivitĂ€t, weil das verfahren nicht mehr unabhĂ€ngig von Ă€uĂeren einflĂŒssen ist )
4v.a zu screening-zwecken
(gerade bei screening-verfahren , wo es erstmal nur darum geht, eine grobe vorauswahl zu treffen, wird oft auch ungeschĂŒtzte oder teilgeschĂŒtzte durchfĂŒhrung gesetzt. das spart aufwand und kosten , ist aber nur dann sinnvoll, wenn die ergebnisse nicht fĂŒr finale entscheidungen verwendet werden )
5verletzungen der prozessstandardisierung
(wenn der ablauf des tests nicht fĂŒr alle gleich ist, dann leidet die objektivitĂ€t . beispiele fĂŒr solche verletzungen sind:
K das kann immer mal wieder auftreten
5bspw. lösungsirrelevantes lob oder verstĂ€rkung durch nicken kann einflĂŒsse auf die leistung der kandidaten haben
(wenn eine testleitung zb unbewusst positive rĂŒckmeldung gibt (gut gemachtâ) oder zustimmendes nicken kann das die leistung steigern. das bedeutet: die ergebnisse hĂ€ngen nicht nur von den fĂ€higkeiten, sondern auch von Ă€uĂeren faktoren ab â>objektivitĂ€t leidet. )
5absichtliche / ubabsichtliche hilfestellungen (zb aus sympathie)
(wenn testleiter zb aus sympathie mehr erklÀrt oder hinweise gibt (bewusst oder unbewusst) , werden ergebnisse verfÀlscht. auch das senkt die objektivitÀt , weil die leistung nicht mehr nur vom kandidaten abhÀngt. )
5vergleich mit vergleichsstichprobe nicht mehr möglich
(wenn der ablauf nicht standardisiert war, kann man die ergebnisse nicht fair mit anderen vergleichen. bsp: wenn eine person hilfe bekommt und eine andere nicht, sind ihre werte nicht mehr gleichwertig. das verfÀlscht die vergleichbarkeit mit normwerten oder vergleichsgruppen.)
K zb kein nicken weil man unbeaufsichtigt Hilfestellung gibt Richtung lösungshinweise
(die auswahl wie ein test durchgefĂŒhrt wird, hĂ€ngt stark vom ziel der testung ab. es gibt dafĂŒr 3 durchfphrungsmodi bei online-testungen:
geschĂŒtzte testung: diese erfolgt in einem testzentrum, unter aufsicht, damit niemand schummeln oder sich helfen lassen kann. sie eignet sich besonders fĂŒr entscheidende testphasen , in denen höchste objektivitĂ€t und sicherheit gefordert ist.
teilgeschĂŒtzte testung= diese wird zb von zu hause durchgefĂŒhrt, aber es gibt eine gewisse kontrolle, etwa ĂŒber benutzernamen und passwort. sie ist eine kompromisslösung , wenn nicht vollstĂ€ndig ĂŒberwacht werden kann, aber dennoch etwas sicherheit nötig ist .
ungeschĂŒtzte testung: diese erfolgt ohne jede kontrolle, also ohne authentifizierung oder aufsicht. das kann zb sinnboll sein bei einem screening wo es nur darum geht , dass sich ungeeignete personen selbst aussortieren. in diesem fall wird die geringe objektivitĂ€t in kauf genommen, weil der test noch keine bindende entscheidung begrĂŒndet.
fazit: je nachdem, ob man nur eine vorauswahl treffen oder eine bindende entscheidung fÀllen will, ist einer dieser modi angemessen. deshalb hÀngt die wahl des modus vom testziel ab )
6.3 gĂŒtekriterien
6.3.3. objektivitÀt
wann liegt auswertungsobjektivitÀt vor ?
wie wird auswertungsobjektivitÀt sichergestellt ?
wann liegt interpretationsobjektivitĂ€t vor und wie wird sie unterstĂŒtzt?
auswertungsobjektvitÀt :
K was können wir dafĂŒr tun
1alle auswerter*innen kommen bei demselben kandidaten zu gleichen ergebnissen
(egal wer den test auswertet, die punktzahl oder bewertung des kandidaten soll identisch sein- ohne interpretationsspielraum .
2a priori festgelegte auswertungs- und verrechnungsregeln
(es gibt vorab festgelegte und klare regeln, wie zb wie antworten zu punkten umgerechnet werden. so entsteht keine willkĂŒr.)
2training der auswerter*innen
(die personen, die auswerten , mĂŒssen geschult werden, damit sie die regeln korrekt und einheitlich anwenden )
interpretationsobjektvitÀt :
3alle eignungsdiagnostiker*innen sollten beim selben testwert zu den gleichen schlussfolgerungen kommen
(nicht nur die punktzahl sondern auch das was sie bedeutet (zb gut geeignet, unterdurchschnittlich) muss einheitlich beurteilt werden )
3eindeutige interpretationskriterien vorgeben
(die bewertung soll sich nicht auf das gefĂŒhl oder die meinung der diagnostiker stĂŒtzen, sondern auf klare regeln zb ab welchem wert man als geeignet gilt )
3beispieltexte in den verfahrenshinweisen
(um die interpretation zu erleichtern, erhalten testmanuale oft musterformulierungen, also konkret textbeispiele, wie eine interpretation aussehen kann )
6.3.4 Normen und ergebnisrĂŒckmeldung
was ist die grundlage fĂŒr die interpretation von testwerten ?
welche art von diagnostik verwendet eine vergleichs- bzw- normstichprobe ?
womit arbeitet die kriteriensorientierte diagnostik?
1grundlage fĂŒr die interpretation von testwerten ist ein sinnvoller bezugsrahmen
(damit man testwerte richtig verstehen kann (zb ob sie gut oder schlecht sind), braucht man einen maĂstab bzw. vergleichswert. dieser wird als bezugsrahmen bezeichnet)
2vergleichs- bzw. normstichprobe (normorientierte diagnostik)
(ein solcher bezugsrahmen kann eine gruppe von personen sein (normstichprobe ) mit der man die testergebnisse vergleicht. das nennt man normorientierte diagnostik, weil man schaut , wie gut jemand im vergleich zur ânormâ ist )
3erreichen eines inhaltlich definierten kriteriums (kriterienorientierte diagnostik)
(alternativ kann man schauen, ob jemand ein festgelegtes ziel oder kritierium erreicht hat - unabhĂ€ngig vom vergleich mit anderen. das nennt man kriteriumsorientierte diagnostik. bsp: du bestehst eine fahrprĂŒfung , wenn du weniger als 5 fehler machst, egal wie andere abgeschnitten haben )
K da wir oft EinzelfÀlle vor uns haben in der eignungsfiagnodtik haben machen wir und brauchen wir Normorientierte Testung , oder kriteriumsorientierte Testungen
6.3.4 normen und ergebnisrĂŒckmeldung
normorientierte diagnostik
welche 3 anforderungen stellt DIN 2016 an vergleichsstichproben in der normorientierten diagnostik?
was ist die grundlage fĂŒr normorientierte diagnostik ?
was bedeutet normorientierte diagnostik?
3normorientierte diagnostik :
(dabei werden die ergebnisse einer getesteten person mit denen einer vergleichsgruppe verglichen. es geht also nicht darum, ob jemand ein bestimmtest kriterium erfĂŒllt sondern wie gut oder schlecht jemand im vergleich zu anderen abschneidet. )
â>antwort 3: vergleichs- bzw normstichprobe (normorientierte diagnostik)
2normtabellen von vergleichsstichproben in testmanualen
(diese vergleichswerte (normen ) sind in testmanualen hinterlegt. dort stehen normtabellen , die zb sagen: ein rohwert von 12 entspricht einem IQ von 110 oder dieser wert ist besser als 85% der vergleichsgruppe )
1anforderungen: (din , 2016)
(hier geht es um mindeststandards fĂŒr die normtabellen:
1nicht Àlter als 8 jahre
(die normdaten sollen aktuell sein. eine vergleichsgruppe von vor 20 jahren wĂ€re zb nicht mehr reprĂ€sentativ. daher fordert DIN 2016, dass die normdaten höchstens 8 jahre alt sein dĂŒrfen )
1möglichst reprĂ€sentativ fĂŒr zielgruppe und anwendungskontext des verfahrens
(die vergleichsgruppe soll möglichst Ă€hnlich zu den personen sein, die getestet werden. also: wenn ein test fĂŒr studierende gedacht ist, soll die vergleichsgruppe ebenfalls aus studierenden bestehen- nicht aus kindern oder senioren )
1zusammensetzung der stichprobe muss bekannt sein
(es soll klar dokumentiert sein, wer in der vergleichsgruppe war (zb alter , bildung , geschlecht ) . nur so kann man einschÀtzen, wie aussagekrÀftig der vergleich ist )
(erklrÀung zur abbildung:
die grafik zeigt eine normalverteilungskurve - die typische glockenkurve in der :
mitte (0)= durchschnitt (ca 68% liegen zwischen -1 und +1 standardabweichung )
links (-2 , -3 usw.)= unterdurchschnittlich / auffÀllig
rechts (+2 , +3 usw) = ĂŒberdurchschnittlich / auffĂ€llig
die verschiedenen skalen rechts (iq werte, t wertem z werte , stanine usw. zeigen wie rohwerte in standardwerte umgerechnet werden, um sie vergleichbarer zu machen. jede skala hat ihre eigene verteilung aber sie beziehen sich auf die gleiche normalverteilung )
bsp: ein z -wert von 0 enstrpciht einem iq-wert von 100, einem t wert von 50 oder einem stanine wert von 5 â-> alles durchschnitt )
normorientierete diagnostik
1.. was sollte bei der ergebnisrĂŒckmeldung in der normorientierten diagnostik vermieden werden ?
was ist laut folie eine inhaltlich haltbare aussage zu einem testergebnis ?
wwas ist eine praktische vorgehensweise bei der normorientierten diagnostik?
was macht die din nicht ?
was zeigt die abbildung ?
normorientierte diagnostik:
3in der praxis etablierte kategorien fĂŒr ergebnisrĂŒckmeldung beziehen messfehler ein
(in der praxis werden ergebnisbereiche wie âunterdurchschnittlich , ĂŒberdurchschnittlich verwendet. dabei wird berĂŒcksichtigt, dass ein gemessener wert durch messfehler beeinflusst sein kann )
4keine konvention der DIN
(die DIN-Norm macht keine verbindlichen vorgaben, wie genau die ergebnisrĂŒckmeldung zu gestalten ist- es gibt also keinen einhetilichen standard.
1vermeidung von âpseudogenauigkeit â
(es soll vermieden werden, falsche genauigkeiten vorzutÀuschen, zb durch aussagen wie herrx hat genau 101 punkte. solche scheinbar exakten werte ignorieren die unsicherheit durch messfehler .
2entscheidung fĂŒr inhaltlich haltbare aussage: âherr x erzielt im IST2000-R ein durchschnittliches bis ĂŒberdurchschnittliches ergebnisâ
(statt prĂ€ziser , aber irrefĂŒhrender zahlenangbane wird eine sinnvolle , interpretierbare aussage gemacht, die den messfehler mit einbezieht. hier heiĂt es: die punktzahl liegt im bereich: durchschnittlich bis ĂŒberdurchschnittlich , ohne eine scheinbare genauigkeit vorzutĂ€uschen.)
(erklÀrung der abbildung:
die grafik zeigt vier messwerte mit konfidenzintervallen, jeweils auf einer skala von 85 bis 115: jeder grĂŒne balken stellt das konfidenzintervall dar â>also den bereich, in dem der âwahre wertâ mit zb 95%iger sicherheit liegt. der gestrichelte strich bei 100 ist der mittelwert bzw. das zentrum des durchschnittsbereichs. der rote pfeil makiert vermutlich das konfidenzintervall von Herr X, der laut beispiel eine punktzahl hat, die in den durchschnittlichen bis ĂŒberdurchschnittlichen bereich reicht.
die bitschaft: ein punktwert alleine sagt wenig. erst durch die darstellung des konfidenzintervalls erkennt man wie genau oder ungenau die aussage ist. deshalb spricht man besser von einem ergebnisbereich als von einem festen punktwert.
(auf der abbildung rechts mit den horizontalen linien siehst du grĂŒne balken mit strichen, die sich ĂŒber zb. den wertebreich 85-115 erstrecken. das sind konfidenzintervalle zu den einzelnen testergebnissen. ein konfidenzintervall zeigt : zwischen welchen werten der wahre testwert vermutlich liegt- zb wegen messfehlern. zum beispiel: eine person hat einen testwert vin 100. das konfidenzintervall reicht von 85 bis 115 - das bedeutet : der wahre wert liegt mit hoher wahrscheinlichkeit irgendwo zwischen 85 und 115. also von unterdurchschnittlich bis ĂŒberdurchschnittlich. die folie sagt es gibt keine offizielle din-konvention, wie genau rĂŒckmeldungen aussehen mĂŒssen. deshlab soll man keine pseudogenauigkeit vortĂ€uschen (zb herr x hat genau 103 punkte) stattdessen sollte man inhaltlich haltbare aussagen machen: herr x erzielt ein durchschnittliches bis ĂŒberdurchschnittliches ergebnis. diese formulierung berĂŒcksichtigt das konfidenzintervall - also den bereich, in dem das ergebnis mit hoher wahrscheinlichkeit liegt. )
kriterienorientierte diagnostik
warum sind normen nicht immer anwendbar ?
worum geht es bei der kriterienorientierten diagnostik manchmal stattdessen ?
was ist beim beispiel der eignungsprĂŒfung von piloten entscheidend ?
Kriterienorientierte diagnostik
1normen sind jedoch nicht fĂŒr jede eignungsdiagnostische fragestellung anwendbar
(nicht immer sinnvoll, eine person mit anderen zu vergleichen. in bestimmten situationen reicht es nicht, nur zu wissen , wo jemand im vergleich steht- es kommt auf das erreichen bestimmter anforderungen an)
2manchmal wollen wir nicht wissen , wie kandidat*in im vergleich zu anderen steht, sondern ob bestimmte kriterien erfĂŒllt werden
(hier interessiert nicht der rang im vergleich , sondern ob jemand ein festgelegtes ziel oder mindestmaĂ erreicht hat. es geht also um ja / neun - nicht besser / schlechter)
3beispiel: eignungsprĂŒfung von piloten
(das beispiel veranschaulicht : nicht wichtig ist ob jemand mehr knöpfe kennt als andere, sondern ob alle relevanten knöpfe bekannt sind- weil das eine mindestvoraussetzung fĂŒr die tĂ€tigkeit als pilot ist )
ob der kandidat mehr knöpfe im cockpit kennt als andere ist nicht relevant
(wettbewerb ist in diesem fall nicht das ziel- es gibt kein âbesser als andere â sondern nur geeignet oder nicht geeignet )
es ist wichtig, dass er alle knöpfe kennt (inhaltlich definiertes kriterium )
(der fokus liegt auf einem festgelegten standard (zb vollstĂ€ndiges wissen ) das ist ein konkretes kriterium , das unabhĂ€ngig vom vergleich zu anderen erfĂŒllt sein muss )
K geht. Datum das er die richtigen Knöpfe kennt und nicht mehr als andere = festgelegtes Kriterium
6.3.5 Fairness
was darf die anwendung eines verfahrens laut din 2016 nicht tun ?
welche eigenschaften, kenntnisse oder fertigkeiten dĂŒrfen das ergebnis nicht beeinflussen ?
was sind beispiele fĂŒr solche irrelevanten einflussfaktoren ?
was soll mit betroffenen personen geschehen ?
wann dĂŒrfen verfahren angepasst werden und wann nicht ?
K kann rechtliche Inokulationen haben
1.anwendung der verfahren darf nicht zu benachteiligung oder bevorzugung einzelner kandidaten oder gruppen fĂŒhren
(ein testverfahren ist nur dann fair, wenn niemand durch das verfahren selbst einen vorteil oder nachteil hat- zum beispiel wegen seiner herkunft , sprache oder körperlichen einschrÀnkungen)
2.keine eigenschaften, kenntnisse , fertigkeiten sollen das ergebnis beeinflussen, die nicht zum erfassenden eignungsmerkmal gehören
(nur die fĂŒr die eignung relevanten merkmale dĂŒrfen eine rolle spielen. andere, nicht zur aufgabe passende fĂ€higkeiten (zb computerkenntnisse bei einem handwerklichen test) dĂŒrfen das ergebnis nicht verfĂ€schen
beispiele fĂŒr solche irrelevanten merkmale:)
3mangelnde sprachkenntnisse
(könnte das ergebnis in einem schriftlichen test negativ beeinflussen, obwohl die aufgabe nichts mit der sprache zu tun hat )
3beeintrÀchtigungen des seh- und hörvermögens
(wenn der job keine perfekte sinne voraussetzt, dĂŒrfen diese einschrĂ€nkungen das testergebnis nicht verfĂ€schen )
3(mangelnde) vorerfahrung mit computern
(sollte keinen einfluss haben,wenn der test zb ĂŒber den computer lĂ€uft, die aufgabe selbst aber nichts mit IT zu tun hat )
4betroffene personen sollten nach spezifischen bedĂŒrfnissen befragt und das verfahren, falls fachlich vertretbar, angepasst werden
(wenn jemand einschrĂ€nkungen oder besondere bedrĂŒfnisse hat, soll nach möglichkeiten gefragt und geprĂŒft werden, ob der test angepasst werden kann- aber nur , wenn das fachlich vertretbar ist )
5anpassungen mĂŒssen sich positiv auf die verfahrensbearbeitung auswirken, mĂŒssen aber irrelevant fĂŒr das eignungsmerkmal sein
(die Ànderung soll nur die barriere beseitigen. aber darf nicht das eignungsmerkmal selbst beeinflussen
5wenn aber die in frage stehende tĂ€tigkeit zb sehtĂŒchtigkeit erfordert (fahrzeugfĂŒhrer) , darf verfahren nicht angepasst bzw. ersetzt werden
(in fĂ€llen in denen eine bestimmte fĂ€higkeit zentral fĂŒr die tĂ€tigkeit ist, darf man den test nicht anpassen, da das kriterium dann nicht mehr gemessen wird )
zusammenfassung wichtigsten punkte
welche statistischen verfahren werden typischerweise zur auswertung von daten in eignungsverfahren genutzt?
welche funktion haben testtheorien in der eignungsdiagnostik?
woran kann man laut DIN 2016 erkennen, ob ein verfahren in der eignungsdiagnostik geeignet ist ?
1fĂŒr die auswertung und darstellung von daten aus eignungsverfahren werden meist deskriptive statistiken, korrelationen und regressionen verwendet
(um die ergebnisse aus tests (zb eignungstests) verstÀndlich zu machen, nutzt man deskriptive statistik (zb mittelwerte, streuung ), korrelationen (zusammenhÀnge zwischen merkmalen ) und regressionen (vorhersagemodelle) . so erkennt man zum beispiel ob bessere testergebnisse mit höherer berufseignung zusammenhÀngen
2testtheorien liefern die theoretische grundlage fĂŒr psychometrische tests und fragebögen, die in eignungsdiagnostischen untersuchungen zum einsatz kommen können
(hinter guten tests stehen psychologische testtheorien zb klassische testtheorie, die erklÀren, wie ein test valide und zuverlÀssig misst. diese theorien geben vor, wie ein fragebogen oder test aufgebaut sein muss, damit er wikrlich die eignung misst, um die es geht )
3anhand der gĂŒtekriterien , die in testmanualen unbedingt aufegfĂŒhrt werden sollten (din, 2016) kann beurteilt werden, ob ein bestimmtes verfahren im rahmen einer eignungsdiagnostischen untersuchung valide und nĂŒtzliche informationen ĂŒber kandidat*innen erbringt
(die gĂŒtekriterien (zb objektivitĂ€t , reliabilitĂ€t , validitĂ€t , fairness ) mĂŒssen laut norm (din 33430) im testhandbuch enthalten sein. nur wenn diese kriterien erfĂŒllt sind, darf man den test als zuverlĂ€ssig und aussagekrĂ€ftig fĂŒr die eignungsbeurteilung verwenden )
LERNCAMP
1. Was ist der Unterschied zwischen Messen und ZĂ€hlen?
(Diese Definition stammt aus frĂŒheren Folien zur Grundlagenmessung, sinngemÀà ergĂ€nzt, weil sie nicht direkt in deinen letzten Folien auftauchte. Falls du eine Folie dazu hast, kannst du sie gern noch hochladen.)
đ ZĂ€hlen: Erfassen von Anzahlen (z.âŻB. wie viele Aufgaben richtig gelöst wurden).
đ Messen: Zuordnen von Zahlen zu MerkmalsausprĂ€gungen nach bestimmten Regeln (z.âŻB. Intelligenztestwerte).
2. Aus welchen GrĂŒnden können Korrelationen zwischen Messwerten von Eignungstests und Kriterien zu hoch oder zu niedrig ausfallen?
â Zu niedrig wegen VarianzeinschrĂ€nkung:
âVarianz der Messwerte reduziert sich â Korrelationseffizienten sinken, KriteriumsvaliditĂ€t wird unterschĂ€tztâ
â Zu niedrig wegen Messfehlern:
âKorrelationshöhe wird durch Messfehler verwĂ€ssert (âgedeckeltâ)â
â Lösung:
âKorrektur der Korrelations-Minderung durch Messfehler: einfache oder doppelte Minderungskorrekturâ
3. In welchen FĂ€llen im Rahmen der Eignungsdiagnostik sind formative latente Variablen reflektiven latenten Variablen vorzuziehen?
(Dieser Punkt wurde nicht direkt in deinen Folien genannt. Falls du die Folie hast, bitte hochladen. Sonst kann ich dir eine standardisierte Antwort liefern.)
4. Beschreiben Sie jeweils einen Vor- und einen Nachteil einer minderungskorrigierten Kriteriumskorrelation.
â Vorteil:
âKorrektur der Korrelations-Minderung durch Messfehlerâ
â Nachteil:
(implizit): Kann zu ĂŒberschĂ€tzten Werten fĂŒhren, wenn reliabilitĂ€tsbezogene Korrekturwerte ungenau sind (nicht direkt auf Folien â ggf. ergĂ€nzen, wenn gefragt)
5. Warum muss die ZuverlĂ€ssigkeit eines Tests bei der Interpretation eines Testwerts unbedingt berĂŒcksichtigt werden?
âKorrelaÂtionshöhe wird durch Messfehler verwĂ€ssert (âgedeckeltâ)â
â Deshalb: **âEinfacher oder doppelter Minderungskorrekturâ notwendig, um richtige Aussagen ĂŒber ValiditĂ€t zu treffen.
Medien zur Vertiefung
6. Statistisch-Methodische Grundlagen
ErgÀnzungen Notizen rein
Last changed18 hours ago