Übersicht
Evaluation der Eignungsbeurteilung
7.1 Was ist Evaluation ?
wie definiert die DIN den notwendigen Kenntnisstand zur fachgerechten Nutzung von verfahren in der eignungsdiagnostik ?
was versteht die gesellschaft für evaluation unter dem begriff “evaluation”
worauf müssen erzielte ergebnisse, schlussfolgerungen oder empfehlungen laut gesellschaft für evaluation beruhen ?
(K:Die DIN definiert Evaluation so:
K: wichtigstes thema
Was ist evaluation ?
(die folie befasst sich mit der grundlegenden definition und bedeutung von evaluation - also der bewertung von verfahren oder maßnahmen )
1.für die fachgerechte Nutzung von verfahren sind nach DIN Kenntnisse über “Evaluationsmethoden einschließlich Kosten-Nutzen-Aspekten “ notwendig
(wenn man ein eignungsdiagnostisches verfahren richtig anwenden will, muss man laut der DIN-Norm auch wissen, wie man das verfahren bewertet, und zwar auch im hinblick auf den aufwand und den nutzen (zb zeit, geld, genauigkeit )
Definition: 2
“Evaluation ist die systematische untersuchung des nutzens oder wertes eines gegenstandes. solche evaluationsgegenstände können zb programme, projekte , produkte , maßnahmen , leistungen, organisationen, politik , technologie oder forschung sein. 2 und antwort 3 ab hier:die erzielten ergebnisse, schlussfolgerungen oder empfehlungen müssen nachvollziehbar auf empirisch gewonnenen qualitativen und / oder quantitativen daten beruhen “ (gesellschaft für evaluation , 2008, s.15)
(evaluation heist: man prüft geplant und methodisch, ob etwas (zb ein test oder eine maßnahme ) nützlich oder sinnvoll ist.
was kann man evaluieren ? so gut wie alles- von politischen maßnahmen bis zu produkten oder auch einem eignungstest.
die resultate der evaluation müssen auf echten daten beruhen (zb fragebögen , interviews , testergebnisse ) und nachvollziehbar erklärt werden . Also wenn man ein verfahren evaluiert (also beurteilt, ob es zb sinnvoll , nützlich oder wirksam ist , müssen die aussagen darüber auf echten , beobachtbaren daten basieren - sogenannten empirischen daten. dh es reicht nicht, wenn jemand einfach “das gefühl hat”, dass das verfahren gut oder schlecht ist. stattdessen muss man das mit daten belegen, die systematisch erhoben wurden. dabei gibt es zwei arten von solchen daten: 1. qualitative daten (zb durch interviews, beobachtungen ) zb : könnte man eine person befragen, die einen eignungstest gemacht hat. sie berichtet zb, wie verständlich der ablauf war, ob sie den test als fair erlebt hat usw. —>solche subjektiven eindrücke sind qualitativ, aber nur dann wissenschaftlich verwertbar, wenn sie systematisch erhoben wurden- also zb mit einem interviewleitfaden , mehreren personen, auswertung nach festen regeln .
quantitative daten (zb zahlen, fragebögen, testergebnisse:
man kann zb auswerten, wie stark das testergebnis mit späterer beruflicher leistung zusammenhängt (korrelation ). oder messen, wie lange die bearbeitung dauert, wie viele personen scheitern usw.
warum das wichtig ist: nur wenn die evaluation auf solchen realen daten beruht, sind ihre ergebnisse, empfehlungen oder verbesserungen glaubwürdig und nachvollziehbar- also wissenschaftlich fundiert )
7.Evaluation der eignungsbeurteilung
7.1 wa ist evaluation ?
was fordert die DIN bezüglich der bewertung von vorgehen und verfahren in der eignungsdiagnostik ?
wann muss bei wiederholten eignungsbeurteilungen eine bewertung des verfahrens erfolgen ?
was bedeutet eine kritische würdigung des verfahrens laut DIN ?
1In der DIN wird formuliert: “Auftraggeber und dienstleister müssen gemeinsam zu geeigneten zeitpunkten eine kritische würdigung des vorgehens und der verfahren vornehmen. (din, 2016, s.21)
(die din schreibt vor, dass sowohl der auftraggeber (zb ein unternehmen) als auch der durchführende dienstleister (zb ein diagnostiker ) gemeinsam regelmäßig überprüfen sollen, ob das eingesetzte vorgehen und die verfahren noch angemessen und sinnvoll sind. diese überprüfung soll nicht beliebig, sondern zu bestimmten, sinnvollen zeitpunkten (“geeigneten zeitpunkten”) stattfinden. dabei soll kritisch bewertet werden, ob das verfahren seine ziele erfüllt oder angepasst werden muss )
2bei wiedergeholten eignungsbeurteilungen in gleicher art und weise: spätestens alle 3 jahre begründen , ob sich die regeln zur durchführung und auswertung und zum erstellen des abschließenden eignungsurteils bewährt haben (din , 2016, s.11)
(wenn ein eignungsdiagnostik-verfahren mehrfach auf dieselbe weise durchgeführt wird (zb jährlich im bewerbungsverfahren ) , dann muss spätestens alle 3 jahre überprüft und begründet werden, ob die bisherigen durchführungs- und auswertungsregeln sowie die abteilung des urteils über die eignung auch weiterhin gut funktionieren und sinnvoll sind. das ziel ist, veraltete oder ineffektive methoden rechtzeitig zu erkennen und ggf. zu verbessern )
antwort 3: eine gemeinsame bewertung von auftraggeber und dienstleister zu geeigneten zeitpunkten , ob das verfahren weiterhin sinnvoll und wirksam ist ))
7.2 Wie wird evaluiert ? (es geht darum. wie man die qualität und angemessenheit eines eignungsdiagnostikverfahrens bewertet)
7.2.1 Vergleichsmaßstäbe
(k: bezugsrahmen für die evaluation )
Wie viele ansätze sind für die evaluation prinzipiell möglich ?
was wird im normativen ansatz geprüft ?
was ist ein beispiel für DIN-Konformität im normativen ansatz ?
was ist ein beispiel für eine vereinbarte zielvorgabe im normativen ansatz ?
7.2.1 Vergleichsmastäbe
(vergleichsmaßstäbe sind kriterien , mit denen man die qualität und korrektheit des verfahrens beurteilen kann )
- 1es sind prinzipiell drei ansätze möglich
(grundsätzlich kann man auf 3 verschiedenen arten evaluieren, ob ein verfahren gut war oder nicht: )
2normativer ansatz: wurden vorgaben eingehalten ?
(bei diesem ansatz fragt man: hat man sich an vorher festgelegten regeln oder standards gehalten ?
2dIN-konformität des vergehens ?
(es wird geprüft, ob das vorgehen den vorgaben der DIN entspricht. )
3beispiel: “für das eingesetzte testverfahren liegen handhabungshinweise vor”
(das bedeutet : es existieren klare anleitungen (zb wie der test durchzuführen ist ), was zeigt, dass die DIN-Vorgaben eingehalten wurden )
2vereinbarte zielvorgaben wurden erreicht?
(es wird gepürft, ob vorher festgelegte ziele tatsächlich eingehalten wurden. das betrifft zb dauer, inhalt oder ablauf eines verfahrens )
4beispiel: eignungsinterview soll maximal 30 minuten dauern
(wenn das interview kürzer oder genau 30 minuten dauert , ist das ziel erreicht - wurde es überschritten , ist die zielvorgabe nicht eingehalten )
(k: dann kann man danach schauen wie lange es gedauert hat )
77.2 wie wird evaluiert ?
was versteht man unter einem intraindividuellen vergleich bei der evaluation eines eignungsverfahrens?
wie kann der vergleich mit anderen gruppen in der evaluation genutzt werden und welche probleme treten dabei auf ?
was bedeutet CAVE im Kontext von Evaluation und wie sollte man mit beobachtetetn veränderungen umgehen ?
intraindividueller vergleich: s1ind veränderungen eingetreten ?
(hier wird geschaut , ob sich bei ein und derselben person etwas verändert hat- zb vor und nach seiner maßnahme. maßnahme bedeutet in diesem zusammenhang zb ein training , eine intervention oder ein verbessertes verfahren- also eine gezielte veränderung, um zb . die kommunikation , fairness oder akzeptanz zu steigern. in der eignungsdiagnostik ist damit meistens gemeint: die person ist schon eingestellt, und es geht um weiterentwicklung oder optimierung, nicht um auswahl )
1wirksamkeit von maßnahmen zur verbesserung einer vorgehensweise oder bei austausch von verfahren
(es wird überprüft, ob eine eingeführte maßnahme oder ein neues verfahren tatsächlich zu einer verbesserung geführt hat. beispiel: hat ein kommunikationstraining nachweislich die teaminteraktionen verbessert ?
i1st die akzeptanz der verfahren seitens der kandidat*innen gestiegen, nachdem das verfahren überarbeitet wurde ?
(diese frage dient als beispiel für eine konkrete evaluation: wird das überarbeitete verfahren von den teilnehmer*innen besser angenommen als zuvor ?)
1,2CAVE: kann beobachter unterschied zwischen zwei messungen tatsächlich auf die maßnahme zurückgeführt werden ?
(CAVE ist ein warnhinweis und bedeutet: Achtung- ein unterschied zwischen zwei messungen bedeutet nicht automatisch , dass die maßnahme die ursache war ! andere faktoren könnten auch eine rolle gespielt haben (zb stimmung, tagesform , kontextwechsel ) daher muss man bei intrainidviduellen vergleichen besonders vorsichtig sein mit kausalen schlussfolgerungen ) (Kausale Schlussfolgerungen sind Schlussfolgerungen, die auf Ursache-Wirkungs-Beziehungen basieren. Sie beantworten die Frage, wie eine Variable (die Ursache) eine andere Variable (die Wirkung) beeinflusst. Dabei ist es wichtig, dass die Schlussfolgerung nicht nur eine Korrelation, sondern eine tatsächliche Ursache-Wirkungs-Beziehung beschreibt)
2vergleich mit anderen: Benchmarks heranziehen (K: man schaut auf ergebnisse von verfahrens evaluationen von anderen )
(statt nur eine person mit sich selbst zu vergleichen, schaut man hier, wie gut eine gruppe im vergleich zu anderen gruppen abschneidet. ) das nennt man benchmarking.
2schwer, das ergebnis einer verfahrensevaluation richtig einzuordnen
(es ist oft schwierig, die qualität eines verfahrens klar zu bewerten, weil viele faktoren reinspielen )
2beobachterübereinstimmung von Kappa = .70 hoch ?
(frage, ob zb zwei diagnostiker*innen beim gleichen verfahren zu denselben ergebnissen kommen (interrater reliabilität). ein wert von kappa =.70 gilt als relativ hoch, aber ist kontextabhängig )
2kriteriumsgültigkeit einer aus arbeitsproben abgeleiteten eignungsbeurteilung von r=.30 hoch ?
(hier wird gefragt, ob ein zusammenhang (korrelation r=.30 ) zwischen einem verfahren (zb arbeitsprobe) und einem kriterium (zb beurfserfolg ) ausreicht, um das verfahren als valide einzustufen )
2einzig sinnvolle weg: für jede gruppe von verfahren vergleichswerte aus der wissenschaftlichen fachliteratur heranziehen
(da benchmarks so schwierig zu setzen sind, wird empfohlen, wissenschaftlich publizierte vergleichswerte zu nutzen- diese stammen aus anerkannten studien und sind meist methodisch fundierter )
7.2 wie wird evaluiert ?
7.2.2 erfolgskriterien
(K: was sind erfolgskriterien , wann können wir den prozess als erfolgreich ansehen ?) (die frage stellt klar, dass man sich überlegen muss, woran man überhuapt misst, ob eine eignungsbeurteilung erfolgreich ist )
was ist die zentrale anforderung an eignungsbeurteilungen ?
was versteht man unter kriteriumsgültigkeit ?
wodurch wird berufserfolg definiert ?
was ist ein vorteil von vorgesetztenbeurteilungen ?
was ist mit formale (regelmäßige) beurteilungen durch vorgesetzte gemeint ?
was versteht man unter multi-rater-feedback ? oder 360 grad feedback?
was ist das ziel von multi-rater-feedback bzw- 360-grad feedback ?
1eignungsbeurteilungen sollen vor allen dingen valide sein, den beurfserfolg vorhersagen können
(ein auswahlverfahren (zb ein test ) ist nur dann brauchbar, wenn es auch vorhersagt , wie gut eine person später im beruf performt. )
ausmaß , in dem interpretationen von eignungsdiagnostischen informationen zutreffen
(es geht um die gültigkeit der schlussfolgerungen, die man aus dem testergebnis zieht also ob man aus dem testergebnis zu recht auf beruflichen erfolg schließt )
2kriteriumsgültigkeit (selbes wort wie kriteriumsvalidität): zusammenhang zwischen den ergebnissen des auswahlverfahrens und dem berufserfolg
(kriteriumsvalidität meint: der testwert (zb aus einem intelligenztest) sollte korrelieren mit späterem berufserfolg- wenn das der fall ist , ist der test “kriteriumsvalide”
3spätere berufliche leistung
(diese ist ein mögliches kriterium für berufserfolg. beispiel: wie gut jemand seine aufgaben erfüllt, wie produktiv jemand arbeitet etc. )
3arbeitszufriedenheit
(K: erfolg ist hier definiert als die spätere berufliche leistung)
arbeitszufriedenheit (geringe arbeitsmotivation, hoher krankenstand, fluktuation )
(auch das ist ein kriterium für berufserfolg: wenn jemand unzufrieden ist, oft krank ist oder den job häufig wechselt , dann gilt das nicht als erfolgreich- auch wenn die leistung vielleicht stimmt )
4vorgesetztenbeurteilung
(hier wird ein typisches verfahren zur bewertung von berufserfolg genannt. )
5oft formale (regelmäßige) beurteilungen durch vorgesetzte
(gemeint sind zb jährliche mitarbeitergespräche, in denen leistung und verhalten beurteilt werden )
6auch multi-rater-feedback oder 360-grad-feedback möglich
(hier geben mehrere personen feedback zb kolleg*innen , untergebene, kunden , nicht nur führungskräfte
7ziel: objektiveres gesamtbild
4vorteil: beurteiler*innen kennen in der regel das verhalten und die leistungen der beurteilten und können innerhalb ihre teams vergleiche anstellen
(das spricht für die vorgesetztenbeurteilung: sie haben langfristige erfahrung mit den mitarbeitenden, sehen deren verhalten im alltag und können vergleiche im team ziehen (zb person a ist deutlich zuverlässiger als person b)
zusammenfassung
(k: 360 grad feedback heist das, man befragt management, co worker, team )
(was wird dargestellt?:
links stehen verschiedene kompetenzbereiche zb führungsverhalten, motivationsgeschick, kommunikationsstil.
rechts stehen jeweils zwei ausprägungen gegenüber zb “einheitlicher führungsstil - adaptiver führungsstil,
direkte gesprächsführung - partnerschaftliche gesprächsführung
wer beurteilt hier ? es wird feedback von drei perspektiven gesammelt : management, co worker (kollg*innen ) , team
die bunten punkte also grau blau schwarz stehen für die rückmeldungen aus den verschiedenen perspektiven also zb. blau = management, schwarz= co worker, und WEIß =IST dh das ist die selbsteinschätzung der beurteilten person selbst
also kann man direkt auf einen blick erkennen: wo schätzt sich die beurteilte person selbst ein ? we sehen andere sie ? wo liegen abweichungen oder überienstimmungen ?
das ist zentral beim 360 grad feedback oder bei kompetenzprofilen in der eignungsdiagnostik. es hilft zb fördermaßnahmen abzuleiten (zb kommunikationscoaching, wenn die selbsteinschätzung stark von der teameinschätzung abweicht ?
7.2 Wie wird evaluiert ?
7.2.2 Erfolgskriterien
was sind beispiele für objektive leistungsmaße und was ist ihr vorteil und nachteil ?
wovon hängt es ab, welche objektiven leistungsmaße verwendet werden ?
was ist die grundlage und voraussetzung leistungsbezogener entlohnung?
1objektive leistungsmaße (K:also welchen beitrag leistet jemand zum unternehmenserfolg )
1beispiele: umsatz, stückzahlen , ausschussquoten (=K:im vertrieb ist das oft)
(das sind konkrete , quantitative messgrößen , mit denen man die leistung von mitarbeitenden messen kann. beispiel: in der produktion sind das zb. produzierte stückzahlen, im vertrieb zb umsatz oder ausschlussquote (wie viel fehlerhafte ware entsteht ) die größen sind klar messbar)
2je nach branche und tätigkeit
(welche maßzahlen verwendet werden, hängt vom arbeitsfeld ab. in der IT zb codequalität, im verkauf zb umsatz. es gibt keine allgemeingültigen maße, sie müssen kontextabhängig gewählt werden )
1vorteil: beitrag zum unternehmenserfolg direkt und nahezu fehlerfrei quantifzierbar
(vorteil: diese objektiven maße geben einen klaren, messbaren hinweis darauf, ob jemand zum unternehmenserfolg beiträgt. sie sind leicht zählbar und dadurch weniger anfällig für verzerrungen )
1nachteil: umstände werden ggfs. ignoriert
(—>kriteriumskontamination und kriteriumsdefizienz)
(nachteil: solche maße berücksichtigen nicht, unter welchen bedingungen die leistung erbracht wurde (zb ressourcenmangel, krankheit ) das kann zur kriteriumskontamination (wenn irrelevante apsekte mit einfließen ) oder kriteriumsdefizienz (wenn wichtige aspekte fehlen ) führen .
3leistungsbezogene entlohnung (K: das sind vergütungssysteme die an leistungssysteme festgemacht werden im unternehmen )
3grundlage: vorgesetztenbeurteilungen oder objektive leistungsmaßen
(das bedeutet: die bezahlung erfolgt auf basis von leistung - also zb nach feedback vom vorgesetzten oder anhand objektiver leistungskennzahlen )
3voraussetzungen
3alle mitarbeiter*innen werden nach dem gleichen system entlohnt
(wichtig: die gleichbehandlung aller ist zentral. alle mitarbeitenden werden nach denselben maßstäben beurteilt und bezahlt. sonst wäre es unfair und nicht valide )
3grundkentnis der organisationsstruktur wichtig
(um eine solche leistungsbezogene entlohnung korrekt umzusetzen, muss man die struktur der organisation verstehen: wer bewertet wen ? wer trägt verantwortung ? wer entscheidet über entlohnung ?
(k: weitere erfolgskriterien )
welche beispiele für erfolgskriterien in der eignungsdiagnostik werden im bereich ausbildung und studium genannt ?
warum sind erfolgskriterien in der eignungsdiagnostik nicht austauschbar ?
was muss laut DIN bei der qualität von erfolgskriterien beachtet werden ?
(erfolgskriterien: hier geht es darum, welche merkmale oder leistungen als indikatoren für beruflichen erfolg gelten und wie diese in der evaluation genutzt werden können )
1noten in ausbildung und studium
(erfolgskriterien können zb sein; abschlussnoten im studium, prüfungen der industrie- und handelskammern )
1abschlussnoten im studium, prüfungen der industrie- und handelskammern
(gemeint ist, dass leistungsnachweise aus ausbildung oder studium als grundlage für erfolgseinschätzung verwendet werden können- etwa ob jemand gute prüfungen abgelegt hat )
2kriterien sind nicht austauschbar
2sie bilden jeweils nur bestimmte aspekte des erfolgs ab
(ein einzelnes kriterium deckt nicht den ganzen beruflichen erfolg ab. unterschiedliche kriterien messen unterschiedliche bereiche, zb leistung vs zufriedenheit )
2beispiel: mitarbeiter*innen werden von vorgesetzten sehr gut beurteilt, sind aber mit ihrer arbeit sehr unzufrieden
(beispiel zeigt : gute leistung (beurteilung) bedeutet nicht automatisch hohe zufriedenheit. deshalb ist ein kriterium allein nicht immer ausreichend )
2genaue abwägung nötig, welches kriterium für die evaluation herangezogen werden sollte
(es muss sorgfältig entschieden werden, welches kriterium wirklich zur fragestellung passt. nicht einfach das erstbeste wählen )
3qualität der erfolgskriterien beachten (k: ob die stelle tatsächlich besetzt wurde, wie lange das gedauert hat etc)
(man darf nicht nur darauf achten, ob ein ziel erreicht wurde, sondern auch:
3neben der validität auch grad der erreichung vorher festgelegter ziele, akzeptanz bei den kandidat*innen , verständlichkeit der eignungsaussage
(ein gutes erfolgskriterium muss: valide sein (wirklich das messen was es messen soll, klar zeigen, wie gut das ziel erreicht wurde, von den teilnehmenden akzeptiert werden , verständlich formuliert sein )
7.3 Diagnostische urteilsbildung
(k: auf diese dichotome aussage läuft es oft hinaus )
was versteht man unter diagnostischer urteilsbildung ?
welche dichotome entscheidung wird im rahmen der diagnostischen urteilsbildung häufig getroffen ?
wie kann zusätzlich zum gesamturteil differenziert werden ?
1diagnostische urteilsbildung: integration von bereits vorliegenden informationen zu einem gesamturteil
(man sammelt alle bereits verfügbaren daten (zb aus tests , interviews, fragebögen etc) und verbindet sie zu einem einzigen gesamturteil , um zu entscheiden , ob eine person geeignet ist oder nicht )
2urteil “geeignet” vs. “nicht geeignet”
(am ende des diagnostischen prozesses wird eine eindeutige entscheidung getroffen. die person wird entweder als geeignet oder nicht geeignet beurteilt. das ist eine dichotome entscheidung (also eine zweiteilung )
3rangreihe bilden nach dem grad der eignung
(manchmal wird nicht nur eine ja/nein entscheidung getroffen , sondern es wird eine rangliste erstellt, wer von mehreren kandidat*innen am besten geeignet ist, wer mittelmäßig und wer weniger gut passt. beispiel: bewerber a ist geeigneter als b und c - also ein vergleich im grad der eignung )
3 Diagnostische urteilsbildung
7.3.1 formen
(k: wie machen wir rangreihen nach eignung )
was kennzeichnet die freie einzellfallbeurteilung in der diagnostischen urteilsbildung ?
was ist ein regelgeleitetes vorgehen in der urteilsbildung ?
nenne ein beispiel für eine regelgeleitete urteilsbildung
(diese folie beschreibt , wie ein eignungsurteil zustande kommt, also wie entschieden wird, ob eine person für eine bestimmte stelle geeignet ist oder nicht. dabei werden zwei arten der urteilsbildung unterschieden: 1.freie einzelfallbeurteilung —>die entscheidung basiert auf einer individuellen einschätzung , ohne festen regeln , manchmal sogar aus dem bauch heraus. 2.regelgeleitetes vorgehen : die entscheidung folgt klaren, vorher festgelegten regeln, die für alle bewerber*innen gelich angewendet werden ) also kurz: wie trifft man die entscheidung geeignet, nicht geeignet ?
1freie einzelfallbeurteilung
1auch klinische urteilsbildung
(diese art der beurteilung findet man zb in der klinischen psychologie. sie basiert auf erfahrung, intuition oder gesprächen- nicht auf festen regeln oder algorithmen )
1keine vorab festgelegten regeln, wie einzelergebnisse integriert werden
(es gibt keine festen vorgaben , wie verschiedene infos zb testergebnisse , intervieweindrücke zu einem gesamturteil zusammengeführt werden sollen. der , die beurteilende entscheidet das individuell )
1urteil kann “aus dem bauch heraus” getroffen werden oder ergebnis einer sorgfältigen reflektion von stärken und schwächen von beweber*innen sein
(solche urteile basieren entweder auf intuition (bauchgefühl) oder auf einer bewussten abwägung und analyse der vor und nachteile (stärken & schwächen ) einer person.
2regelgeleitetes vorgehen
2auch mechanische urteilsbildung oder statistische urteilsbildung (spezialfall)
(dabei geht man strukturiert vor, wie bei einem punktesystem oder einer formel , die das urteil auf basis objektiver kriterien automatisch erstellt )
2alle bewerber*innen werden exakt nach dem gleichen regeln beurteilt
(es gibt einheitlich kriterien und jeder wird gleich behandelt. das sorgt für vergleichbarkeit und fairness )
3beispiel: eignung für außendienst nur wenn mindestens durchschnittliche intelligenz , mindestens durchschnittliche extraversion und wenigstens zwei jahre einschlägige berufserfahrung vorliegt
(das ist ein konkretes beispiel: eine person ist nur dann geeignet, wenn alle 3 bedingungen erfüllt sind. keine ausnahmen, keine bauchentscheidungen )
7.3 diagnostische urteilsbildung
welche zentralen forderungen stellt die din bezüglich der integration verschiedener ergebnisse zu einem eignungsurteil ?
wie kann man geeignete regeln zur integration der ergebnisse finden ? (nenne 3 wege )
was bedeutet regelgeleitetes vorgehen im kontext der eignungsdiagnostik laut DIN ?
(diese folie ergänzt den punkt formen der urteilsbildung, und beschreibt die anforderungen der din norm an die integration verschiedener ergebnisse aus eignungsdiagnostischen verfahren )
welche forderungen stellt die DIN bzgl. der integration ?
1“regeln (…) zur integration der ergebnisse der verschiedenen verfahren zu einem abschließenden eignungsurteil “ sollten in der planungsphase , also in jedem fall vor beginn der eignungsbeurteilung festgelegt werden (din, 2016, s.11)
(die din norm fordert , dass man bereits vor beginn der eignungsdiagnostik klare regeln festgelegt, wie die ergebnisse aus verschiedene verfahren (zb interviews, tests, beobachtungen )zusammengeführt werden sollen, um zu einem gesamturteil (zb geeignet oder nicht geeignet ) zu kommen )
1,3regelgeleitetes vorgehen wird verlangt
(man soll nicht sponatn doer aus dem bauch heraus entscheiden, sondern die integration der informationen muss systematisch nach festen regeln erfolgen )
-
wie findet man die regeln ?
(k: wo findet man die regeln )
2orientierung an der anforderungsanalyse , kompetenzen nach deren vermuteter bedeutsamkeit gewichten
(man schaut sich an, welche kompetenzen für die stelle besonders wichtig sind (zb teamfähigkeit, kommunikationsfähigkeit ) das ergibt sich aus der anforderungsanalyse - und gewichtete diese entsprechend stark in der beurteilung
2gewichtung nach den ergebnissen von metaanalysen
(man kann sich bei der gewichtung auch an wissenschaftlichen studien bzw metaanalysen orientieren. diese zeigen zb welche merkmale die berufliche leistung besonders gut vorhersagen
2festlegung nach konsens (eignungsdiagnostiker*in, unternehmensleitung , betriebsrat )
(die regeln zur integration der ergebnisse sollen gemeinsam festgelegt werden , zb in einem konsens zwischen fachleuten für eignungsdiagnostik, der unternehmensleitung und dem betriebsrat. so ist die entscheidung transparent und abgestimmt )
7.3 Diagnostische Urteilsbildung
7.3.1 Formen
(k: es gibt gute gründe zusagen wir wollen das statistisch und nicht klinisch urteilsbilden )
was ist die härteste form der bewährung von regeln und was gehört zur regelmäßigen prüfung laut DIN ?
welche ergebnisse zeigen metaanalysen zum vergleich statistischer und klinischer urteilsbildung ?
wie unterscheiden sich mechanistische und klinische urteilsbildung bei der prognose von ausbildungs- und berufserfolg ?
wie oft sollte laut din die bewährung der regeln geprüft werden ?
4bewährung der regeln sollte alle drei jahre geprüft werden (din, 2016, s.11) :
(laut einer norm (din 2016) sollten entscheidungsregeln regelmäßig - alle 3 jahre überprüft werden, um sicherzustellen, dass sie noch gültig sind und zuverlässig sind
1härteste form der bewährung : vergleich mit den regeln einer statistischen urteilsbildung
(die strengste art zu testen ob eine regel gut ist, ist der vergleich mit statistisch abgeleiteten entscheidungsregeln (zb durch mathematische modelle)
1sichtung neuer empirischer befundem die eine andere gewichtung nahe legen
(es sollten auch neue wissenschaftliche erkenntnisse (empirische befunde) geprüft werden, die eventuell zeigen, dass man die bedeutung (gewichtung ) einzelner kriterien ändern sollte.
statistische vs. klinische urteilsbildung:
2drei metaanalysen fassen befunde zusammen
(drei große studien (metaanalysen ) haben viele einzelstudien zusammengefasst und die ergebnisse analysiert.
2als mittlere effektstärke (cohens d) berichteten die beiden zuerst genannten metaanalysen d=.12 bzw. .09 zugunsten der statistischen / mechanischen urteilsbildung
(die statistische methode )wenn auch nur leicht. ) besser als die klinische , gemessen an der effektstärke (cohens d= .12 oder.09) das bedeutet der unterschied ist zwar klein, aber zugunsten der statistischen methode )
3mechanistische urteilsbildung zur prognose von ausbildungs- und berufserfolg besser als klinische urteilsbildung (r= .44 vs .28 )
(wenn es darum geht vorherzusagen wie erfolgreich jemand in ausbildung oder beruf sein wird, ist die mechanistische / statistische methode deutlich besser (korrelation r = 0,44) als die klinische (r=0,28) höhere korrelation bedeutet besserer vorhersage.
7.3 Dieagnostische urteilsbildung
statistische vs klinische urteilsbildung
wie groß sind die unterschiede zwischen statistischer und klinischer urteilsbildung ?
warum gilt die statistische / mechanische urteilsbildung als angemessener ?
was sagt die din-norm über die freie urteilsbildung ?
was bedeutet statistische vs klinische urteilsbildung ?
(es geht bei der diagnostischen urteilsbildung darum, zu entscheiden, ob eine person für etwas geeignet ist oder nicht zb für eine ausbildung, studium, bestimmte stelle im beruf, für eine beförderung oder auswahlmaßnahme . die zentrale frage ist also: wie treffen wir möglichst faire , objektive und zuverlässige entscheidungen über die eignung einer person ? die folie zeigt statistische urteilsbildung ist dabei angemessener, weil sie systematisch und fair ist und weniger urteilsfehler macht- im gegensatz zur freien oder klinischen urteilsbildung , die eher subjektiv ist und nihct der din-norm entspricht)
4statistisch vs klinische urteilsbildung
(es geht um den vergleich zweier methoden wie man entscheidungen trifft: statistisch / mechanisch= durch feste regeln, zb punktesysteme oder modelle,
klinisch= durch subjektive einschätzung von personen (zb psycholog*innen )
1unterschiede insgesamt substantiell aber gering
(es gibt unterschiede zwischen beiden methoden, sie sind messbar (substanziell) aber nicht sehr groß (gering)
2statistische / mechanische urteilsbildung angemessener , weil alle personen nach dem gleichen schema beurteilt werden —>(urteilsfehler minimieren , fairness )
(die statistische methode ist besser geeignet, weil alle bewerber*innen gleich behandelt werden, das führt zu weniger fehlern bei der beurteilung und mehr fairness im auswahlprozess )
3die freie urteilsbildung ist nicht DIN-konform
(wenn man ohne feste regeln urteilt (freie urteilsbildung) entspricht das nicht den din-normen (also den offiziellen standards für eignungsdiagnostik )
7.3.2 Strategien der regelgeleiteten urteilsbildung
(k: wie kommt man zu einem eignungstest score oder geeignet oder nicht geeignet , da gibt es verschiedene strategien bzw. zb das kompensatorische modell )
wie funktioniert das kompensatorusche modell in der regelgeleiteten urteilsbildung ?
was passiert mit den eignungsmerkmalen im kompensatorischen modell ?
wie ergibt sich die eignung im kompensatorischen modell ?
1kompensatorisches modell: alle eignungsmerkmale werden verrechnet und können sich ausgleichen
(alle kriterien zb intelligenztest, schulnote, interview werden zusammengerechnet. schwächen in einem bereich können durch sträken in einem anderen ausgeglichen werden. zb schlechte note, aber sehr gutes testergebnis= trotzdem geeignet )
2alle eignungsmerkmale werden vollständig in ein urteil integriert
(jedes einzelne merkmal fließt vollständig in die bewertung ein - nichts wird ignoriert oder getrennt beurteilt )
3berechnung eines mittelwerts bei einheitlicher metrik (zb standardwerte, schulnoten, siebenstufige ratingskala)
(um alle merkmal kombinieren zu können, müssen sie in derselben skala vorliegen- zb alle als schulnoten , standardwerte oder auf einer skala von 1-7) dann kann man einen durchschnittswert berechnen
3eignung ergibt sich aus der durchschnittlichen beurteilung
(der gesamtscore ergibt sich also durch den mittelwert aller einzelbewertungen )
3einheitsgewichtung (gleichgewichtung) oder
3unterschiedliche gewichtung
(man kann entweder alle merkmale gleich stark zählen lassen (einheitsgewichtung ) oder einzelne merkmale stärker oder schwächer gewichten (zb intelligenz zählt mehr als schulnote )
7.3.2 strategien der regelgeleiteten urteilsbildung
(strategien unterscheiden können, beispiele nennen können, fragt er bestimmt )
was bedeutet das multiple-cutoff modell in der regelgeleiteten urteilsbildung?
wie funktioniert die Und-strategie im rahmen des multiple -cutoff -modells ?
was kennzeichnet die oder-strategie bei der regelgeleiteten urteilsbildung ?
1multiple - cutoff-modell: mehrere mindestanforderungen müssen erfüllt sein (im gegensatz zur strategie : kompensatorisches modell, hier wird nicht alles zusammengrechnet wie da)
(in diesem modell muss die beurteilte person in mehreren bereichen bestimmte mindestwerte erreichen. es reicht nicht , wenn sie nur in einem bereich gut ist- alle wichtigen anforderungen müssen erfüllt sein. es wird nicht verrechnet oder gemittelt es geht um das erreichen von mindestgrenzen von verschiedenen bereichen )
2und-strategie:
es müssen mehrere mindestanforderungen erfüllt sein
(hier geht es darum, das mehrere kriterien erfüllt werden müssen, aber nicht zwingend alle- es müssen bestimmte , definiere anforderungen erreicht werden )
2beispielsweise wird festgelegt , dass ein chemielaborant eine gute farbtüchtigkeit benötigt UND mindestens durchschnittlich intelligent ist
(in diesem beispiel müssen zwei anforderungen erfüllt sein 1. gute farbtüchtigkeit, 2. durchschnittliche intelligenz ) beide anforderungen gelten als notwendig, aber es könnten auch noch andere kriterien existieren, die nicht berücksichtigt werden müssen )
3oder-strategie: wenigstens eine anforderungen sollte gut erfüllt werden
(diese strategie ist weniger streng: es reicht , wenn die person in einem bereich gut ist. es muss nicht in mehreren bereichen ein mindestwert erreicht werden )
k3andidat*in wird als geeignet beurteilt , wenn in einem oder in einem anderen eignungsmerkmal eine hohe oder mindestausprägung vorliegt
(man ist geeignet, wenn man in einem der geprüften bereiche entweder gut oder mindestens ausreichend ist )
3platzierung oder verwendung richtet sich nach den individuellen stärken
(je nachdem, wo jemand besonders stark ist, wird entschieden , wo die person am besten eingesetzt wird )
3beispiel: bei der auswahl von lehrer*innen werden in einem von zwei unterrichtsfächern besonders gute studienleistungen verlangt zb chemie oder physik
(wenn jemand zb zwei fächer unterrichten soll, reicht es aus, in nur einem dieser fächer besonders gute leistungen nachzuweisen )
73.2 strategien der regelgeleiteten urteilsbildung
was ist bei der anwendung diagnostischer urteilsmodelle möglich ?
welches urteilsmodell wird typischerweise zuerst eingesetzt und zu welchem zweck ?
welches modell folgt auf das und-modell und wie funktioniert es ?
1die drei urteilsmodelle können miteinander kombiniert werden
(es ist möglich, mehrere entscheidungsmodele nacheinander einzusetzen, anstatt nur eines zu verwenden . so kann man zb erst grob aussortieren und dann genauer bewerten )
2zuerst das und-modell, um personen vorauszuwählen (zb mehrstufiger auswahlprozess)
(im ersten schritt wird das und-modell verwendet, bei dem mehrere mindestanforderungen erfüllt sein müssen. so kan man personen aussortieren , die grundlegende anforderungen nicht erfüllen. typisch für auswahlverfahren mit mehreren stufen- zb zuerst grobe filterung, dann genauere prüfung )
3danach: kompensatorisches urteilsmodell, in dem alle eignungsmerkmale mit einer angemessenen gewichtung zu einem gesamtwert verrechnet werden
(in der zweiten stufe wird dann das kompensatorische modell verwendet. dabei werden alle eignungsmerkmale in ein urteil einbezogen. sie können unterschiedlich stark gewichtet werden (zb intelligenz zählt mehr als schulnoten ) am ende entsteht ein gesamtscore für die eignung )
Evaluation der eignungsbeurteilung
7.4 ergebnisse einschlägiger evaluationsstudien
1wie soll laut din die auswahl und zusammenstellung von verfahren erfolgen ?
2was muss bei der interpretation von gültigkeitsstudien hinsichtlich der korrelationen beachtet werden ?
welche beiden weiteren punkte sind bei der interpretation von studien zur kriteriumsgültigkeit zu bachten ?
1auswahl und zusammenstellung von verfahren sollte nach din so weit wie möglich evidenzbasiert erfolgen
(laut din norm soll man nur solche auswahlverfahren verwenden, die auf wissenschaftlicher evidenz (also nachgewiesener wirksamkeit ) beruhen. evidenzbasiert bedeutet : methoden und tests sollen auf soliden studien basieren , nicht auf bachgefühl oder tradition )
(K:das ist der wichtigste satz der in der din steht ) !!!
2bei der interpretation von studien zur kriteriumsgültigkeit müssen verschiedene punkte bedacht werden
(wenn man studien betrachtet, die prüfen ob ein test wirklich das vorhersagt , was er soll (zb berufserfolg ) muss man auf bestimmte dinge achten, damiz man keine falschen schlüsse zieht )
2korrigierte “ gültigkeitskoeffizienten
(in studien werden häufig korrelationen (zusammenhänge) zwischen testergebnissen und erfolg (zb im beruf) angegeben. diese werte können aber “korrigiert” werden, um zb einflüsse wie messfehler zu berücksichtigen
können deutlich höher ausfallen als (an eigenen stichproben erhobene ) unkorrigierte korrelationskoeffizienten
(diese korrigierten werte sind meist höher als die, die man in eigenen (kleineren ) studien selbst findet, weil dort unkorrigierte (also rohe ) werte verwendet werden. man darf also nicht direkt vergleichen, ohne zu wissen , ob korrekturen vorgenommen wurden )
3moderatorvariablen beachten
(es gibt einflussfaktoren (moderatorvariablen ) die die aussagekraft eines tests verändern können )
3intelligenztests erlauben je nach beruf unterschiedlich gute vorhersagen von berufserfolg
(beispiel für so eine moderatorvariable: ein intelligenztest sagt zb bei einem beruf (zb ingenieur ) den erfolg gut voraus, bei einem anderen (zb künstler) vielleicht weniger gut
3problematik kleiner stichproben
(studien mit wenigen teilnehmenden (kleinen stichproben ) liefern oft unsichere oder zufällige ergebnisse
3ohne replikation keine voreiligen schlüsse aus eigenen stichproben mit N <50 ziehen
(wenn man weniger als 50 personen untersucht hat, sollte man keine festen aussagen treffen, außer die ergebnisse wurden in anderen studien (replikationen ) bestätigt ) .
🔍
Was sind korrigierte Gültigkeitskoeffizienten?
In der Eignungsdiagnostik misst man oft die Korrelation zwischen einem Test (z. B. Intelligenztest) und einem Erfolgskriterium (z. B. Berufserfolg).
Diese Korrelation nennt man Validität (bzw. Kriteriumsvalidität).
🛠️ Korrigierte Validitäten sind mathematisch nachbearbeitete Werte, bei denen bestimmte Störfaktoren herausgerechnet wurden, z. B.:
Messfehler
Eingeschränkte Varianz in der Stichprobe
Unterschiede in der Reliabilität
📈
Was bedeutet das praktisch?
Korrigierte Werte sind theoretisch „wahrer“ – sie zeigen, wie stark der Zusammenhang wäre, wenn alles perfekt gemessen würde.
Sie sind oft höher als unkorrigierte Werte.
In Metaanalysen oder Überblicksstudien sind korrigierte Werte nützlich, um die wahre Validität eines Verfahrens abzuschätzen.
⚠️
Aber: Warum muss man aufpassen?
Wenn du in deiner eigenen Praxis oder Forschung einen Test anwendest, bekommst du unkorrigierte Werte.
Daher darf man korrigierte Werte nicht 1:1 mit eigenen Studienergebnissen vergleichen.
Man sollte wissen, ob ein präsentierter Wert korrigiert ist oder nicht, um ihn richtig zu interpretieren.
✅ Fazit:
❌ Korrigierte Werte sind nicht schlecht.
✅ Sie sind nützlich, aber man muss sie bewusst und mit Vorsicht interpretieren.
❗ Man darf sie nicht mit unkorrigierten Werten aus kleinen eigenen Stichproben verwechseln oder gleichsetzen.
Gültigkeitsstudien (auch: Validitätsstudien) untersuchen, ob ein Test oder Verfahren wirklich das misst oder vorhersagt, was er soll.
🔍 Beispiel:
Angenommen, ein Unternehmen nutzt einen Intelligenztest, um vorherzusagen, wie erfolgreich jemand im Beruf sein wird.
Eine Gültigkeitsstudie prüft dann:
Gibt es einen Zusammenhang zwischen dem Testergebnis und dem späteren Berufserfolg?
➡️ Wenn ja, sagt man: Der Test hat Kriteriumsvalidität.
➡️ Das Ergebnis ist dann oft eine Korrelation zwischen Testergebnis und Erfolgskriterium (z. B. Berufserfolg, Studienleistung).
📊 In der Praxis:
Gültigkeitsstudien werden oft mit echten Bewerber*innen oder Mitarbeitenden durchgeführt.
Sie sind zentral, um zu prüfen, ob Auswahlverfahren fair, wirksam und sinnvoll sind.
DIN 33430 fordert, dass Verfahren evidenzbasiert ausgewählt werden – also auf Basis solcher Gültigkeitsstudien.
🧠 Merksatz:
Gültigkeitsstudien zeigen, ob ein Test im echten Leben etwas Relevantes vorhersagen kann.
7.4 ergebisse einschlägiger evaluationsstudien
(K: eine der wichtigsten metaanalysen in der psychologie )
befunde aus super - metaanalysen nutzen
🧠
Folie 1: Super-Metaanalyse Schmidt & Hunter (1998)
„Befunde aus Super-Metaanalysen nutzen (z. B. Schmidt & Hunter, 1998)“
→ Man sollte sich bei der Bewertung von Auswahlverfahren auf große Metaanalysen stützen,
weil sie viele Studien zusammenfassen und daher besonders zuverlässig sind.
Tabelle: Metaanalytische Ergebnisse bei Schmidt & Hunter
Diese Tabelle zeigt:
Wie gut verschiedene Auswahlverfahren den Berufserfolg und Ausbildungserfolg vorhersagen können.
Die Korrelationen (r) sind Maß für die Vorhersagekraft (Validität) eines Verfahrens.
Je höher der Wert, desto besser die Prognoseleistung.
🟦
Spalten erklärt:
„Verfahren“: Die Art des Auswahlverfahrens (z. B. Intelligenztest, Interview usw.)
„r“: Korrelation mit dem Erfolgskriterium (Berufserfolg bzw. Ausbildungserfolg)
„r mit Intelligenz²“: Korrelation unter Kontrolle von Intelligenz – zeigt, wie viel ein Verfahren zusätzlich zur Intelligenz erklärt
🧾
Beispielhafte Interpretation:
Intelligenztest hat r = .51 für Berufserfolg → sehr gute Prognose
Arbeitsprobe sogar r = .54 → noch besser!
Unstrukturiertes Interview hat nur r = .38 → weniger zuverlässig
Referenzen (z. B. Empfehlungsschreiben) haben nur r = .26 → kaum Vorhersagekraft
📊
Folie 2: Super-Metaanalyse Sackett et al. (2022)
„das sind neuere Zahlen, die haben eine andere Methode genutzt“
→ Diese neuere Analyse nutzt andere statistische Verfahren als Schmidt & Hunter.
→ Deshalb sind die Werte teilweise etwas niedriger – das ist methodisch bedingt.
„Prognosegüte verschiedener Auswahlverfahren für die Arbeitsleistung“
→ Die Balkengrafik zeigt, wie gut verschiedene Verfahren Arbeitsleistung vorhersagen können.
Was sieht man in der Grafik?
Ganz oben:
Strukturierte Interviews,
Arbeitsproben,
kognitiver Fähigkeitstest → Diese Verfahren haben die höchsten Validitätskoeffizienten → also die beste Prognosekraft.
In der Mitte:
Biografische Fragebögen,
Situative Tests,
Persönlichkeitsmaße → Mittlere Vorhersagekraft
Ganz unten:
Handschriftanalyse,
Graphologie,
Schulnoten,
Alter,
Interessen → Diese sagen die Arbeitsleistung kaum oder gar nicht voraus.
📌 Wichtiger Hinweis am unteren Rand der Folie:
„Arbeitsprobe ein Mitarbeitergespräch führt als die Anzahl der Jahre die sie schon gearbeitet hat.“
→ Sinngemäß: Was jemand im Auswahlverfahren praktisch zeigt (z. B. Arbeitsprobe), ist oft aussagekräftiger als die bloße Berufserfahrung.
🧠 Fazit aus beiden Folien:
Arbeitsproben, strukturierte Interviews und Intelligenztests haben die höchste Validität zur Vorhersage von Berufserfolg.
Metaanalysen geben sehr zuverlässige Aussagen darüber, welche Verfahren wirklich funktionieren.
Unstrukturierte Verfahren, Bauchgefühl oder Referenzen sind deutlich schwächer in der Vorhersagekraft.
evaluation der eignungsbeurteilung
welche zwei arten von korrekturen werden in metaanalysen angewendet ?
was ermöglicht die in metaanalysen berichteten kritieriumsvaliditäten ?
wann sind korrelationen aus eigenen untersuchungen mit literaturwerten vergleichbar ?
in metaanalysen angewendete korrekturen und deren implikationen
(in metaanalysen werden häufig bestimmte statistische korrekturen vorgenommen , diese korrekturen haben auswirkungen (“implikationen “) auf die ergebnisse und deren interpretation.
arten von korrekturen
1varianzeinschränkungen
(in vielen studien ist die streuung der werte künstlich eingeschränkt (zb weil nur bewerber mit bestimmten noten zugelassen wurden ) dadurch wirkt ein test schwächer, als er eigentlich ist.
1messgenauigkeit des kriteriums berfuserfolg (minderungskorrekur )
(der berufserfolg als kriterium wird nicht perfekt gemessen (zb durch ungenaue bewertungen oder vorgesetztenurteile). die minderungskorrektur berücksichtigt das und hebt die validität entsprechend an )
implikationen
2in metaanalysen berichtete kriteriumsvaliditäten erlauben einen direkten vergleich der verfahren (strukturierte interview r =.42 vs. assessment center r= .29)
(weil alle verfahren in metaanalysen nach denselben regeln korrigiert wurden, kann man die berichteten validitäten direkt miteinander vergleichen. strukturiertes interview= r= .42, assessment center = r= .29 —> interview ist also nachweislich besser, was die vorhersage von berufserfolg betrifft )
3korrelationen aus eigenen untersuchungen nur dann mit den in der literatur berichteten ergebnisse vergleichbar, wenn die untersuchungsgruppen vergleichbar sind und wenn man die gleiche korrekturen vornimmt
(wenn du in deiner eigenen praxis oder forschung eine korrelation berechnest, kannst du diese nur dann mit metaanalyse-werte vergleichen, wenn: 1. die teilnehmergruppen ähnlich sind (zb gleiche beruf, alter bildung) , 2. du dieselben statistischen korrekturen anwendest wie in der metaanalyse
andernfalls wäre der vergleich nicht fair oder gültig
warum ist es sinnvoll , mehrere verfahren in der eignungsdiagnostik zu kombinieren ?
welche verfahren zeigen laut sackett et al. (2022) eine mittlere bis hohe kriteriumsgültigkeit für berufserfolg ?
welche kombination von verfahren ergibt laut schmidt und hunter 1998 eine besonders hohe vorhersagekraft und was ist günstig zur vorhersage von ausbildungserfolg ?
1es ist sinnvoll verfahren mit hoher kriteriumsgültigkeit zu kombinieren
(man sollte in auswahlprozessen nicht nur ein verfahren nutzen, sondern mehrere verfahren kombinieren, die nachweislich gut darin sind, berufserfolg vorherzusagen. das erhöht die gesamtprognosekraft und macht das verfahren verlässlicher.
2mittlere bis hohe kriteriumsgültigkeit für berufserfolg : intelligenztests, arbeitsproben , sturkturierten interviews und tests zur erfassung von berufsrelevantem wissen (r=.31 bis .42)
(diese verfahren haben laut sackett et al. eine korrelation zwischen .31 und .42 mit dem berufserfolg. das ist wissenschaftlich betrachtet ein guter zusammenhnag. die genannten verfahren sagen also relativ zuverlässig voraus, wer im beruf später erfolgreich sein wird )
3komibination von arbeitsproben , messtehoretisch fundierten fragebogen zu gewissenhaftigkeit und strukturierte interviews (r > .60)
(wenn man diese drei verfahren kombiniert, kann man eine sehr hohe gesamt-vorhersagekraft erreichen (r größer als .60) also sehr sehr stark . diese empfehlung stammt aus der berühmten metaanalyse von schmidt & hunter
3zur vorhersage von ausbildungserfolg günstig: intelligenztests und gewissenhaftigkeit
(k: die kombi funkiniort gut )
(für die frage wer in der ausbildung erfolgreich sein wird, sind besonders intelligenztests und gewissenhaftigkeit hilfreich. das bedeutet: wer intelligent und gewissenhaft ist, hat gute chancen auf ausbildungserfolg
welchen beitrag leisten schulnoten laut dokumentenanalyse ?
wie hoch ist der korrigierte zusammehang zwischen schulnoten und späterem erfolg ?
was ist laut DIN über schulabschlüsse zu beachten und wie ist die valdität von schulnoten zu bewerten ?
1schulnoten (aus der dokumentenanalyse ) leisten einen wichtigen beitrag zur vorhersage von ausbildungs- und studienerfolg
(schulnoten also zb abschlussnoten,zeugnisse sind ein nützlicher prädiktor , um einzuchätzen , wie erfolgreich eine person später in der ausbildung oder im studium sein wird.
2korrigierter zusammenhang zwischen schulnoten und dem späteren studienerfolg r=.46 bzw. r= .37 für ausbildungserfolg
(studien zeigen einen statistisch signifikanten zusammenhang (korrelation) zwischen schulnoten und späterem erfolg: r =.46 für studienerfolg, r=.37 für ausbildungserfolg. das sind mittlere bis gute werte - die noten sagen also etwas, aber nicht alles voraus. die korreltaion ist korrigiert, also bereinigt um verzerrungen (zb messfehler )
3kriteriumsgültigkeit von eignungsurteilen auf der basis von schulnoten ähnlich wie die von intelligenztestbasierten urteilen
(wenn man eignungsurteile auf basis von schulnoten trifft, ist deren prognosekraft ähnlich gut wie bei intelligenztests. das bedeutet: schulnoten sind keine schwachen prädiktoren - sie sind vergleichbar zuverlässig
3eignungsdiagnostiker*innen benötigen nach din 2016 s.24 grundkenntnisse über schul, hochschul, und ausbildungsabschlüsse und relevante veränderungen (zb vergleichbarkeit von schulnoten innerhalb deutschlands )
(nach der din-norm müssen fachkräfte , die eignungsurteile treffen: grundkenntnisse über verschiedene bildungssysteme haben zb wissen wie schulnoten in verschiedenen bundesländern oder schulformen vergleichbar gemacht werden können , das ist wichtig um noten fair und korrekt interpretieren zu können -
was passiert mit der beobachterübereinstimmung , wenn interviews strukturierter werden ?
wovor schützt die strukturiertheit eines interviews ?
welches verfahren hat laut sackett et al 2022 den höchsten validitätskoeffizienten zur vorhersage von berufsefolg ?
(k: eignungsintervies haben eine hohe kriteriumsgültigkeit je strukturierter desto höher )
1strukturierte eignungsinterview haben hohe kriteriumsgültigkeit
(das bedeutet interviews, die standardisiert ablaufen (zb mit festen fragen, bewertungsbögen ), sagen den berufserfolg zuverlässig voraus. sie haben also eine hohe validität)
1beobachterübereinstimmung steigt mit dem grad der strukturiertheit der interviews
(wenn interviews strukturiert sind, dann sind sich mehrere beobachter deutlich häufiger einig in ihrer bewertung. das sorgt für mehr objektivität)
2strukturiertheit schützt gegen beurteilungsfehler
(strukturierte interviews helfen dabei, subjektive verzerrungen oder persönliche vorurteile zu vermeiden. das macht die beurteilung fairer und zuverlässiger)
2korrelation zwischen der attraktivität der interviewten und dem urteil über deren “eignung “ variiert in abhängigkeit von der strukturierung
(je weniger strukturiert ein interview ist, desto stärker beeinflusst das aussehen oder auftreten der person das urteil. bei stark strukturierten interviews spielt attraktivität weniger eine rolle )
3höchster validitätskoeffizient für die vorhersage von berufserfolg bei strukturierten eignungsinterviews (r.42)
(laut sackett et al haben strukturierze interviews den höchsten nachgewiesenen zusammenhnag (r=.42) mit berufserfolg. das ist ein sehr guter wert und zeigt, wie effektiv dieses verfahren ist
also je strukturierter das interview desto objektiver , valider und fairer ist es und desto besser lässt sich der berufserfolg vorhersagen )
(K:immer strukturierte interviews einbauen )
1. wie wird die kriteriumsgültigkeit von assessment centern ohne intelligenztests eingeschätzt ?
welche verfahren kommen typischerweise in einem assessment center zum einsatz ?
welche kriteriumsgültigkeit zeigen ACs mit und ohne intelligenztests laut metaanalyse?
(K-sehr teuer)
1assessment center ohne intelligenztests haben eine sehr geringe kriteriumsgültigkeit
(wenn man assessment center (AC) ohne intelligenztests durchführt, ist die fähigkeit , späteren berufserfolg vorherzusagen (kriteriumsgültigkeit) relativ gering. intelligenztests tragen also wesentlich zur qualität vom ACs bei )
2in einem AC kommen mehrere verfahren zum einsatz (gruppendiskussionen, präsentationen, rollenspiele )
(ein typisches assessment center besteht aus mehreren aufgaben zb gruppendiskussionen, einzelpräsentationen , rollenspiele (zb mitarbeitergespräch)
(K: wenn AC dann mehrere verfahren einsetzen )
3über alle studien gemittelt , ergab sich in der metaanalyse eine kriteriumsgültigkeit von r =.40
(wenn man viele studien zu ACs ohne intelligenztests zusammenfasst , ergibt sich eine durchschnittliche valdität von r= .40 das bedeutet : mäßiger zusammenhang zwischen AC-Ergebnissen und späteren berufserfolg)
3die kriteriumsgültigkeit der eignungsurteile, die aus assessment centern mit intelligenztests abgeleitet wurden, betrug r= .56 (korrigiert) die ohne nur r = .25
(wenn man intelligenztests in AC integriert , steigt die vorhersagekraft deutlich: mit intelligenztest r= .56 (korrigiert ) —>gute bis hohe gültigkeit
ohne intelligenztest : r= .25 —> eher schwach
fazit: intelligenztests verbessern die qualität von assessment centern erhelich )
K:MERKEN , wie sieht es aus mit persönlichkeitstests
1.Wie stark sind aus Persönlichkeitsfragebögen abgeleitete Eignungsaussagen?
Wie viel erklären Persönlichkeitsmerkmale wie Gewissenhaftigkeit typischerweise?
Was ist trotzdem positiv an der Nutzung von Persönlichkeitsfragebögen?
1aus persönlichkeitsfragebogen abgeleitete eignungsaussagen sind ein eher schwacher prädiktor fpr ausbildungs- und → Wenn man die Eignung einer Person anhand von Persönlichkeitstests beurteilt,
kann man nur eingeschränkt vorhersagen, wie erfolgreich diese Person später im Beruf oder in der Ausbildung sein wird.
→ Diese Tests sind also nicht sehr stark in der Vorhersagekraft.j
2unterschiede im ausbildungs- bzw. berufserfolg können durch gewissenhaftigkeit nur zu 4 bis 6% erklärt werden
→ Selbst die am besten geeignete Persönlichkeitsdimension (Gewissenhaftigkeit)
erklärt nur einen kleinen Teil des Erfolgs (genauer: 4–6 % der Unterschiede).
→ Das bedeutet: Gewissenhafte Menschen sind zwar tendenziell erfolgreicher,
aber viele andere Faktoren spielen eine größere Rolle.
3 aber: vorhersagebeitrag ist inkrementell !
→ Wichtig: Auch wenn der Beitrag klein ist,
liefert die Persönlichkeit zusätzliche (inkrementelle) Informationen,
die über andere Verfahren hinausgehen.
→ Z. B. kann man durch Kombination mit Intelligenztests das Gesamtbild verbessern.
Tabelle erklärt: Vorhersagekraft der Big Five
Diese Tabelle zeigt, wie stark jede der fünf Persönlichkeitsdimensionen den Erfolg vorhersagt.
🔎 Was bedeutet das?
Die höchste Vorhersagekraft hat Gewissenhaftigkeit, aber mit r = .21 bis .25 ist das moderat.
Alle anderen Dimensionen haben niedrige bis sehr niedrige Korrelationen, z. B. Extraversion r = .08.
Die Werte rechts zeigen zusätzliche Ergebnisse bei Verwendung von Forced-Choice-Fragebögen – einer anderen Testmethode.
⸻
🔍 Was bedeutet „inkrementell“ in diesem Zusammenhang?
„Inkrementell“ bedeutet hier:
▶️ Zusätzlich oder ergänzend zu etwas anderem.
🧠 In diesem Fall:
Auch wenn Persönlichkeitsfragebögen allein nur wenig vorhersagen,
liefern sie zusätzliche (inkrementelle) Informationen obendrauf,
wenn man sie z. B. mit Intelligenztests oder Schulnoten kombiniert.
📌 Beispiel:
• Intelligenztest sagt Berufserfolg mit r = .50 voraus.
• Gewissenhaftigkeit sagt zusätzlich etwas mit r = .21 voraus.
👉 Zusammen ergibt das ein besseres Gesamtbild, als wenn man nur einen Test nimmt.
Inkrementell = zusätzlicher Vorhersagebeitrag
Persönlichkeitsmerkmale verbessern die Eignungsdiagnostik in Kombination mit anderen Verfahren,
auch wenn sie für sich allein schwach sind.
Wenn du möchtest, fasse ich dir das als Eselsbrücke oder Karteikarte zusammen.
was ist ein zentrales problem von persönlichkeitsfragebögen ?
wozu dient das forced choice antwortformat?
welche wirkzung hat das forced choice format auf die kriteriumsvalidität ?
1persönlichkeitsfragebögen sind verfälschbar
(es ist möglich, dass personen bei persönlichkeitsfragebögen nicht ehrlich antworten, sondern sich so darstellen wie sie gern gesehen werden wollen ( sozial erwünscht ) das nennt man verfälschbarkeit oder slebstdarstellungstendenz
2mit dem “forced -choice-antwortformat” soll der einfluss von sozial erwünschter selbstdarstellung eingeschränkt werden
(das forced choice antwortfromat ist eine besondere art von antwortvorgabe : man muss zb aus mehreren ähnlich positiven aussagen die am ehesten passenden auswählen - statt auf einer skala (zb 1-5) zu antworten. ziel: es soll schwieriger werden, sich absichtlich besser darzustellen
3das “forced-choice”-antwortfromat führt offenbar nicht zu höheren kriteriumsgültigkeiten im vergleich zu herkömmlichen fragebogen
(auch wenn forced choice die selbstdarstellung reduziert, führt es nicht unbedingt dazu, dass die vorhersagekraft (kriteriumsvalidität) des fragebogens besser wird. laut der studie von salgado & tauriz bleibt die validitöt also ungefähr gleich.
📌
Was ist ein „forced-choice“-Antwortformat?
Das „forced-choice“-Antwortformat ist eine besondere Art von Antwortmöglichkeit in Fragebögen –
vor allem in Persönlichkeitstests.
Statt eine Aussage auf einer Skala zu bewerten (z. B. von „trifft nicht zu“ bis „trifft voll zu“),
muss man sich zwischen mehreren gleich positiv oder gleich negativ formulierten Aussagen entscheiden.
🎯
Ziel:
Der Test soll so gestaltet sein, dass man nicht leicht „sozial erwünscht“ antworten kann –
also nicht einfach immer das auswählen kann, was am besten klingt.
✅
Beispiel für ein forced-choice-Item:
Wähle die Aussage aus, die am besten zu dir passt (nur eine ist erlaubt):
a) Ich arbeite sehr genau und sorgfältig.
b) Ich kann gut mit neuen Menschen ins Gespräch kommen.
c) Ich plane gern im Voraus.
Alle drei Aussagen klingen positiv – aber du darfst nur eine auswählen.
→ Dadurch wird es schwer, sich idealisiert darzustellen,
weil man sich zwischen gleich „guten“ Aussagen entscheiden muss.
🔁
Im Vergleich: Likert-Skala (klassisch)
„Ich arbeite sehr genau und sorgfältig.“
☐ trifft nicht zu
☐ eher nicht
☐ neutral
☐ eher zu
☐ trifft voll zu
→ Hier kann man leicht sozial erwünscht antworten – z. B. immer das Positivste ankreuzen.
Achtung (laut Folie):
Obwohl das forced-choice-Format Verfälschung reduziert,
führt es laut Forschung nicht automatisch zu besserer Vorhersagekraft (Validität).
7.4 Ergebnisse einschlägiger evaluationsstudien
(k: hier kommen die daten )
1Welche Verfahrensgruppe ermöglicht fast immer eine hohe Kriteriumsgültigkeit in der Eignungsbeurteilung?
2Was lässt sich über die Kriteriumsgültigkeit von Intelligenztests sagen?
3Welche Kriteriumswerte finden sich in den Metaanalysen von Salgado et al. (2003), Hülsheger et al. (2006) und Kramer (2009) – und wie hoch sind sie jeweils?
Wann spricht man von niedrigen mittleren und hohen korrelationen?
R steht für Korrelation
1aus intelligenztests abgeleitete aussagen haben hohe kriteriumsgültigkeit
(aussagen, die man aus dem ergebnis eines intelligenztests ableitet (zb person X wird beruflich erfolgreich sein “) sind sehr gut darin, späteren erfolg vorherzusagen. das bedeutet: intelligenztests sind besonders gute prädiktoren für ausbildungserfolg und berufserfolg. )
1 verfahrensgruppe, die fast immer eignungsbeurteilungen mit hoher kritieriumsgültigkeit ermöglicht, sind intelligenztests
(es gibt viele verschiedene verfahren in der eignungsdiagnostik (interviews, tests, fragebögen..) aber intelligenztests stechen hervor: sie liefern am verlässlichsten aussagen, die später tatsächlich mit berufserfolg oder ausbildungserfolg übereinstimmen. also: wenn man wissen will, wer geeignet ist, sind intelligenztests sehr zuverlässig )
2hohe kriteirumsgültigkeit von intelligenztests zur vorhersage von ausbildungs- und berufserfolg
(viele studien (auch metaanalysen) zeigen: intelligenztests sind sehr gut darin, den erfolg in ausbildung und beruf vorherzusagen. das nennt man “ hohe kriteriumsgültigkeit “ also die starke verbindung zwischen testergebnis und tatsächlichem erfolg später. )
(tabelle:
→ Wie liest man das?
Die r-Werte sind Korrelationen – also wie stark ein Intelligenztest mit dem späteren Erfolg zusammenhängt.
Je höher r, desto besser ist der Test als Vorhersageinstrument.
Werte über .50 gelten als hoch in der Psychologie.
Werte in Klammern (.54, .62 etc.) sind oft korrigierte Werte (z. B. für Messfehler).
→ Beispiel:
Ein r = .56 beim Berufserfolg (Salgado) heißt: Es gibt einen sehr starken Zusammenhang zwischen Intelligenztest und Berufserfolg.
Was bedeuten die Werte in Klammern in der Tabelle?
Die Werte in Klammern sind korrigierte Korrelationen, d. h.:
✅ Sie zeigen an, wie stark der Zusammenhang wäre, wenn man typische Messfehler oder Verzerrungen herausrechnet.
In der Studie von Salgado et al. (2003)
r = .49 (.54) für Ausbildungserfolg → .49 = beobachteter Zusammenhang → .54 = korrigierter Zusammenhang → realistischer, “wahrer” Wert
🛠️ Warum muss man korrigieren?
Psychologische Tests haben nie 100 % Genauigkeit (es gibt Messfehler, z. B. durch unklare Fragen, Tagesform, unzuverlässige Beurteilungen …)
➡️ Deshalb wird in der Forschung oft eine Minderungskorrektur angewendet:
Diese korrigiert die Korrelation, um zu zeigen, wie stark der Zusammenhang eigentlich wäre, wenn der Test perfekt zuverlässig gewesen wäre.
Werte in Klammern = korrigierte Korrelationen → realistischere Stärke des Zusammenhangs, bereinigt von Störfaktoren
📊 Jetzt die
3Tabelle mit Einordnung
:
🔹
Salgado et al. (2003)
– Europa
Ausbildungserfolg: r = .49 (.54) → .49 ist eine mittlere bis hohe Korrelation → .54 ist eine hohe Korrelation (korrigierter Wert)
Berufserfolg: r = .56 (.62) → .56 = hohe Korrelation, also starker Zusammenhang → .62 = sehr hohe Korrelation (korrigiert)
Hülsheger et al. (2006)
– Deutschland
Ausbildungserfolg: r = .44 (.47) → .44 = mittlere Korrelation, ordentlich, aber nicht sehr stark → .47 = obere mittlere Korrelation
Berufserfolg: r = .58 (.62) → .58 = hohe Korrelation, also sehr gute Vorhersagekraft → .62 = sehr hoch (korrigiert)
Kramer (2009)
Ausbildungserfolg: r = .56 (.59) → .56 = hohe Korrelation → .59 = ebenfalls hoch
Berufserfolg: kein Wert angegeben
📌 Fazit:
Alle Studien zeigen:
✅ Intelligenztests haben mindestens mittlere, oft hohe Korrelationen mit Ausbildungserfolg und Berufserfolg.
✅ Berufserfolg wird meist besser vorhergesagt als Ausbildungserfolg
✅ Korrigierte Werte (in Klammern) liegen oft noch höher → sie berücksichtigen z. B. Messfehler und geben den „wahren“ Zusammenhang an.
K: wichtige folien
7.5 rahmenbedingungen für treffsicher prognosen
(es geht darum, unter welchen bedingungen eignungsdiagnostik gute vorhersagen über berufserfolg machen kann )
❓
Frage 1: Was macht eine gelungene Personalauswahl aus?
Frage 2: Was versteht man unter Grundquote und Auswahlquote?
Frage 3: Was zeigt das Gedankenexperiment in Bezug auf die Validität eines Tests?
1was macht eine gelungene personalauswahl aus ?
1hohe kriteriumsgültigkeit der gewählten verfahrenskombination
(die eingesetzten tests oder verfahren sollten gut mit dem berufserfolg zusammenhängen, also eine hohe korrelation mit dem kriterium haben )
1anteil der geeigneten kandidat*innen (auch basis- oder grundquote) genannt
(wie viele der personen, die sich bewerben, sind überhaupt geeignet - ganz unabhängig vom verfahren )
anteil der ausgewählten 1kandidat*innen (auch auswahlquote oder selektionsrate) genannt
(wie viele personen werden am ende tatsächlich eingestellt- also von allen bewerber*innen ) das sagt nichts über die validität des tests aus sondern wie streng oder locker selektiert wird )
(K: wie hoch ist die anzahl der geeigneten in der stichprobe macht auch viel aus nicht nur die validität des tests )
gedankenexperiment
beispiel 1: unter 100 kandidat*innen soll mit einer perfekten kriteriumsgültigeit von r(xy) = 1 ausgewählt werden (kommt in der praxis nicht vor ), allerdings ist niemand geeignet (grundquote = 0%) —> keine erfolgreiche besetzung (treffer) möglich (K: dann kann der test so valide sein wie man will , bringt nichts )
( r(xy) = 1 heist : der test ist perfekt valide- er misst ganz genau das, was später den berufserfolg vorhersagt. grundquote = 0% bedeutet: von den 100 bewerber*innen ist keine einzige person überhaupt geeignet- es gibt keine passende person im ganzen pool. also: auch wenn der test perfekt funktioniert, bringt er nichts, weil niemand dabei ist, der überhaupt geeignet wäre. es kann keine “treffer” geben, weil es gar nichts richtiges zu treffen gibt )
(die grundquote (auch basisquote) beschreibt den anteil der personen in der grundgesamtheit, die wirklich geeignet sind, unabhängig davon, ob sie ausgewählt werden oder nicht. in beispiel 1: grundquote 0%—> es gibt keine geeigneten personen im pool )
beispiel 2: unter 100 kandidat*innen wird mit einer schlechten kritieriumsgültigkeit von r (xy) = 0 ausgewählt (kommt in der praxis nicht vor) ; alle sind ausreichend qualifiziert (grundqoute = 100% ) —-> jede ausgewählte person wird auch geeignet sein ( besser: würfeln )
(K: da kann man sogar eher besser würfeln )
K: dh der test hat eine validität von 0 und sagt gar nichts )
( r(xy)= 0 heist der test ist völlig unbrauchbar, es gibt keinen zusammenhang zwischen testergebnis und berufserfolg. grundquote = 100% bedeutet: alle 100 bewerberinnen sind geeignet - jede person die man auswählt ist qualifiziert. also selbst wenn der auswahlprozess völlig zufällig wäre (zb würfeln) hättte man immer eine geeignete person ausgewählt, weil alle geeignet sind. der test ist nicht notwendig , weil jede auswahl ohnehin richtig ist ) die grundqzote ist hier 100% : alle aus dem bewerberinnen pool sind geeignet)
(gesamtfazit: grundquote= anteil der geeigneten in der gesamtmenge der bewerber*innen
wenn niemand geeignet ist (grundquote = 0% ) bringt auch der beste test nichts
wenn alle geeignet sind (grundquote = 100% , braucht man keinen test , weill jede auswahl erfolgreich wäre )
Erstmal: Was ist die Grundquote nochmal?
Die Grundquote (auch Basisquote) bezeichnet:
➤ Den Anteil der wirklich geeigneten Personen in der gesamten Bewerbergruppe – unabhängig vom Auswahlverfahren.
Beispiel:
Du hast 100 Bewerber*innen.
Wenn 20 davon fachlich und persönlich wirklich geeignet sind, liegt die Grundquote bei 20 %.
Wenn alle geeignet wären: Grundquote = 100 %
Wenn niemand geeignet wäre: Grundquote = 0 %
🔸
Beispiel 1: Perfekter Test, aber Grundquote = 0 %
„Unter 100 Kandidat*innen soll mit einer perfekten Kriteriumsgültigkeit von r(xy) = 1 ausgewählt werden, allerdings ist niemand geeignet (Grundquote = 0 %). → Keine erfolgreiche Besetzung (Treffer) möglich.“
💡 Warum ist der Test trotzdem „perfekt“, obwohl er „nichts bringt“?
r(xy) = 1 bedeutet: Der Test kann perfekt unterscheiden zwischen geeigneten und ungeeigneten Personen.
Aber: In der Grundgesamtheit gibt es gar keine geeigneten Personen.
Also: Der Test erkennt korrekt, dass alle 100 ungeeignet sind – das ist eine perfekte Vorhersage!
→ Aber: Einstellen kann man trotzdem niemanden, weil niemand geeignet ist. → Kein „Treffer“ möglich.
Der Test funktioniert perfekt, aber die Bewerberlage ist so schlecht, dass niemand geeignet ist.
Deshalb heißt es: „Es kann keine Treffer geben, weil es nichts Richtiges zu treffen gibt.“
Beispiel 2: Schlechter Test, aber Grundquote = 100 %
„Unter 100 Kandidat*innen wird mit einer schlechten Kriteriumsgültigkeit von r(xy) = 0 ausgewählt; alle sind geeignet (Grundquote = 100 %). → Jede Auswahl trifft eine geeignete Person.“
💡 Warum ist der Test „völlig unbrauchbar“ – und trotzdem ist jede Auswahl ein Treffer?
r(xy) = 0 heißt: Der Test kann überhaupt nicht unterscheiden, wer geeignet ist und wer nicht. → Er rät quasi.
Aber: Alle 100 Bewerber*innen sind sowieso geeignet.
Also: Auch wenn du völlig zufällig auswählst, wirst du immer jemanden Geeigneten erwischen.
Der Test hilft dir nicht – aber das Ergebnis ist trotzdem positiv, weil alle gut sind.
Der Test ist nutzlos – aber er macht auch nichts kaputt, weil alle Bewerber ohnehin geeignet sind.
🔹 Warum sind das Gedankenexperimente?
Solche Szenarien kommen in der Realität nicht genau so vor, aber sie helfen zu verstehen:
Warum die Grundquote so entscheidend ist.
Warum selbst ein perfekter Test bei schlechter Bewerberlage nichts bringen kann.
Warum ein schlechter Test in bestimmten Fällen keinen Schaden anrichtet – obwohl er eigentlich unbrauchbar ist.
Antwort (wortgleich aus der Folie):
Anteil der geeigneten Kandidat*innen = Basis- oder Grundquote
Anteil der ausgewählten Kandidat*innen = Auswahlquote oder Selektionsrate
Beispiel 1:
Unter 100 Kandidat*innen soll mit einer perfekten Kriteriumsgültigkeit von r(xy) = 1 ausgewählt werden (kommt in der Praxis nicht vor), allerdings ist niemand geeignet (Grundquote = 0 %) → keine erfolgreiche Besetzung (Treffer) möglich
Beispiel 2:
Unter 100 Kandidat*innen wird mit einer schlechten Kriteriumsgültigkeit von r(xy) = 0 ausgewählt (kommt in der Praxis nicht vor); alle sind ausreichend qualifiziert (Grundquote = 100 %) → jede ausgewählte Person wäre auch geeignet
K. merken
was beschreibt die grundquote und wie wird sie berechnet ?
was bedeutet die auswahlquote und wie wird sie berechnet ?
was misst die trefferquote und wie wird sie ermittelt ?
1grundquote: wie viel prozent aller kandidat*innen sind geeignet ?
(das ist die basisquote. sie gibt an wie viele der bewerber*innen überhaupt geeignet sind- unabhängig davon, ob sie ausgewählt wurden oder nicht )
1anteil der geeigneten unter der gesamtzahl an bewerber*innen
(man schaut, wie viele der gesamten bewerber*innen die nötigen voraussetzunen tatsächlich erfüllen )
1. (beispiel für die grundquote) 100 personen bewerben sich um studienplatz , alle werden zugelassen, 90 schließen erfolgreich ab: grundquote = 90%)
(beispiel dafür ist das, es haben sich 100 personen beworben. 90 von ihnen haben das studium erfolgreich abgeschlossen, was zeigt, dass sie tatsächlich geeignet waren. dh : grundquote = 90% )
2auswahlquote : wie viel prozent der kandidat*innen werden ausgewählt ?
(diese quote beschreibt, wie viele von allen bewerber*innen am ende ausgewählt werden. sie hat nichts damit zu tun, ob sie geeignet sind, nur wie viele genommen werden )
2verhältnis von ausgewählten zur gesamtzahl
(man berechnet: wie viele wurden ausgewählt geteilt durch wie viele haben sich beworben ?
2. beispiel bezogen auf die auswahlquote: aus 20 personen wird eine ausgewählt: auswahlquote =5%
(von 20 bewerber*innen wird nur eine person genommen —> 1 geteilt durch 20 = 0,05 = 5% )
3trefferquote: wieviell prozent der als “geeignet” beurteilten sind tatsächlich geeignet ?
(diese quote zeigt , wie verlässlich die auswahl war: wenn jemand als geeignet beurteilt wurde- stimmt das auch wirklich in der realität ? )
3 beispiel für die trefferquote: 10 personen werden für eine ausbildung als “geeignet” beurteilt; nach abschluss der ausbildung wird geprüft , ob eine mindestnote erzielt wurde, bei 8 personen ist dies der fall: trefferquote = 80%
(man hat 20 personen eingestellt, weil sie im auswahlverfahren als geeignet galten. am ende zeigt sich: 8 von ihnen haben die ausbildung erfolgreich abgeschlossen, zb mit einer bestimmten mindestnote. also 8 von 10 waren wirklich geeignet —> trefferquote = 80% )
was ist das ziel einer auswahlentscheidung ?
was bedeutet eine möglichst hohe trefferquote im kontext der eignungsdiagnostik ?
wie wird die eignung festgestellt ?
1ziel einer auswahlentscheidung : eine hohe trefferquote
(eine gute auswahlentscheidung bedeutet , dass möglichst viele der personen , die als “geeignet” beurteilt wurden, sich später tatsächlich auch als geeignet erweisen. das ziel ist also: möglichst viele richtige treffer )
1vorhersage der tatsächlichen eignung
(die auswahl soll eine prognose treffen, also vorhersagen, wer im job oder der ausbildung später wirklich geeignet ist. das auswahlverfahren ist nur dann sinnvoll, wenn es tatsächliche eignung korrekt vorhersagen kann )
2möglichst hohe trefferquote : alle eingestellten kandidat*innen sollen sich später auch als geeignet erweisen
(trefferquote bedeutet hier: wie viele der “eingestellten” personen sich im nachhinein wikrlich als geeignet herausstellen. ideal wäre also: 100% der eingestellten sind später auch wirklich geeignet )
3feststellung der eignung
(hier geht es darum , wie man entscheidet, ob jemand geeignet ist oder nicht. dazu braucht es ein verfahren - zum beispiel eine skala oder note )
3notenskala , rating-skala mit festgelegtem grenzwert (mindestwert )
(eigung kann durch eine skala (zb 1-5 oder schulnoten ) eingeschätzt werden. es wird ein mindestwert festgelegt - alle mit einem wert darüber gelten als geeignet )
3dichotome variable: geeignet / ungeeignet
(am ende wird das ergebnis vereinfacht: man trifft eine ja /nein entscheidung , ob jemand geeignet oder ungeeignet ist. das ist eine sogenannte dichotome variable, weil es nur zwei ausprägungen gibt )
welche drei faktoren bestimmen die trrefferquote ?
wie kann man die trefferquote berechnen ?
gibt es tools zur berechnung der trefferquote ?
1welche faktoren bestimmen die trefferquote ?
(hier wird erklärt , wovon es abhängt , wie viele der als geeignet beurteilten sich tatsächlich später als geeignet herausstellen. drei faktoren beeinflussen diese trefferquote: … (die folgenden punkte) )
1kriteriumsgültigkeit einer verfahrenskombination : je höher diese ist, desto höher ist die trefferquote
(wenn das auswahlverfahren (zb ein test) gut vorhersagen kann, wer später tatsächlich im beruf erfolgreich ist (=hohe kriteriumsgültigkeit ) dann ist die wahrscheinlichkeit hoch, dass die ausgewählten personen wirklich geeignet sind ) (beispiel: ein intelligenztest mit hoher kriteriumsgültigkeit führt dazu, dass überwiegend geeignete personen ausgewählt werden —> hohe trefferquote )
1anteil der grundsätzlich geeigneten (basis- oder grundquote): je höher dieser anteil ist, desto höher ist die trefferquote
(wenn von allen bewerberinnen viele grundsätzlich geeignet sind, ist die chance hoch , dass die auswahl richtige treffer landet . beispiel: wenn 80% der bewerberinnen grundsätzlich geeignet sind, wird auch ein mäßig gutes verfahren oft geeignete personen auswählen )
1anteil der ausgewählten (auswahlquote / selektionsquote): je kleiner sie ist, desto höher ist die trefferquote
(wenn man nur sehr wenige bewerber*innen auswählt (also streng selektiert ), ist die wahrscheinlichkeit höher, dass unter diesen wenigen auch viele geeignete sind ) beispiel: wenn man aus 100 nur 5 auswählt (5% auswahlquote) sind diese 5 vermutlich besonders leistungsstark —> höhere trefferquote
2trefferquote kann anhand der sog. Taylor - Russell-Tafeln für die verschiedenen randbedingungen (s.o.) bestimmt werden
(die taylor-russell-tafeln zeigen , wie sich trefferquoten berechnen lassen, wenn man die drei oben genannten einflussfaktoren kennt. anwendung; sie helfen vorab einzuschätzen , wie gut ein auswahlverfahren funktioniert )
3programme und skripte zur berechnung der trefferquote im internet
(es gibt digitale tools zb das genannte webtool, mit denen man anhand von grundquote, kriteriumsgültigkeit und auswahlquote die trefferquote automatisch berechnen kann )
3link httos://app-crewsandcaptains.com/taylorrussell/
beispiel für die berechnung der trefferquote
Was zeigt die Grafik?
Die Grafik stellt die Trefferquote (y-Achse) in Abhängigkeit von der Grundquote (x-Achse) dar – dabei sind unterschiedliche Kurven für verschiedene Validitäten und Auswahlquoten eingezeichnet.
Trefferquote: Der Anteil der ausgewählten Personen, die sich im Nachhinein tatsächlich als geeignet erweisen.
Grundquote (Basisrate): Anteil der grundsätzlich geeigneten Personen in der Bewerbergruppe.
Die Kurven unterscheiden sich nach:
Validität des Verfahrens (r = .20, .40, .60) → misst, wie gut ein Verfahren tatsächliche Eignung vorhersagt.
Auswahlquote (10 % oder 50 %) → Anteil der Bewerber*innen, die überhaupt ausgewählt werden.
Wie liest man die Grafik?
Die x-Achse zeigt, wie viele der Bewerber grundsätzlich geeignet sind (Grundquote), z. B. 20 %, 40 %, …
Die y-Achse zeigt, wie viele der tatsächlich eingestellten Personen tatsächlich geeignet sind (Trefferquote).
Jede Kurve zeigt, wie die Trefferquote bei einer bestimmten Validität und Auswahlquote verläuft.
Beispiel aus der Grafik:
Bei Validität .60 und Auswahlquote 10 % → Trefferquote fast 100 %, wenn die Grundquote hoch ist.
Bei Validität .20 und Auswahlquote 50 % → sehr niedrige Trefferquote, selbst bei hoher Grundquote.
Was bedeutet das konkret?
1.
Validität
Je höher die Validität eines Verfahrens, desto besser kann es geeignete von ungeeigneten Personen unterscheiden.
Höhere Validität bedeutet also: bessere Vorhersage, daher höhere Trefferquote.
In der Grafik erkennt man das daran, dass z. B. die Kurve bei Validität .60 steiler und höher verläuft als die bei .40 oder .20.
2.
Grundquote
Wenn generell viele geeignete Personen im Bewerberfeld sind (z. B. 80 % → hohe Grundquote), ist es leichter, zufällig oder systematisch Treffer zu erzielen.
Wenn die Grundquote niedrig ist (z. B. 10 %), ist es sehr schwer, gute Personen zu finden, egal wie gut das Verfahren ist.
3.
Auswahlquote
Eine geringe Auswahlquote (z. B. 10 %) bedeutet, man ist sehr selektiv – man wählt nur die Besten aus → Trefferquote steigt.
Eine hohe Auswahlquote (z. B. 50 %) bedeutet, viele werden eingestellt → dadurch steigt die Fehlerwahrscheinlichkeit.
Fazit – Was lernt man daraus?
Man sollte möglichst valide Verfahren einsetzen (z. B. Intelligenztests mit hoher Kriteriumsvalidität).
Man sollte, wenn möglich, die Auswahlquote niedrig halten → also nicht zu viele einstellen.
Die Trefferquote hängt nicht nur vom Test ab, sondern auch von Grundquote und Auswahlquote.
Selbst das beste Verfahren bringt nichts, wenn niemand geeignet ist (= Grundquote 0 %) oder wenn alle genommen werden (= Auswahlquote 100 %).
maßnahmen zur verbesserung der trefferquote
1. welche maßnahmen können zur erhöhung der potenziellen kriteriumsgültigkeit beitragen ?
was bedeutet die erhöhung des anteils an geeigneten (grundquote ?)
was ist das ziel der maßnahme zur verbesserung der trefferquote ?
3maßnahmen zur verbesserung der trefferquote
(es geht darum , wie man die trefeferquote steigern kann, also den anteil der als geeignet beurteilten personen, die tatsächlich geeignet sind )
1,3erhöhung der potenziellen kriteriumsgültigkeit
(ziel: die verfahren so zu verbessern, das sie besser vorhersagen können, ob jemand im job erfolgreich ist .
1verbesserung eines verfahrens (zb höhere strukturierung des interviews )
(ein interview zb ist valider , wenn es strukturiert abläuft (gleiche fragen, objektive bewertung )
—>adurch kann man besser vorhersagen, ob die person geeignet ist )
1austausch eines verfahrens mit geringer kriteriumsgültigkeit gegen ein verfahren mit höherer kriteriumsgültigkeit
(wenn zb ein verfahren nur schlecht den berufserfolg vorhersagt, sollte man es ersetzen- zb statt unstrukturiertem interview lieber einen intelligenztest nehmen. das erhöht die validität.
1sinnvolle kombination von mehreren verfahren
(wenn man mehrere gute verfahren kombiniert, steigt die gesamt-validität oft noch weiter. beispiel: intelligenztest + struktuiertes interview)
2,3erhöhung des anteils an geeigneten (grundquote ) (K: dann hat man mehr leute die geeignet sind zb mit schulnoten und dann erhöht sich die grundquote )
(ziel: mehr geeignete leute schon im bewerberpool haben, bevor man überhaupt testet
2vorauswahl von kandidat*innen zb nach schulnoten (screening )
(man filtert vorher aus, zb nur leute mit guten noten dürfen zum auswahlverfahren - dadurch ist der anteil an “geeigneten “ personen von anfang an höher —> höhere grundquote )
2gezielte rekrutierung von kandidat*innen, die dne anforderungen vermutlich gerecht werden ( zb gezielte ansprache, rekrutierung am “richtigen ort “)
(beispiel: man spricht gezielt personen an, die zum anforderungsprofil passen, zb über bestimmte hochschulen oder berufsnetzwerke . oder man geht dorthin wo die “richtigen “ leute sind ( zb messen, unis )
was bedeutet “verringerung der auswahlquote “ im kontext der verbesserung der trefferquote?
welche maßnahme wird genannt , um die auswahlquote zu verringern ?
wie kann man die auswahlquote verringern, ohne den anteil an ungeeigneten zu erhöhen ?
1verringerung der auswahlquote
(hier geht es darum den antei der personen, die aus dem gesamten bewerberfeld tatsächlich ausgewählt werden, zu senken. das verbessert die trefferquote - also die wahrscheinlichkeit , dass die ausgewählten wirklich geeignet sind )
2verzicht darauf, (sofort) alle vorhandenen stellen zu besetzen
(man besetzt nicht zwanghaft jede offene stelle-selbst wenn man noch keine optimal geeigneten bewerberinnen gefunden hat . lieber wartet man, bis wirklich geeignete kandidatinnen verfügbar sind. dadurch sinkt die auswahlquote (weil weniger von vielen genommen werden ) und die qualität der auswahl steigt )
3rekrutierung von mehr kandidat*innen , ohne den anteil an ungeeigneten zu erhöhen
(man versucht, mehr geeignete personen zu gewinnen, zb durch bessere werbung oder reichweite - aber ohne dabei auch viele ungeeignete anzulocken. das erhöht die auswahlmöglichkeiten bei gleicher qualität - die auswahlquote sinkt dadurch ebenfalls , was wieder zu einer höheren trefferquote führt )
6 Monetäre Nutzenschätzung
K-wichtig
was ist eignungsdiagnostik im wirtschaftlichen sinne ?
wieso lohnt sich diese investition in eignungsdiagnostik ?
welcher vorteil ergibt sich aus sorgfältiger eignungsdiagnostik für das arbeitgeberimage ?
1eignungsdiagnostik ist eine investition , die kosten verursacht
(verfahren der eignungsdiagnostik (zb tests, interviews, assessment center ) erfordern personellen, zeitlichen und finanziellen aufwand. sie kosten also geld - aber sie gelten nicht einfach als ausgaben sondern als investition in eine fundierte personalauswahl )
2wieso lohnt sich diese investition ?
(die folgenden punkte erklären, welchen nutzen (nicht-monetär und indirekt auch monetär) man aus dieser investition ziehen kann :
2wahrnehmung der verantwortung (entscheidung über zugang zu arbeitsplätzen )
(die eignungsdiagnostik trägt verantwortung dafür, wer zugang zu jobs bekommt. sorgfältige verfahren zeigen, dass das unternehmen diese verantwortung ernst nimmt. )
2vermeidung von rechtsstreitigkeiten (negative berichterstattung )
(wer auswahlentscheidungen transparent und objektiv trifft, reduziert das risiko, dass abgelehnte bewerber*innen klagen- und damit auch das risiko negativer presse )
2,3aufbau einer positiven arbeitgebermarke (employer branding )
(ein professioneller auswahlprozess stärkt das image als fairer und kompetenter arbeitgeber- was wiederum hilft, zukünftige bewerber*innen zu gewinnen
2wettbewerbsvorteil
(gute personalauswahl steigert die qualität der belegschaft. wer geeignete mitarbeiter*innen einstellt, ist am markt erfolgreicher als andere unternehmen )
7.6 monetäre nutzenschätzung
(k_ man muss zeigen was ein gutes auswahlverfahren bringt, was eine gute mitarbeiterin bringt )
.1Was sollen gute Auswahlverfahren laut der Folie aufweisen?
2. Wodurch entsteht laut Folie dieser monetäre Nutzen bei Mitarbeiter*innen?
3. Welche Methoden nennt die Folie zur Ermittlung dieses Nutzens?
1“gute “ auswahlverfahren sollten auch einen direkten monetären nutzen aufweisen
(auswahlverfahren sind nicht nur fachlich oder ethisch relevant, sondern sollen sich auch finanziell lohnen, also geld einbringen oder kosten sparen )
2mitarbeiterinnen , die durch “gutes” auswahlverfahren identifiziert werden erwirtschaften mehr gewinn als mitarbeiterinnen die durch “schlechtes” auswahlverfahren identifiziert werden
(gute auswahlmethoden führen dazu, dass man leistungsfähigere mitarbeitende auswählt, die im job bessere ergebnisse erzielen -also wirschaftlich mehr beiragen als falsch ausgewählte personen )
3quantfizierung des nutzens in produktions- und verkaufsorientierten bereichen einfach
(in bereichen wie produktion oder verkauf lässt sich der beitrag eines guten mitarbeiters leicht in zahlen ausdrücken zb durch verkaufszahlen , stückzahlen etc )
3in anderen bereichen braucht man schätzverfahren , die sich beispielsweise am geldwert des outputs orientieren
(in jobs ohne messbare produktion (zb beratung, verwaltung ) kann man den nutzen nicht direkt messen- dort verwendet man schätzungen zb auf basis des werts der erbrachten leistung . in manchen jobs zb in der verwaltung , im soazilen bereich , in der forschung oder bei fphrungskräften lässt sich der nutzen eines mitarbeiters nicht direkt messen, weil es keine verkaufszahlen oder produktionszahlen gibt. beispiel: wie viel “wert” bringt eine gute führungskraft ? das ist schwer mit konkreten zahlen zu belge. deshalb nutzt man in solchen fällen sogenannte schätzverfahren. das bedeutet man versucht indirekt zu berechnen, wie viel geldwert die arbeit dieser person vermutlich erzeugt-zb durch ihre entscheidungen , projekte oder einsparungen, und dabei orientiert man sich am output : also an dem, was am ende herauskommt zb zufriedene kunden, prozessverbesserung, gute mitarbeiterbindung etc . diesen ouput versucht man zu bewerten -in geld also: was ist das wert, wenn diese leistung erbracht wird ? )
kostenschätzung für 3fremdvergabe einer leistung , die von einem durchschnittlichen mitarbeiter verrichtet wird
(man überlegt was würde es kosten, wenn diese leistung extern eingekauft werden müsste? so lässt sich der wert der arbeit schätzen
hier fragt man sich wenn zwei leute die gleiche aufgbae erledigen, aber einer braucht weniger zeit oder ressourcen , dann spart man durch gute auswahl bares geld )
➡️ Hier geht es um eine konkrete Methode der Schätzung:
Man fragt sich:
Was würde es kosten, wenn man diese Leistung nicht intern, sondern extern einkaufen müsste?
Wenn ein Mitarbeiter Texte übersetzt, könnte man fragen:
Was würde es kosten, diese Übersetzung an einen Übersetzungsdienst zu vergeben?
📌 Dadurch bekommt man eine Vorstellung vom Geldwert der Leistung eines durchschnittlichen Mitarbeiters.
Denn wenn der externe Dienst z. B. 500 € kosten würde, dann kann man sagen:
➡️ Diese Aufgabe ist intern auch ca. 500 € wert.
3eingesparte kosten: um wie viel kostengünstiger kann ein guter mitarbeiter im vergleich zu einem weniger guten mitarbeiter die gleiche leistung bringen ?
(→ Hier fragt man sich: Wenn zwei Leute die gleiche Aufgabe erledigen, aber einer braucht weniger Zeit oder Ressourcen, dann spart man durch gute Auswahl bares Geld.
(k wichtig , alte schätzung ist bestimmt jetzt teurer, wie viel sowas kostet )
brogden - cronbach - gleser - (BCG)-nutzenmodell
quantifizierung des monetären nutzens
„Quantifizierung des monetären Nutzens“
→ Ziel ist es, in Geld zu berechnen, wie viel ein Auswahlverfahren der Organisation bringt (z. B. durch bessere Mitarbeitende).
🔢
Formel: Δ(U) = Nₐ × T × rₓᵧ × Zₓ × SDᵧ − C × Nᴮ
Die Formel berechnet den monetären Nutzen Δ(U) eines Auswahlverfahrens.
🧩
Was bedeuten die Formelzeichen?
1. Nₐ
→ „bezeichnet die Anzahl der eingestellten Personen“
Also: Wie viele Personen wurden nach dem Auswahlverfahren eingestellt?
2. T
→ „bezeichnet deren Verweildauer in der Organisation“
Das ist: Wie lange bleiben die eingestellten Personen im Unternehmen (z. B. in Jahren)?
3. rₓᵧ
→ „ist die Kriteriumsvalidität des aus dem Verfahren abgeleiteten Eignungsurteils, ausgedrückt als Korrelationskoeffizient“
Das bedeutet: Wie gut sagt das Auswahlverfahren tatsächlich späteren Berufserfolg voraus?
4. Zₓ
→ „ist der (standardisierte) Wert, den die letztlich ausgewählten Kandidatinnen und Kandidaten durchschnittlich in Auswahlverfahren erzielen“
Das ist der durchschnittliche Testergebnis-Wert (z. B. im Eignungstest), standardisiert, also in z-Werten.
5. SDᵧ
→ „ist die Standardabweichung der in der Organisation festgestellten Berufserfolg in Geldeinheiten“
Beispiel: Wenn Berufserfolg durch Umsatz, Produktivität o. Ä. in Euro gemessen wird: Wie stark schwankt das?
SDᵧ – Was bedeutet das genau?
📝 Originaltext auf der Folie:
„SDᵧ ist die Standardabweichung der in der Organisation festgestellten Berufserfolg in Geldeinheiten“
Einfach erklärt:
SDᵧ steht für die Standardabweichung – also dafür, wie stark der Berufserfolg zwischen verschiedenen Mitarbeitenden variiert.
Berufserfolg wird hier in Geldeinheiten gemessen – zum Beispiel durch:
Umsatz, den eine Person erwirtschaftet
Gewinn, den sie bringt
Kosten, die sie spart
oder Produktivität, umgerechnet in Geld
💡 Warum ist das wichtig?
Je größer die Unterschiede im Berufserfolg (also je größer die Standardabweichung SDᵧ), desto mehr kann ein gutes Auswahlverfahren bringen.
Denn dann gibt es wirklich leistungsstarke und weniger leistungsstarke Personen – und es lohnt sich, die Richtigen auszuwählen.
🔧 Beispiel zur Veranschaulichung:
Stell dir vor:
In einem Callcenter verdienen manche Mitarbeitende 20 000 €, andere aber 50 000 € pro Jahr für die Firma.
Dann ist SDᵧ hoch, weil der Berufserfolg stark schwankt.
Ein gutes Auswahlverfahren kann dann viel bringen – weil es gezielt die besseren 50 000 €-Leute auswählt.
Wenn aber alle ungefähr gleich viel bringen (z. B. alle 30 000 €), ist SDᵧ niedrig – dann macht es weniger Unterschied, wen man auswählt.
6. C
→ „steht für die Kosten des Auswahlverfahrens pro Kandidat/-in“
Das sind z. B. Kosten für Tests, Interviews, Personal etc. pro getesteter Person.
7. Nᴮ
→ „beziffert die Anzahl der Kandidatinnen und Kandidaten“
Also: Wie viele Bewerber*innen haben am Verfahren teilgenommen – unabhängig davon, ob sie eingestellt wurden?
7.6 Monetäre Nutzenschätzung
(k merken, alt anwedungsaufgbae, der formel von davor )
anwendungsaufgabe
Brodgen-Cronach -Gleser - (BCG-)-Nutzenmodell: anwendungsbeispiel
zweitätiger assessment center (AC) zur auswahl von führungskräften der polizei
von den 560 AC - Teilnehmer*innen wurden aufgrund des personalauswahlverfahrens 112 zum aufstieg in den höheren polizeivollzugsdienst zugelassen
die kriteriumsgültigkeit wurde empirisch bestimmt
als erfolgskriterum wurde der erfolg in der ausbildung der führungsakademie herangezogen
die aus dem AC abgeleiteten eignungsurteile korrelierten zu r=.46. (unkorrigierter wert) mit diesem kriterium
insgesamt ergabne sich die folgenden werte : 112 *25 sternchen 0.46 sternchen 2.17 sternchen 40.000 euro minus 1.500 euro sternchen 560 = 110.958.400 euro
durch den einsatz des ACs ergab sich ein geschätzter nutzenzuwachs gegenüber einer zufallsauswahl in höhe von ca 111 mio eur.
(k so muss man zeigen was der nutzen von der eignungsdianostik ist die du vorstellst damit der auftraggeber zb sagt ja machen wir )
Die Folie zeigt ein praktisches Anwendungsbeispiel der BCG-Nutzenformel aus der vorherigen Folie. Damit lässt sich berechnen, wie viel finanziellen Nutzen ein Auswahlverfahren bringt – also: Lohnt es sich überhaupt, ein gutes Verfahren einzusetzen?
Sternchen bedeutet mal also multipliziert
🔹 Punkt 1: „Zweitägiges Assessment Center (AC) zur Auswahl von Führungskräften der Polizei“
➡️ Hier wurde ein Assessment Center (AC) eingesetzt, um zu entscheiden, wer eine Führungsposition bei der Polizei bekommt. Das ist ein aufwändiges Verfahren, bei dem beobachtet wird, wie Kandidat*innen sich in simulierten Situationen verhalten. Es kostet Geld – und genau das will man durch die Nutzenformel rechtfertigen.
🔹 Punkt 2: „Von den 560 AC-Teilnehmer*innen wurden aufgrund des Personalauswahlverfahrens 112 zum Aufstieg… zugelassen“
➡️ Insgesamt haben 560 Personen am AC teilgenommen – das ist also die Zahl der Bewerber*innen.
➡️ Davon wurden 112 Personen ausgewählt – das ist die Zahl der eingestellten Personen.
🔁 In der Formel entspricht das:
N_B = 560 (Gesamtkandidaten)
N_A = 112 (Eingestellte Personen)
🔹 Punkt 3: „Die Kriteriumsgültigkeit wurde empirisch bestimmt“
➡️ Man hat überprüft, ob das AC tatsächlich vorhersagen kann, wie erfolgreich die Personen später im Job (bzw. der Ausbildung zur Führungskraft) sind. Das nennt man Kriteriumsgültigkeit – sie ist zentral für die Formel.
🔸 Unterpunkt: „Als Erfolgskriterium wurde der Erfolg in der Ausbildung… herangezogen“
➡️ Der „Berufserfolg“, den man hier misst, ist der Ausbildungserfolg in der Führungsakademie – also z. B. Prüfungsnoten, Leistungen etc.
➡️ Das ist wichtig, denn in der Formel gibt es die Variable SD_Y, also die Streuung (Standardabweichung) im Berufserfolg. Diese beschreibt, wie unterschiedlich erfolgreich die Leute in der Ausbildung sind. Eine große Streuung ist besser, weil man dann besser unterscheiden kann zwischen „guten“ und „weniger guten“ Ausgewählten.
🔸 Unterpunkt: „Die aus dem AC abgeleiteten Eignungsurteile korrelierten zu r = .46“
➡️ Die Auswahlentscheidung (wer wurde als „geeignet“ im AC beurteilt?) korreliert mit dem späteren Erfolg mit r = .46. Das ist die Kriteriumsgültigkeit rₓᵧ in der Formel.
Das bedeutet: Es gibt einen klaren Zusammenhang – die Personen, die im AC gut abgeschnitten haben, waren tatsächlich häufiger erfolgreich in der Ausbildung.
🔹 Punkt 4: „Insgesamt ergaben sich die folgenden Werte: 112 × 25 × .46 × 2.17 × 40.000 – 1.500 × 560 = 110.958.400 €“
Das ist die direkte Anwendung der Formel:
Δ(U) = Nₐ × T × rₓᵧ × Zₓ × SD_Y – C × N_B
Alle Werte:
112 → Nₐ: Eingestellte Personen
25 → T: durchschnittliche Verweildauer in Jahren
0.46 → rₓᵧ: Kriteriumsgültigkeit
2.17 → Zₓ: standardisierter Wert für die Leistung der Eingestellten
40.000 € → SD_Y: Standardabweichung der Leistung (in Geld)
1.500 € × 560 = 840.000 € → C × N_B: Gesamtkosten des Auswahlverfahrens
Das ergibt am Ende einen monetären Nutzen von ca. 111 Millionen Euro.
Also: Wenn man das Auswahlverfahren einsetzt, verdient man (vereinfacht gesagt) etwa 111 Mio. € mehr, als wenn man die Leute z. B. per Zufall ausgewählt hätte.
🔹 Punkt 5: „Durch den Einsatz des ACs ergab sich ein geschätzter Nutzenzuwachs gegenüber einer Zufallsauswahl in Höhe von ca. 111 Mio. Euro“
➡️ Dieser Satz ist das Fazit der Rechnung: Wenn man das AC verwendet, bringt es viel mehr Gewinn, als wenn man einfach zufällig Leute genommen hätte. Das rechtfertigt die Investition in das Auswahlverfahren.
🔚 Fazit:
Diese Folie illustriert, wie man das BCG-Nutzenmodell praktisch anwendet.
Sie zeigt, dass objektiv messbare Daten wie Kriteriumsgültigkeit und Verweildauer genutzt werden können, um den finanziellen Mehrwert eines Verfahrens zu berechnen.
Der Nutzen kann riesig sein – hier über 100 Mio. Euro!
Frage 1:
Welche Werte gehen in das Brogden-Cronbach-Gleser-Nutzenmodell ein und was bedeuten sie?
→ Nenne und erkläre:
Anzahl eingestellter Personen (NA)
Verweildauer (T)
Kriteriumsgültigkeit (rxy)
Standardisierter Z-Wert (Zx)
Streuung in Geld (SDy)
Auswahlkosten (C)
Anzahl aller Bewerber (NB)
Frage 2:
Wie wird der monetäre Nutzen eines Auswahlverfahrens mithilfe des BCG-Modells berechnet?
→ Rechne mit einem Beispiel: Multipliziere alle Werte links vom Minus, ziehe dann die Verfahrenskosten ab.
Frage 3:
Welche Bedeutung hat die Kriteriumsgültigkeit (rxy) im BCG-Modell? Was passiert, wenn sie hoch oder niedrig ist?
→ Je höher rxy, desto stärker ist der Zusammenhang zwischen Testergebnis und Berufserfolg – und desto größer der Nutzen des Auswahlverfahrens.
7.7 evaluation und ableitung von verbesserungsmaßnahmen
was besteht laut din im hinblcik auf das eigene vorgehen bei der eignungsbeurteilung ?
was muss man laut din tun, wenn man mit der validitätsgeneralisierung argumetieren möchte ?
welche art von empirischen untersuchungen kann man heranziehen, wenn man validitätsbefunde für den konkreten fall in anspruch nehmen möchte
1nach DIN besteht die pflicht zur evaluation des eigenen vorgehens
(laut der din norm also den standardisierten regeln für eignungsdiagnostik muss man das eigene auswahlverfahren regelmäßig überpürfen. es reicht nicht , sich auf vorhandene forschung zu verlassen- man muss selbst evaluieren, ob das verfahren im konkreten anwendungsfall wirksam ist
3inwiefern lassen sich die validitätsbefunde aus empirischer untersuchungen (zb metastudien ) auch für den konkreten fall in anspruch nehmen ?
(hier wird gefragt , ob man sich einfach auf vorhandene forschung stützen darf- etwa auf metaanalysen zu intelligenztests - oder ob man die gültigkeit für den eigenen fall seperat prüfen muss )
2will man mit der validitätsgeneralisierung argumentieren, dann muss man der DIN zufolge genau angbene, welche befunde generalisiert werden können und begründen , weshalb (und ich welchem ausmaß ) sich die gültigkeitshinweise übertragen lassen, die sich aus diesen anderen studien ergeben )
(wenn man sagt: das wurde ja schon in anderen studien gezeigt, das gilt auch bei uns “ dann reicht das laut din nicht aus
man muss genau erklären: welche studie man meint, was dort gefunden wurde , und warum und in welchem umfang das auf den eigenen fall übertragbar ist. das nennt man validitätsgeneralisierung )
was muss laut folie bereits vor der durchführung einer eignungsbeurteilung festgelegt werden , und warum ist das wichtig ?
was wird laut DIN von auftraggeber und eignungsdiagnostiker*in erwartet ?
nenne weitere qualitätsmerkmale zur evaluation von eignungsbeurteilungen
1wichtiger schritt für die evaluation des eigenen vorgehens: qualitätsmerkmale vorab festlegen und die konkret durchgeführte eignungsbeurteilung danach evaluieren
(bevor man überhuapt mit der eignungsbeurteilung startet, sollte man festlegen, woran man später erkennt, ob das verfahren gut war. man definiert also vorher die qualitätskriterien. man prüft am ende, ob das tatsächlich durchgeführte verfahren den vorher festgelegten qualitätsmaßstäben entspricht )
2auftraggeber und eignungsdiagnostiker*in sollen zu einem geeigneten zeitpunkt eine kritische würdigung des vorgehens und der verfahren vornehmen und klären , ob und zu welchem grad die vorab festgelegten ziele erreicht wurden
(die verantwortlichen sollen sich bewusst zeit nehmen, um ihr eigenes verfahren ehrlich zu hinterfragen: was lief gut, was nicht ? es soll überprüft werden , ob die gesetzten ziele auch wirklich erreicht wurden, und wenn ja, wie stark )
3weitere qualitätsmerkmale :
3kosten - nutzen -relation
(steht der nutzen des verfahrens in einem guten verhältnis zu seinen kosten ?
3nutzung der ergebnisse der eignungsbeurteilungen für auswahl - und entwicklungsentscheidungen
(werden die ergebnisse wirklich für wichtige entscheidungen verwendet , zb wer eingestellt oder weiterentwickelt wird ?
3akzeptanz des vorgehens und der verfahren
(finden alle beteiligten das verfahren fair und nachvolllziehbar ?)
3akzeptanz des vorgehens und der ergebnisse in der auftraggebenden institution
(wird auch im unternehmen selbst akzeptiert, wie das verfahren abläuft und welche ergebnisse es bringt ?
3verständlichkeit der eignungsaussage und/ oder der ergebnisberichte
(sind die ergebnisse klar formuliert und leicht zu verstehen - auch für nicht expert*innen ?
welche konkreten vorschläge macht die din für die evaluation von eignungsbeurteilungen ?
was versteht man unter dem grad der übereinstimmung zwischen den beurteilenden personen “ und warum ist er wichtig ?
was sollen nutzerInnen von eignungsverfahren laut din zusätzlich beitragen, um die qualität der verfahren zu sichern ?
hier geht es darum, wie man eignungsbeurteilungen überprüft , also evaluiert , und welche maßnahmen man daraus zur verbesserung ableiten kann )
1im text der DIN finden sich konkrete vorschläge zum vorgehen bei der evaluation
(die din norm liefert klare empfehlungen, wie man die evaluation des auswahlverfahrens durchführen sollte- also was konkret geprüft und beachtet werden soll )
1für jedes zu beurteilende eignungsmerkmal sollte der grad der übereinstimmung zwischen den beurteilenden personen bestimmt werden (zb interview oder verhaltensbeobachtung )
(bei verfahren wie interviews oder beobachtungen sollen mehrere beurteilende dasselbe merkmal beurteilen, dann prüft man wie stark sich ihre einschätzungen ähneln also die sogenannte interrater reliability . das zeigt ob die bewertung verlässlich ist
1bei großen stichproben: objektivität und zuverlässigkeit der einzelnen verfahren, sowie die gültigkeit des gesamten vorgehens bestimmen
(wenn man viele daten hat (große stichprobe) sollte man prüfen: objektivität : ist das verfahren unabhängig von der person , die es anwendet ? zuverlässigkeit (reliabilität)= gibt das verfahren stabile, wiederholbare ergebnisse ? gültigkeit (validität) : misst es wirklich das, was es messen soll? das gilt sowohl für die einzelnen verfahren (zb ein test ) als auch für das ganze auswahlverfahren )
1die autorinnen der din regen an, dass die anwenderinnen den verfahrensentwickler*innen anonymisierte daten für die verfahrenspflege (zb normierung ) und evaluation zur verfügung stellen
(die din empfiehlt dass organisationen, die solche verfahren nutzen , ihre (anonymisierten ) daten mit den enwickler*innen teilen. diese können dadurch das verfahren weiter verbessern zb neue normwerte berechnen oder die qualität des verfahrens evaluieren )
Was versteht man unter „Grad der Übereinstimmung zwischen den beurteilenden Personen“ und warum ist er wichtig?
Antwort:
Der Grad der Übereinstimmung misst, wie ähnlich mehrere Beurteilende ein Merkmal bewerten. Er ist wichtig, weil er zeigt, ob die Beurteilung verlässlich und objektiv ist, zum Beispiel bei Interviews oder Beobachtungen.
Was sollen Nutzer*innen von Eignungsverfahren laut DIN zusätzlich beitragen, um die Qualität der Verfahren zu sichern?
Sie sollen anonymisierte Daten an die Entwickler*innen weitergeben, um die Verfahrenspflege, z. B. Normierung und Evaluation, zu ermöglichen.
🔦
1. „Eignungsbeurteilungen sollen mit späteren beruflichen Leistungen korrespondieren; um dies sicherzustellen fordert die DIN eine Evaluation des Vorgehens“
➡️ Erklärung:
Eignungsbeurteilungen haben nur dann einen Wert, wenn sie wirklich vorhersagen, wie erfolgreich jemand später im Beruf ist.
Damit das überprüft werden kann, verlangt die DIN, dass man das Auswahlverfahren nachträglich evaluiert – also prüft, ob es tatsächlich zu beruflichem Erfolg führt.
2. „Integration von Einzelinformationen zu einem Gesamturteil kann klinisch oder mechanistisch/statistisch erfolgen; nach DIN ist nur letztere Integration zulässig“
Ein Gesamturteil (z. B. „geeignet“ oder „nicht geeignet“) entsteht meist durch das Zusammenführen vieler Einzelinfos (z. B. Testergebnisse, Interviews).
Dabei gibt es zwei Wege:
Klinisch: ein Mensch entscheidet „aus dem Gefühl heraus“ oder subjektiv.
Mechanistisch/statistisch: ein Regelwerk oder ein Punktesystem legt fest, wie Infos gewichtet werden. 👉 Die DIN erlaubt nur die mechanistisch/statistische Integration, weil sie objektiver und nachvollziehbar ist.
3. „Es sollten Verfahren ausgewählt und kombiniert werden, die eine hohe Kriteriumsgültigkeit erwarten lassen (→ Empirie)“
Nur Auswahlverfahren, die empirisch belegt (durch Studien nachgewiesen) eine hohe Vorhersagekraft (Kriteriumsgültigkeit) für beruflichen Erfolg haben, sollen verwendet werden.
Dazu gehören z. B. Intelligenztests oder strukturierte Interviews.
4. „Es gibt verschiedene Modelle, wie Einzelinformationen zu einem Gesamturteil über die Eignung integriert werden können“
Es existieren unterschiedliche Methoden (Modelle), mit denen man z. B. Testergebnisse, Noten und Intervieweindrücke zu einem Gesamturteil („geeignet“) zusammenführt.
Diese Modelle unterscheiden sich z. B. in der Gewichtung oder Berechnungsweise.
5. „Eine gelungene Personalauswahl hängt ab von einer hohen Kriteriumsgültigkeit der eingesetzten Verfahren, der Grundquote, sowie der Selektionsquote“
Ob eine Personalauswahl am Ende erfolgreich ist, hängt von drei Faktoren ab:
Wie gut die eingesetzten Verfahren tatsächlich den Berufserfolg vorhersagen (Kriteriumsgültigkeit).
Wie viele Bewerber*innen überhaupt geeignet sind (Grundquote).
Wie viele Personen man auswählt (Selektionsquote). 👉 Diese drei Faktoren beeinflussen die Trefferquote – also wie viele der eingestellten Personen wirklich geeignet sind.
1. Wie können Ergebnisse anderer Evaluationsstudien genutzt werden, um das nach DIN 33430 geforderte regelgeleitete Vorgehen bei der Urteilsbildung sicherzustellen?
👉 Antwort (aus Folie 42):
Wenn man mit der Validitätsgeneralisierung argumentieren will, muss man laut DIN genau angeben,
welche Befunde aus z. B. Metastudien generalisiert werden können
und begründen, weshalb (und in welchem Ausmaß) sich die Gültigkeitshinweise auf den konkreten Fall übertragen lassen, die sich aus diesen anderen Studien ergeben. (Quelle: DIN, 2016, S. 30 f.)
2. Welche wesentlichen Erkenntnisse lassen sich aus der Metaanalyse von Schmidt und Hunter (1998) gewinnen?
👉 Antwort (aus Folie 30):
Intelligenztests zeigen eine hohe Kriteriumsvalidität für Ausbildungs- und Berufserfolg.
Diese Tests gehören zu den Verfahrensgruppen, die fast immer Eignungsbeurteilungen mit hoher Vorhersagekraft ermöglichen.
Beispielhafte Werte für Korrelationen mit Berufserfolg:
Salgado et al. (2003): r = .56 (.62)
Hülsheger et al. (2006): r = .58 (.62)
Kramer (2009): r = .58 (.62) (Die Werte in Klammern sind korrigiert; ab r ≈ .5 gilt ein Zusammenhang als hoch.)
3. Was sollte beachtet werden, wenn die Kriteriumsgültigkeit von eignungsdiagnostischen Verfahren mit metaanalytischen Ergebnissen verglichen wird?
Wenn man Validitätsbefunde aus Metastudien auf den eigenen Fall anwenden will, muss man nach DIN:
klar angeben, welche Befunde übertragen werden,
begründen, warum und in welchem Ausmaß die Gültigkeit übertragbar ist. ➡️ Nur so ist eine regelgeleitete Evaluation des eigenen Vorgehens möglich.
4. Wie ließe sich auch mithilfe von eignungsdiagnostischen Aussagen von geringer Validität eine hohe Trefferquote erzielen?
👉 Antwort (aus Folien 32–34):
Auch bei geringerer Validität ist eine hohe Trefferquote erreichbar,
wenn zusätzlich:
die Grundquote hoch ist (viele geeignete Personen bewerben sich),
die Auswahlquote niedrig ist (es werden nur wenige ausgewählt).
➡️ Die Trefferquote steigt also auch dann, wenn die Kriteriumsvalidität nicht optimal ist, aber die Auswahlbedingungen günstig sind (vgl. Taylor-Russell-Modell).
Medien zur Vertiefung
Https Appcrewsandcaptains.con taylorrussell
7. Evaluation der Eignungsbeurteilung
Ergänzungen Notizen rein
NOTIZEN REIN
Last changed21 hours ago