Was ist bei der Testanwendung zu beachten?
Der Testname sagt oft wenig aus / immer ins Handbuch / Manual schauen
Für die Frage, welche Gütekriterien besonders bedeutsam sind, ist der Zweck des Testeinsatzes entscheidend.
Auswahl von Bewerbern —> Kriteriumsvalidität
Effekt eines Trainers —> Änderungssensitibität
Einordnung einer Person —> Reliabilität
Einordnung in die Zukunft —> Re-Test ReliabilitäT
Prüfen, ob aktuelle Norm-Tabellen vorhanden sind —> nicht aus Bequemlichkeit oder Kostem alter Tests verwenden
Ist der Test für die Fragestellung wirklich angemessen —> im Manual prüfen
Sind die notwendigen Voraussetzungen beim Prüfling vorhanden (Sehvermögen, Motorik, Hörvermögen, Sprachverständins, etc.)
Hat der Proband eventuell Ergahrungen mit dem Test (Übungseffekte möglich)
Besteht die Vermutung, dass der Proband sein Testergebnis “beschönigt” (z.B. Auswahlverfahren, wichtige Konsequenzen) oder zu “verschlechtern” (z.B. Versicherungsleistung, Schadenersatz) oder hat der Proband sich vorher in kommerziellen Test-Trainings Briefen lassen
Schwer verfälschte Tests wählen
Tests regelmäßig austauschen (wenn möglich)
Durch Übungsaufgaben gleiche Bedingungen für alle schaffen
Keine Infos über das diagnostische Verfahren nach außen dringen lassen
Ist ggf. eine Gruppen-Testung möglich?
ABER: manchmal geht nur Einzeltestung bzw. Ist sinnvoller
Ggf. Einsatz von Parallel- / Pseudoparallelformen
Ist ggf. Nur ein anonymer Selbst-Test (Self-Assessment) zur Erhöhung der Basisrate durchgeführt werden
Soll eine online-basierte, nicht anonyme Vorauswahl durchgeführt werden
Sind die technischen Mittel beim Proband gegeben
Soll ggf. Nur ein anonymer selbst-test (Self-Assessment) zur Erhöhung der Basisrate durchgeführt werden?
Wa sind Vor- und Nachzeile Online-basierter Verfahren.
Vorteile:
Kostengünstiger
Einfache Vorauswahl möglich
Self-Assessment ohne Pflegeaufwand möglich
Technisch unterstützte Interaktivität möglich (z.B, Planspiele)
Nachteile:
Pb kann Hilfe bekommen
nur Uassieben von schlechten Bewerbern möglich
Keine Kontrolle der Untersuchungssituation (ggf. Störungen)
Ungewollte Verbrietung von Testaufgaben möglich
Für PB ungewohnte Testsituatiom
Was ist bei der Gestaltung der Untersuchungssituation zu beachten? (Schmidt-Atzert, Amelang, 2012)
Entschiedung, ob Paier-Bleistiff oder Computertest
Abwägung von Personal vs. Software-Kosten
Überlegung, ob lang dauernde Leistunbstests zumutbar sind
Eine lange Tastdauef heißt ich's unbedingt, dass die Testzeitpunkgen v sinkt, keine klaren Ermüdungseffekte
Aufklärung der Probanden über die Untersuchung, da…
gebot durch das Prinzip der informierten Einweilligung
Untersuchung eher als fair wahrgenommen wird
Testangst reduziert werden kann
Bei gruppentestung keine Fragen zwischendurch möglich sind und vorher geklärt werden müssen
pb wissen müssen, wie lange der Test ist, um Ermpdungseffemzen vorzubeugen
Gute Arbietsbedingungen herstellen
Keine Störunben (z.B Handy etc)
Pausen
Test- Prüfungsangst z.B. durch Augwärmphasd verringern
Standardisierung der Untersuchungsbedingungen
Schulung von Testleistern
Testauswertung
Was ist bei der Darstellung der Ergebnisse zu beachten?
Oft keine einheitlichen Metrik von Ergebnisdaten
Immer explizite Erläuterung der Ergebnisse
Mögliches Vorgehen bei der Kategorisierung der Ergebnisse
Einteilung in “5 Bereiche”: sehr niedrig, niedrig, durchschnittlich, hoch, sehr hoch,
Mittlerer / durchschnittlicher Bereich = +- halbe StAbw. (d.h. 38% der Pb sind durchschnittlich) oder ganze StAbw. (d.h. 68% der PB sind durchschnittlich)
Weitere Bereiche jeweils 1 StAbw groß
Mitteilung des Testergebnis sollte 4 Kernelemente enthalten
Das Merkmal wird benannt (Lebenszufriedenheit)
Die Ausprägung wird einheitlich sprachlich eingeordnet (hoch)
Die Referenzgruppe wird erwähnt (gleichaltrige Männer)
Das konfidenzintervall wird mitgeteilt. (Kann unter Berücksichtigung der Messgenauigkeit sehr hoch sein).
Beispiel:
“In diesem Testverfahren wurden die Angaben des Probanden mit denen etwa gleichaltriger Mönner vergleichen. Das Ergebnis spricht für eine hohe Lebenszufriedenheit, die unter. Erpcksichtigung der messgenauigkeit des Fragebogens auch sehr hoch sein kann.”
Wie sieht der Vorschlag der Uni Margburg?
Wie kommt das diagnostische Urteil zustande?
Klinische Urteilsbildung
Individuelle (subjektive) Urteile von Menschen
Fehlerquellen:
Ignorieren der Grundeahrschienlichmeig von Verhalten (Basisrate)
Falsche Gewichtung von Inforamtionen (z.B. Verfügbarekktesheuristik)
Regression zur Mitte ignorieren
Interviewer
Absicherung:
Multimodales Vorgehen
Vorgehen im diagnostischen Prozess beachten, v.a. valide Einzelquellen
Statistische (mechanistische) Urteilsbildung
Urteile auf Basis von Formeln auf Basis von statistischen Überprüfungen und methodischen Überprüfungen
In der Regel der klinischen Urteilsbildung überlegen
Zugewinn hängt aber von inhaltlicher Fragestellung ab
Konsequenzen für Praxis
Empirische Faktoren kennen / verbessern
Widerstand der Praktiker beachten
Diagnostiker soll die mechanische Vorhersage kennen (Gewichtung)
Diagnostiker soll die Vorhersage in begründeten Fällen kennen
Welche Atten von Entschiedungsstrategien kennen Sie?
Einstufunge Entscheidungen
Mehrstufige Entscheidungen
Worauf wird bei Einstufigen Entschiedungen geachtet?
Nichtsequentielle Batterie:
ausgewählt werden Probanden mit (optimal) gerichtetem Summenwert
Single Screen: Ein Verfahren wird zur Entschiedung herangezogen
Worauf wird bei Mehrstufigen Entscheidungen geachtet?
Vorauswahl (per-reject): Nichtreichend von Mindestkriterouk bei erstem Test führt zum Ausschluss (Gruppe I), Rest wird weiter getestet
Vorentscheidung (per-accelt): Erreichen des Mindestkriteroum im ersten Test führt zur Akzeptierung (Gruppe II), Rest wird weitergetestet
Vollständig sequenziell: Kombination aus vorherigen Optionen, Nichterreichen von Kriterium führt zum Ausschluss (Gruppe I), Erreichen von Kriterium führt zu Akzeptanz (Gruppe II), Rest wird weitergetestet
Wie lassen sich Kompensatorische Entscheidungen (Summenwert) beschreiben?
Prädiktoren können sich gegenseitig ausgeblichen:
Bsp.: ein schlechtes Zeugnis kann mit viel Praxis-Erfahrunb ausgeglichen werden
Bsp.: Notendurchschnitt Zeugnis
Gewichtung der Prädiktoren kann sich unterschieden (berechnet mit multipler Regression - B - Gewichte)
Wie lässt sich die Kompensatorische Entschiedung (ODER - Entscheidung) erklären?
Es genügen ausreichend hohe Punkmze in EINEM der Prädikatorem
Bsp.: Dozent, der in mind. 1 Fach gut ist
Ergebnisse werden nicht verrechnet
Bsp.: Proband hat A > 110 oder B > 100
Beide Personen in Grafik wurden eingestellt
Beachte: Kompensatorische Entscheidungen funktionieren ich, wenn Proband ein Mindestmaß in Kompetenzen braucht (z.B. Pilot)
Wie lassen sich Konjunktive Entscheidungen (UND-Entscheidungen) beschreiben?
ausreichend hohe Punkte in allen Prädikatorem
multiple cut-off Modell
Bsp.: Prof muss gute Lehr- und Forschungskompete z haben
Insgesamt konservativeres Vorgehen als bei kompensatorischen Entscheidungen
Bsp.: Person 1 und 2 werden beide nicht eingestellt
Konjunktiv: Pulli ist Ultra geil, aber teuer
—> Wemn ich das Geld nicht habe, kaufe ich ihn aber nicht
Vergleiche kompensatorisch vs. Konjunktiv ?
Kompensatorisch (Summe / Durschnitt > 110), kompensatorisch (A oder B > 110), Konjunktiv (A und B > 110)
Person 1 wird IMMER angenommen
Person 2 wird IMMER abgelehnt
Person 3 wird abgelehnt bei Summe und bei UND, aber angenommen bei ODER
Person 4 wird angenommen bei Summer und bei ODER, aber abgelehnt bei UND
Entscheidungsfehler & Gütekriterien — Probleme und Fehler bei Entscheidungen
Aufgabe, welcher Fehler ist der schlimmere Fehler? Alpha oder Beta Fehler? (z.B. Personalauswahl)
Unternehmenssicht: Alpha-Fehler: Person wäre nicht geeignet, man nimmt sie aber
Bewerber: Beta-Fehler: man wird nicht geeignet, obwohl man geeignet ist
Alpha-Fehler: ich nehme einen Zusammenhanh an, obwohl keiner da ist
Beta-Fehler: Ich nehme keinen Zusammenhanh an, obwohl einer da ist
Beispiel Krebs:
Alpha-Fehler: Patient hat Krebs, obwohl er es nicht hat
Beta-Fehler: Arzt sagt Patieng hat keinen Krebs, obwohl er es hat
Nachvollziehen der Berechnung:
Zusammenhang der Gütekriterien
Was ändert sich, wenn der cut-off-Wert (X1 vs X1’ vs X’’) sich verändert?
Es kommt zu einer Änderung der…
Sensitivität
Spezifizät
beide Bedingungen sich gegenseitig
Weniger FP führt zu mehr FN
Weniger FN führt zu mehr FP
beide sind jedoch unabhängig von der Basisrate ( = Anteil der tatsächlich getesteten Probanden
Von der Basisrate abhängig ist aber die Effizienz der Auslese ( = positiver Profuktionswert
Bei gegebener Basisrate Y1 würde Testwert X1’ zu einer perfekten Auswahl führen (alle Ausgewählten sind auch tatsächlich geeignet, positiver Prädiktionswert = 1)
Bei angehobenen Anforderunben Y1 (d.h. Weniger geeigneten Personen) müssen ein noch höherer Testwert X1’’ gewählt werden, um falsch ausgewählte Personen zu verhindern (2-Fehler)
Beachte: Beta-Fehler wird dabei nicht berücksichtigt
Welche Gütekriterien sind in Bezug auf diese Abbilung relevant?
—> Gibt am, bei welchem Prozentsatz erkrankter Patienten der Test tatsächlich positiv ist. In Einzelfällen zeigt der Test ein negatives Ergebnis bei jemandem, der infiziert war.
(tP / (TP+FN)
Spezifität
—> Gibt die Wahrscheinlichkeit an, dass tatsächlich Gesunde im Test als gesund erkannt werden. Denn es kommt auch vor, dass jemand ein positives Ergebnis erhält, der gar keine Infektion hatte.
Positiver Prädiktionswert
—> Anzeil richtig diagnostizierten Geeigneten an allen als geeigneten diagnostizierten Personen
Negativer Prädiktionswert
—> Anteil richtig diagnostizierter ungeeigneten Annalen als ungeeignet diagnostizierten
Alpha-Fehler:
—> Wahrschienlichkeit, dass Nullhypothese abgelehnt wird, obwohl sie in Wirklickeit zutrifft.
Minimieren: Test strenger machen
Beta-Fehler:
—> Wahrscheinlich, dass Nullhypothese beibehalten wird, obwohl sie in Wirklichkeit nicht zutrifft
Beschreibe die Taylor-Russel-Tafeln
Beschreibe “Basisrate”, “Selektionsrate” und “Trefferquote/Erfolgsrate”.
Baisirate: der Anteil der geeigneten bewerber an allen Bewerbern
Selektionsrate: Anzeil der Persomem, den man aus der Population der Bewerber mithilfe des Testinstruments auswählen will
Trefferquote / Erfolgrate: Anteil der geeigneten Bewerber an allen ausgewählten Bewerbern. Das sind also diejenigen, die tatsächlich “geeignet” sind und korrekterweise genommen werden.
eine gute Auswahl (Trefferquote) liegt dann vor, wenn dieser Anteil maximal ist.
Es gilt: Die Trefferquote ist umso höher, je höher Basisrate und Validität sind, aber je niedriger die Selektionsrate ist.
Zuletzt geändertvor 2 Jahren