Fallbeispiele
Gericht verbietet “Jungs-Quote” für Gymnasium
1/3 der Plätze sollen für Jungen reserviert werden
Oberverwaltungsgericht entscheidet: Quote als Verstoß gegen den Gleichheitsgrundsatz
Aufnahmetest für Medizin an der Uni Wien
Frauen 0.4 SD schlechter beim “Eignungstest Medizinstudium (EMS)”
in Schweiz und DE nur max. 0.1 SD
Erfassung von Wissen/Fähigkeiten in 10 Untertests
deutlichster Unterschied in:
quantitative und formale Probleme
Diagramme und Tabellen
medizinisch-naturwissenschaftliches Grundverständnis
Psychologe begründet unterschiedliche Cut-off-Werte
Kritik und Klagen, sodass wieder geändert
Definitionsversuch von Testfairness
Ein Test ist fair, wenn die Testwerte zu keiner systematischen Diskriminierung bestimmter Testteilnehmer zum Beispiel aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.
Einordnung/Geschichte von Testfairness
seit 70er Jahren als Nebengütekriterium für psychologische Testverfahren gefordert
wird nicht als Hauptgütekriterium angesehen
v.a., weil oft erst nach der Durchführung erforscht
jedoch auch Argumentation, dass Fairness und Validität nicht trennbar
wenn nur für manche valide, dann auch nicht fair
Testbias
= Bevorzugung einer Gruppe
Beispiel: Nepotismus = Vorteilsbeschaffung für Verwandte
Beispiel für Testbias
Werden computerunerfahrene Testteilnehmer bei einer Testung am PC benachteiligt?
Unerfahrenheit bindet kognitive Ressourcen für die Bedienung
vorheriges Maustraining nivelliert Unterschiede
nach Training klärt Unerfahrenheit praktisch keine Varianz im Kriterium mehr auf
Leistungsunterschiede zwischen Paper-Pencil- und computergestützter Durchführung verschwinden heutzutage allmählich
PISA
Programme for International Student Assessment
Beginn 2000er Jahre
Sichtbarkeit von Leistungsunterschieden unterschiedlicher Schulformen etc.
zunächst Widerstand, weil Lehrkräfte den Erfolg ihrer Lehrtätigkeit nicht messen wollten
Studenten-PISA-Test von Spiegel Online
Einladung nur für Spiegelleser
Ergebnis: Männer haben höhere Allgemeinbildung (= kristalline Intelligenz)
aber auch höhere Streuung
ist der Test fair?
nicht repräsentativ (nur Spiegelleser)
Männer kompetitiver
Geschlecht nicht experimentell manipulierbar
geschlechtsspezifische Items?
Beispiele für mangelnde (Geschlechts-)Fairness von Items
Arnika: Heilpflanze – bekannter bei Frauen
Hangar: Halle für Flugzeuge – bekannter bei Männern
Itemcharakteristische Kurve
Lösungswahrscheinlichkeit (y) als Funktion von Fähigkeit (x)
-> mit zunehmender Fähigkeit sollte die Lösungswahrscheinlichkeit steigen
in der Mitte ist das Item besonders trennscharf (informativ) -> höchste Steigung
hier Fähigkeit = Itemschwierigkeit
Differential Item Functioning (DIF) Analyse
Untersuchung von Fairness mit testtheoretischen Methoden
Frage: Unterscheiden sich die itemcharakteristischen Funktionen für verschiedene Gruppen?
wenn ja, ist die Lösungswahrscheinlichkeit für die Gruppen trotz gleicher Fähigkeit unterschiedlich
DIF-Parameter: Kennwert dafür, wie stark die Kurven gegeneinander verschoben sind
Kritik an DIF-Analyse
Problem, wenn nur Items gewählt werden, die kein Geschlecht bevorzugen
-> nicht repräsentativ für das Themengebiet
Geschlechtsfairness des Wirtschafts-Itemsets im Spiegel-Test
9 Items
Vorteil für Männer:
Wer ist der Mann auf dem Foto? - Vorstandsvorsitzender der Deutschen Bank (Joe Ackermann)
Vorteil für Frauen:
In welchem Zweig der gesetzlichen Sozialversicherung ist der Beitragssatz am höchsten? - Krankenversicherung
DIF nach Themengebieten im Spiegel-Test
manche Items bevorzugen Männer, manche Frauen
Männer schneiden trotz DIF im Bereich Kultur besser ab
viele Unterschiede also nicht auf DIF zurückzuführen
trotzdem methodisch schlechte Studie
Items sollten kein DIF aufweisen
DIF-Analyse des L2-Fremdsprachentest
Schwierigkeit der Items für Männer und Frauen auf den Achsen
Items entlang der Hauptdiagonalen sind fair
DIF-Verdacht, wenn Items von der Diagonalen abweichen
Beispiel für unfaires Item: Rookie
einfacher für Männer
Culture Fair Test
Vermeidung von Unfairness mitlhilfe kultur- und sprachfreier Intelligenztests
Hintergrund:
Diskriminierung bei Einwanderung in die USA im 19. und 20. Jahrhundert
Einwanderungs-IQ-Tests bei Anreise
„Was fehlt diesem Mann?“ – Die Krawatte
-> Problem: Sprache, soziale Schicht etc.
Beispiel für Culture Fair Test
Advanced Progessive Matrices
Test für fluide Intelligenz
Kritik: Wortschatz und Sprachstil bedeutungslos, dennoch steigern türkische Gastarbeiterkinder ihre Leistungen mit zunehmender Dauer des Aufenthalts
wahrscheinlich auch Trainingseinfluss?
The Chitling Intelligence Test by Adrian Dove (black sociologist)
Test mit Items, bei denen sicherlich Schwarze besser abschneiden
-> demonstriert, dass Wahl der Items einen Einfluss hat
Beispiel:
Many people say that "Juneteenth" (June 19) should be made a legal holiday because this was the day when:
(a) the slaves were freed in the USA
(b) the slaves were freed in Texas
(c) the slaves were freed in Jamaica
(d) the slaves were freed in California
(e) Martin Luther King was born
(f) Booker T. Washington died
The "Original Australian Test of Intelligence"
What number comes next in the sequence, one, two, three, __________?
„One, two, three, many....the kuuk thaayorre system of counting only goes to three...thana, kuthir, pinalam, mong, mong, mong, etc“.
„The word mong is best translated as "many" since it can mean any number between 4 and 9 or 10 after which yuur mong - "many figures" - would be more appropriate".
Probleme der Testfairness
Kommissionen sollen dafür sorgen, dass Minoritäten bei der Jobvergabe nicht zu kurz kommen (Quotensysteme)
Nachteil von Quotenregelungen: Hochqualifizierte können zugunsten von weniger qualifizierten Angehörigen von Minderheitsgruppen abgelehnt werden -> Leistungsmaximum nicht erreicht
Beispiel: Vietnam-Heimkehrer Murphy Archibald wurde fälschlicherweise an der Uni angenommen, weil man dachte er sei schwarz
unvorhersehbare Langzeiteffekte: je mehr Plätze für Minderheiten „reserviert“ werden, desto stärker werden die Bewerber der Mehrheit selegiert
-> Leistungsunterschied zwischen ihnen und der Minderheiten-Quote wird umso größer
Juristen in den Kommissionen stellen z.T. unmögliche Forderungen an Einstellungstests, z.B. perfekte Validität als Minimalkriterium
-> aus psychometrischer Sicht unrealistisch, weil Einstellungstests meist nur minimal besser als der Zufall (jedoch valide)
aufgrund dieser rigiden Forderungen wurden in den USA subjektive Einstellungsverfahren wie das Interview wieder beliebter, da hier eine Diskriminierung schwerer zu beweisen war
-> Einstellungssituation für Minoritäten verschlechtert sich dadurch
Modelle der Testfairness
keine richtige Definition
kein einheitlicher Maßstab zur Beurteilung der Fairness, sondern verschiedene Konzepte
es muss immer konkretisiert werden, was fair sein soll
-> je nachdem, welches gesellschaftspolitische Ziel handlungsbestimmend ist, wird ein anderes Fairnessmodell angewandt
Fairness gibt es nur im Hinblick auf Handlungs- und Entscheidungsaspekte, die genau expliziert werden müssen!
Verschiedene Fairnesskonzeptionen
Modell der proportionalen Repräsentation („Quotenmodell“ / „Identitätskonzept“)
Regressionsmodell von Cleary (mit am häufigsten verwendet)
Modell konstanter Verhältnisse von Thorndike
Fairnessmodell von Cole („Conditional probability model“)
Fairnessmodell von Linn („Equal probability model“)
1) Modell der proportionalen Repräsentation (“Quotenmodell” / “Identitätskonzept”)
ausgewählte Bewerber sollen der Population proportional entsprechen
nur bei Gültigkeit der Modellannahme erreichbar, dass sich Teilgruppen von Bewerbern „in Wirklichkeit“ nicht in ihren Mittelwerten unterscheiden
oder wenn es einfach egal ist
Erfüllung der Forderung ist deshalb methodisch fragwürdig und kann nur zu Lasten der Validität erfolgen
Normierung zum Umgang mit systematischen Gruppenunterschieden (Cut-offs gruppenspezifisch)
entspricht de facto der Vergabe von gruppenspezifischen Bonus- oder Maluspunkten
Grenzen (Beispiel Fluglotse): Welche Gruppen sollen repräsentiert werden?
Kritik: fast nie erfolgt eine Normierung für verschiedene soziale Schichten, obwohl Mittelwertsunterschiede hier besonders groß sind (starke soziale Selektion)
Identitätskonzept wird kaum ernsthaft vertreten
ausschlaggebende Frage sollte nicht sein, ob es überhaupt Unterschiede in Testmittelwerten gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen führen (aus diagnostischer Sicht)
2) Regressionsmodell (Cleary, 1986)
Ein Selektionsverfahren ist dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden sollen identisch sein (gleiche Steigung und gleicher Ordinatenabschnitt)“
Standardverfahren - Benchmark für alternative Modelle
Selektion allein aufgrund des vorhergesagten Kriteriumswerts, nicht aufgrund anderer Gruppierungsmerkmale
bessere Bewerber werden vorgezogen
Regressionsgerade: Zusammenhang zwischen Prädiktor und Kriterium (Validität) soll in allen Gruppen gleich sein
bei z-Standardisierung entspricht die Steigung dem Korrelationskoeffizienten
unterschiedliche Steigung = differentielle Validität
Beispiel für differentielle Validität
höhere Varianzaufklärung und somit Validität in Gruppe B
Praxisbeispiel: Schulnoten aus IQ-Tests sind besser vorhersagbar für Mädchen als für Jungen
Korrelation für Minoritäten oft geringer, weil ihre Daten weniger in die Testgestaltung einfließen
Problem: Verwendung einer gemeinsamen Regressionsgerade zur Bestimmung der Validität
Fehleinschätzungen bei unterschiedlicher Validität
Test auf Unterschiedlichkeit der Validität
Test auf Signifikanz der Unterschiedlichkeit der Steigungen der Geraden
jedoch nicht Signifikanz der Varianzaufklärung an sich
wegen oft unterschiedlicher Stichprobengrößen genügt signifikante Validität bei Majorität und nicht signifikante Validität bei Minorität nicht, um zu behaupten, dass sich die Validität für beide Gruppen unterscheidet
-> sehr häufiger statistischer Fehler: Unterschiedlichkeit angenommen aufgrund von Signifikanz (Validität bestätigt) in einer Gruppe, jedoch nicht (Validität nicht bestätigt) in der anderen
Existiert differentielle Validität für Bewerbungsverfahren?
In methodisch sorgfältig durchgeführten Studien meist kein Hinweis auf differentielle Validität
z.B. für Bewerber unterschiedlicher Hautfarbe in den USA und für Männer und Frauen beim Medizinstudium in Österreich
Mitglieder einer Minorität können im Mittel niedrigere Testscores haben
bei sonst identischer Regressionsgerade
Praxisbeispiel: Arbeiter- und Akademikerkinder
-> das Abschneiden im Kriterium wird nicht systematisch unter/überschätzt
Testbias: unterschiedlicher y-Achsenabschnitt
Mitglieder der Gruppe A erzielen bei gleichen Testscores systematisch höhere Werte im Kriterium
typische Ursache: Test erfasst eher gruppenspezifische Merkmale statt Kriteriumsvarianz
Praxisbeispiel: Abinoten im Ländervergleich
Abiturnoten im Ländervergleich
systematisch irrelevante Varianzquelle: Notenpraxis unterscheidet sich zwischen den Ländern
-> so werden Abiturienten aus Bayern systematisch benachteiligt
ZVS (Zentralstelle für die Vergabe von Studienplätzen): Konkurrenz soll innerhalb desselben Bundeslandes stattfinden
heute abgeschafft - Unis entscheiden selbst
Notwendigkeit eines zentralen Abiturs
Notwendigkeit standardisierter Testungen
große Unterschiede zwischen Ländern
15-Jährige in PISA-Studie:
Note 1 / 2 in Hamburg ~ Note 4 / 5 in Bayern
aber auch große Unterschiede innerhalb eines Landes
Problem: Schüler werden meist relativ benotet
falsche Annahme: Noten innerhalb einer Klasse müssen normalverteilt sein
Varianzquellen von Mathematikleistungen und -Noten
Leistung und Note haben verschiedene Varianzquellen
Leistung:
innerhalb von Schulen (= zwischen Schülern)
zwischen Bildungsgängen
zwischen Schulen (z.B. SöS)
zwischen Ländern
Note
hauptsächlich innerhalb von Schulen
zwischen Schulen (unterschiedliche SöS-Hintergründe)
kaum zwischen Ländern
gar nicht zwischen Bildungsgängen (Schulformen)
Lesekompetenz in Abhängigkeit vom Bildungsgang
große Überlappung
Problem: Mittelwerte der Gesamtschule unterhalb der Realschule
Akademiker- vs. Nicht-Akademiker-Kinder
Deutschland schneidet schlecht ab
Besuch der weiterführenden Schule im Wesentlichen Funktion der elterlichen Bildungsaspiration?
3) Modell konstanter Verhältnisse von Thorndike
Selektionsrate soll in allen Gruppen gleich sein
(RP + FP) / (RP + FN + RN + FP)
Anteil derjenigen, die den Cut-off im Test erreichen an allen Personen
FP = oberhalb des Cut-offs im Test, jedoch unterhalb im Kriterium
Kriteriumsleistung ggü. dem erreichbaren Maximum wird reduziert
USA: in abgeschwächter Form verankert in den „Uniform Guidelines for Employee Selection Procedures“
Auswahlverfahren diskriminierend bzw. unfair, wenn die Selektionsrate in einer Subgruppe <80% der Gruppe mit der höchsten Selektionsrate liegt
4) Alternatives Fairnessmodell von Cole (1973)
“conditional probability model”
Selektionsrate: (RP) / (RP + FN)
in beiden Gruppen sollen die im Kriterium Erfolgreichen mit gleicher Wahrscheinlichkeit ausgewählten werden
Rate fälschlich nicht Ausgewählter soll gleich sein
5) Alternatives Fairnessmodell von Linn (1973)
“equal probability model”
Selektionsrate: (RP) / (RP + FP)
für die Zugelassenen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein
Testfairness Fazit
prinzipielles Problem: Testfairness kann immer nur im Hinblick auf ein bestimmtes Kriterium geprüft werden
jedoch viele Kriterien, nach denen Gruppen gebildet werden können
-> eine Bevorzugung gesellschaftlich (bisher) benachteiligter Gruppen kann nach vielen Kriterien unfair, aber dennoch politisch erwünscht sein
The veil of ignorance
= „Schleier des Nichtwissens“
Gedankenexperiment des US-amerikanischen Philosophen John Rawls
Menschen sollen über die zukünftige Gesellschaftsordnung entscheiden, ohne zu wissen, an welcher Stelle dieser Ordnung sie sich später befinden werden. Sie wissen also nichts über ihre spätere Hautfarbe, Geschlecht, Religion, sozialen Status, materiellen Besitz, geistige und physische Fähigkeiten, Zugehörigkeit zu einer bestimmten Generation.
ideale Gesellschaft = Gesellschaft, die unter dem Schleier des Nichtwissens als gerecht empfunden wird
Zuletzt geändertvor 9 Monaten