undefined

by Evelina A.

Fallbeispiele

Gericht verbietet “Jungs-Quote” für Gymnasium
- 1/3 der Plätze sollen für Jungen reserviert werden
- Oberverwaltungsgericht entscheidet: Quote als Verstoß gegen den Gleichheitsgrundsatz
Aufnahmetest für Medizin an der Uni Wien
- Frauen 0.4 SD schlechter beim “Eignungstest Medizinstudium (EMS)”
  - in Schweiz und DE nur max. 0.1 SD
- Erfassung von Wissen/Fähigkeiten in 10 Untertests
- deutlichster Unterschied in:
  - quantitative und formale Probleme
  - Diagramme und Tabellen
  - medizinisch-naturwissenschaftliches Grundverständnis
- Psychologe begründet unterschiedliche Cut-off-Werte
- Kritik und Klagen, sodass wieder geändert

Definitionsversuch von Testfairness

Ein Test ist fair, wenn die Testwerte zu keiner systematischen Diskriminierung bestimmter Testteilnehmer zum Beispiel aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.

Einordnung/Geschichte von Testfairness

seit 70er Jahren als Nebengütekriterium für psychologische Testverfahren gefordert
wird nicht als Hauptgütekriterium angesehen
- v.a., weil oft erst nach der Durchführung erforscht
jedoch auch Argumentation, dass Fairness und Validität nicht trennbar
- wenn nur für manche valide, dann auch nicht fair

Testbias

= Bevorzugung einer Gruppe

Beispiel: Nepotismus = Vorteilsbeschaffung für Verwandte

Beispiel für Testbias

Werden computerunerfahrene Testteilnehmer bei einer Testung am PC benachteiligt?

Unerfahrenheit bindet kognitive Ressourcen für die Bedienung
vorheriges Maustraining nivelliert Unterschiede
nach Training klärt Unerfahrenheit praktisch keine Varianz im Kriterium mehr auf
Leistungsunterschiede zwischen Paper-Pencil- und computergestützter Durchführung verschwinden heutzutage allmählich

PISA

Programme for International Student Assessment
Beginn 2000er Jahre
Sichtbarkeit von Leistungsunterschieden unterschiedlicher Schulformen etc.
zunächst Widerstand, weil Lehrkräfte den Erfolg ihrer Lehrtätigkeit nicht messen wollten

Studenten-PISA-Test von Spiegel Online

Einladung nur für Spiegelleser
Ergebnis: Männer haben höhere Allgemeinbildung (= kristalline Intelligenz)
- aber auch höhere Streuung
ist der Test fair?
- nicht repräsentativ (nur Spiegelleser)
- Männer kompetitiver
- Geschlecht nicht experimentell manipulierbar
- geschlechtsspezifische Items?

Beispiele für mangelnde (Geschlechts-)Fairness von Items

Arnika: Heilpflanze – bekannter bei Frauen
Hangar: Halle für Flugzeuge – bekannter bei Männern

Itemcharakteristische Kurve

Lösungswahrscheinlichkeit (y) als Funktion von Fähigkeit (x)

-> mit zunehmender Fähigkeit sollte die Lösungswahrscheinlichkeit steigen

in der Mitte ist das Item besonders trennscharf (informativ) -> höchste Steigung
- hier Fähigkeit = Itemschwierigkeit

Differential Item Functioning (DIF) Analyse

Untersuchung von Fairness mit testtheoretischen Methoden
Frage: Unterscheiden sich die itemcharakteristischen Funktionen für verschiedene Gruppen?
- wenn ja, ist die Lösungswahrscheinlichkeit für die Gruppen trotz gleicher Fähigkeit unterschiedlich
DIF-Parameter: Kennwert dafür, wie stark die Kurven gegeneinander verschoben sind

Kritik an DIF-Analyse

Problem, wenn nur Items gewählt werden, die kein Geschlecht bevorzugen
-> nicht repräsentativ für das Themengebiet

Geschlechtsfairness des Wirtschafts-Itemsets im Spiegel-Test

9 Items
Vorteil für Männer:
- Wer ist der Mann auf dem Foto? - Vorstandsvorsitzender der Deutschen Bank (Joe Ackermann)
Vorteil für Frauen:
- In welchem Zweig der gesetzlichen Sozialversicherung ist der Beitragssatz am höchsten? - Krankenversicherung

DIF nach Themengebieten im Spiegel-Test

manche Items bevorzugen Männer, manche Frauen
Männer schneiden trotz DIF im Bereich Kultur besser ab
- viele Unterschiede also nicht auf DIF zurückzuführen
trotzdem methodisch schlechte Studie
- Items sollten kein DIF aufweisen

DIF-Analyse des L2-Fremdsprachentest

Schwierigkeit der Items für Männer und Frauen auf den Achsen
Items entlang der Hauptdiagonalen sind fair
- DIF-Verdacht, wenn Items von der Diagonalen abweichen
Beispiel für unfaires Item: Rookie
- einfacher für Männer

Culture Fair Test

Vermeidung von Unfairness mitlhilfe kultur- und sprachfreier Intelligenztests
Hintergrund:
- Diskriminierung bei Einwanderung in die USA im 19. und 20. Jahrhundert
- Einwanderungs-IQ-Tests bei Anreise
  - „Was fehlt diesem Mann?“ – Die Krawatte
  -> Problem: Sprache, soziale Schicht etc.

Beispiel für Culture Fair Test

Advanced Progessive Matrices

Test für fluide Intelligenz
Kritik: Wortschatz und Sprachstil bedeutungslos, dennoch steigern türkische Gastarbeiterkinder ihre Leistungen mit zunehmender Dauer des Aufenthalts
- wahrscheinlich auch Trainingseinfluss?

The Chitling Intelligence Test by Adrian Dove (black sociologist)

Test mit Items, bei denen sicherlich Schwarze besser abschneiden
-> demonstriert, dass Wahl der Items einen Einfluss hat
Beispiel:
Many people say that "Juneteenth" (June 19) should be made a legal holiday because this was the day when:
(a) the slaves were freed in the USA
(b) the slaves were freed in Texas
(c) the slaves were freed in Jamaica
(d) the slaves were freed in California
(e) Martin Luther King was born
(f) Booker T. Washington died

The "Original Australian Test of Intelligence"

What number comes next in the sequence, one, two, three, __________?

„One, two, three, many....the kuuk thaayorre system of counting only goes to three...thana, kuthir, pinalam, mong, mong, mong, etc“.
„The word mong is best translated as "many" since it can mean any number between 4 and 9 or 10 after which yuur mong - "many figures" - would be more appropriate".

Probleme der Testfairness

Kommissionen sollen dafür sorgen, dass Minoritäten bei der Jobvergabe nicht zu kurz kommen (Quotensysteme)
- Nachteil von Quotenregelungen: Hochqualifizierte können zugunsten von weniger qualifizierten Angehörigen von Minderheitsgruppen abgelehnt werden -> Leistungsmaximum nicht erreicht
- Beispiel: Vietnam-Heimkehrer Murphy Archibald wurde fälschlicherweise an der Uni angenommen, weil man dachte er sei schwarz
unvorhersehbare Langzeiteffekte: je mehr Plätze für Minderheiten „reserviert“ werden, desto stärker werden die Bewerber der Mehrheit selegiert
-> Leistungsunterschied zwischen ihnen und der Minderheiten-Quote wird umso größer
Juristen in den Kommissionen stellen z.T. unmögliche Forderungen an Einstellungstests, z.B. perfekte Validität als Minimalkriterium
-> aus psychometrischer Sicht unrealistisch, weil Einstellungstests meist nur minimal besser als der Zufall (jedoch valide)
aufgrund dieser rigiden Forderungen wurden in den USA subjektive Einstellungsverfahren wie das Interview wieder beliebter, da hier eine Diskriminierung schwerer zu beweisen war
-> Einstellungssituation für Minoritäten verschlechtert sich dadurch

Modelle der Testfairness

keine richtige Definition
kein einheitlicher Maßstab zur Beurteilung der Fairness, sondern verschiedene Konzepte
es muss immer konkretisiert werden, was fair sein soll
-> je nachdem, welches gesellschaftspolitische Ziel handlungsbestimmend ist, wird ein anderes Fairnessmodell angewandt

Fairness gibt es nur im Hinblick auf Handlungs- und Entscheidungsaspekte, die genau expliziert werden müssen!

Verschiedene Fairnesskonzeptionen

Modell der proportionalen Repräsentation („Quotenmodell“ / „Identitätskonzept“)
Regressionsmodell von Cleary (mit am häufigsten verwendet)
Modell konstanter Verhältnisse von Thorndike
Fairnessmodell von Cole („Conditional probability model“)
Fairnessmodell von Linn („Equal probability model“)

1) Modell der proportionalen Repräsentation (“Quotenmodell” / “Identitätskonzept”)

ausgewählte Bewerber sollen der Population proportional entsprechen
nur bei Gültigkeit der Modellannahme erreichbar, dass sich Teilgruppen von Bewerbern „in Wirklichkeit“ nicht in ihren Mittelwerten unterscheiden
- oder wenn es einfach egal ist
Erfüllung der Forderung ist deshalb methodisch fragwürdig und kann nur zu Lasten der Validität erfolgen
Normierung zum Umgang mit systematischen Gruppenunterschieden (Cut-offs gruppenspezifisch)
- entspricht de facto der Vergabe von gruppenspezifischen Bonus- oder Maluspunkten
- Grenzen (Beispiel Fluglotse): Welche Gruppen sollen repräsentiert werden?
Kritik: fast nie erfolgt eine Normierung für verschiedene soziale Schichten, obwohl Mittelwertsunterschiede hier besonders groß sind (starke soziale Selektion)
Identitätskonzept wird kaum ernsthaft vertreten
ausschlaggebende Frage sollte nicht sein, ob es überhaupt Unterschiede in Testmittelwerten gibt, sondern ob bestimmte Verfahren zu subgruppenspezifischen Fehleinschätzungen führen (aus diagnostischer Sicht)

2) Regressionsmodell (Cleary, 1986)

Ein Selektionsverfahren ist dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden sollen identisch sein (gleiche Steigung und gleicher Ordinatenabschnitt)“

Standardverfahren - Benchmark für alternative Modelle
Selektion allein aufgrund des vorhergesagten Kriteriumswerts, nicht aufgrund anderer Gruppierungsmerkmale
- bessere Bewerber werden vorgezogen

Regressionsgerade: Zusammenhang zwischen Prädiktor und Kriterium (Validität) soll in allen Gruppen gleich sein
- bei z-Standardisierung entspricht die Steigung dem Korrelationskoeffizienten
- unterschiedliche Steigung = differentielle Validität

Beispiel für differentielle Validität

höhere Varianzaufklärung und somit Validität in Gruppe B
- Praxisbeispiel: Schulnoten aus IQ-Tests sind besser vorhersagbar für Mädchen als für Jungen

Korrelation für Minoritäten oft geringer, weil ihre Daten weniger in die Testgestaltung einfließen
Problem: Verwendung einer gemeinsamen Regressionsgerade zur Bestimmung der Validität
- Fehleinschätzungen bei unterschiedlicher Validität

Test auf Unterschiedlichkeit der Validität

Test auf Signifikanz der Unterschiedlichkeit der Steigungen der Geraden
jedoch nicht Signifikanz der Varianzaufklärung an sich
- wegen oft unterschiedlicher Stichprobengrößen genügt signifikante Validität bei Majorität und nicht signifikante Validität bei Minorität nicht, um zu behaupten, dass sich die Validität für beide Gruppen unterscheidet
-> sehr häufiger statistischer Fehler: Unterschiedlichkeit angenommen aufgrund von Signifikanz (Validität bestätigt) in einer Gruppe, jedoch nicht (Validität nicht bestätigt) in der anderen

Existiert differentielle Validität für Bewerbungsverfahren?

In methodisch sorgfältig durchgeführten Studien meist kein Hinweis auf differentielle Validität
- z.B. für Bewerber unterschiedlicher Hautfarbe in den USA und für Männer und Frauen beim Medizinstudium in Österreich

Mitglieder einer Minorität können im Mittel niedrigere Testscores haben
- bei sonst identischer Regressionsgerade
- Praxisbeispiel: Arbeiter- und Akademikerkinder
-> das Abschneiden im Kriterium wird nicht systematisch unter/überschätzt

Testbias: unterschiedlicher y-Achsenabschnitt
Mitglieder der Gruppe A erzielen bei gleichen Testscores systematisch höhere Werte im Kriterium
typische Ursache: Test erfasst eher gruppenspezifische Merkmale statt Kriteriumsvarianz

Praxisbeispiel: Abinoten im Ländervergleich

Abiturnoten im Ländervergleich

systematisch irrelevante Varianzquelle: Notenpraxis unterscheidet sich zwischen den Ländern

-> so werden Abiturienten aus Bayern systematisch benachteiligt

ZVS (Zentralstelle für die Vergabe von Studienplätzen): Konkurrenz soll innerhalb desselben Bundeslandes stattfinden
- heute abgeschafft - Unis entscheiden selbst
Notwendigkeit eines zentralen Abiturs

Notwendigkeit standardisierter Testungen

große Unterschiede zwischen Ländern
15-Jährige in PISA-Studie:

Note 1 / 2 in Hamburg ~ Note 4 / 5 in Bayern
aber auch große Unterschiede innerhalb eines Landes
- Problem: Schüler werden meist relativ benotet
- falsche Annahme: Noten innerhalb einer Klasse müssen normalverteilt sein

Varianzquellen von Mathematikleistungen und -Noten

Leistung und Note haben verschiedene Varianzquellen
Leistung:
- innerhalb von Schulen (= zwischen Schülern)
- zwischen Bildungsgängen
- zwischen Schulen (z.B. SöS)
- zwischen Ländern
Note
- hauptsächlich innerhalb von Schulen
- zwischen Schulen (unterschiedliche SöS-Hintergründe)
- kaum zwischen Ländern
- gar nicht zwischen Bildungsgängen (Schulformen)

Lesekompetenz in Abhängigkeit vom Bildungsgang

große Überlappung
Problem: Mittelwerte der Gesamtschule unterhalb der Realschule

Akademiker- vs. Nicht-Akademiker-Kinder

Deutschland schneidet schlecht ab
- Besuch der weiterführenden Schule im Wesentlichen Funktion der elterlichen Bildungsaspiration?

3) Modell konstanter Verhältnisse von Thorndike

Selektionsrate soll in allen Gruppen gleich sein
- (RP + FP) / (RP + FN + RN + FP)
- Anteil derjenigen, die den Cut-off im Test erreichen an allen Personen
- FP = oberhalb des Cut-offs im Test, jedoch unterhalb im Kriterium
Kriteriumsleistung ggü. dem erreichbaren Maximum wird reduziert
USA: in abgeschwächter Form verankert in den „Uniform Guidelines for Employee Selection Procedures“
- Auswahlverfahren diskriminierend bzw. unfair, wenn die Selektionsrate in einer Subgruppe <80% der Gruppe mit der höchsten Selektionsrate liegt

4) Alternatives Fairnessmodell von Cole (1973)

“conditional probability model”

Selektionsrate: (RP) / (RP + FN)
- in beiden Gruppen sollen die im Kriterium Erfolgreichen mit gleicher Wahrscheinlichkeit ausgewählten werden
- Rate fälschlich nicht Ausgewählter soll gleich sein

5) Alternatives Fairnessmodell von Linn (1973)

“equal probability model”

Selektionsrate: (RP) / (RP + FP)
- für die Zugelassenen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein

Testfairness Fazit

prinzipielles Problem: Testfairness kann immer nur im Hinblick auf ein bestimmtes Kriterium geprüft werden
- jedoch viele Kriterien, nach denen Gruppen gebildet werden können

-> eine Bevorzugung gesellschaftlich (bisher) benachteiligter Gruppen kann nach vielen Kriterien unfair, aber dennoch politisch erwünscht sein

The veil of ignorance

= „Schleier des Nichtwissens“

Gedankenexperiment des US-amerikanischen Philosophen John Rawls
Menschen sollen über die zukünftige Gesellschaftsordnung entscheiden, ohne zu wissen, an welcher Stelle dieser Ordnung sie sich später befinden werden. Sie wissen also nichts über ihre spätere Hautfarbe, Geschlecht, Religion, sozialen Status, materiellen Besitz, geistige und physische Fähigkeiten, Zugehörigkeit zu einer bestimmten Generation.
ideale Gesellschaft = Gesellschaft, die unter dem Schleier des Nichtwissens als gerecht empfunden wird

Join Course

Preview

Author

Evelina A.

Information

Last changed
10 months ago

Report course