Was schlugen Muthukrishna et al. vor?
die kulturelle und psychologische Distanz mittels eines empirisch entwickelten multidimensionalen Index messbar zu machen
Was waren dabei die Inputvariablen?
Hofstedes Kulturdimensionen
Gelfands Tightness vs. Looseness
Schwartz Wertestruktur
NEO-PI-R-based Big-5 Werte
geografische Distanzwerte
weitere
Wovon ist die sinnvolle Erfassung systematischer Unterschiede zwischen Personen(-gruppen) abhängig?
Evidenz relevanter Populationen
geeignete Messinstrumente zur Erfassung von Merkmalen
Vergleichbarkeit von Messinstrumenten zwischen Populationen
Sind Messinstrumente, die in einer Population geeignet zur Erfassung eines Merkmales sind, auch dazu geeignet dieses Merkmal zwischen mehreren Populationen zu vergleichen?
“Vielleicht”
Warum “Vielleicht”?
Unterschiede in Itemschwierigkeiten zwischen Gruppen (=> mangelnde Fairness) lassen sich in Bezug zu verschiedenen Variablen / Merkmalen beobachten
• Differential Item Functioning (DIF)
• Evidenz für measurement non-invariance
Z.B.: Unterschiede in Itemcharakteristiken zwischen Kohorten (= Gruppen) verschiedener Jahre
IST-70 Satzergänzen:
Wesentlich am Fernsehgerät ist/sind der/die…?
a) Transistoren b) Abstellknopf c) Antenne d) Bildröhre e) Kontrastregler
=> Wir können nur dann Gruppen/Kulturen fair miteinander vergleichen, für den Fall, dass wir
measurement invariance etabliert haben.
Beispiel: Kulturvergleich Österreich-Singapur bzgl. Raumvorstellungsfähigkeit mittels des 3DW: Vorgehensweise und Ergebnisse?
Was ist wichtig, um faire und sinnvolle Gruppenvergleiche zwischen mehreren Ländern durchführen zu können und was ist dabei beim Rasch-Modell eingeschränkt?
es sollte Invarianz über alle Länder/Gruppen hinweg etabliert werden
beim Rasch-Modell Beschränkung auf zwei Länder/Gruppen
Was ermöglicht die Multigroup confirmatory factor analysis (MGCFA)?
measurement invariance (MI) Analysen für mehr als 2 Gruppen
-> vier Levels von MI lassen sich unterscheiden
-> können schrittweise etabliert und anschließend miteinander verglichen werden
Welche vier Levels werden unterschieden?
Configural invariance: Äquivalenz der Modelle
-> anders gesagt: Messen die Items in versch. Gruppen dasselbe Konstrukt?
Metric (Weak) invariance: Äquivalenz der Itemladungen auf Faktoren
-> Messen die Items in verschiedenen Gruppen das Konstrukt in der gleichen Weise und der gleichen Genauigkeit?
Scalar (Strong) invariance: Äquivalenz der Itemintercepts
-> Haben die Items in verschiedenen Gruppen den gleichen Skalenursprung?
Residual (Strict) invariance: Äquivalenz von Itemresiduen
-> Haben die Items in verschiedenen Gruppen äquivalente Uniqueness (= Fehlervarianz und spezifische Varianz)
Wie kann überprüft werden ob sich verschiedene Level von MI annehmen lassen?
durch Modelfit-Statistiken:
Ein gängiges Kriterium ist die Veränderung von CFIs (Comparative Fit Indices) => wird die CFI Differenz zwischen zwei Modellen größer als 0.01, geht man davon aus, dass das höhere Level nicht angenommen werden kann
Ist ein höheres Level nicht annehmbar, kann versucht werden partielle measurement invariance zu etablieren (Ladungen, Thresholds, Intercepts von Items mit höchstem Modification Index werden in Gruppen geschätzt)
Als Faustregel gilt, dass nicht mehr als 1/3 der Items frei geschätzte Parameter haben sollten
Was ist, wenn die ersten drei Level von MI etablierbar sind?
-> Was ist im Anschluss möglich?
Die Mittelwertsvergleiche sind zulässig und nachweislich fair
-> die Schätzung latenter Mittelwerte und Standardabweichungen
Wiederholung TT: Faktorenanalyse
Welche Vorterile hat die Verwendung latenter Mittelwerte?
Fairness der Verrechnung in Bezug auf verglichene Gruppen
Berücksichtigung von Messfehlern
Theoretische Fundierung der Scores (im Gegensatz zum “Durchschnitt” einfacher Rohscores) -> Scores basieren auf einfachem Messmodell
empirisch fundierte Intervallskaleneigenschaft der Werte
höhere Sensitivität für die Erkennung von Gruppenunterschieden im Vergleich zu Rohscores
höhere Robusthet gegenüber Werten von Outlier-Items
Wie verhält sich der IQ zwischen verschiedenen Ländern?
plausibel, dass Unterschiede bestehen
Welche Ursachen gibt es für die Unterschiede im IQ?
Bildungsstandards
Schulsysteme
Wohlstand
Zugang zu Bildung
National IQ Database: Aufbau der Studie
Warum wurde die National IQ Database kritisiert?
• Angebliche Willkür bei Auswahl von Stichproben
• Mangelnde Repräsentativität von Stichproben
• Verwendung von Proxywerten bei Nichtvorhandensein von Daten einzelner Länder
• Unterschiedliche Erhebungszeitpunkte von Stichproben
• Unzuverlässige Annahmen zur Korrektur von Flynn-Effekten
• Unplausible Werte für etliche Länder (z.B.: Durchschnitts-IQ von ~40 für Nepal?)
=> Hauptproblem bleibt jedoch Frage der Vergleichbarkeit der Testergebnisse in unterschiedlichen Ländern
Welcher Test ist ein gutes Beispiel für Kulturfairness in Leistungstestsund was zeichnet ihn aus?
Wiener Matrizentest 2
LLTM- (Linear Logistisches Testmodell-) basierte Konstruktion
d.h. Schwierigkeit einzelner Operationen (z.B. Variieren, Addieren, Rotieren) wurden geschätzt und anschließend schwierige Items konstruiert
Was isnd Charakteristika des WMT-2?
• Der Test scheint in Österreich bezüglich Geschlecht fair zu messen (595w, 559m)
• Kulturvergleich zwischen Österreich und den Vereinigten Arabischen Emiraten (VAE) scheint Kulturfairness zu attestieren
=> VAE Ergebnisse eher instabil, weil kleine
Stpr. (n = 48)
• Kulturvergleich zwischen Österreich und Togo in WMT zeigte Kulturfairness => Legt nahe, dass WMT-2 ebenfalls kulturfair für
diese beiden Nationen ist
Was ist ein gutes Beispiel für Kulturfairness in Fragebogen?
Body appreciation around the world (BAS-2)
Body appreciation laut Tylka und Wood-Barcalow (2015): „Den Körper akzeptieren, ihm wohlwollend gegenüberstehen und ihn respektieren, während man
gleichzeitig die von den Medien propagierten Schönheitsideale als die einzige Form menschlicher Schönheit ablehnt“
Positives Körperbild = Zentrale Domäne für Body appreciation
Nicht das Gegenteil eines negativen Körperbilds
Daten aus 65 Nationen (N = 56,968; 58.9%w; mean age =
33.1; mean BMI 24.46)
Skalare Invarianz kann angenommen werden
UK (links) / Englishspeakers (rechts) als „Nullmeridian“ für
body appreciation
Unterschiede in Cohen‘s d im Vergleich zu Referenzgruppe
Positive Cohen‘s d‘s bedeuten höhere, negative niedrigere
Was war das Ergsbnis beim BAS-2 auf Personenlevel?
Positiver Zshg. zwischen Lebenszufriedenheit, „Single sein“ und Leben außerhalb von Großstädten mit body appreciation.
Was war das Ergsbnis beim BAS-2 auf Nationenlevel?
Positiver Zshg. von kultureller Distanz (Bezug zu USA; vgl. oben bei Muthukrishna) und Gini-Koeffizienten mit body appreciation => in weniger egalitären und WEIRDen Ländern berichten Personen höhere body appreciation.
Mit welcher Annahme sind die Ergebnisse auf Personenlevel konsistent?
• dass z.B.: in gesundheitspsychologischen Interventionen eine Förderung von body appreciation zu höherem psychologischen Wohlbefinden von Personen führen könnte
• dass Leben in Großstädten mglw. mit höherem Druck einem bestimmten Körperideal zu folgen verbunden ist => kann Entwicklung von body appreciation behindern
• Leben in ländlichen Gegenden erhöht mglw. Wahrscheinlichkeit öfter mit positiv stimulierenden Umwelten in Berührung zu kommen (=> ähnlich zu Ergebnissen der Umweltpsychologie; vgl. auch Kaplan & Kaplan, 1989, zur „soft fascination) => resultierende positive Emotionen unterstützen Entwicklung von positivem Selbstkonzept
Mit welcher Annahme sind die Ergebnisse auf Nationenlevel konsistent?
• dass in weniger WEIRDen und inegalitäreren Nationen Selbstwert von Personen weniger stark mit körperlichem Erscheinungsbild verbunden ist.
• dass mitunter höherer Fokus auf das physische Selbst i.S.v. körperlicher Funktionalität statt dem Erscheinungsbild gelegt wird.
•dass in kollektivistische Kulturen vermehrte Erfahrung von Akzeptanz von Körpererscheinung durch andere gemacht wird => führt zu höherer body appreciation
Zuletzt geändertvor einem Monat