Welche Methoden der Itemsauswahl gibt es?
1. Korrelationen der Items untereinander (Interkorrelationen)
2. Korrelationen mit externen Kriterien (z.B. Gruppenzugehörigkeiten)
3. Kognitive Interviews
4. Experten-Ratings
Was sind die vier statistischen Grundvoraussetzungen die man von der Item Auswahl prüfen muss?
1. Stimmen Minima und Maxima der Variablen? .
2. Wurden Variablen, die negativ kodiert sind, rekodiert?
3. Sind die Variablen approximativ normalverteilt?
4. Differenzieren die Variablen zwischen Personen?
=>Erfüllt ein Items nicht alle diese Aspekte, dann sollte dieses ausgeschlossen werden!
Wie prüft man ob Variablen approximativ normalverteilt sind?
· Approximativ normalverteilte Variablen haben Vorteile, vor allem bei der Interpretation statistischer Kennwerte wie Korrelationen
· Signifikanztests (z.B. Kolmogorov-Smirnov-Test) zur Überprüfung der Normalverteilung machen wenig Sinn
o Kleine/moderate Stichprobe = Normalverteilung wird quasi nie abgelehnt (zu niedrige Power)
o großen Stichprobe = Normalverteilung wird quasi immer abgelehnt (zu hohe Power); minimale Abweichungen werden schon signifikant=> Verzerrung
=>Sinnvoller ist die Beurteilung der Normalverteilung anhand Schiefe und Kurtotsis oder grafisch
· Grafische Überprüfung anhand eines Histogramms (Grafische Überprüfung erfordert größere Stichproben (mehrere hundert))
·
Welche Grenzwerte sollten Schiefe und Kurtosis haben?
· Beurteilung anhand der Grenzwerte (nach Hair et al.,2018) für Schiefe (-2 bis +2) und Kurtosis (-7 bis +7)
o Werte in dieser Range deuten auf Normalverteilung hin (0 bedeutet normalverteilt; je größer die Abweichung, desto weiter sind die Werte von Null entfernt)
Wie stellt man fest ob Item sich Personen differenziert und in welchem Bereich?
· Ausschließen: Items mit sehr geringer Standardabweichung (können nicht gut differenzieren)
o Es gibt keinen klaren Cutoff-Wert
o Nur im Vergleich zwischen Items sinnvoll, um Ausreißer zu identifizieren
· Mittelwert und Itemschwierigkeitsindex zeigen, ob ein Item im unteren, mittleren oder oberen Bereich differenziert
Items mit extremen Mittelwerten differenzieren nicht zwischen Personen
Was versteht man unter dem “Schwierigkeitsindex” und wie berechnet man ihn? Welche Items soll man laut ihm auswählen?
o Da Mittelwerte immer von der Skala abhängen, werden Mittelwerte typischerweise in Schwierigkeitsindices (P) transformiert: 𝑃 = 𝑋/ 𝑋𝑚𝑎𝑥 *100
§ Einheitliche Skala von 0 bis 100 unabhängig von der Anzahl der Antwortalternativen
§ Regel: nur Items mit Schwierigkeitsindies zwischen 10 und 90 auszuwählen (extreme differenzieren nicht mehr gut)
§ Hohe Schwierigkeit = Eine hohe Schwierigkeit mit einer leichten Frage; differenziert in einem geringen Schwierigkeitsindex, bspw. 90 bedeutet, dass 90 Personen von 100 diese Frage beantworten können
§ Geringe Schwierigkeit = Eine geringe Schwierigkeit mit einer schweren Frage, Differenziert eher zwischen Extremen, also wegen Personen
§ Kurze Fragebögen sollten v.a. im mittleren Feld (mittlere Schwierigkeit) gut differenzieren können, längere Fragebögen auch im äußeren Feld/Extreme
Was versteht man unter Trennschärfe? Wann gilt sie und wie groß sollte sie sein?
· Grundidee = Items auswählen, die einen hohen Zusammenhang mit dem Konstrukt haben
· Trennschärfe = Ausmaß, wie stark ein Item mit den anderen Items einer Skala korreliert
Trennschärfe zeigt (nach der part whole Korrektur, deshalb kann die unkorrigierte Trennschärfe machnmal auch größer sein), wie hoch ein Item i mit dem Konstrukt korreliert, wenn Items i nicht zur Berechnung der Gesamtskala genutzt wurde
o Wertebereich von 0 ≤ r it ≤ 1 (da es sich um eine Korrelation handelt)
o Je höher die Trennschärfe, desto besser bildet das Item das Konstrukt ab
§ Heuristik: Die Trennschärfe sollte ≥ 0.40 sein
o Trennschärfen sind nur bei eindimensionalen Skalen aussagekräftig
Kann man die Trennschärfe auch bei mehrdimensionalen Konstrukten berechnen?
· Bei mehrdimensionalen Skalen ist die Trennschärfe nicht geeignet, denn sie unterschätzt die Eignung eines Items
o Items erfassen unterschiedliche Aspekte des Konstrukts
o Die Korrelation mit dem Summenscore unterschätzt, wie geeignet ein Item ist
Was sollte man bei mehrdimensionalen Skalen berechnen?
· Bei mehrdimensionalen Skalen bilden Faktorladungen besser ab, wie geeignet ein Item ist
o Faktorladungen liegen in der Regel in einem Bereich zwischen 0 ≤ λ ≤1
Je höher die Faktorladung, desto besser ist ein Item geeignet, ein Konstrukt abzubilden
Wie bestimmt man die Anzahl der Faktoren?
Eigenwertverlauf (Man schau sich den Screeplot des Eigenwertverlaufs an. Alles was oberhalb des Knicks liegt wird extrahiert.)
Kaiser Gutmann Kriterium (Alle Faktoren mit einem Eigenwert unter 1 werden ausgeschlossen, Kritik: Kriterium ist sehr liberal, zu viele Faktoren werden mit augenommen, funktioniert nur auf Stichprobenebene, nicht auf Populationsebene: Keine Absicherung gegen zufällige Schwankungen)
Parallelanalysekriterium (Man generiert Zufallsdatensätze mit der gleichen Anzahl an Variablen und Beobachten und plottet dann die Screeplots mit dem ursprünglichen. Man schaut wo die Verläufe sich schneiden und extrahiert anschließend anhand dessen die Faktoren)
Was muss man bei der Rotation der Faktor Korrelationsmatrix beachten?
1) Man rotiert erst oblimin (schiefwinkling) und dann varimax (orthogonal) falls es sich zeigt dass die Faktoren nicht zusammenhängen
2) ab Korrelation von .3 geht man davon aus das Faktoren zusammenhängen
Ist die Itemselektion mit Faktoranalyse eine induktive oder deduktive Methode?
Itemselektion mit Faktorenanalysen ist eine =>induktive Methode
(1) Ein heterogener Itempool wird einer Stichprobe von Personen vorgelegt
(2) Auswahl von Items, die hoch auf einen Faktorladen und niedrig auf andere Faktoren laden
(3) Die Faktoren bilden die inhaltlichen Dimensionen des Konstrukts
a. Ohne Theorie ist die Anzahl der zu extrahierenden Items unklar (induktiv)
Was sind die Voraussetzungen der Faktoranalyse?
· Stichprobe ist groß genug (Faustregel: mindestens 10 Fälle pro Variable)
· Ausreichende Anzahl an Variablen (Faustregel: mind. 4 pro Faktor)
· Variablen sind intervallskaliert (In der Praxis jedoch oft auch ordinalskalierte Variablen)
Was macht man wenn die Voraussetzung der Stichprobengröße oder der Variablenanzahl verletzt ist?
· Ist das Verhältnis von Personen zu Items zu gering (z.B. Personenanzahl = Items) oder für einige Skalen nur wenige Items vorliegen => Faktoranalyse liefert keine aussagekräftigen Ergebnisse
o Alternative: Man vergleicht die Trennschärfe von Items mit der Korrelation eines Items mit den anderen Skalenwerten (Ähnliche Interpretation von Trennschärfen und Korrelationen wie Faktorladungen)
Wie können iterative Strukturgleichungsmodelle für die Itemauswahl genutzt werden?
· Strukturgleichungsmodell = beschreibt, wie Items miteinander korrelieren
· Modellpassung gibt an, wie gut Modell und Daten zusammenpassen
· Iterative Strukturgleichungsmodell: erst werden viele verschiedene Itemkombinationen gebildet und ausprobiert, dann wird jene Kombination ausgewählt, welche die beste Modellpassung aufweist
Wie groß sollten Trennschärfe und Faktorladungen sein?
>= 40
Wie und wann nutzt man externe Kriterien für die Itemauswahl?
· Bewertung von Items anhand ihrer Korrelation mit einem externen Kriterium
· Kriterien: Gruppenzugehörigkeiten oder andere Skalen (z.B. Fremdeinschätzung)
· Ziel: Items entwickeln, die jeweilige Gruppen gut repräsentieren; wie gut sind die Items prädiktiv in der Vorhersage der Gruppenzuordnung (im Vergleich zu anderen Items?)
-> nutzt man wenn Skala zur Differenzierung zwischen Gruppen geeignet sein soll.
Wie nutzt man kognitive Pretest und wann?
· Techniken:
Lauten Denken, was beim Beantworten gedacht wurde,
Paraphrasieren des Items,
Nachfragen (Probing), warum eine bestimmte Antwortkategorie gewählt wurde
· Ziel: Hinweise auf unterschiedlichste Frage-Probleme erhalten und deren Verständlichkeit zu prüfen
· Im Gegensatz zum Standard-Pretest steht bei kognitiven Pretests das Testen von Einzelfragen im Mittelpunkt und nicht die Evaluation des gesamten Fragebogens.
Welche Art von Experten nutzt man für die Itemauswahl?
· Experten für Diagnostik und Umfrageforschung, z.B. wird ein Item in unterschiedlichen Bevölkerungsgruppen gleich verstanden?
· Inhaltliche Experten, z.B. klären, ob alle relevanten inhaltlichen Facetten abgedeckt?
· Experten für Sprache oder Kultur, z.B. haben Begriffe in unterschiedlichen Kulturen die gleiche Bedeutung (zusätzlich zu Rückübersetzungen)
Bewerten verschiedene Dimensionen und Items die die höchste Punktzahl in den DImensionen haben werden ausgewählt
Was sind alle notwendigen Schritte zur Itemauswahl?
In der Praxis werden häufig mehrere Methoden kombiniert
1. Schritt: Experten bewerten, wie gut ein Item geeignet ist
· z.B. anhand der Passung zur Theorie, der Verständlichkeit, der inhaltlichen Breite
· unpassende Items werden ausgeschlossen
2. Schritt: Ausschluss von Items mit extremen Mittelwerten, geringen Standardabweichungen oder schiefen Verteilungen (Hinweis, dass Items nicht zu zw. Personen differenzieren)
3. Schritt: Ausschluss von Items mit geringer Trennschärfe + niedriger Faktorladung
4. Schritt: Ausschluss von Items mit hohen Korrelationen zu anderen Skalen o. hohen Nebenladungen
5. Schritt: Ausschluss von Items, ohne Zusammenhang mit einem wichtigen Außenkriterium
(nur wenn Außenkriterium festgelegt wurde, z.B. ein anderer Test oder ein objektives Maß)
6. Schritt: Ausschluss von Items, die bei kognitiven Interviews Auffälligkeiten aufweisen (z.B. werden zentrale Begriffe unterschiedlich interpretiert)
7. Schritt: Von den verbleibenden Items werden gleich viele positiv gepolte wie negativ gepolte Items ausgewählt und es wird darauf geachtet, dass unterschiedliche inhaltliche Facetten erhalten bleiben
· Sind aufgrund der statistischen Auswahl die inhaltlich Facetten noch ausreichend abgedeckt? Ggf. weitere Auswahl anpassen um inhaltliche Facetten gut genug abzudecken
· Sinnvoll ist zunächst, das Vorgehen schriftlich festzulegen, bevor die Auswahl beginnt
Wie wird die Anzahl der Items bestimmt die ausgewählt werden soll?
· Ökonomie der Skala, z.B. vorher festgelegte Zahl an Items
· Reliabilität der Skala, z.B. mindestens eine gute Messung (≥ 0.80)
· Vorhersagekraft der Skala, z.B. wieviel Varianz in einem wichtigen Kriterium die Skala mindestens erklären sollte
· Messinvarianz der Skala, z.B. nur diejenigen Items auswählen, die eine vergleichbare Messung über verschiedene Kulturkreise ermöglichen
Zuletzt geändertvor einem Jahr