Ablauf (5 Schritte)
R Pakets Name
1. Estimación de los parámetros de los ítems de los modelos más adecuados para el tipo de ítem (1PL y 2PL o PCM y GPCM) utilizando el método MML.
2. Prueba de modelo absoluta: prueba χ2 de Pearson (con y sin bootstrap)
3. Comparaciones de modelos: prueba del cociente de verosimilitud (LRT para 1PL y PCM), AIC y BIC
4. Interpretación de los parámetros de los ítems para el modelo más adecuado: estimaciones de parámetros, estimaciones de ICC y CCC
5. Estimación de los valores de las personas en la variable latente utilizando el método EAP (o MAP): intervalos de confianza para 𝜃𝑝
R – Paket „ltm“ verwendet (ltm: latent trait models).
Skala Leistungsmotivation aus dem „Freiburger Persönlichkeitsinventar“ (FPI-R)
• 12 Items (z.B.: „Ich bin leicht beim Ehrgeiz zu packen“)
• Dichotomes Itemformat („stimmt nicht“, „stimmt“)
• Stichprobe bestehend aus 459 Studierende der Psychologie
Estimación de los parámetros de los ítems: MML Methode
—> La función «gpcm» también se puede utilizar para ítems dicotómicos.
—> Restricción de los parámetros de discriminación para obtener el modelo 1PL (constraint = «1PL»). Por default R calcula el 2PL
Ergebnisse?
• Stichprobe bestehend aus 459 Studierende der PsychologieIRT 4: Anwendung von Item Response Modellen
Prueba absoluta del modelo 1PL χ² Pearson
Tanto para la variante con la distribución teórica de prueba (arriba) como para la variante con bootstrap (abajo), se mantiene la hipótesis nula de que el modelo 1PL es válido en la población. (La Verteilung es approx Bild2) PORQUE EL TEST NO FUE SIGNIFICANTE: pWert > 0.05
Bootstrap = muestreos aleatorios (Para mejorar la Annahme de la approx. Verteilung) Para posterior schätzung der personen
→ Cada vez se obtiene un resultado diferente, a menos que se establezca una semilla: set.seed
GoF.gpcm(one_pl, simulate.p.value = FALSE (für theoretiche Prüfverteilung)/TRUE (für BOOTSRAPPING), B = 200 (number of Bootstraps)
Annahme des Modells:
Steigungsparameter 𝜆𝑖,1 = 1 für alle Items 𝑖
Lokale stochastische Unabhängigkeit: Die Antwort einer Person 𝑝 auf ein Item ist (gegeben dem Wert der Person auf der latenten Variable) unabhängig von der Antwort der
gleichen Person auf ein anderes Item.
𝑃 (𝑋𝑝 = 𝑥𝑝 ∣ 𝜃𝑝) = ∏ bis 𝐼 mit 𝑖=1 de 𝑃(𝑋𝑝𝑖 = 𝑥𝑝𝑖 |𝜃𝑝)
Einen Schwierigkeitsparameter erhält man durch die Reparametrisierung: 𝜎𝑖 = − 𝜆𝑖,0
ABSOLUTER MODELLTEST
Dieshhalb die Bootsraps
• Stichprobe N = 459 Studierende der Psychologie
Absoluter Modelltest 2PL Modell χ² Pearson
Modelltest sind gleich für 1PL und 2PL
Power en la prueba de modelo absoluta:
H0= El modelo es válido en la población.
H1 = El modelo no es válido. = signifikant :(
La hipótesis H0 es el «resultado deseado».
Power = P (rechazar H0 | H1) = P (p < α | H1)
—> Tamaño de muestra pequeño = power bajo; es decir, se mantiene erróneamente la H0 con mayor frecuencia.
Muestra pequeña ➙ a menudo se toma (erróneamente) la decisión «el modelo encaja»
—> Muestra muy grande: incluso las desviaciones más pequeñas del modelo ideal (≙ pequeña fuerza del efecto) se vuelven significativas y llevan a la conclusión «el modelo no encaja»
• LRT, AIC, BIC; Pearson-χ² con o sin bootstrap, ...:
¿cuál elegir?
Problema:
—> Grados de libertad del investigador y, por lo tanto, potencial «p-hacking»: se toma el resultado que mejor se adapta. A continuación, se busca una referencia bibliográfica adecuada con la que se pueda justificar a posteriori la elección de la «mejor» prueba de modelo.
Solución:
—> Preregistrierung: determinar de antemano si la decisión se basa en LRT, AIC o BIC, y si la prueba de modelo absoluta se calcula con o sin bootstrap (o cómo se calculan estos índices conjuntamente en una decisión).
Nota: La potencia aquí presentada se refiere únicamente a la violación del modelo simulada aquí. Por lo tanto, este análisis de potencia no puede generalizarse.
En el modelo dicotómico de Rasch, un ítem se describe completamente mediante su parámetro de dificultad 𝜎𝑖
•𝜎𝑖 indica para qué valor de la variable latente la probabilidad de que una persona 𝑝 resuelva el ítem 𝑖 es exactamente 0,5.
Si el conjunto de datos analizado fuera una muestra normalizada, se podría utilizar la distribución de los parámetros estimados de las personas para la normalización (por ejemplo, cálculo de un rango porcentual para una nueva persona observada).
Matrizentest aus dem „Intelligenz Struktur Test“ (I-S-T 2000 R)
• 20 Items (z.B.: ⊞ ⊞ ⊟? a⊞ , b⊞ , c⊞ , d⊞ , e⊞ )
• Dichotomes Itemformat („nicht gelöst“, „gelöst“)
• Stichprobe bestehend aus 341 Personen
• StichprobeN = 341 Personen
Skala Ordentlichkeit aus dem „NEO – Persönlichkeitsinventar“ (NEO-PI-R)
• 8 Items (z.B.: „Ich lasse gerne alles an seinem Platz, damit ich weiß, wo es ist “)
• 5 – stufiges Itemformat („starke Ablehnung“, „Ablehnung“, „neutral“, „Zustimmung“, „starke Zustimmung“)
• Stichprobe N = 789 Personen
Skala Überblick aus dem „Fragebogen Räumliche Strategien“ (FRS)
• 7 Items (z.B.: „ Ich stelle mir die Umgebung stets wie auf einer „mentalen Karte“ (Überblicksansicht) vor.“)
• 7 – stufiges Itemformat mit beschrifteten Endpolen
(„trifft überhaupt nicht zu“, „trifft vollkommen zu“)
• Repräsentative Stichprobe N = 1041 Personen
(Datensatz besteht aus dem Campus File des longitudinalen GESIS Panel)
• AIC, BIC y LRT no siempre llegan al mismo resultado.
➙ Decisión difícil en la práctica.
• Las variantes de la prueba χ2 de Pearson no siempre llegan al mismo resultado.
➙ Decisión difícil en la práctica, ¡el bootstrap es objeto de críticas!
• A menudo hay que partir de la base de que ninguno de los modelos de prueba considerados se ajusta bien a los datos disponibles.
➙ ¿Es mejor un modelo que no se ajusta bien que ninguno?
• Las muestras consideradas eran en parte bastante pequeñas.
➙ Las muestras normales deberían incluir varios miles de personas.
Zuletzt geändertvor einem Monat