Buffl

VL10_IRT_4_Anwendung_IRT_Modelle

df
von diana F.

IRT 4: Anwendung von Item Response Modellen

Was wurde hier gemacht? Für welche Modelle?

Ergebnisse?

Skala Leistungsmotivation aus dem „Freiburger Persönlichkeitsinventar“ (FPI-R)

• 12 Items (z.B.: „Ich bin leicht beim Ehrgeiz zu packen“)

• Dichotomes Itemformat („stimmt nicht“, „stimmt“)

• Stichprobe bestehend aus 459 Studierende der PsychologieIRT 4: Anwendung von Item Response Modellen


Prueba absoluta del modelo 1PL χ² Pearson

Tanto para la variante con la distribución teórica de prueba (arriba) como para la variante con bootstrap (abajo), se mantiene la hipótesis nula de que el modelo 1PL es válido en la población. (La Verteilung es approx Bild2) PORQUE EL TEST NO FUE SIGNIFICANTE: pWert > 0.05


Bootstrap = muestreos aleatorios (Para mejorar la Annahme de la approx. Verteilung) Para posterior schätzung der personen

→ Cada vez se obtiene un resultado diferente, a menos que se establezca una semilla: set.seed

GoF.gpcm(one_pl, simulate.p.value = FALSE (für theoretiche Prüfverteilung)/TRUE (für BOOTSRAPPING), B = 200 (number of Bootstraps)

Annahme des Modells:

  1. Steigungsparameter 𝜆𝑖,1 = 1 für alle Items 𝑖

  2. Lokale stochastische Unabhängigkeit: Die Antwort einer Person 𝑝 auf ein Item ist (gegeben dem Wert der Person auf der latenten Variable) unabhängig von der Antwort der

    gleichen Person auf ein anderes Item.

    𝑃 (𝑋𝑝 = 𝑥𝑝 ∣ 𝜃𝑝) = ∏ bis 𝐼 mit 𝑖=1 de 𝑃(𝑋𝑝𝑖 = 𝑥𝑝𝑖 |𝜃𝑝)

Einen Schwierigkeitsparameter erhält man durch die Reparametrisierung: 𝜎𝑖 = − 𝜆𝑖,0




ABSOLUTER MODELLTEST

Dieshhalb die Bootsraps


IRT 4: Anwendung von Item Response Modellen

Was wurde hier gemacht? Für welche Modelle?

Ergebnisse?

Skala Leistungsmotivation aus dem „Freiburger Persönlichkeitsinventar“ (FPI-R)

• 12 Items (z.B.: „Ich bin leicht beim Ehrgeiz zu packen“)

• Dichotomes Itemformat („stimmt nicht“, „stimmt“)

• Stichprobe bestehend aus 459 Studierende der PsychologieIRT 4: Anwendung von Item Response Modellen


Power en la prueba de modelo absoluta:

H0= El modelo es válido en la población.

H1 = El modelo no es válido. = signifikant :(

La hipótesis H0 es el «resultado deseado».


Power = P (rechazar H0 | H1) = P (p < α | H1)

—> Tamaño de muestra pequeño = power bajo; es decir, se mantiene erróneamente la H0 con mayor frecuencia.

Muestra pequeña ➙ a menudo se toma (erróneamente) la decisión «el modelo encaja»


—> Muestra muy grande: incluso las desviaciones más pequeñas del modelo ideal (≙ pequeña fuerza del efecto) se vuelven significativas y llevan a la conclusión «el modelo no encaja»

• LRT, AIC, BIC; Pearson-χ² con o sin bootstrap, ...:

¿cuál elegir?

Problema:

—> Grados de libertad del investigador y, por lo tanto, potencial «p-hacking»: se toma el resultado que mejor se adapta. A continuación, se busca una referencia bibliográfica adecuada con la que se pueda justificar a posteriori la elección de la «mejor» prueba de modelo.

Solución:

—> Preregistrierung: determinar de antemano si la decisión se basa en LRT, AIC o BIC, y si la prueba de modelo absoluta se calcula con o sin bootstrap (o cómo se calculan estos índices conjuntamente en una decisión).

Nota: La potencia aquí presentada se refiere únicamente a la violación del modelo simulada aquí. Por lo tanto, este análisis de potencia no puede generalizarse.


Author

diana F.

Informationen

Zuletzt geändert