Buffl

VL09_IRT3_Parameterschaetzung_Tests_Vergleiche

df
von diana F.

IRT 3: Parameterschätzung

Schätzung der Itemparameter mit Maximum Likelihood (ML) Methoden

  • Idee der ML-Schätzung:

  • Worin unterscheiden sich die verschiedenen ML-Methoden der probabilistischen Testmodelle von den ML-Methoden der logistischen Regression?

  • Gemeinsames Prinzip aller ML-Methoden: (4 Schritte)

  • Was ist ein „ML-Schätzer”?


Estimación de los parámetros de los ítems con métodos de máxima verosimilitud (ML)


Idea de la estimación ML: encontrar los valores de los parámetros de los ítems para los que los datos observados sean «más probables».

• A diferencia de los modelos estadísticos más simples, como la regresión logística, existen diferentes métodos ML para los modelos de prueba probabilísticos que se diferencian en lo que significa exactamente «más probable».


• Principio común a todos los métodos ML:

derivar una fórmula con la que se pueda calcular una afirmación de probabilidad relevante con respecto a los datos observados cuando se conocen los valores de los parámetros

• Ahora, no consideres esta fórmula como una función de los datos no observados con parámetros dados, sino como una función de los parámetros desconocidos con datos observados dados («función de verosimilitud»)

• Encuentre los valores de los parámetros con el valor más alto de la función de verosimilitud.

• Utilice los valores con la máxima verosimilitud como estimadores puntuales para los valores de los parámetros de los ítems en la población («estimadores ML»).


IRT 3: Parameterschätzung

Hinleitung zur MML-Schätzung: Itemantworten als doppeltes Zufallsexperiment

Was ist das erste Zuffallsexperiment?

Was ist das zweite Zuffallsexperiment?

Welche sind die ZV und deren Realisationen, und wann realisieren sie?



La respuesta a un ítem 𝑖 por parte de una persona fija 𝑝 es un experimento aleatorio simple.

--> Markus está sentado frente a nosotros y nos preguntamos: «¿qué marcará?».

Para la estimación MML de los parámetros del ítem se considera por primera vez el siguiente «doble experimento aleatorio»:

1. Primer experimento aleatorio: selección aleatoria de una persona de la población. 

—> Definimos para el valor en la variable latente de la persona seleccionada al azar la variable aleatoria Θ𝑝, que se materializa en el valor latente 𝜃𝑝 tras la realización del primer experimento aleatorio. El índice 𝑝 ya no representa a una persona concreta, sino que, en el contexto del muestreo, identifica a la persona con el «número» 𝑝.

  • 𝑝 antes de la selección = una persona concreta

  • 𝑝 después del sorteo = persona con el «número» 𝑝

  • Variable latente aleatoria = Θ𝑝

  • Realización de la variable latente Θ𝑝 = valor latente 𝜃𝑝

2. Segundo experimento aleatorio: como antes, la variable aleatoria 𝑋𝑝𝑖 describe la respuesta de la persona 𝑝 al ítem 𝑖, cuyo valor 𝜃𝑝 ya está determinado en la variable latente en ese momento. 𝑋𝑝𝑖 se realiza tras la realización del segundo experimento aleatorio en la respuesta manifiesta al ítem 𝑥𝑝𝑖.

  • Variable aleatoria 𝑋𝑝𝑖 = respuesta de la persona 𝑝 al ítem 𝑖

  • Realización de la variable aleatoria 𝑋𝑝𝑖 = respuesta manifiesta 𝑥𝑝𝑖.


IRT 3: Parameterschätzung

MML-Schätzung

Was ist die marginale Wahrscheinlichkeit?

Gleichung

Was muss man wissen, um die marginale Wahrscheinlichkeit berechnen zu können?


Variable aleatoria latente = Θ𝑝

Realización de la variable aleatoria Θ𝑝 = valor latente 𝜃𝑝

𝑝 antes del sorteo = una persona determinada

𝑝 después del sorteo = persona con el «número» 𝑝

Variable aleatoria 𝑋𝑝𝑖 = respuesta de la persona 𝑝 a la pregunta 𝑖

Realización de la variable aleatoria 𝑋𝑝𝑖 = respuesta manifiesta 𝑥𝑝𝑖.

Estimación MML

«¿Cuál es la probabilidad 𝑃(𝑋𝑝 = ⨱𝑝) de que la persona 𝑝 seleccionada al azar obtenga un patrón de respuesta específico ⨱𝑝?»

• Para simplificar suponemos primero que la variable latente no es continua, sino que solo puede adoptar un número finito de valores diferentes (por ejemplo, 𝜃𝑝 {∈ 1,2,3}):

𝑃(𝑋𝑝 = ⨱𝑝) = ∑ bis 3 mit 𝜃𝑝=1 de 𝑃(𝑋𝑝 = ⨱𝑝∣Θ𝑝 = 𝜃𝑝) • 𝑃( Θ𝑝 = 𝜃𝑝) =

∑ bis 3 mit 𝜃𝑝=1 {∏ bis 𝑰 mit 𝑖=1 de 𝑃(𝑋𝑝𝑖 = 𝑥𝑝𝑖∣ Θ𝑝 = 𝜃𝑝)}• 𝑃 (Θ𝑝 = 𝜃𝑝)

—> El producto se deriva de la suposición de independencia estocástica local.

Para poder calcular la «probabilidad marginal» 𝑃 (𝑋𝑝 = ⨱𝑝) es necesario saber cuál es la probabilidad de cada valor posible de la variable latente. En la práctica, esto se hace asumiendo una distribución de probabilidad determinada para la variable latente en la población.

Exkurs: Sin embargo, en realidad Θ𝑝 es una variable continua. Por lo tanto, se sustituye la suma por la integral y la función de probabilidad por la función de densidad

• En la práctica, para la distribución de Θ𝑝 en la población se suele asumir una distribución normal estándar. De este modo, se conoce la densidad 𝑓 𝜃𝑝 para cualquier valor de la variable latente.

• (La distribución asumida de Θ𝑝 corresponde, por tanto, a una distribución a priori en la estadística bayesiana; véase el seminario de diagnóstico).

• Si se considera la muestra completa de personas seleccionadas al azar, se obtiene la probabilidad marginal para la matriz de datos observada completa


IRT 3: Modelltests

Idee des χ2 de Pearson bzw Frage, die er beantwortet.

Gleichung

Wie verteilt sich die Teststatistik? Bedingung?

Erkläre alle Komponenten der Gleichung

Exkurs: Problem und Verbesserung des Pearson χ2

Prueba de modelo global: prueba χ2 de Pearson

Idea: «¿Coinciden las frecuencias observadas de los patrones de respuesta en el conjunto de datos con las frecuencias esperadas de todos los patrones de respuesta posibles implícitos en el modelo?».


𝜒² = ∑ bis Kᴵ mit s=1 von arriba {Nx𝘴 - E(Nx𝘴 )}² /abajo E(Nx𝘴 ) mit E(Nx𝘴 ) = N•P (X𝘴 = ⨱𝘴)


• La Teststatistik se distribuye aproximadamente según una distribución χ2 con 𝑑𝑓 = 𝐾ᴵ − 𝑁𝑝𝑎𝑟 − 1, bajo la hipótesis nula de que el modelo de prueba considerado es válido en la población.

𝐾: número de categorías de respuesta

𝐼: número de ítems

𝑁: número de personas

⨱𝑠: uno de los 𝐾𝐼 patrones de respuesta posibles

𝑁⨱𝑠 : Frecuencia observada del patrón de respuesta ⨱𝑠

𝐸(𝑁⨱𝑠 ): Frecuencia esperada del patrón de respuesta ⨱𝑠

• La estadística de prueba se distribuye aproximadamente según una distribución χ2 con 𝑑𝑓 = 𝐾𝐼 − 𝑁𝑝𝑎𝑟 − 1 bajo la hipótesis nula de que el modelo de prueba considerado es válido en la población.

𝐾: número de categorías de respuesta

𝐼: número de ítems

𝑁: número de personas

𝑥𝑠: uno de los 𝐾𝐼 patrones de respuesta posibles

𝑁𝑥𝑠 : Frecuencia observada del patrón de respuesta 𝑥𝑠

𝐸(𝑁𝑥𝑠 ): Frecuencia esperada del patrón de respuesta 𝑥𝑠



Problema de la prueba χ2 de Pearson:

Para que la distribución χ2 de la estadística de prueba sea aproximadamente válida bajo la hipótesis nula, cada patrón de respuesta teóricamente posible debería haberse observado al menos una vez en el conjunto de datos disponible.

Sin embargo en la práctica, con 𝐾𝐼 patrones de respuesta posibles, esto solo es posible con muestras extremadamente grandes en combinación con un número relativamente pequeño de ítems.

• Para mejorar este problema, es posible aproximar la distribución real de la estadística de prueba utilizando un procedimiento paramétrico de bootstrap:

• Utiliza las estimaciones de los parámetros de los ítems de la muestra como valores de parámetros conocidos en la población y simula repetidamente conjuntos de datos en el mismo formato que el conjunto de datos observado.

• Calcula la estadística de prueba para cada uno de los conjuntos de datos simulados.

• Compara el valor de la estadística de prueba para el conjunto de datos realmente observado con la distribución de la estadística de prueba basada en los conjuntos de datos simulados.


IRT 3: Modellvergleiche

Modellvergleich mit Informationskriterien

Je besser ein Modell auf die vorliegende Daten passt, desto….

Wie ist tendenziell die modellpassung ist für ein flexibleres Modell im Vergleich zu ein restriktiveres? Wie drückt man dies in einer Gleichung?

Wie drückt man in einer Gleichung, dass ein Modell mehr Parameter als ein anderer hat?

Wie bestrafen oder belohnen der BIC und AIC die IRT Modelle?

2 Vorteile der Informationskriterien:

2 Nachteile der Informationskriterien:


—> Je niedriger der Kriteriumswert, desto besser passen die Daten zum jeweiligen Modell.

Akaike Informationcriterion:

𝐴𝐼𝐶 = −2 ∙ ln (𝐿) + 2 ∙ 𝑁𝑝𝑎𝑟

Bayesian Informationcriterion:

𝐵𝐼𝐶 = −2 ∙ ln (𝐿) + ln (𝑁) ∙ 𝑁𝑝𝑎𝑟

𝑁: Größe der Stichprobe

𝑁𝑝𝑎𝑟: Anzahl der zu schätzenden Modellparameter.

𝐿: Wert der zur Schätzung des Modells verwendeten Likelihoodfunktion, ausgewertet am ML-Schätzer.


Cuanto mejor se ajusta un modelo a los datos disponibles, mayor es el valor de la verosimilitud en el estimador ML («alta probabilidad de los datos»).

• El ajuste del modelo tiende a ser mejor para un modelo más flexible que para un modelo más restrictivo (𝐿1 > 𝐿0). Sin embargo, un modelo más flexible tiende a tener más parámetros que estimar 𝑁𝑝𝑎𝑟(1) > 𝑁𝑝𝑎𝑟 (0).

• En el BIC, los modelos con muchos parámetros se «penalizan» más que en el AIC (ln (𝑁 )∙ 𝑁𝑝𝑎𝑟 > 2 ∙ 𝑁𝑝𝑎𝑟 para 𝑁 > 7), es decir, el BIC tiende a elegir el modelo más económico


Ventajas de los criterios de información:

• Es posible comparar modelos incluso en el caso de modelos no anidados.

En muestras pequeñas, a menudo se obtienen mejores resultados incluso con modelos anidados.

Desventajas de los criterios de información:

• El valor del criterio de información no puede interpretarse de forma absoluta.

El BIC y el AIC no siempre llegan a las mismas conclusiones.


IRT 3: Schätzung der Personenparameter

Schätzung der Werte der Personen auf der latenten Variable: UML-Schätzung der Personenparameter

Idee

Beispiel aus der ULM-Itemschätzung:

Schätzwerte der Itemparameter: σ^1 = −0,8; 𝜎^2 = 0,8; 𝜎^3 = 0,8

„Person 1 hat das 1. aber nicht das 2. und 3. Item gelöst“

-> ⨱1 = (1; 0; 0)

Gleichung 𝑃 (𝑋1 = ⨱1∣ 𝜃1) =????

Welcher Wert suchst du?

Wie bestimmst du den?

Wann hast du EIN PROBLEM?


Idea de la estimación UML:

Introduce las estimaciones ML para los parámetros del ítem en la verosimilitud conjunta y busca para cada persona el valor de la variable latente en el que el valor de la verosimilitud sea mayor.

Ejemplo: modelo Rasch dicotómico (𝐼 = 3)

Valores estimados de los parámetros del ítem:

σ^1 = −0,8; 𝜎^2 = 0,8; 𝜎^3 = 0,8

«La persona 1 ha resuelto el ítem 1, pero no el 2 ni el 3». 

--> ⨱1 = (1; 0; 0)

Ecuación

𝑃 (𝑋1 = ⨱1∣ 𝜃1) = BIS 𝑰 mit 𝑖 =1 von 𝑷(X₁𝑖 = 𝑥1𝑖 ∣𝜃1) =

= Arriba 𝑒(𝜃1−(−0,8))/abajo 1 + 𝑒(𝜃1−(−0,8)) 1/1 + 𝑒(𝜃1−0,8)1/1 + 𝑒(𝜃1−0,8)


Busca el valor 𝜃^1 para el que la verosimilitud 𝐿 (𝜃1) = 𝑃(𝑋1 = ⨱1 ∣𝜃1) , en la que ya se han introducido los valores estimados σ^1; 𝜎^2 ; 𝜎^3 (- 0.8, 0.8, 0.8), sea mayor

• El valor estimado 𝜃1 se puede determinar numéricamente.

Se procede de la misma manera con el resto de personas.


! Problema potencial: si las personas han resuelto todos los ítems o ninguno, no se pueden calcular sus parámetros personales (la log-verosimilitud se vuelve infinita).

Problema 2: Bias


IRT 3: Schätzung der Personenparameter

Schätzung der Werte der Personen auf der latenten Variable: Standardmessfehler



Para todos los métodos presentados de estimación de parámetros personales, es posible determinar el error estándar de la función de estimación para 𝜃𝑝.

• A diferencia de la teoría clásica, este «error de medición estándar» no es el mismo para todas las personas, sino que depende del valor estimado 𝜃𝑝 (más información al respecto en el capítulo sobre pruebas adaptativas pero es obvio). La estimación exacta del error estándar es complicada y no se trata en esta clase.

• De forma análoga a los parámetros de los ítems, el estimador ML para 𝜃𝑝 tiene una distribución normal aproximada en todos los modelos IRT. Esto permite calcular intervalos de confianza aproximados y pruebas de hipótesis utilizando el error estándar de medición estimado: Normierung 0,1 datos estandarizados.

con 95% de seguridad, si el experimento se repite infinitamente, el valor estimado de la Teststatistik (Antwortmuster der Person mit der Nummer 𝒑) se encuentra en promedio estimado entre un rango de tal y tal valor O sus probabilidades de cruzar esta o esta Kategoria del Item son X% en promedio o mas veces mas probable que las otras, ojo con esto. En modelos ordinales estan implicitamente acomodadas desde K hasta K-1. Que dependiendo de la direccion de un efecto o lado de la distribucion de nos datos observados tendra valores negativos o positivos o 0, o solo uno de los dos. Si la Teststatistik ist signifikant, bedeutet das die Hypothesis der Annahme wird oder nicht angenomen) Mientras mas largo el

KI:[𝜃^±z₁ a la -0.05/2•SE^(𝜃^)] = [𝜃^±1.96•SE^(𝜃^)] menos precisa la estimacion.

H0:𝜃^ ≤ 𝜃^₀, oder H0: 𝜃^ ≥ 𝜃^₀, oder 𝜃^ ≠ 𝜃^₀ je nach Richtung

Approximmativ gilt 𝜃^ ≠ 𝜃^₀/SE^(𝜃^) ∽N (0,1).

So, in dieser Verteilung der Standardfehler wäre Alfa, sozusagen. und Konfidenzinterwahl der schätzung der Grad der “Latente Variable des Items (Itemkategorien und die dahinterliegende theoretische Annahme/Maße/ latente Variable der persona 1 auf Item 𝑖 "Die wahrscheinlichkeit, dass diese Person die Itemkategorie K oder K-1 je nach menge an Kategorien wobei wir dichotome oder ordinale besprochen haben.


IRT 3: Parameterschätzung, Modelltests und Modellvergleiche




  1. En cuanto al contenido, detrás de los modelos de prueba hay una hipótesis compuesta:

    (A) La variable latente existe y

    (B) puede ser medida por los ítems concretos de la prueba actual y

    (C) la relación entre los ítems y la variable latente es la especificada en el modelo.

    —> Si todos los modelos de prueba son rechazados por las pruebas de hipótesis absolutas (χ2 de Pearson), (A), (B) o (C) pueden ser falsas. Checa primero B, Luego C y por utimo revisa A, porque entonces la teoria esta mal jajajaja :(.Ruega que sea B porque asi solo tienes que cambiar un item).


    χ2-Problem: Damit unter der H0 die χ2-Verteilung der Teststatistik approximativ gilt, sollte im vorliegenden Datensatz jedes theoretisch mögliche Antwortmuster

    mindestens einmal beobachtet worden sein.

    —>bei 𝐾 𝐼 möglichen Antwortmustern in der Praxis jedoch nur bei extrem großen Stichproben in Kombination mit relativ wenigen Items möglich. (wie deine MA)

    Verbesserung des Problems: tatsächliche Verteilung der Teststatistik mithilfe parametrischen Boostrapverfahrens zu approximieren:

    —> Verwende die Schätzungen der Itemparameter aus der Stichprobe als bekannte Parameterwerte in der Population und simuliere wiederholt Datensätze im gleichen Format wie der beobachtete Datensatz.

    —> Berechne die Teststatistik für jeden der simulierten Datensätze

    —> Vergleiche den Wert der Teststatistik des tatsächlich beobachteten Datensatz mit der Verteilung der Teststatistik basierend auf den simulierten Datensätzen.




Author

diana F.

Informationen

Zuletzt geändert