Welche implizite Annahme machen die IRT dicotómicos y ordinale Modelle bis hier?
Wozu verwendet man die IRT Modelle?
Wann gilt ein psychologscher Test als skalierbar?
• En los dos últimos capítulos se han presentado los modelos IRT para ítems dicotómicos y ordinales. En la interpretación de los modelos se ha supuesto implícitamente que se conocen tanto los valores de todos los parámetros de los ítems como los valores de todas las personas en la variable latente.
• En la práctica, estos valores no se conocen, por supuesto. Al fin y al cabo, los modelos IRT se utilizan para escalar un test psicológico.
• Repetición de la escala: una prueba psicológica se considera escalable cuando la asignación de los valores medidos a las personas se realiza sobre la base de un modelo teórico de pruebas empíricamente probado.
4 Schritte
Welcher Art von fit beantwortet die Frage Kann für ein Modell empirisch nachgewiesen werden, dass alle Modellannahmen erfüllt sind?
Welcher Art von fit beantwortet die Frage Welches der geschätzten Modelle passt empirisch im Vergleich zu den anderen Modellen am besten?
Proceso de escalado
1. Seleccione una serie de modelos de prueba adecuados para el tipo de datos en cuestión (por ejemplo, ítems dicotómicos) (por ejemplo, el modelo 1PL y el modelo 2PL).
2. Estime los parámetros de los ítems para cada uno de los modelos seleccionados utilizando el conjunto de datos normativos disponibles.
3. Encuentre un modelo de prueba que «se ajuste» empíricamente a los datos disponibles.
3.1. Ajuste absoluto del modelo: ¿se puede demostrar empíricamente que un modelo cumple todas las hipótesis del modelo?
3.2. Ajuste comparativo/relativo del modelo: ¿Cuál de los modelos estimados se ajusta mejor empíricamente en comparación con los demás modelos?
4. Si se ha encontrado un modelo de prueba «adecuado»: en el marco del diagnóstico de casos individuales, calcule el valor de la variable latente para las personas de interés, utilizando los parámetros de ítem estimados a partir del modelo de prueba demostrado con la muestra estándar.
Schtitt 1: Modell aus mehreren Kandidaten auswählen. Wie?
Schritt 2: was und wie
Schritt 3: was und wie
Beispiel mit dichotomen Items:
Was ist im Roten rectangulo?
Wieviele Antwortmuster sind möglich?
Was beinhaltet den Vektor ⨱𝑝 und wie bezeichnet man den?
Was fasst die zufällige Matrix 𝑋 zusammen und wann realisiert sich die Zufallsvariable 𝑋?
⨱𝑝 = 1; 1; 0; … ; 0 𝑚𝑖𝑡 𝑝 = 1
En 𝐼 ítems con 𝐾 categorías de respuesta diferentes cada uno, hay 𝐾 ᴵ patrones de respuesta diferentes posibles, aunque a menudo no se observan todos.
• El vector ⨱𝑝 contiene las respuestas observadas de una persona 𝑝 a todos los 𝐼 ítems
--> ⨱𝑝: «patrón de respuesta» observado de la persona 𝑝
• Además, definimos la matriz aleatoria 𝑋, que resume todas las respuestas aleatorias de las personas 𝑃 a los ítems 𝐼.
La variable aleatoria 𝑋 se realiza tras la observación de las respuestas a los ítems en la matriz de datos observada 𝑥.
Welche zusätzliche Annahme wird bei IRT Modelle IMMER getroffen?
Diese entspricht welcher Annahme der klassischen Testtheorie?
Was bedeutet „lokale“ stochastische Unabhängigkeit
Wobei ergeben sich Verletzungen dieser Annahme?
Independencia estocástica local
Para todos los modelos IRT, además de las suposiciones incluidas en la ecuación del modelo, siempre se asume la independencia estocástica local:
—> La respuesta de una persona 𝑝 a un ítem es (dado el valor de la persona en la variable latente) independiente de la respuesta de la misma persona a otro ítem.
Formulación matemática:
𝑃 (𝑋𝑝 = ⨱𝑝∣ 𝜃𝑝) = ∏ de 𝐼 a 𝑖=1 𝑃 (𝑋𝑝𝑖 = 𝑥𝑝𝑖 |𝜃𝑝)
• La independencia estocástica local corresponde al supuesto de variables de error no correlacionadas en la teoría clásica de pruebas.
• El término «independencia estocástica local» pretende enfatizar que la suposición de independencia se aplica a cada valor posible de la variable latente.
• Violación de la suposición de independencia estocástica local:
efectos de práctica
en caso de dependencias lógicas entre ítems
multidimensionalidad del constructo medido.
Idee der ML-Schätzung:
Worin unterscheiden sich die verschiedenen ML-Methoden der probabilistischen Testmodelle von den ML-Methoden der logistischen Regression?
Gemeinsames Prinzip aller ML-Methoden: (4 Schritte)
Was ist ein „ML-Schätzer”?
Estimación de los parámetros de los ítems con métodos de máxima verosimilitud (ML)
Idea de la estimación ML: encontrar los valores de los parámetros de los ítems para los que los datos observados sean «más probables».
• A diferencia de los modelos estadísticos más simples, como la regresión logística, existen diferentes métodos ML para los modelos de prueba probabilísticos que se diferencian en lo que significa exactamente «más probable».
• Principio común a todos los métodos ML:
derivar una fórmula con la que se pueda calcular una afirmación de probabilidad relevante con respecto a los datos observados cuando se conocen los valores de los parámetros
• Ahora, no consideres esta fórmula como una función de los datos no observados con parámetros dados, sino como una función de los parámetros desconocidos con datos observados dados («función de verosimilitud»)
• Encuentre los valores de los parámetros con el valor más alto de la función de verosimilitud.
• Utilice los valores con la máxima verosimilitud como estimadores puntuales para los valores de los parámetros de los ítems en la población («estimadores ML»).
Ws für eine Schätzung ist jede und welche Probleme bzw. Vorteile hat jede?
1. Gemeinsame („unconditional“) ML-Schätzung (UML):
2. Bedingte („conditional“) ML-Schätzung (CML):
3. Marginale ML-Schätzung (MML):
Diferentes métodos ML para estimar los parámetros de los ítems
1. Estimación ML conjunta («incondicional») (UML):
Estimación simultánea de los parámetros de los ítems y los valores de las personas en la variable latente mediante la maximización de la verosimilitud conjunta
—> Problema: estimación inestable de los parámetros de los ítems (cuanto mayor es la muestra, más «parámetros de las personas» 𝜃𝑝 deben estimarse)
2. Estimación ML condicional (CML):
Estimación separada de los parámetros del ítem mediante la maximización de una verosimilitud en la que se condiciona el valor total observado de las personas
—> Problema: solo es posible para modelos de prueba con objetividad específica (es decir, modelo 1PL y PCM)
3. Estimación ML marginal (MML):
Estimación de los parámetros de los ítems mediante la maximización de una verosimilitud, a partir de la cual se «integran» los valores de las personas en la variable latente.
—> Ventaja: el método de estimación es aplicable a todos los modelos de prueba y, por lo tanto, se utiliza en todas nuestras aplicaciones prácticas.
Wieso verwendet man die UML-Schätzung in der Praxis nicht?
Idee der UML-Schätzung:
Gleichung
Woraus folgt ein Teil der Gleichung?
Was macht man für (𝑋𝑝𝑖 = 𝑥𝑝𝑖|𝜃𝑝) ?
Aunque la estimación UML no se utiliza en la práctica, ya que proporciona estimaciones inestables de los parámetros de los ítems¹, es necesario comprenderla para la posterior estimación de los valores de las personas en la variable latente.
Idea de la estimación UML: encontrar los valores de los parámetros (tanto los parámetros de los ítems como los valores de las personas en la variable latente) para los que los datos observados son más probables.
Probabilidad L: la probabilidad de observar la matriz de datos 𝑥 concretamente presente, siempre que se conozcan los valores de las personas en la variable latente:
𝐿 = 𝑃 (𝑋 = 𝑥 ∣𝜃1, … , 𝜃𝑃) = ∏ de 𝑷 a 𝑝=1 ∏ de 𝐼 a 𝑖=1 𝑃 (𝑋𝒑𝑖 = 𝑥𝒑𝑖 ∣ 𝜃𝒑 )
—> El doble producto ∏∏ se deriva de la suposición de independencia de las personas, así como de la suposición de independencia estocástica local
Esta fórmula se aplica a todos los modelos IRT discutidos. Para 𝑃(𝑋𝑝𝑖 = 𝑥𝑝𝑖|𝜃𝑝) simplemente se utiliza la ecuación del modelo correspondiente.
¹ No es el caso de la estimación bayesiana, donde UML es el estándar.
Gleichung und Berechnung
Was suchst du hier?
Wodurch erfolgt die Berechnung der Schätzwerte?
Für welche Modelle gilt die CML-Schätzung?
Für welche nicht und wieso?
• La estimación CML es un método de estimación elegante para aquellos modelos IRT en los que se aplica la propiedad de objetividad específica (modelo 1PL y PCM).
• Para la parte de la comunidad psicométrica que concede una gran importancia a la objetividad específica y tiende a rechazar los modelos que no la tienen, la estimación CML es el método de estimación más utilizado.
• Como ya se ha mencionado, opinamos que los modelos de prueba más flexibles sin objetividad específica (modelo 2PL y GPCM) también son útiles en la práctica.
Para un conjunto de datos dado, siempre queremos comparar modelos de diferente flexibilidad en cuanto a su ajuste, con el fin de encontrar el modelo de prueba más adecuado posible.
Dado que esto no es posible con la estimación CML, no seguiremos trabajando con este método de estimación.
Was ist das erste Zuffallsexperiment?
Was ist das zweite Zuffallsexperiment?
Welche sind die ZV und deren Realisationen, und wann realisieren sie?
La respuesta a un ítem 𝑖 por parte de una persona fija 𝑝 es un experimento aleatorio simple.
--> Markus está sentado frente a nosotros y nos preguntamos: «¿qué marcará?».
Para la estimación MML de los parámetros del ítem se considera por primera vez el siguiente «doble experimento aleatorio»:
1. Primer experimento aleatorio: selección aleatoria de una persona de la población.
—> Definimos para el valor en la variable latente de la persona seleccionada al azar la variable aleatoria Θ𝑝, que se materializa en el valor latente 𝜃𝑝 tras la realización del primer experimento aleatorio. El índice 𝑝 ya no representa a una persona concreta, sino que, en el contexto del muestreo, identifica a la persona con el «número» 𝑝.
𝑝 antes de la selección = una persona concreta
𝑝 después del sorteo = persona con el «número» 𝑝
Variable latente aleatoria = Θ𝑝
Realización de la variable latente Θ𝑝 = valor latente 𝜃𝑝
2. Segundo experimento aleatorio: como antes, la variable aleatoria 𝑋𝑝𝑖 describe la respuesta de la persona 𝑝 al ítem 𝑖, cuyo valor 𝜃𝑝 ya está determinado en la variable latente en ese momento. 𝑋𝑝𝑖 se realiza tras la realización del segundo experimento aleatorio en la respuesta manifiesta al ítem 𝑥𝑝𝑖.
Variable aleatoria 𝑋𝑝𝑖 = respuesta de la persona 𝑝 al ítem 𝑖
Realización de la variable aleatoria 𝑋𝑝𝑖 = respuesta manifiesta 𝑥𝑝𝑖.
Was ist die marginale Wahrscheinlichkeit?
Was muss man wissen, um die marginale Wahrscheinlichkeit berechnen zu können?
Variable aleatoria latente = Θ𝑝
Realización de la variable aleatoria Θ𝑝 = valor latente 𝜃𝑝
𝑝 antes del sorteo = una persona determinada
Variable aleatoria 𝑋𝑝𝑖 = respuesta de la persona 𝑝 a la pregunta 𝑖
Estimación MML
«¿Cuál es la probabilidad 𝑃(𝑋𝑝 = ⨱𝑝) de que la persona 𝑝 seleccionada al azar obtenga un patrón de respuesta específico ⨱𝑝?»
• Para simplificar suponemos primero que la variable latente no es continua, sino que solo puede adoptar un número finito de valores diferentes (por ejemplo, 𝜃𝑝 {∈ 1,2,3}):
𝑃(𝑋𝑝 = ⨱𝑝) = ∑ bis 3 mit 𝜃𝑝=1 de 𝑃(𝑋𝑝 = ⨱𝑝∣Θ𝑝 = 𝜃𝑝) • 𝑃( Θ𝑝 = 𝜃𝑝) =
∑ bis 3 mit 𝜃𝑝=1 {∏ bis 𝑰 mit 𝑖=1 de 𝑃(𝑋𝑝𝑖 = 𝑥𝑝𝑖∣ Θ𝑝 = 𝜃𝑝)}• 𝑃 (Θ𝑝 = 𝜃𝑝)
—> El producto se deriva de la suposición de independencia estocástica local.
Para poder calcular la «probabilidad marginal» 𝑃 (𝑋𝑝 = ⨱𝑝) es necesario saber cuál es la probabilidad de cada valor posible de la variable latente. En la práctica, esto se hace asumiendo una distribución de probabilidad determinada para la variable latente en la población.
Exkurs: Sin embargo, en realidad Θ𝑝 es una variable continua. Por lo tanto, se sustituye la suma por la integral y la función de probabilidad por la función de densidad
• En la práctica, para la distribución de Θ𝑝 en la población se suele asumir una distribución normal estándar. De este modo, se conoce la densidad 𝑓 𝜃𝑝 para cualquier valor de la variable latente.
• (La distribución asumida de Θ𝑝 corresponde, por tanto, a una distribución a priori en la estadística bayesiana; véase el seminario de diagnóstico).
• Si se considera la muestra completa de personas seleccionadas al azar, se obtiene la probabilidad marginal para la matriz de datos observada completa
Idee der MML-Schätzung
Was ist ein MML-Schätzer und was macht man damit?
Durch die Betrachtung des doppelten Zufallsexperiments und der damit verbundenen Verwendung der marginalen Likelihoodfunktion ist es möglich, die Personenparameter bei der Schätzung der Itemparameter zu ignorieren. Wieso?
Idea de la estimación MML:
• Utiliza 𝑃 (𝑋 = 𝑥 ) como «verosimilitud marginal».
• Busca los valores de los parámetros de los ítems para los que la verosimilitud marginal es mayor y utiliza estos valores como valores estimados para los parámetros de los ítems en la población («estimador MML»).
• Al considerar el doble experimento aleatorio y el uso asociado de la función de verosimilitud marginal, es posible ignorar los parámetros personales al estimar los parámetros de los ítems.
• Esto es posible porque, al asumir una distribución para los parámetros personales, la verosimilitud marginal solo depende de los parámetros de los ítems y ya no de los valores concretos de las personas en la variable latente.
--> Los parámetros individuales se «integran» a partir de la verosimilitud.
Welche Annahme macht man im Rahmen der MML-Schätzung?
Was ist überhaupt eine Normierung?
Welche Normierung wird für die MML-Schätzung getroffen?
Für welche IRT Modelle trifft man diese Normierung und für welche nicht und wieso?
Estimación MML y normalización
• En el marco de la estimación MML, se adopta la suposición de distribución Θ𝑝~ 𝑁(0; 1).
Normalización:
Los modelos teóricos de pruebas a menudo no son «unívocos». Existen infinitas combinaciones de valores de parámetros de ítems y valores de personas en la variable latente que implican la misma distribución de las respuestas de los ítems. Sin embargo, para poder estimar los parámetros del modelo, es necesario establecer ciertas condiciones que garanticen que solo exista una única combinación para la que los datos observados sean los más probables.
• Nota: La normalización Θ𝑝 ~ 𝑁 ( 0; 1) solo se realiza normalmente en el modelo 2PL y GPCM. En el modelo 1PL y PCM se puede estimar la varianza.
Wie sind die ML-Schätzer der Itemparameter in allen IRT Modelle verteilt? Bedingug dafür?
Was erlaubt diese Verteilung?
Gleichung der Schätzung des Schwierigkeitsparameters 𝜎 eines Items im 1PL-Modell:
H0:
Was gilt?
• Los tres métodos ML permiten determinar también los errores estándar para la estimación de los parámetros de los ítems. La estimación exacta de los errores estándar es complicada y no se trata en esta clase.
• De forma análoga a la regresión logística, los estimadores ML de los parámetros de los ítems en todos los modelos IRT para muestras grandes tienen una distribución normal aproximada. Esto permite calcular intervalos de confianza aproximados y pruebas de hipótesis utilizando los errores estándar estimados.
• Ejemplo del parámetro de dificultad 𝜎 de un ítem en el modelo 1PL:
3 Pruebas de Modelos
Pruebas de modelos
Existen una serie de pruebas de modelos y criterios de información diferentes para verificar empíricamente la adecuación de un modelo IRT:
• Adecuación absoluta del modelo (pruebas de modelos globales):
– Prueba χ2 de Pearson
Comparaciones de modelos (pruebas de modelos relativas):
– Prueba de razón de verosimilitud (LRT) para modelos «anidados»
– Criterios de información: AIC y BIC
Al igual que en la estimación de los parámetros de los ítems, a continuación solo discutiremos las pruebas de modelos y los criterios que pueden utilizarse por igual para todos los modelos IRT discutidos.
• Especialmente para los modelos con objetividad específica, existen muchas otras pruebas de modelos con propiedades estadísticas en parte mejores. Por lo tanto, la mayoría de estas pruebas solo son adecuadas en la práctica si se quiere limitar a los modelos Rasch menos flexibles (1PL y PCM).
Idee des χ2 de Pearson bzw Frage, die er beantwortet.
Wie verteilt sich die Teststatistik? Bedingung?
Erkläre alle Komponenten der Gleichung
Exkurs: Problem und Verbesserung des Pearson χ2
Prueba de modelo global: prueba χ2 de Pearson
Idea: «¿Coinciden las frecuencias observadas de los patrones de respuesta en el conjunto de datos con las frecuencias esperadas de todos los patrones de respuesta posibles implícitos en el modelo?».
𝜒² = ∑ bis Kᴵ mit s=1 von arriba {Nx𝘴 - E(Nx𝘴 )}² /abajo E(Nx𝘴 ) mit E(Nx𝘴 ) = N•P (X𝘴 = ⨱𝘴)
• La Teststatistik se distribuye aproximadamente según una distribución χ2 con 𝑑𝑓 = 𝐾ᴵ − 𝑁𝑝𝑎𝑟 − 1, bajo la hipótesis nula de que el modelo de prueba considerado es válido en la población.
𝐾: número de categorías de respuesta
𝐼: número de ítems
𝑁: número de personas
⨱𝑠: uno de los 𝐾𝐼 patrones de respuesta posibles
𝑁⨱𝑠 : Frecuencia observada del patrón de respuesta ⨱𝑠
𝐸(𝑁⨱𝑠 ): Frecuencia esperada del patrón de respuesta ⨱𝑠
• La estadística de prueba se distribuye aproximadamente según una distribución χ2 con 𝑑𝑓 = 𝐾𝐼 − 𝑁𝑝𝑎𝑟 − 1 bajo la hipótesis nula de que el modelo de prueba considerado es válido en la población.
𝑥𝑠: uno de los 𝐾𝐼 patrones de respuesta posibles
𝑁𝑥𝑠 : Frecuencia observada del patrón de respuesta 𝑥𝑠
𝐸(𝑁𝑥𝑠 ): Frecuencia esperada del patrón de respuesta 𝑥𝑠
Problema de la prueba χ2 de Pearson:
Para que la distribución χ2 de la estadística de prueba sea aproximadamente válida bajo la hipótesis nula, cada patrón de respuesta teóricamente posible debería haberse observado al menos una vez en el conjunto de datos disponible.
Sin embargo en la práctica, con 𝐾𝐼 patrones de respuesta posibles, esto solo es posible con muestras extremadamente grandes en combinación con un número relativamente pequeño de ítems.
• Para mejorar este problema, es posible aproximar la distribución real de la estadística de prueba utilizando un procedimiento paramétrico de bootstrap:
• Utiliza las estimaciones de los parámetros de los ítems de la muestra como valores de parámetros conocidos en la población y simula repetidamente conjuntos de datos en el mismo formato que el conjunto de datos observado.
• Calcula la estadística de prueba para cada uno de los conjuntos de datos simulados.
• Compara el valor de la estadística de prueba para el conjunto de datos realmente observado con la distribución de la estadística de prueba basada en los conjuntos de datos simulados.
Idee des Likelihood-Ratio-Test (LRT) bzw Frage, die er beantwortet.
• Idea: «¿Se ajusta un modelo restrictivo (con verosimilitud 𝐿0) a los datos disponibles tan bien como un modelo superior más flexible (con verosimilitud 𝐿1)?»
𝜒2 = −2 ∙ ln (arriba 𝐿0/ abajo 𝐿1)
• La estadística de prueba se distribuye aproximadamente según una distribución χ2 con 𝑑𝑓 = 𝑁(1)𝑝𝑎𝑟 − 𝑁𝑝𝑎𝑟(0) bajo la hipótesis nula de que ambos modelos se ajustan igual de bien a la población.
𝐿0: valor de la función de verosimilitud utilizada para estimar el modelo más restrictivo, evaluada en el estimador ML
𝐿1: valor de la función de verosimilitud utilizada para estimar el modelo más flexible, evaluada en el estimador ML
𝑁(0)𝑝𝑎𝑟: número de parámetros del modelo que se deben estimar en el modelo más restrictivo
𝑁(1)𝑝𝑎𝑟: número de parámetros del modelo que se deben estimar en el modelo más flexible
Wann darf man der LRT verwendeN?
Was bedeutet, dass ein Modell in einem anderen Modell genestet ist bzw wann ist ein Modell in einem anderen Modell genestet?
Beispiele von IRT Modelle? Wieso?
El LRT solo se puede utilizar si el modelo más restrictivo (con verosimilitud 𝐿0) está «anidado» (o encajado) en el modelo más flexible (con verosimilitud 𝐿1).
Un modelo está anidado en otro modelo cuando resulta de una restricción real del modelo superior más flexible (por ejemplo, fijando los parámetros libres del modelo más flexible en un valor determinado).
Ejemplos:
• El modelo 1PL está anidado en el modelo 2PL, ya que la ecuación del modelo 1PL corresponde a la ecuación del modelo 2PL con 𝛽𝑖 = 1 para todos los ítems 𝑖.
• El PCM está anidado en el GPCM, ya que la ecuación del modelo PCM corresponde a la ecuación del modelo GPCM con 𝛽𝑖 = 1 para todos los ítems 𝑖.
Wie geht man damit vor?
Welches Modell muss man auswählen?
Welche sin die 2 am häufigsten verwendete Informationskriterien
Gleichung des jeweilichen Kriteriums
Erklärung der Komponenten
Para comparar el ajuste de varios modelos estadísticos, además del LRT también se pueden utilizar «criterios de información».
Procedimiento práctico:
1. Calcule el criterio de información para cada uno de los modelos que se van a comparar.
2. Seleccione el modelo con el valor de criterio más bajo.
—> Cuanto más bajo sea el valor del criterio, mejor se ajustarán los datos al modelo correspondiente.
Los dos criterios de información más utilizados son:
• Criterio de información de Akaike:
𝐴𝐼𝐶 = −2 ∙ ln (𝐿) + 2 ∙ 𝑁𝑝𝑎𝑟
• Criterio de información bayesiano:
𝐵𝐼𝐶 = −2 ∙ ln (𝐿) + ln (𝑁) ∙ 𝑁𝑝𝑎𝑟
𝑁: tamaño de la muestra
𝑁𝑝𝑎𝑟: número de parámetros del modelo que se van a estimar.
𝐿: valor de la función de verosimilitud utilizada para estimar el modelo, evaluada en el estimador ML.
Je besser ein Modell auf die vorliegende Daten passt, desto….
Wie ist tendenziell die modellpassung ist für ein flexibleres Modell im Vergleich zu ein restriktiveres? Wie drückt man dies in einer Gleichung?
Wie drückt man in einer Gleichung, dass ein Modell mehr Parameter als ein anderer hat?
Wie bestrafen oder belohnen der BIC und AIC die IRT Modelle?
2 Vorteile der Informationskriterien:
2 Nachteile der Informationskriterien:
—> Je niedriger der Kriteriumswert, desto besser passen die Daten zum jeweiligen Modell.
Akaike Informationcriterion:
Bayesian Informationcriterion:
𝑁: Größe der Stichprobe
𝑁𝑝𝑎𝑟: Anzahl der zu schätzenden Modellparameter.
𝐿: Wert der zur Schätzung des Modells verwendeten Likelihoodfunktion, ausgewertet am ML-Schätzer.
Cuanto mejor se ajusta un modelo a los datos disponibles, mayor es el valor de la verosimilitud en el estimador ML («alta probabilidad de los datos»).
• El ajuste del modelo tiende a ser mejor para un modelo más flexible que para un modelo más restrictivo (𝐿1 > 𝐿0). Sin embargo, un modelo más flexible tiende a tener más parámetros que estimar 𝑁𝑝𝑎𝑟(1) > 𝑁𝑝𝑎𝑟 (0).
• En el BIC, los modelos con muchos parámetros se «penalizan» más que en el AIC (ln (𝑁 )∙ 𝑁𝑝𝑎𝑟 > 2 ∙ 𝑁𝑝𝑎𝑟 para 𝑁 > 7), es decir, el BIC tiende a elegir el modelo más económico
Ventajas de los criterios de información:
• Es posible comparar modelos incluso en el caso de modelos no anidados.
• En muestras pequeñas, a menudo se obtienen mejores resultados incluso con modelos anidados.
Desventajas de los criterios de información:
• El valor del criterio de información no puede interpretarse de forma absoluta.
• El BIC y el AIC no siempre llegan a las mismas conclusiones.
Was steht Inhaltlich hinter den Testmodellen?
Wenn keines der Testmodelle in der Praxis gilt, woran kann das liegen?
Vorgehen, um herauszufinden, woran es liegen könnte: (3 Schritte)
¿Qué hacer si ninguno de los modelos de prueba es válido en la práctica?
En cuanto al contenido, detrás de los modelos de prueba hay una hipótesis compuesta:
• (A) La variable latente existe y
• (B) puede ser medida por los ítems de la prueba actual y
• (C) la relación entre los ítems y la variable latente es la especificada en el modelo.
—> Si todos los modelos de prueba son rechazados por las pruebas de hipótesis absolutas, (A), (B) o (C) pueden ser falsas.
Procedimiento para averiguar cuál podría ser la causa:
- comprobar si se debe a (C): probar modelos más complejos (por ejemplo, no lineales) (pero en algún momento se necesitarán muestras extremadamente grandes)
- Compruebe si se debe a (B): es posible que las pruebas del modelo proporcionen información sobre posibles mejoras en relación con la prueba: por ejemplo, podría resultar que algunos items concretos causan problemas.
- Si ni (C) ni (B) son la razón del rechazo del modelo:
-> Revisión de la teoría con respecto a (A).
Was liegt vor, sobald ein IRT Modell gefunden wurde?
Woran ist man im Einzelfalldiagnostik interessiert?
Welche Methode gibt es zur Schätzung der Werte der Personen auf der latenten Variable?
Welche dieser Methoden verwendet man, wenn man die Schätzung der Itemparameter mit der CML-Methode geschätzt hat?
Welche dieser Methoden verwendet man, wenn man die Schätzung der Itemparameter mit der MML-Methode geschätzt hat?
Tan pronto como se encontra un modelo IRT que se ajuste suficientemente bien a los datos disponibles, ya se dispone de los valores estimados para los parámetros de los ítems.
En el diagnóstico de casos individuales, lo que interesa ahora es estimar el valor de la variable latente para cada persona.
Para la estimación de los valores de las personas en la variable latente, existen varios métodos diferentes:
• Estimación UML
• Estimación WML (für CML Schätzung)
• Estimación MAP/EAP (für MML Schätzung)
Si se estiman los parámetros de los ítems con el método CML, se suele utilizar la estimación WML para los valores de las personas en la variable latente.
• En esta clase utilizaremos el estimador MAP o EAP para todas las aplicaciones prácticas, ya que estos métodos son teóricamente más compatibles con la estimación MML de los parámetros de los ítems que utilizamos.
Idee
Beispiel aus der ULM-Itemschätzung:
Schätzwerte der Itemparameter: σ^1 = −0,8; 𝜎^2 = 0,8; 𝜎^3 = 0,8
„Person 1 hat das 1. aber nicht das 2. und 3. Item gelöst“
-> ⨱1 = (1; 0; 0)
Gleichung 𝑃 (𝑋1 = ⨱1∣ 𝜃1) =????
Welcher Wert suchst du?
Wie bestimmst du den?
Wann hast du EIN PROBLEM?
Idea de la estimación UML:
Introduce las estimaciones ML para los parámetros del ítem en la verosimilitud conjunta y busca para cada persona el valor de la variable latente en el que el valor de la verosimilitud sea mayor.
Ejemplo: modelo Rasch dicotómico (𝐼 = 3)
Valores estimados de los parámetros del ítem:
σ^1 = −0,8; 𝜎^2 = 0,8; 𝜎^3 = 0,8
«La persona 1 ha resuelto el ítem 1, pero no el 2 ni el 3».
--> ⨱1 = (1; 0; 0)
Ecuación
𝑃 (𝑋1 = ⨱1∣ 𝜃1) = ∏ BIS 𝑰 mit 𝑖 =1 von 𝑷(X₁𝑖 = 𝑥1𝑖 ∣𝜃1) =
= Arriba 𝑒(𝜃1−(−0,8))/abajo 1 + 𝑒(𝜃1−(−0,8)) • 1/1 + 𝑒(𝜃1−0,8) • 1/1 + 𝑒(𝜃1−0,8)
Busca el valor 𝜃^1 para el que la verosimilitud 𝐿 (𝜃1) = 𝑃(𝑋1 = ⨱1 ∣𝜃1) , en la que ya se han introducido los valores estimados σ^1; 𝜎^2 ; 𝜎^3 (- 0.8, 0.8, 0.8), sea mayor
• El valor estimado 𝜃1 se puede determinar numéricamente.
Se procede de la misma manera con el resto de personas.
! Problema potencial: si las personas han resuelto todos los ítems o ninguno, no se pueden calcular sus parámetros personales (la log-verosimilitud se vuelve infinita).
Problema 2: Bias
Was ist die WML-Schätzung und welche Probleme löst sie?
Idee/ bzw Berechnung
La estimación WML es un método de estimación ponderada («Weighted ML») que tiene por objeto compensar dos desventajas del estimador UML:
1. Posibilidad de estimar un valor en la variable latente para personas que han resuelto todos los ítems o ninguno.
2. Reducción del bias del estimador UML (no tratado).
Idea de la estimación WML:
Busca el valor 𝜃𝑝 para el que la verosimilitud ponderada
𝐿 (𝜃𝑝) ∙ 𝑤 (𝜃𝑝) = 𝑃(𝑋𝑝 = ⨱𝑝 𝜃𝑝)∙ 𝑤 (𝜃𝑝) , en la que ya se han introducido los valores estimados de los parámetros de los ítems, toma el valor más alto.
• La forma exacta de la función de ponderación 𝑤 (𝜃𝑝) es complicada y no se trata en esta clase.
La estimación MAP («máximo a posteriori») funciona con una función de ponderación alternativa en la que, a diferencia de la estimación WML, no se pretende reducir el sesgo de la estimación UML, sino su varianza.
Idea de la estimación MAP:
Busca el valor 𝜃^𝑝 para el que la probabilidad ponderada𝑓(𝜃𝑝) con la densidad de probabilidad 𝐿(𝜃𝑝)•𝑓(𝜃𝑝) = 𝑃(𝑋𝑝 = ⨱𝑝∣ 𝜃𝑝)•𝑓(𝜃𝑝) , en la que ya se han introducido los valores estimados de los parámetros de los ítems, es mayor.
• Si se utiliza el método MML para estimar los parámetros de los ítems, ya se ha hecho una suposición de distribución para los valores de las personas en la variable latente por razones de normalización (Normierung Θ𝑝~ 𝑁(0; 1)). Por lo tanto, es lógico utilizar también la densidad de la distribución normal estándar en la estimación MAP para 𝑓(𝜃𝑝).
• El valor 𝜃𝑝 obtenido con este método corresponde al máximo de la denominada «distribución a posteriori» del parámetro 𝜃𝑝 (MAP). En lugar del máximo, también se puede utilizar el valor esperado (EAP) como estimador
Para todos los métodos presentados de estimación de parámetros personales, es posible determinar el error estándar de la función de estimación para 𝜃𝑝.
• A diferencia de la teoría clásica, este «error de medición estándar» no es el mismo para todas las personas, sino que depende del valor estimado 𝜃𝑝 (más información al respecto en el capítulo sobre pruebas adaptativas pero es obvio). La estimación exacta del error estándar es complicada y no se trata en esta clase.
• De forma análoga a los parámetros de los ítems, el estimador ML para 𝜃𝑝 tiene una distribución normal aproximada en todos los modelos IRT. Esto permite calcular intervalos de confianza aproximados y pruebas de hipótesis utilizando el error estándar de medición estimado: Normierung 0,1 datos estandarizados.
con 95% de seguridad, si el experimento se repite infinitamente, el valor estimado de la Teststatistik (Antwortmuster der Person mit der Nummer 𝒑) se encuentra en promedio estimado entre un rango de tal y tal valor O sus probabilidades de cruzar esta o esta Kategoria del Item son X% en promedio o mas veces mas probable que las otras, ojo con esto. En modelos ordinales estan implicitamente acomodadas desde K hasta K-1. Que dependiendo de la direccion de un efecto o lado de la distribucion de nos datos observados tendra valores negativos o positivos o 0, o solo uno de los dos. Si la Teststatistik ist signifikant, bedeutet das die Hypothesis der Annahme wird oder nicht angenomen) Mientras mas largo el
KI:[𝜃^±z₁ a la -0.05/2•SE^(𝜃^)] = [𝜃^±1.96•SE^(𝜃^)] menos precisa la estimacion.
H0:𝜃^ ≤ 𝜃^₀, oder H0: 𝜃^ ≥ 𝜃^₀, oder 𝜃^ ≠ 𝜃^₀ je nach Richtung
Approximmativ gilt 𝜃^ ≠ 𝜃^₀/SE^(𝜃^) ∽N (0,1).
So, in dieser Verteilung der Standardfehler wäre Alfa, sozusagen. und Konfidenzinterwahl der schätzung der Grad der “Latente Variable des Items (Itemkategorien und die dahinterliegende theoretische Annahme/Maße/ latente Variable der persona 1 auf Item 𝑖 "Die wahrscheinlichkeit, dass diese Person die Itemkategorie K oder K-1 je nach menge an Kategorien wobei wir dichotome oder ordinale besprochen haben.
• (B) puede ser medida por los ítems concretos de la prueba actual y
—> Si todos los modelos de prueba son rechazados por las pruebas de hipótesis absolutas (χ2 de Pearson), (A), (B) o (C) pueden ser falsas. Checa primero B, Luego C y por utimo revisa A, porque entonces la teoria esta mal jajajaja :(.Ruega que sea B porque asi solo tienes que cambiar un item).
χ2-Problem: Damit unter der H0 die χ2-Verteilung der Teststatistik approximativ gilt, sollte im vorliegenden Datensatz jedes theoretisch mögliche Antwortmuster
mindestens einmal beobachtet worden sein.
—>bei 𝐾 𝐼 möglichen Antwortmustern in der Praxis jedoch nur bei extrem großen Stichproben in Kombination mit relativ wenigen Items möglich. (wie deine MA)
Verbesserung des Problems: tatsächliche Verteilung der Teststatistik mithilfe parametrischen Boostrapverfahrens zu approximieren:
—> Verwende die Schätzungen der Itemparameter aus der Stichprobe als bekannte Parameterwerte in der Population und simuliere wiederholt Datensätze im gleichen Format wie der beobachtete Datensatz.
—> Berechne die Teststatistik für jeden der simulierten Datensätze
—> Vergleiche den Wert der Teststatistik des tatsächlich beobachteten Datensatz mit der Verteilung der Teststatistik basierend auf den simulierten Datensätzen.
Last changeda month ago