Die Modellparameter werden durch einen Methode der Parameterschätzung so gut wie möglich optimiert.
Wie stelle ich fest, ob diese Optimierung gut genug ist, um die empirischen Daten abzubilden?
Wenn ich 2 Modelle miteinander Vergleiche, wie weiß ich, welches Modell die Daten besser abbilden kann?
Kausalität können wir nicht überprüfen. Wir überprufen aber auf Korrelationsebene, und welches Modell an besten passt
Ergänze
Die Passung des Modells wird durch Fit-Indizes überprüft.
Mit den approximativen wollen wir wissen, wie unfit-fit unser Modell ist.
Worab leitet sich der Exakter Modell-Fit?
Gleichung und erklärung jeder Parameter
Hypothesen?
Wie verteilt sich diesen Wert unter H0?
Erklärung der Ergebnissen des Signifikanztests?
Woraus ergibt sich die Χ ² Verteilung und weitere Informationen dazu?
Las hipótesis son las siguientes:
• H0: Σ = S (es decir, la matriz de covarianza implícita en el modelo y la empírica son iguales)
• H1: Σ ≠ S
Es decir: el valor final de la función de discrepancia ML se multiplica por (N - 1); bajo la hipótesis H0, este valor se distribuye según una distribución Χ² con df = p – q
• Si la prueba de significación para este valor Χ² da como resultado p < .05, se rechaza la hipótesis H0
➙ la matriz de covarianza implícita en el modelo difiere significativamente de la empírica. O bien:
si la prueba no es significativa, esto indica un buen ajuste.
• Excursus: la distribución Χ² (pronunciada «chi» o «ki») es la distribución que se obtiene al elevar al cuadrado y sumar varias variables aleatorias independientes con distribución normal estándar. Es similar y está relacionada con la distribución F (por ejemplo, Omnibustest en ANOVA y regresión).
P Wert > 0.05 ist gut!!! (unter H0) P Wert menor a 0.05 = el modelo no pasa
Wie steigt die Teststärke (Power) des χ²-Tests an?
Was passiert bei große Stichproben?
Was passiert bei kleinen Stichproben?
Interpretation?
Was bedeutet einnen nicht signifikanten Test?
El poder estadístico de la prueba χ² aumenta con el tamaño de la muestra:
• Muestras grandes: incluso pequeñas desviaciones (residuos entre la matriz de covarianza implícita y la empírica) de un ajuste perfecto del modelo pueden llevar al rechazo del modelo.
—> si la muestra es muy grande, como H0 es = S, entonces rechaza el modelo aunque pueda ser bueno.
• Muestras pequeñas: incluso grandes desviaciones de un modelo perfecto no conducen necesariamente al rechazo del modelo.
• Por lo tanto, la prueba depende en gran medida del tamaño de la muestra; la interpretación debe realizarse teniendo en cuenta el tamaño de la muestra.
Además: lógica de prueba «invertida»
• La «hipótesis deseada» es la H0 («el modelo se ajusta»).
• Por lo tanto, queremos que la prueba no sea significativa.
• Sin embargo, una prueba de hipótesis que no ha resultado significativa NO significa que la H0 sea cierta. Solo significa que no teníamos pruebas suficientes para rechazar la H1.
Welche 2 Arten Approximativer Fit-Indizes gibt es und was ist jeder?
1. Índices de ajuste absolutos: cuantifican la capacidad de un modelo para reproducir los datos; unabhängig de un modelo comparativo. (SRMR, RMSEA).
2. Índices de ajuste relativos: comparación con un modelo nulo (también denominado modelo de independencia), en el que todas las variables están descorrelacionadas (es decir, no hay variables latentes ni relaciones entre las variables, salvo los términos de error). CFI
• El modelo nulo suele tener un ajuste muy deficiente.
• Los índices de ajuste relativos indican la mejora proporcional del ajuste en comparación con un modelo nulo más restrictivo.
—> cuanto porciento es nuestro modelo comparado con el 0
Ist dieser Fit Relativ oder Absolut?
Gleichung
Wertebereich und optimale Wert?
Typische Empfehlung bei N > 250 und N < 250?
Der RMSEA ist sensitiv gegenüber?
Was berücksichtigt der RMSEA?
Je komplexer ein Modell, RMSEA desto… Was heißt das?
OJO con especificar bien las landas y las direcciones de los ZH. Que la muestra sea grande y el modelo menos complejo es premiado.
Nenner es abajo.
wenigere Parameter los premia, muchos los castiga
Gleichung und Erklärung der Parameter
Was gibt der SRMR an?
Typische Empfehlung?
Der SRMR ist sensitiv gegenüber NICHT?
Was berücksichtigt der SRMR?
SRMR hoch = ?
• El SRMR es un índice de ajuste absoluto.
• El rango de valores está entre 0 y 1; el valor óptimo
es cero.
• El SRMR indica las desviaciones medias de la
matriz de correlación observada (estandarizada)con respecto a la implícita (medida estandarizada).
rjk = diferencia entre el coeficiente de correlación observado y el estimado en todas las celdas de la matriz.
p = número de variables manifiestas
S = desviación estándar/covarianza implícita en el modelo
σ = desviación estándar/covarianza estimada a partir de la muestra
• Recomendación típica (y bastante obsoleta) (según Hu y Bentler, 1998): SRMR < 0,11
• A diferencia del RMSEA, el SRMR no tiene en cuenta
ni la complejidad del modelo ni el tamaño de la muestra
• SRMR alto —> Comprobar si son necesarias covarianzas entre variables latentes o si se necesitan uno o varios factores/variables latentes adicionales.
𝑒 son todos los residuos
r² los residuos se suman y elevan al cuadrado y se dividen entre 𝑒, los residuos de todos los beobachteten parameter.
NO ME VEO LOS RESIDUOS DOBLE, SINO EL TRIANGULO DE COVARIANZAS.
im schlimmsten fall, ist die Korrelationsmatrix tiene siempre 1 y la modell implizierte siempre 0
Was gibt der CFI an?
Der CFI ist sensitiv gegenüber WAS NICHT?
• El CFI es un índice de ajuste relativo
• El CFI compara el modelo probado con un modelo nulo más restrictivo
– Modelo nulo: todas las variables manifiestas carecen de correlación, no hay variables latentes
χ²M: Teststatistik del modelo real
χ²N: Teststatistik del modelo nulo
• El rango de valores está entre 0 y 1; el valor óptimo es 1.
• Recomendación típica (y bastante obsoleta) (según Hu y Bentler, 1998): CFI > 0,95.
• Ventaja: insensible al tamaño de la muestra.
los df del modelo 0 son siempre diferentes el modelo testado.
schlimmsten fall CFI= 0
Hu und Bentler (1998, 1999), empfehlen folgende Cut-Off Werte bei einer Schätzung nach der ML-Methode:
• RMSEA
• SRMR
• CFI
• χ²
Worauf muss man aufpassen?
Hu y Bentler (1998, 1999) recomiendan los siguientes valores de corte para una estimación según el método ML:
• RMSEA ≤ 0,06 para N > 250; ≤ 0,08 para N < 250.
• SRMR ≤ 0,11.
• CFI > 0,95.
• Valor χ² con df y valor p correspondiente.
¡Atención!
• ¡Los índices de ajuste pueden variar considerablemente en función del método utilizado (por ejemplo, entre ML y WLSMV)!
• Las investigaciones actuales muestran que, en el caso de las estimaciones WLSMV, deben calcularse de forma diferente (a como se muestra en las diapositivas anteriores), especialmente el RMSEA y el CFI (véase Savalei, 2018).
• ¡Un modelo con un ajuste estadístico excelente puede carecer por completo de sentido en cuanto a su contenido!
• ¡Los valores de corte de Hu y Bentler son más que controvertidos
Puntos críticos generales:
• Los valores de corte de Hu y Bentler se basan en estudios de simulación con condiciones muy específicas (en cuanto a modelos y tamaño de la muestra).
• En otras condiciones se obtienen otros valores de corte.
• Todos los índices de ajuste son magnitudes continuas. La clasificación en «buen» o «mal» ajuste es muy popular en la práctica, pero siempre va acompañada de cierta arbitrariedad en cuanto a la definición de lo que es un «buen» ajuste.
La investigación actual se centra en gran medida en los «umbrales de índice de ajuste personalizados», por ejemplo, los umbrales dinámicos de McNeish y Wolf (2021). Este método determina umbrales similares a los de Hu y Bentler, pero para el modelo concreto probado y el tamaño concreto de la muestra
—> si es posible, se debe utilizar este método o uno similar.
Die Bewertung des Gesamtmodells führte zu einem positiven Ergebnis. Was bedeutet dies und was soll man nun machen?
Was impliziert dies NICHT?
Hypothesen und Bedeutung der P-Werte in R (lavaan)?
• Si la evaluación del modelo global da un resultado positivo (el modelo no ha sido rechazado), se plantea la cuestión de si cada uno de los parámetros estimados difiere significativamente de cero.
Atención, error frecuente: ¡un modelo globalmente adecuado no implica que todas las rutas sean significativas!
—> Cada parámetro estimado del modelo (varianza de una variable latente exógena, coeficiente de ruta, etc.) puede someterse a prueba:
• H0: el parámetro no difiere de cero.
• H1: el parámetro difiere de cero.
Por supuesto, también son posibles otras hipótesis (por ejemplo, direccionales), pero por lo general los valores p en los resultados del software estadístico (por ejemplo, lavaan en R) se refieren a las hipótesis no direccionales mencionadas anteriormente.
Wie heißt der Signifikanztest einzelner Modellparameter?
Was ist er?
Gleichung?
Gilt H0, dann…
p-Werte im R lavaan sind für den Test mit…
Critical Ratio
Eine Teststatistik zur Überprüfung der H0: dass die Parameter = 0 sind
C.R. ist der geschätzte Modellparameter geteilt durch seinen geschätzten Standardfehler:
• Prueba de significación para parámetros individuales del modelo:
H0: parámetro = 0
Para verificar H0, se calcula una estadística de prueba: la razón crítica C.R. = el parámetro estimado del modelo dividido por su error estándar estimado:
• Si se cumple H0 (y las variables manifiestas presentan una distribución normal multivariante en la población), entonces C.R. es una variable con distribución normal estándar.
➙ Valor z
• En la salida de lavaan en R obtenemos valores p para la prueba con H0: parámetro = 0.
Si C.R. cae fuera de un intervalo de +1,96, -1,96, se puede rechazar la H0: el parámetro del modelo se desvía significativamente de 0 (con α = 5 %).
O sea que el intervalo als kritischen Z wert. o mas grande o mas chico H0 se va
Ergänze die Parameter etc
N = 301
p = 0, χ ² wird signifikant = modell passt nicht.
CFI = 0.931 (>0.95) NO ALCANZA
RMSEA = 0.092 ( ≤ 0.06 porque N=301, ≤ 0.08 bei N < 250)
SRMR = 0.065 (≤ 0.11)
Todas estas medidas dicen que el modelo en general no pasa.
Auf basis der Daten sehen wir dass es eine MINIMALE ABWEICHUNG gibt, wie schlimm ist es? CFI es menor que el cut off, y el RMSEA es mayor que .06, dementsprechend passt nicht.
Requisitos:
1. Linealidad
2. Veracidad de las distribuciones asumidas
3. Ausencia de (multi)colinealidad
4. Tamaño suficiente de la muestra
5. Número adecuado de indicadores por variable latente
Wann ist SEM bezüglich der Linearität sinnvoll?
Was sollte man daher machen?
Wann spricht man von (Multi-) Kollinearität?
Wieso ist (Multi-) Kollinearität im Rahmen vom ML-Schätzungen problematich?
Welche Items sollten daher nicht als Indikatoren verwendet werden?
Stellt (Multi-) Kollinearität eine Verletzung von Modellannahmen dar?
Linealidad:
el SEM solo tiene sentido si:
• las relaciones son lineales.
• no hay valores atípicos.
—> ¡Comprueba los diagramas de dispersión, los diagramas de caja y los histogramas!
Supuestos de distribución: véanse las diapositivas sobre métodos de estimación (Clase SEM 3)
Keine (multi)colinealidad:
Se habla de (multi)colinealidad cuando dos o más elementos están muy correlacionados entre sí.
• Los indicadores de un factor con una correlación muy alta pueden provocar problemas de estimación, especialmente en el contexto de las estimaciones ML: falta de convergencia, es decir, falta de estimaciones de parámetros
• Por lo tanto, como pauta aproximada, se debe tener cuidado de no utilizar como indicadores elementos con una correlación muy alta (r > .85 ).
• En sentido estricto, la (multi)colinealidad no constituye una violación de los supuestos del modelo, pero en la práctica suele provocar problemas de convergencia.
korrelation und streudiagrammen zw den einzelnen Variablen schauen. Die zh zw V sehen linear aus. Die einzelnen V in diagonal sind univariat kullant nv.
Miltivariat bedeutet dass alle zusammen nv sind, aber wenn inivariat sind nicht nv, ist die multi in gefahr. Die Korrelationen sind nicht so hoch, also :)
und deren Vorteile
Número de indicadores por variable latente
• El número de ítems por variable latente influye en los resultados de un AFC.
Recomendación: debe haber al menos tres o cuatro ítems por variable latente.
—> De este modo se aumenta la identificabilidad del modelo.
• Un mayor número de ítems por factor conduce (Marsh, Hau, Balla y Grayson, 1998)
• con mayor frecuencia a soluciones adecuadas.
• a estimaciones de parámetros más exactas y estables.
• a menos soluciones no convergentes.
• a factores más fiables.
Wann ist ein einfacheres Modell unter einem komplexeren Modell geschachtelt?
3 Schachtelungsregeln?
Modelos anidados
Un modelo más simple está anidado dentro de uno más complejo cuando se puede transformar el modelo complejo en uno simple mediante la fijación de parámetros.
Comprobar el anidamiento: reglas adicionales
1. Ambos modelos comparados deben basarse en la misma matriz de covarianza. Es decir, ambos deben contener las mismas variables manifiestas y basarse en el mismo conjunto de datos.
• También deben permanecer las variables manifiestas que, tras fijar una ruta en 0, son «libres» en el modelo gráfico (sin conexiones con el resto del modelo). En cuanto al contenido, esto representa una hipótesis comprobable: se asume explícitamente que la variable libre no tiene relaciones significativas con todas las demás variables del modelo (lo que debería reflejarse en la matriz de covarianza).
2. Si dos modelos tienen el mismo número de grados de libertad, no pueden estar anidados; esto solo es posible si un modelo es más complejo que el otro (es decir, tiene más parámetros de modelo; es decir, tiene menos grados de libertad).
3. Para pasar del modelo complejo al modelo simple (anidado), solo se pueden fijar los parámetros (normalmente en 0 o 1). No está permitido liberar parámetros.
Wie ist immer der Modellfit eines einfacheren Modells im Vergleich zu dem eines komplexeren Modells?
Dann wieso/wofür macht man einen Modellvergleich?
Was bedeutet ein signifikanter Modellvergleich?
Und nicht signifikant?
Los modelos anidados pueden compararse entre sí mediante la prueba de diferencia χ².
Teststatistik: diferencia entre los valores χ² de ambos modelos:
∆χ² = χ²simple – χ²complejo
Grados de libertad de la comparación de modelos:
∆df = dfsimple – dfcomplejo
==> Un modelo más simple siempre tiene un ajuste de modelo peor (caso límite: igual de bueno) que un modelo más complejo. La pregunta es: ¿es solo ligeramente peor?
—> Una comparación significativa de modelos indica que el modelo más simple es significativamente peor que el complejo = quedarse con el modelo complejo.
—> Si el modelo más simple no es significativamente peor que el complejo = mantener el modelo simple (navaja de Occam).
Wo wind die df?
χ² ?
Was ist chisq diff?
DF diff?
Welches Modell sollte man hier auswählen? und wieso?
Was sind und wozu dienen die AIC (Akaike Information Criterion) und BIC (Bayesian Information Criterion)?
• Los modelos no anidados se refieren a los mismos datos que los anidados
• Los modelos no anidados no se pueden comparar mediante la prueba de diferencia χ²
Alternativa: AIC (criterio de información de Akaike) y BIC (criterio de información bayesiano)
• El AIC/BIC se calcula a partir del ajuste del modelo y el número de parámetros que se deben estimar en el modelo
—> son una ponderación del ajuste y la complejidad.
• Cuanto menor sea el AIC/BIC, mejor se ajustará el modelo a los datos.
—> Trata de balancear entre modelfit y komplexität
Atención: a diferencia del valor χ², el AIC/BIC del modelo más complejo puede ser tanto mayor como menor que el AIC/BIC del modelo más simple.
• El valor absoluto del AIC/BIC es irrelevante; lo único decisivo es la diferencia entre el AIC de ambos modelos, es decir,
∆ AIC/BIC
• El AIC/BIC también se puede aplicar a modelos anidados, pero no ofrece una prueba de significación.
El niedriger AIC/BIC gewinnt.
Aqui es el valor AIC del modelo complejo menor que el del sencillo, SE ESCOGE EL COMPLEJO. (Siempre gana el de menor valor)
En los nicht geschachtelte modelle CHI2 NICHT INTERPRETIEREN!!!!!! El output ensena que las variables son diferentes y no restringidas. Es otro modelo. AIC dice que el primero el menor tiene. PERO NO HAY SIGNIFIKANZTEST!
Welches Output handelt sich um ein Nicht-geschachteltes Modell, welches um ein geschachteltes Modell?
Welches Modell ist besser?
Welche Aussagen erlauben die Modellvergleichen mit dem χ²-Differenzentest und AIC/BIC bezüglich des kausalen Modells in der Population?
Wie sollten die Differenzentests angesehen werden?
• Tanto en las comparaciones de modelos con la prueba de diferencia χ² como con el AIC/BIC, no hay garantía de que el «mejor» modelo se acerque más al modelo causal real de la población.
• Esto es especialmente cierto si el mejor modelo sigue obteniendo malos resultados en la prueba de modelos exactos y los índices de ajuste.
• Tanto la prueba de diferencia χ² como el AIC/BIC deben considerarse más bien criterios predictivos. Pueden ayudar a encontrar el modelo que mejor predice las variables manifiestas.
9 beobachtete Indikatoren messen 3 latente Faktoren:
1: Faktor „visual“ durch x1 (Visual perception), x2 (Cubes) und x3
(Lozenges)
2: Faktor „text“ durch x4 (Paragraph comprehension), x5 (Sentence completion) und x6 (Word meaning)
3: Faktor „speed“ durch x7 (Speeded addition), x8 (Speeded counting of dots) und x9 (Speeded discrimination straight and curved capitals)
• N=301
• Annahme: 3 korrelierte Faktoren
Sollte man das Modell annehmen oder ablehnen?
Interpretation der Schätzungen der Parameter?
• Basándonos en los índices de ajuste, rechazaríamos el modelo en su conjunto (según Hu y Bentler).
• En general, si se rechaza el modelo en su conjunto, no tiene sentido interpretar las estimaciones de los parámetros.
• A modo de ilustración, interpretaremos las estimaciones de los parámetros de todos modos.
• Coeficientes de ruta entre indicadores manifiestos y variables latentes (con ULI).
• Para una diferencia de 1 unidad en la variable latente, se espera una diferencia de
0,554 unidades en la variable manifiesta x2.
• Dado que no están estandarizados, no podemos interpretar su nivel relativo entre sí.
• No se puede determinar si se trata de una relación fuerte o débil.
ULI:
Std.all steht für den Fall, dass die Varianzen aller manifesten und aller latenten Variablen (mit Ausnahme der Fehler) standardisiert und damit auf 1 festgelegt wurden:
Z STANDARIZ LAT UND MANI V. Die varianzen sind entsprechend 1 und mittelwert 0. Jetzt kann man sie vergleichen
X1 WARE der beste PRÄDIKTOR für visual. bei textual son muy parecidos pero x5. para speed es x8 el mejor
Std.lv: Metrik der latenten Variable mit UVI festgelegt:
Aqui tendria la lat V la misma metrica que las manifesten.
Interpretation der Kovarianzen:
Hier kann man sehen, welche latenten variablen am höchsten miteinander korrelieren. Hier speed und visual sind die lat que korrelieren mas entre si
Estimate in R ist unterschiedlich für endogenen und exogenen Variablen!!!:
x1 bis x9 sind die Fehlervariablen der MANI V und die andren 3 sind die Varianzen der LAT V. diese sind exo.
Die mani sind endo
Las 3 latentes son 1 porque estan estandarizadas. si vemos los fehlervar z (std.all) de las manifes podemos ver wieviel fehlervarianz und wie systemat varianz es gibt.
x1 fehler vari .404, das ist UNSYSTEMATISCH
1 - Valor en columna std.all es la varianza sistematica. en este caso 0.596, WENN DIE GESAMTVARIANZ 1 IST
Dies entspricht wiederum der quadrierten Ladung (0.7722 = 0.596)
Manifeste variable x1 erklärt fasst 60% der Varianz der latenten vaurablen visual.
Alternatives 2-Faktor-Modell:
Was quantifizieren Fit-Indizes bzw welche Frage beantworten diese?
ab wann ist ein Fitindex gut / schlecht?
häufigsten herangezogenen Cutoff-Werte?
Kritik an diesen
Was geben Modellvergleiche an, was nicht?
Geschachtelte Modelle und Nicht-geschachtelte Modelle
Los índices de ajuste cuantifican la proximidad entre la matriz de covarianza implícita en el modelo (ajustado) y la matriz de covarianza empírica (es decir, ¿en qué medida el modelo puede representar los datos?).
Hay que distinguir entre el ajuste exacto del modelo (basado en la prueba χ²), los ajustes relativos y absolutos del modelo.
Los valores de corte más utilizados (es decir, ¿a partir de cuándo un índice de ajuste es bueno o malo?) son los de Hu y Bentler (1999).
• RMSEA < 0,06 con N > 250
• RMSEA < 0,08 con N ≤ 250;
• SRMR < 0,11;
• CFI > 0,95
Pero: críticas a estos valores de corte rígidos, que a menudo no se ajustan a los modelos reales
Las comparaciones de modelos indican cuál de los dos modelos se ajusta mejor a los datos en términos relativos
PERO NO CAUSAL EN LA POPULACION
• Modelos anidados: prueba χ² o AIC
• Modelos no anidados: AIC
Last changed21 days ago