Womit soll die modell-implizierte Kovarianzmatrix vergliechen werden?
Was machen wir dafür?
Gleichung und R syntax?
Die Populationskovarianzmatrix wird anhand der Stichprobendaten geschätzt. (Also, man berechet 2 Kovarianzmatrix. Einmal die des Modells, und dann noch die, der Daten. Die der Daten wird geschätzt mit der Gleichung
1/n-1
Berechnung von___ durch __
Gleichung
Wofür steht jedes Komponent
Berechnung der maximalen Freiheitsgrade einer Kovarianzmatrix (bekannte Parameter)*
**Achtung: Bitte klar trennen von den freien Parametern eines Modells (welche auch „Freiheitsgrade“ genannt werden) und den
Freiheitsgraden eines SEMs, welche auch „Freiheitsgrade“ genannt werden.
Mit welchem Gleichungssystem beantworte ich jede der folgenden Fragen und wieso?
Wie hängen die Variablen und Parameter im Modell zusammen?
Wie hängen die Modellparameter mit den Varianzen und Kovarianzen der manifesten Variablen zusammen?
Hängen die Modellparameter nach der Berücksichtigung von Parameterfixierungen nur noch von bekannten Größen ab?
3 tipos de sistemas de ecuaciones:
• Ecuaciones de definición/Definitionsgleichungen: ¿Cómo se relacionan las variables y los parámetros en el modelo? Cada suposición sobre la estructura del modelo está incluida de forma explícita o implícita.
—> Comparable con la ecuación del modelo en el análisis de regresión.
• Ecuaciones estructurales/Strukturgleichungen: ¿cómo se relacionan los parámetros del modelo con las varianzas y covarianzas de las variables manifiestas?
—> Mostrar cómo se origina la matriz de covarianza implícita en el modelo.
• Ecuaciones de identificación/Identifikationsgleichungen: tras tener en cuenta las fijaciones de parámetros, ¿los parámetros del modelo dependen solo de magnitudes conocidas?
—> Mostrar si el modelo está identificado y, por lo tanto, es estimable en principio.
Was lässt sich in Definitionsgleichungen darstellen?
Gleichungen der Definition der Ausprägungen endogener manifester Variablen:
Gleichungen der Definition der Ausprägungen endogener latenter Variablen:
Implizite Annahmen/ Definition der _______ (Gleichungen und Erklärung)
Definitionsgleichungen (links stehen alle endogenen Variablen):
- Jede endogene Variable wird durch eine Regressionsgleichung dargestellt (d.h., sie wird durch alle Variablen vorhergesagt, die einen gerichteten Pfeil auf sie haben). D.h., Gleichungen so aufstellen, dass links die endogenen Variable stehen (z.B. x1, oder η)
Was wird zu den Strukturgleichungen?
Según qué se resuelven las Strukturgleichungen?
Gleichungen und Matrix
Las ecuaciones de definición pueden ahora convertirse en ecuaciones estructurales.
Estas se resuelven según los elementos de la matriz de covarianza, es decir, según las (co)varianzas de las variables manifiestas del modelo.
Strukturgleichungen (links stehen die Elemente der Kovarianzmatrix):
- Beschreiben die Struktur der modell-implizierten Kovarianzmatrix. Es geht nicht mehr um die manifesten Variablen an sich, sondern um die (Ko)Varianzen der Variablen
➙ die Definitionsgleichungen so umstellen und als (Ko)Varianz ausdrücken, dass links die Elemente der modell-implizierten Kovarianzmatrix stehen, also z.B. σ²(x1) oder σ(x1, x2)
Was impliziert dieses Strukturmodell?
Dieses Strukturmodell impliziert eine bestimmte Struktur der Kovarianzmatrix.
Folge der Modellannahmen: Alle 3 Kovarianzen sind gleich!
Welche zwei Dinge sind notwendig, um ein Modell zu identifizieren?
Was stellt die bekannten Parameter?
La matriz de covarianza empírica S representa los parámetros conocidos:
Wie viele freie (und damit unbekannte) Parameter gibt es in diesem SEM? Welche sind sie?
Wie heißt dann die Gesamtheit aller Modellparameter eines Modells?
Equality constraints werden von…
Worüber berechnet man die Zahl der Freiheitsgrade (df)?
Erkläre die Komponenten der Gleichung
Erkläre die 3 Varianten der Freiheitsgrade
Was ist hier das Problem? Wann haben wir ein Identifikationsproblem? Erkläre das Bild
Wie löst man das Problem?
Im Bild: Ohne ULI, nur UVI. Constraint alle Fehlervariablen zu Manifesten Variablen sind =1 .
Wenn es mehr unbekanten Parameter als bekannten Parameter ist das Modell nicht identifizierbar.
mehr unbekanten Parameter als bekannten, das heißt, dass ohne weitere Constrains, wir keine Aussagen daüber, wie diese Variablen miteinander zusammenhängen, sagen können.
Auf Basis des rechten Messmodells, kann man nicht Aussagen sagen. Si lo pasamos a Strukturgleichungen, va a faltar siempre un parametro para resolver la ecuacion.
Las primeras 4 ecuaciones se leen: λ₂ = Gegeben λ1, die covarianz…. Pero no tenemos el valor del landa. O sea, dependiendo de una landa, son las demas.
SOLUCION: Vuelvo a hacer un constraint: ULI en una landa (bild 3)
Welches Problem gibt es hier und was ist die Lösung?
Es ist ein Identifikationsproblem: Man hat mehr unbekannten Parameter als bekannten Parameter.
Ein weiterer Constraint wie ULI für ein Landa, löst das Problem.
Jetzt wäre die Interpretation der Gleichungen:
landa 2 wäre das Verhältnis der covarianz von X ₂ mit X3, durch die covarianz von X1 mit X3, gegeben landa 1 = 1.
Identifikationsgleichungen (links stehen die Modellparameter):
- So umstellen, dass links die Modellparameter stehen, also z.B. σ²(𝜉), σ²(ε₁) oder λ₁. Dabei muss dafür gesorgt werden, dass rechts nur bekannte Variablen (d.h., Varianzen und Kovarianzen der manifesten Variablen stehen). Hat man mehr unbekannte Modellparameter als bekannte Variablen, ist das nicht möglich, und das Modell ist unteridentifiziert.
Diese sind die Identifikationsgleichungen
Die Identifikationsgleichungen erlauben was?
Wann ist ein Modell unteridentifiziert? df?
Wann ist ein Model genau identifiziert? df?
Wann ist ein Modell überidentifiziert? df?
Was ist Unteridentifikation?
Beispiel: a + b = 6
Erkläre
Wie würde dies in R aussehen?
El modelo está subidentificado: para al menos un parámetro del modelo no se puede especificar ninguna ecuación de identificación (df < 0).
Wann ist ein Modell genau identifiziert?
Beispiel: a + b = 6 und 2a + b = 10
Modell hat df?
Was bedeutet das?
Saturiertes Modell. Hay exactamente una sola ecuacion para cada Parametro. Ya es determinante. Es la solucion basada en las angaben des Modells.
POR ESO NO SE PUEDE HACER MODELLTEST!!!
El modelo está identificado de forma exacta: para cada parámetro del modelo se puede especificar exactamente una ecuación de identificación (df = 0).
Wann gibt es Überidentifikation?
Daher… (3 Folgerungen)
Achtung! ______
welche Werte für a und b sind die „Richtigen“?
Sobreidentificado (overidentified): para al menos un parámetro se puede especificar más de una ecuación de identificación
➙ Más parámetros conocidos que estimados
• El sistema de ecuaciones resultante se puede determinar de forma aproximada
• Representa el caso normal en el marco de los modelos de ecuaciones estructurales
• Es posible realizar una prueba del modelo
Este es caso normal.
Nenne alle 3 y di como se resuelven.
Worauf beziehen sich alle Begriffe?
Sortierung? Was steht links bei Jeder Art?
Todos los términos se refieren al mismo sistema de ecuaciones, que puede resolverse y reordenarse según diferentes variables:
• Ecuaciones de definición (a la izquierda se encuentran todas las variables endógenas):
- Cada variable endógena se representa mediante una ecuación de regresión (es decir, se predice mediante todas las variables que tienen una flecha dirigida hacia ella). Es decir, se establecen ecuaciones de tal manera que las variables endógenas se encuentran a la izquierda (por ejemplo, x1 o η).
• Ecuaciones estructurales (a la izquierda se encuentran los elementos de la matriz de covarianza):
- Describen la estructura de la matriz de covarianza implícita en el modelo. Ya no se trata de las variables manifiestas en sí mismas, sino de las (co)varianzas de las variables
➙ Reorganizar las ecuaciones de definición y expresarlas como (co)varianza de manera que a la izquierda estén los elementos de la matriz de covarianza implícita en el modelo, es decir, por ejemplo
σ²(x1) o σ(x1, x2).
• Ecuaciones de identificación (a la izquierda están los parámetros del modelo):
- Reorganizar de manera que los parámetros del modelo se encuentren a la izquierda, es decir, σ²(𝜉), σ²(ε₁) o λ₁. Para ello, hay que asegurarse de que a la derecha solo se encuentren variables conocidas (es decir, varianzas y covarianzas de las variables manifiestas). Si hay más parámetros desconocidos que variables conocidas, esto no es posible y el modelo está subidentificado.
Strukturgleichungen implizieren…
Wie wird das bezeichnet?
Ist die Kovairanzstruktur der Daten gleich wie die der modellimplizierten Struktur? Wieso?
• Las ecuaciones estructurales implican una determinada relación de magnitud entre las varianzas/covarianzas de las variables manifiestas. Esta relación de magnitud se denomina estructura de covarianza.
• La estructura de covarianza de los datos (en modelos sobreidentificados) siempre diferirá de la estructura implícita en el modelo*.
* A menos que se trate de una enorme coincidencia y la muestra realizada represente la verdadera estructura de covarianza hasta el décimo decimal. En cambio, en los modelos identificados de forma exacta, la matriz de covarianza empírica siempre se representa exactamente según la estructura implícita en el modelo.
➢ Por ejemplo, incluso si las tres covarianzas son exactamente iguales en la población (como predice el modelo), se observará una cierta desviación de las mismas en cada muestra concreta.
➢ Es decir, hay que comprobar si esta desviación debe considerarse aleatoria o sistemática.
Was impliziert das Modell?
Dass alle Kovarianzen gleich sind. In der wahrheit sind sie nur ähnlich. Man muss schätzen, wieviel systematisch ist. Das heißt, dass wir jetzt die Empirische Kovarianzmatrix zur Schätzung der Parameter anwenden werden.
Wie kommt man von der vom Modell implizierten Kovarianzstruktur zur implizierten Kovarianzmatrix, die Aussagen über die absolute Größe der Varianzen/Kovarianzen der manifesten Variablen macht?
¿Cómo se pasa de la estructura de covarianza implícita en el modelo a la matriz de covarianza implícita, que proporciona información sobre la magnitud absoluta de las varianzas/covarianzas de las variables manifiestas?
1. Si los parámetros del modelo se fijan primero de alguna manera numéricamente y luego se insertan en las ecuaciones estructurales, el resultado es una realización concreta de la matriz de covarianza.
2. Si se introducen otros valores iniciales para los parámetros del modelo, se obtiene una matriz de covarianza diferente.
Sin embargo, dado que cada conjunto de parámetros del modelo «pasa» por las mismas ecuaciones estructurales, cada matriz realizada sigue inevitablemente la estructura de covarianza general de ese modelo.
Explica paso 1,2 y 3 y lo que dice en el recuadro de la derecha
Wann hat man den besten Fit?
Was benötigt man, um zu wissen, welches Set an Parametern so nahe wie möglich an die empirische Kovarianzmatrix herankommt?
Welche Möglichkeiten gibt es, um die Diskrepanz zwischen zwei Matrizen zu berechnen?
Diese Diskrepanzmaße sind was?
Beschreibe das Vorgehen (4 Schritte)
1. Se introducen los valores iniciales para los parámetros del modelo 𝜃
Existen heurísticas que permiten seleccionar los valores iniciales de forma adecuada (de modo que se aproximen lo más posible a los valores óptimos)
2. Estos parámetros del modelo se introducen en las ecuaciones estructurales y se calcula la matriz de covarianza implícita.
3. La matriz de covarianza implícita Σ^(Θ) se compara con la matriz de covarianza empírica S(estimada a partir de la muestra): se determina la discrepancia F entre la matriz de covarianza empírica y la implícita.
4. Se modifican ligeramente los parámetros del modelo
➙ ¿se reduce la discrepancia?
➢ Los pasos 3 y 4 se repiten (➙ iteración; del latín iterare = repetir) hasta que dos estimaciones de parámetros consecutivas apenas se diferencian, es decir, según un criterio predeterminado (➙ convergencia; del latín convergere = acercarse).
Was bedeutet objektive Funktion in R?
Welche sind hier die Startwerte für die Modellparameter σ²(ε₁), σ²(ε₂), σ²(ε₃), und Var(𝜉)?
Interpretiere diese Outputs
Objective function = Diskrepanzfunktion.
Kleiner Werte = weniger Diskrepanz
von welchen 3 Faktoren hängt die Wahl der geeigneten Schätzmethode (unter anderem) ab?
1. Skalenniveau: ordinal- oder intervallskaliert
2. Art der Verteilung der endogenen Variablen: normalverteilt oder schief verteilt
3. Stichprobengröße
Was sind udn machen die folgenden Methoden?
Maximum-Likelihood-Methode (ML)
GLS- und ULS-Methode
ADF-Methode
WLSMV-Methode
Método de máxima verosimilitud: responde a la pregunta «¿Qué parámetros de la población son los más plausibles para el evento observado?».
➙ Estimación óptima de los parámetros de la población.
Métodos GLS (Generalized Least Squares) y ULS: minimizan las desviaciones al cuadrado entre la matriz de covarianza observada y la implícita.
Método ADF (asymptotically distribution-free): se basa en una matriz de covarianza especial y una estimación GLS (Generalized Least Squares).
Método WLSMV: se basa en una estimación ponderada de la desviación cuadrática mínima, ajustada para la media aritmética y la varianza.
ML- und GLS-Methode:
Método ML y GLS:
1. Distribución normal multivariante de las variables endógenas (las exógenas también pueden tener una distribución dicotómica, asimétrica, etc.).
2. Nivel de datos de intervalo.
Atención: si no hay una distribución normal multivariante de las variables endógenas:
• Las estimaciones del valor χ² serán excesivas.
– Esto hace que el modelo adecuado sea rechazado con demasiada frecuencia por la prueba del modelo.
• Subestimaciones moderadas a graves de los errores estándar de los parámetros.
– Parámetros: varianzas de error, correlación, cargas.
– El error estándar se utiliza para determinar la significación de los parámetros.
• El método ML es robusto frente a violaciones de la hipótesis de distribución normal en lo que respecta a las estimaciones de parámetros pero no en lo que respecta a las pruebas de significación (modelo y parámetros).
• En caso de violación de la distribución normal multivariante, se aplica el método bootstrap de Bollen-Stine, que proporciona un valor p corregido para el modelo global.
• Son posibles diversas correcciones para obtener errores estándar robustos.
El método ADF requiere muestras grandes (se recomienda N > 3000) y solo es adecuado para modelos poco complejos.
• Sin embargo, el método ADF tiene la ventaja de que no hace suposiciones de distribución.
El método WLSMV permite una estimación robusta de modelos con variables dicotómicas.
• Muthén y Muthén recomiendan un tamaño de muestra de
N > 200.
Wenn man in der Praxis über die „richtige“ Schätzmethode diskutiert (z.B. ML vs. WLSMV, Bootstrap vs. Korrektur der Standardfehler, …), welche Methodenfehler, neben der Auswahl von Schätzmethoden, wären noch schlimmer?
(3, mit Spezifikationen)
• En la práctica, se debate a menudo sobre cuál es el método de estimación «correcto» (por ejemplo, ML frente a WLSMV, bootstrap frente a corrección de los errores estándar, etc.).
• En nuestra opinión, una elección «no óptima» del método de estimación tiene, en la práctica, un impacto mucho menor que los siguientes puntos:
• Especificación errónea del modelo, p. ej.
– Número incorrecto de variables latentes (palabra clave: dimensionalidad)
– Estructura incorrecta entre variables latentes y manifiestas (palabra clave: estructura simple, cargas adicionales)
– Se omitieron o no se incluyeron en el modelo variables importantes que deberían tenerse en cuenta al estimar los efectos causales de interés (palabra clave: factor de confusión, véase la clase sobre inferencia causal).
• Instrumentos de medición deficientes (palabra clave: validez de contenido).
• Muestras pequeñas.
Welche sind alle Schritte der Anwendung von SEM Modelle?
Welche ist die Grundlage der Parameterschätzung in SEMs?
Wie kommt man vom graphischen Modell zu Σ^?
Wie findet man die optimalen Werte?
La estimación de parámetros en los SEM se basa en una comparación de la matriz de covarianza empírica 𝑆 con la matriz de covarianza implícita en el modelo Σ^.
¿Cómo se pasa del modelo gráfico a Σ^?
1. ➙ Establecer ecuaciones de definición
2. ➙ Establecer ecuaciones estructurales
3. ➙ Resolver según los parámetros del modelo y
• Comprobar la identificación del modelo: ¿se pueden estimar los parámetros?
4. Modelos subidentificados, identificados o sobreidentificados
5. Encontrar los valores óptimos para los parámetros del modelo, de modo que Σ se acerque lo más posible a 𝑆.
¿Cómo se encuentran los valores óptimos?
➙ Minimizar la función de discrepancia (por ejemplo, máxima verosimilitud o WLSMV).
Last changeda month ago