Was ist eine hierarchische Datenstruktur? Sind Daten oft hierarchisch strukturiert?
Im Idealfall sind die Untersuchungseinheiten einer Stichprobe Ergebnis einer Zufallsauswahl aus der Population. Die einzelnen Untersuchungseinheiten und die an ihnen vorgenommenen Messungen sind statistisch voneinander unabhängig.
Dies ist sehr häufig nicht der Fall. Immer, wenn Daten bzw. Untersuchungseinheiten gruppiert werden können, spricht man von einer hierarchischen Datenstruktur.
Die Messwerte der Untersuchungseinheiten sind nicht mehr voneinander unabhängig. Messwerte derselben Level-2-Einheit können sich untereinander ähnlicher sein als Messwerte unterschiedlicher Level-2-Einheiten. (Makro- vs. Mikroebene)
Beispiel mehrstufige Stichprobenziehung: Werden Probanden aus Kostengründen aus sozialen Einheiten gezogen (Klassen, Schulen, Kliniken, Unternehmen, etc.), liegt eine hierarchische Datenstruktur vor.
Welche Fehler werden häufig gemacht, wenn man hierarchische Datenstrukturen nicht berücksichtigt? (Nenne)
ökologischer Fehlschluss
alpha-Fehler-Inflation
Erkläre bitte die alpha Fehler Inflation!
wenn die hierarchische Datenstruktur ignoriert wird, besteht ein Risiko falscher Schlussfolgerungen: bei der inferenzstatistischen Absicherung von Korrelationen bzw. Regressionskoeffizienten, (Inflation des alpha-Fehlers)
die Zuverlässigkeit stat. Schlüsse bei der Analyse von Daten auf Ebene 1 problematisch
Beobachtungen in hierarchischen Datensätzen sind nicht unabhängig voneinander sondern abhängig —> zb ähneln sich Schüler in einer Klasse untereinander stärker als zwischen versch. Klassen: Clusterstichprobe liefert weniger Infos als völlig zufällige SP
stat. Standardverfahren sind gegenüber einer Verletzung der Annahme unabhängiger Datensätze nicht robust
wird die Anzahl auf Ebene 1 als SP-Größe verwendet, werden Standardfehler der ermittelten Koeffizienten unterschätzt, d.h. dass Ergebnisse auch bei Gültigkeit der Nullhypothese häufiger signifikant werden als das nominale alpha-Niveau —> alpha Fehler Inflation)
Was illustriert diese Abbildung?
Das Risiko einer alpha-Fehler-Inflation am Beispiel einer ANOVA. Das Risiko steigt mit: a) zunehmender Abhängigkeit der Daten (Intraklassenkorrelation) und b) zunehmender Anzahl der Gruppen bei jeweils nj = 10 Fällen pro Gruppe.
bei Intraklassen korreltion von 0,1 steigt der Alpha Fehler schon an! Mit zunehmender ICC steift alpha Fehler Inflation bzw. Risiko dafür wird höher
Erkläre den ökologischen Fehlschluss!
es geht um die inhaltliche Interpretation von Ergebnissen, wenn man aggregierte Daten analysiert
dann kann es häufig zum ökologischen Fehlschluss kommen…:
Ergebnisse auf Aggregationsebene (Makroebene) werden auf individueller Ebene (Mikroebene) interpretiert
stützt man sich zb auf die Korrelation auf Makroebene, um Schlüsse auf Zusammenhänge auf Mikroebene zu ziehen, kann man diese (die Korrelation) substanziell überschätzen
—> also: analyseergebnisse die auf einer Ebene gewonnen wurden (Makro- oder Mikroebene), werden auf die jeweils andere Ebene übertragen (obwohl diese evtl. nicht ganz für die andere ebene gelten)
—>Risiko der falschen Schlussfolgerung bei der Interpretation von Zusammenhangs- und Beeinflussungsstrukturen...
Welche Multilevelhypothesen und Modelle haben wir kennengelernt?
1) Multilevel-Hypothese
2) Mikrolevel-Hypothese
3) Makrolevel-Hypothese
4) Multilevel-Moderator-Hypothese
4) Das Badewannenmodell (Multilevel-Mediator-Hypothese)
multilevel bedeutet beide Ebenen einbezogen
makro oder Mikro: nur eine Ebene, entweder Ebene 1 oder Ebene 2
Welche Hypothese ist hier abgebildet?
Mikro-Level-Hypothese
Die "Mikrolevelhypothese" (auch "Mikro-Makro-Linkage" oder "Mikro-Makro-Verknüpfung" genannt) ist ein Konzept in der Mehrebenenanalyse, das sich auf die Annahme bezieht, dass Hypothesen und Schlussfolgerungen, die auf der individuellen (Mikro-)Ebene getestet und gezogen werden, auf die Gruppenebene (Makroebene) übertragen werden können. Mit anderen Worten, die Mikrolevelhypothese untersucht, ob individuelle Merkmale oder Effekte auf die Gruppenebene verallgemeinert werden können.
Beispiel: Ein Beispiel könnte sein, dass auf individueller Ebene festgestellt wurde, dass Bildungsniveau und Einkommen positiv miteinander korrelieren. Die Mikrolevelhypothese würde untersuchen, ob diese Korrelation auch auf der Gruppenebene zwischen verschiedenen Stadtvierteln besteht, indem sie individuelle Bildungsniveaus und Einkommen auf Stadtviertelebene analysiert.
In der Mehrebenenanalyse ist die Mikrolevelhypothese wichtig, um sicherzustellen, dass Schlussfolgerungen und Erkenntnisse, die auf individueller Ebene gewonnen wurden, auf die Gruppenebene verallgemeinert werden können. Dies trägt dazu bei, ein umfassenderes Verständnis von hierarchischen Datenstrukturen und den Zusammenhängen zwischen verschiedenen Ebenen zu entwickeln.
Makro-Level-Hypothese
Die "Makro-Level-Hypothese" ist ein Konzept in der Mehrebenenanalyse von hierarchischen Daten, das sich auf die Annahme bezieht, dass Hypothesen und Schlussfolgerungen auf der Gruppenebene (Makroebene) getestet und gezogen werden können und dann auf die individuelle Ebene (Mikroebene) übertragen werden können. Anders ausgedrückt, die Makro-Level-Hypothese untersucht, ob Effekte oder Zusammenhänge, die auf der Gruppenebene gefunden wurden, auch auf individueller Ebene gültig sind.
Beispiel: Ein Beispiel könnte sein, dass auf Gruppenebene festgestellt wurde, dass in Schulen mit speziellen Bildungsprogrammen die Schüler im Durchschnitt bessere Leistungen erzielen. Die Makro-Level-Hypothese würde untersuchen, ob diese Beziehung auch auf individueller Ebene zwischen Schülern und ihren schulischen Erfolgen besteht.
Die Makro-Level-Hypothese ist wichtig, um zu prüfen, ob Ergebnisse und Hypothesen, die auf der Gruppenebene gefunden wurden, auf die individuelle Ebene übertragen werden können. Dies trägt dazu bei, ein umfassenderes Verständnis von hierarchischen Datenstrukturen und den Zusammenhängen zwischen verschiedenen Ebenen zu entwickeln.
das Badewannenmodell: Multi-Level-Mediatorhypothese
Die "Multi-Level-Mediatorhypothese" oder das "Badewannenmodell" (bathtub model) ist ein Konzept in der Mehrebenenanalyse, das sich auf die Untersuchung von Mediationseffekten auf mehreren Ebenen oder Hierarchiestufen bezieht. Diese Hypothese betrachtet, wie ein Mediator (eine Zwischenvariable) auf verschiedenen Ebenen oder in verschiedenen Gruppen die Beziehung zwischen einer unabhängigen Variable und einer abhängigen Variable beeinflusst.
Mediatorvariable: Ein Mediator ist eine Variable, die in einem statistischen Modell untersucht wird, um zu erklären, warum oder wie eine unabhängige Variable (UV) die abhängige Variable (AV) beeinflusst. Der Mediator vermittelt die Beziehung zwischen UV und AV.
Das Badewannenmodell: Der Begriff "Badewannenmodell" bezieht sich auf die Vorstellung, dass der Mediator wie Wasser in einer Badewanne auf verschiedenen Ebenen wirken kann. Das Wasser (Mediator) kann auf der individuellen Ebene, der Gruppenebene und sogar auf höheren Ebenen "steigen" oder "sinken", um die Wirkung der unabhängigen Variable auf die abhängige Variable zu erklären.
Beispiel: Angenommen, du möchtest verstehen, wie die Schulqualität (unabhängige Variable) die Schulleistung (abängige Variable) beeinflusst, wobei die Lehrerzufriedenheit (Mediator) auf individueller Schulebene und die Schulfinanzierung (Mediator) auf der Ebene des Schulbezirks als mögliche Mediatoren betrachtet werden. Das Badewannenmodell würde untersuchen, wie diese beiden Mediatoren auf verschiedenen Ebenen wirken, um die Beziehung zwischen Schulqualität und Schulleistung zu erklären.
Welche Hypothese ist hier abgebidlet?
Multi-Level-Moderatorhypothese
Die "Multi-Level-Moderatorhypothese" ist ein Konzept in der Mehrebenenanalyse von hierarchischen Daten, das sich auf die Untersuchung von Moderationseffekten auf mehreren Ebenen oder Hierarchiestufen bezieht. Diese Hypothese betrachtet, wie ein Moderator (eine Moderatorvariable) auf verschiedenen Ebenen oder in verschiedenen Gruppen die Beziehung zwischen einer unabhängigen Variable und einer abhängigen Variable beeinflusst.
Was ist die Bedeutung Intraklassenkorrelation für Multilevelmodelle?
Die Intraklassenkorrelation (ICC), auch als Intraclass Correlation Coefficient bezeichnet, ist ein statistisches Maß, das in Multilevel-Modellen eine wichtige Rolle spielt. Sie hat eine große Bedeutung für die Analyse und Interpretation von Daten in diesen Modellen. Die ICC misst die Ähnlichkeit oder Korrelation von Datenpunkten innerhalb derselben Gruppe im Vergleich zu Datenpunkten zwischen verschiedenen Gruppen.
hohe ICC = zunehmende Abhängigkeit der Daten
das Verhältnis der Ebene 2 Varianz zur Gesamtvarianz quantifiziert die Abhängigkeit zwischen den Beobachtungen innerhalb der Gruppen. Dies wird als Intraklassenkorrelation bezeichnet
ICC von p=0,23 bedeutet etwa, dass 23% der Streuung von y durch die Zugehörigkeit der Ebene 1 Einheiten zu den Ebene- 2 Einheiten erklärt werden können
z.B.: Die insgesamt beobachtete Varianz der Schulleistung kann zu 23% durch Unterschiede zwischen den Schulklassen erklärt werden
Wie wird die ICC Berechnet und WOFÜR?
Um das Ausmaß der Abhängigkeit der Messwerte einer Untersuchungs- variablen aufgrund systematischer Level-2-Unterschiede zu quantifizieren, kann die Intraklassenkorrelation verwendet werden. Dabei werden die Level- 2-Einheiten als Stufen eines Zufallsfaktors (random factor) behandelt.
Die Intraklassenkorrelation kann zwischen 0 und 1 variieren und zeigt an, wie ähnlich sich zwei Werte sind, die aus derselben-Level-2-Einheit stammen.
Beachte! Da die empirischen Varianzanteile der Stichprobe keine erwartungstreuen Schätzer der Populationsvarianzanteile sind, müssen entsprechende Korrekturen bei der Berechnung der Intraklassenkorrelation berücksichtigt werden (vgl. Eid et al. 2011, S. 703ff.)
Grundprinzipien und Logik der Multilevel-Modellierung
Die Multilevel-Modellierung (auch Mehrebenenmodellierung oder Hierarchical Linear Modeling - HLM genannt) ist eine statistische Methode, die entwickelt wurde, um Daten zu analysieren, die auf hierarchischen oder Mehrebenenstrukturen organisiert sind.
hierarchische Strukturen
Ebenen (meist 2)
random effects
fixed effects
random Intercept und Random Slope
Schätzung und Inferenz
Berücksichtigung der Hierarchie
Erkläre noch einmal grob, was mit Ebenen gemeint ist bei den Multi-Level-Analysen?
Ebenen: Die Hierarchie wird in Ebenen unterteilt. Auf der untersten Ebene (Ebene 1) befinden sich die individuellen Beobachtungen, auf höheren Ebenen (Ebene 2, Ebene 3 usw.) befinden sich die Gruppen oder Cluster. Das Modell kann je nach Hierarchiestufe erweitert werden.
Was ist hier mit “random effects” gemeint?
Random Effects: Ein zentrales Konzept in der Multilevel-Modellierung sind die sogenannten Random Effects oder Zufallseffekte. Diese repräsentieren die Variation auf den verschiedenen Ebenen. Auf jeder Ebene können verschiedene Random Effects geschätzt werden, um die Variation auf dieser Ebene zu berücksichtigen.
Residualvarianz auf Ebene 1 sowie Varianzen und Kovarianzen der Residuen auf Ebene 2
-> Varianzen werden auf versch. Ebenen zerlegt
Was ist mit “fixed Efects” gemeint?
Fixed Effects: Neben den Random Effects können auch Fixed Effects (feste Effekte) berücksichtigt werden. Diese repräsentieren die Effekte von Variablen, die auf bestimmten Ebenen konstant sind. Zum Beispiel könnte eine individuelle Eigenschaft (Ebene 1) einen Effekt auf die individuelle Ebene haben, während eine Gruppeneigenschaft (Ebene 2) einen Effekt auf die Gruppenebene hat.
Im Standardregressionsmodell wird von festen Effekten ausgegangen. Konstante (β0i) und Regresionsgewicht (β1i) werden als feste Effekte behandelt.
In hierarchisch linearen Modellen kann zwischen festen (fixed) und zufälligen (random) Effekten gewählt werden.
Werden β0j und β1j, als Zufallsvariablen behandelt, erlaubt dies eine adäquate Behandlung gruppierter Daten, bzw. die simultane Analyse mehrerer Ebenen (nested design).
Wann wählt man fixed effects, wann random effects?
Wenn die Level-2-Einheiten inhaltlich festgelegte Klassen darstellen, sollte man die Regressionskoeffizienten als fixed effects wählen (z.B. Geschlecht, Treatmentfaktor mit festgelegten Stufen)
Wenn die Level-2-Einheiten eine Zufallsauswahl darstellen, sollte man sie als Zufallsvariable behandeln und einen random effect prüfen (Beispiel: Zufallsauswahl von Psychotherapeut*innen im Rahmen einer Studie zu der Fragestellung, ob Therapeut*innen eine Behandlung von Menschen mit bestimmten Störungsbildern eher ablehnen bzw. bevorzugen).
Was ist hiermit gemeint: Random Intercept und Random Slope?
Random Intercept und Random Slope: Die gängigsten Random Effects sind der Random Intercept und der Random Slope. Der Random Intercept erfasst die Variation der abhängigen Variable zwischen den Gruppen (Intercept = achsenabschnitte y) , während der Random Slope (Anstieg der regressionsgeraden, Regressionsgewichte, beta) die Variation der Beziehung zwischen der abhängigen und unabhängigen Variablen zwischen den Gruppen erfasst.
Was meint der Punkt Schätzung und Inferenz bei der Multilevel Modellierung? Was ist der Vorteil?
Schätzung und Inferenz: In der Multilevel-Modellierung werden die Parameter, darunter die Fixed Effects und Random Effects, mithilfe von komplexen statistischen Verfahren geschätzt. Die Inferenz auf mehreren Ebenen erlaubt es, Hypothesen sowohl auf individueller Ebene als auch auf Gruppenebene zu testen.
Erkläre kurz, was mit “Berücksichtigung der Hierarchie” gemeint ist.
Berücksichtigung der Hierarchie: Der Hauptvorteil der Multilevel-Modellierung besteht darin, dass sie die Hierarchie in den Daten berücksichtigt. Dies ermöglicht eine genauere Modellierung von Variation und Effekten auf verschiedenen Ebenen und kann dazu beitragen, die wahre Struktur der Daten und die Beziehungen zwischen den Variablen zu enthüllen.
-> somit keine Gefahr der falschen Rückschlüsse (ökologischer Fehlschluss)
-> keine Gefahr der alpha-Fehler-Inflation
Wofür wird die Maximum-Likelihood-Methode bei der MErh-Ebenen-Analyse verwendet?
Zur Schätzung der Modellparameter in einem Mehrebenen-Modell wird die Maximum-Likelihood-Methode verwendet. Unter Verwendung der Likelihood-Funktion werden die Modellparameter (iterativ) so optimiert, dass die Wahrscheinlichkeit der Daten maximiert wird (unter Annahme der Gültigkeit der Parameterschätzungen in der Population).
Voraussetzungen:
– Level-1-Residuen sind unabhängig voneinander und identisch normalverteilt
– Die Level-2-Residuen sind unabhängig und identisch multivariat normalverteilt
Ist die Ausgangsbasis für die Mehrebenenanalyse keine gut ausgearbeitete Hypothese, wird in der Literatur empfohlen, mit einfachen Modellen zu beginnen und sukzessive weitere Prädiktoren in das Modell mit aufzunehmen bzw. Parameter „frei zu setzen“ (= zu schätzende Parameter)… Erkläre die 4 Schritte grob und nenne die jeweiligen Modelle dazu.
1. Schritt: Ist eine Mehrebenenanalyse indiziert? Dazu rechnet man das intercept-only-model. Dieses Modell wird auch als baseline-model oder empty-model bezeichnet, da es für Modellvergleiche nutzbar ist. Das Modell besteht nur aus der Konstante und lässt diese als Zufallsvariable zwischen den Level-2- Einheiten variieren (=Mittelwertsunterschieden zwischen Level-2-Einheiten) . Dieses Modell kann genutzt werden, um die Intraklassenkorrelation zu berechnen, die Auskunft gibt über die Stärke der Ähnlichkeit der Messwerte innerhalb der Level-2-Einheiten.
2. Schritt: Aufnahme eines oder mehrerer Pädiktoren als fixed effects auf Level-1.
3. Schritt: Variieren die Regressionsgewichte der Prädiktoren? Dazu erweitert man das Modell zu einem random-coefficient-model, indem man die Varianzen und Kovarianzen der Regressionskoefffizienten als zu schätzende Parameter frei setzt.
4. Schritt: Lassen sich die Varianzen der Konstanten und Regressionsgewichte durch Level-2-Prädiktoren erklären? Dazu wird ein Prädiktor (Z) auf Level-2 in das Modell aufgenommen (intercept-as-outcome- model, bzw. slopes-as-outcomes-model). Der Einfluss der Level-2-Variable auf die Varianz der Regressionsgewichte (slopes) eines Prädiktors wird als Cross-level-Interaction bezeichnet und ist häufig von Interesse (vgl. Folie 8, Abb. D)
Was ist ein random coefficent model und welche random Effekte gibt es dort? Was bedeuten sie?
ein random- coefficient-Model ist ein einfaches Mehrebenen Modell
->Random slopes: Anstieg der Regressionsgeraden unterscheidet sich zb zwischen den verschiedenen Klassen (zwischen den Level 2 Einheiten)
Unterschiedliche Intercepts (Achsenabschnitte)
Unterschiedliche Steigungen der versch. Klassen
Man spricht hier vom zufälligen Regressionsgewicht (random slope);
Der feste Teil des Modells besteht aus einem festen Achsenabschnitt und einem festen Regressionsgewicht (Level 2?) ;
der zufällige Teil des Modells besteht aus einem zufälligen Achsenabschnitt, einem zufälligen Regressionsgewicht und einem Level-1-Residuum;
Die zufälligen Achsenabschnitte und die zufälligen Regressionsgewichte stellen unerklärte Variationen auf Ebene 2 dar, ihre Varianzen, also die Unterschiedlichkeit der Achsenabschnitte zwischen den Level-2-Einheiten und die Unterschiedlichkeit der Regressionsgewichte zwischen den Level-2-Einheiten können aus den Daten geschätzt werden
Was sind Voraussetzungen von MLM?
Stichprobengröße und Anzahl der Level-2-Einheiten: Eine robuste Schätzung der Standardfehler der Parameter setzt insbesondere eine genügende Anzahl an Level- 2-Einheiten voraus.
Für eine Schätzung der festen Parameter genügt bereits nLevel-2 = 10.
Ist man an einer Absicherung der Varianzen und Kovarianzen des zufälligen Modellteils interssiert, benötigt man mindestens nLevel-2 = 50 (Eid et al, 2011, S. 715, Maas & Hox, 2003, 2004, 2005)
Was sind Möglichkeiten von MLM?
Interessant ist der Einsatz von Mehrebenenmodellen immer dann, wenn man an der gleichzeitigen Analyse mehrerer Ebenen und der Interaktion zwischen den Ebenen interessiert ist.
Besonders gut geeignet sind Mehrebenenmodelle bei Längsschnittdaten.
Der Vorteil im Umgang mit missing data: missing data werden im Rahmen der Schätzung der Modellparameter mittels ML mit berücksichtigt. Imputationen sind nicht mehr notwendig. Voraussetzung: Missing at Random (MAR) ist gegeben.
Berücksichtigung von hierarchischen Daten!
Was sind Grenzen von Multi-Level-Modellem?
die Bestimmung von der Effektgröße analog zum Determinationskoeffizienten R hoch 2 ist in linearer Regression für Mehrebenenmodelle generell schwieriger
-> gernerell ist davon abzuraten!
Bestimmung erklärender Varianz -> schlecht definiert, uneindeutig zu interpretieren
es könnten negative Schätzungen für erklärende Varianz resultieren
Last changeda year ago