Bitte unterscheide multiple lineare Regression und einfache lineare Regression.
Im Gegensatz zur einfachen linearen Regression, betrachtet multiple lineare Regression den Zusammenhang zwischen zwei oder mehr unabhängigen Variablen (Prädiktoren) und einer abhängigen Variable (Kriterium). Ähnlich anderer statistischer Verfahren, können wir auch mit multipler linearer Regression die Varianzaufklärung bestimmen und damit, wie gut unser Modell insgesamt die Daten erklärt.
Wozu dient die Regression/Multiple Regression (ALM)?
Viele inferenzstatistische Verfahren lassen sich aus der Regression (ALM) ableiten. Ferner dient die Regression als Basis zur Bildung komplexer statistischer Modelle, mit denen psychologische Sachverhalte vereinfacht dargestellt und geprüft werden können.
Was ist ein Modell? Beschreibe grob.
Warum ist der Begriff “statstsiches Modell” adäquater als “statistsiches Verfahren”?
(wichtig für Klausur: verstehen warum “Modell” in der Statistik adäquater ist als “stat. Verfahren”)
„Bleibt noch der Begriff Modell zu klären. Und damit sind wir an einem sensiblen Punkt in der Methodenlehre, an dem sich Statistik und Wirklichkeit berühren. Ein Modell ist eine vereinfachte Darstellung der Wirklichkeit.
Der Sinn dieser Vereinfachung ist, dass man leichter damit arbeiten kann. Für die Psychologie bedeutet das, dass wir die „Wirklichkeit“ des Erlebens und Verhaltens sowohl in handhabbare Einzelheiten zerlegen als auch in bestimmte mathematische Vorstellungen pressen. Zumindest ist das das Vorgehen der quantitativen Methoden. Erinnern Sie sich an das Problem des Messens – es bestand in der Schwierigkeit, die psychologische Wirklichkeit empirisch einzufangen und in Zahlen zu übersetzen. Was dabei übrig bleibt, ist ein Modell dieser Wirklichkeit. Für viele Analyseverfahren gilt dasselbe. Sie liefern im Prinzip keine Ergebnisse über die Wirklichkeit, sondern lediglich über unsere Modelle, die wir uns von der Wirklichkeit machen. Damit wäre es streng genommen sinnvoller, in der Statistik nicht von Analyseverfahren, sondern immer von Analysemodellen zu sprechen.
Während die Bezeichnung Allgemeines Lineares Modell dem Rechnung trägt, tun das viele andere Verfahren nicht. Es wäre also schön, wenn Sie diesen wichtigen Punkts stets im Hinterkopf behalten.“
(vgl. Schäfer, 2016, S. 188, Hervorhebungen durch Morgenroth)
Bezeichnungen der Variablen in der Regressionsanalyse:
Welche Variablen sind wichtig für eine Regressionsanalyse?
Anwendungsbereiche der Regressionsanalyse:
Was untersucht eine “Ursachenanalyse?”
Was erfragen “Prognosen”?
Was untersuchen “Zeitreihenanalysen”?
Beschreibe und erkläre die Wichtigsten Merkmale der linearen multiplen Regression. (9)
Wichtige Merkmale der linearen multiplen Regression
Linearität der Beziehungen zwischen Prädiktoren und Kriterium
Es werden stochastische Zusammenhänge modelliert.
Prädiktor (X) und Kriterium (Y) sind nicht austauschbar, sondern müssen (theoretisch begründet) festgelegt werden.
Das Kriterium muss immer eine metrische Variable sein. → logistische Regression
Die Prädiktoren können metrische oder dichotome Variablen sein.
Man kann multiple Regressionen auf zwei Ebenen betrachten: a) die Güte des Gesamtmodells (R2), sowie b) der Beitrag einzelner Prädiktoren (b). Zu beiden Aspekten gibt es jeweils eine inferenzstatistische Absicherung (F-Test, t-Test).
Man kann zwischen nicht standardisierten (b) & standardisierten Regressionskoeffizienten (β) unterscheiden.
Die Prädiktoren kontrollieren sich gegenseitig (Auspartialisierung).
Zwei Voraussetzungen: multivariate Normalverteilung, Homoskedastizität
Was stellt diese Abbildung dar?
Beispiel für einen deterministischen (perfekten) Zusammenhang (r = 1): Aus der Anzahl der Stockwerke kann die Anzahl der Treppenstufen in einem Gebäude fehlerfrei vorhergesagt werden (Keine Residuen vorhanden).
Was illustriert diese Abbildung?
Beispiel für einen stochastischen Zusammenhang: Die Regressionsgerade zur Vorhersage der Punktwerte in der allgemeinpsychologischen Klausur aus den Ergebnissen in der Statistikklausur. Zudem sind für zwei Probanden die Abweichungen zwischen tatsächlichen und vorhergesagten Werten markiert (= Fehler in der Vorhersage, Residuen).
aus eigenen Notizen:
Regressionsgrade wo y vorhergesagt wird durch x
tatsächliche y werte werden aber abweichen von den vorhergesagten y Werten
je gerinegr diese abweichung umso mehr der varianz der tatsächlichen y-werte kann ich erklären, umso bessere Gesamtvarianz des Modells und Vorhersage des Modells
statistische Bedeutsamkeit einzelner Prädiktoren in diesem Modell bestimmt wie relevant der einzelne für das Modell ist
Was kann die lineare Regression?
Welche Prämisse gilt für lineare Regressions-Modelle?
Die lineare Regression kann nur lineare Beziehungen zwischen Variablen erfassen!
Wichtige Karteikarte! (für Klausur)
In einer multiplen linearen Regression hat die Gleichung, anhand der die Werte des Kriteriums vorhergesagt werden die folgende Form: …?
die Formel kennen wir schon aus Statistik 1
Notizen: y lässt sich vorhersagen (Kriterien) aus den Variablen x1 und x2 usw (Prädiktoren), mit den jeweiligen Regressionsgewichten (b, Beta)
wichtige Karteikarte:
Was bilden diese Formeln ab?
Die Beziehung zwischen der Korrelation und dem Regressionsgewicht b (bei einem Prädiktor)
Merke! Werden in einem Modell mit nur einem Prädiktor die Variablen z-standardisiert, sind r und b identisch!
Notizen:
->Der Satz besagt, dass wenn du in einem Modell mit nur einem Prädiktor (einer unabhängigen Variable) die Variablen z-standardisierst, also sie auf ihre jeweiligen Standardabweichungen skalierst, dann werden der Pearson-Korrelationskoeffizient (r) und das Regressionsgewicht (b) identisch sein.
Das liegt daran, dass das Regressionsgewicht (b) in einer einfachen linearen Regression den Anstieg der abhängigen Variable pro einer Einheit Veränderung der unabhängigen Variable angibt. Wenn du die Variablen z-standardisierst, bedeutet das, dass beide Variablen auf ihre Standardabweichungen skaliert werden, wodurch die Skaleneinheiten eliminiert werden. Dadurch wird das Regressionsgewicht (b) tatsächlich gleich der Korrelation (r) zwischen den z-standardisierten Variablen, da beide Werte nun in denselben standardisierten Einheiten gemessen werden.
Was zeigt diese Grafik/Abbildung?
Die Regressionsgerade bei einer Korrelation von Null zwischen einem Prädiktor (X) und dem Kriterium (Y) verläuft horizontal. Der Mittelwert von Y ist in diesem Fall der beste Schätzer zur Vorhersage von Y.
->Wenn die Korrelation zwischen einem Prädiktor (X) und dem Kriterium (Y) gleich Null ist, bedeutet dies, dass es keine lineare Beziehung zwischen den beiden Variablen gibt. In diesem Fall streuen die Punkte um den Mittelwert von Y herum, unabhängig von den Werten von X. Das bedeutet, dass die Werte von X keine Vorhersagekraft für die Werte von Y haben.
Da die Korrelation Null ist und es keine Beziehung zwischen den Variablen gibt, ist der beste Schätzer für die Vorhersage von Y in diesem Fall der Mittelwert von Y. Das bedeutet, dass unabhängig von den Werten von X der erwartete Wert von Y immer der Mittelwert von Y ist. In diesem Szenario würde jede Vorhersage, die auf den Werten von X basiert, keinen Informationsgewinn bieten, da X und Y nicht miteinander zusammenhängen.
Beispiel: An Universität A werden in der Klausur Allgemeine Psychologie maximal 20 Punkte vergeben, an Universität B 40 Punkte. Die maximale Punktzahl in der Statistikklausur beträgt an beiden Universitäten 15 Punkte.
-> Was will uns dieses Beispiel verdeutlichen im Hinblick auf die Regressionskoeffizienten?
Unterscheidung zwischen nicht standardisierten und standardisierten Regressionskoeffizienten
Die Höhe des nicht standardisierte Regressionskoeffizienten b ist abhängig von a) der Skaleneinheit von x und y sowie b) der Stärke des Zusammenhanges (Vorhersagekraft) mit (für) Y.
—>Regressionskoeffizienten, die auf unterschiedlichen Metriken der
beteiligten Modellvariablen beruhen, sind nicht direkt vergleichbar!
Regressionsgewichte unterschieden sich: Uni A =1,15 und Uni B= 2,3
nicht standardisierte Regressionskoeffizienten
Unterschied kommt zu stande weil die skaleneinheiten für die Klausuren unterschiedlich sind (Die Metriken)!
-Wert steigt eben entweder um 1,15 P oder 2,3 p ; Man kann die Werte nur Vergleichen, wenn beide gleiche Metriken hätten!
Wie kann man das Problem im vorherigen Beispiel (unterschiedliche Skaleneinheiten) Lösen, um die Ergebnisse / Werte der 2 Unis zu vergleichen?
Lösung des Problems: die z-Standardisierung macht Werte auf verschiedenen Skalen vergleichbar.
In einer Analyse mit z-standardisierten Variablen wird das Regressionsgewicht b als standardisiertes Regressionsgewicht beta (Beta-Gewicht) bezeichnet.
Was ist die Bedeutung der inferenzstatistischen Absicherung der standardisierten Regressionskoeffizienten in der linearen Regression?
Die inferenzstatistische Absicherung der standardisierten Regressionskoeffizienten beinhaltet normalerweise die Berechnung von t-Statistiken, um die Signifikanz der einzelnen Regressionskoeffizienten zu bewerten.
Die Formel für die t-Statistik ist wie folgt:
t = βi / (Standardfehler(βi))
Hierbei ist βi der standardisierte Regressionskoeffizient für die Variable i und der Nenner ist der Standardfehler des standardisierten Regressionskoeffizienten.
Die t-Statistik wird verwendet, um zu überprüfen, ob der geschätzte standardisierte Regressionskoeffizient βi statistisch signifikant von null abweicht. Wenn der t-Wert groß ist, zeigt dies an, dass der geschätzte Koeffizient signifikant von null verschieden ist und somit einen Einfluss auf die abhängige Variable hat.
Was soll diese Grafik verdeutlichen?
Werden Prädiktor und Kriterium vertauscht, resultieren unterschiedliche Regressionsgeraden. Die beta-Gewichte unterscheiden sich hingegen nicht.
Wenn du Prädiktor und Kriterium vertauschst, bedeutet das, dass du die Rollen der Variablen tauschst. Das Kriterium wird zum Prädiktor und umgekehrt. In diesem Fall würdest du versuchen, die Beziehung zwischen der ehemaligen abhängigen Variable (jetzt Prädiktor) und der ehemaligen unabhängigen Variable (jetzt Kriterium) zu modellieren.
folgerungen:
-> es ändert sich die Richtung der Regressionsgeraden, das liegt daran, dass die ursprüngliche abhängige Variable jetzt auf der x-Achse liegt und die ursprüngliche unabhängige Variable auf der y-Achse liegt
->Beta-Gewichte ändern sich nicht, weil sie die Stärke der Beziehung zwischen den Variablen repräsentieren. Da sich die Beziehung zwischen den Variablen nicht ändert, bleiben die Beta-Gewichte konstant, unabhängig davon, welche Variable du als Prädiktor und welche du als Kriterium betrachtest.
Wie könnte ein Beispiel mit 2 Prädiktoren zur MR aussehen?
Die Verwendung von zwei oder mehr Prädiktoren in einer multiplen linearen Regression ermöglicht es, die Beziehung zwischen einer abhängigen Variablen (Kriterium) und mehreren unabhängigen Variablen (Prädiktoren) zu analysieren. Dies bietet eine erweiterte Möglichkeit, die Einflüsse verschiedener Variablen auf die abhängige Variable zu untersuchen und zu verstehen, wie sie zusammenarbeiten, um die Variation in der abhängigen Variable zu erklären.
Was bedeutet es, die gemeinsame Varianz der Prädiktoren auszupartialisieren, und wie unterscheidet sich diese Konzept in der einfachen Regression von der multiplen Regression?
Auspartialisierung gemeinsamer Varianz der Prädiktoren
a) In der einfachen Regression stimmt das standardisierte Regressionsgewicht des Prädiktors mit der Korrelation mit dem Kriterium überein.
b) In der multiplen Regression sind die standardisierten Regressionsgewichte für gewöhnlich kleiner als die Korrelation des Prädiktors mit dem Kriterium.
c) Standardisiertes Regressionsgewicht und Korrelation eines Prädiktors mit dem Kriterium sind in der multiplen Regression nur dann identisch, wenn die Prädiktoren untereinander unkorreliert sind (r12= 0).
Was verdeutlichen uns diese Abbildungen?
-> in Abbildung b können beide Prädiktoren vollständig unterschiedliche Varianz im Kriterium vorhersagen, das bedeutet, dass jeder der beiden Prädiktoren ein einzigartiger Beitrag zur Vorhersage der abhängigen Variable (Kriterium) leistet. Dies kann in der multiplen Regression von Bedeutung sein, weil es aufzeigt, wie jeder Prädiktor individuell zur Erklärung der Variation im Kriterium beiträgt.
Was wird in dieser Abbildung verdeutlicht/dargestellt?
Vorhergesagte und nicht vorhergesagte Abweichung eines Datenpunkts vom Mittelwert der Y-Variablen in der Regressionsanalyse (vgl. Sedlmeier & Renkewitz, 2018, S. 267ff.)
Vorhergesagte Abweichung: Die vorhergesagte Abweichung eines Datenpunkts vom Mittelwert der abhängigen Variablen ergibt sich aus der Regressionsgleichung. Diese Abweichung wird durch die unabhängigen Variablen im Modell erklärt. In anderen Worten, sie ist das, was das Regressionsmodell erfolgreich vorhersagen kann. Wenn du die Werte der unabhängigen Variablen in die Regressionsgleichung einsetzt, erhältst du eine Vorhersage für die abhängige Variable, die die vorhergesagte Abweichung repräsentiert.
Nicht vorhergesagte Abweichung: Die nicht vorhergesagte Abweichung, auch als Residuen oder Fehler bezeichnet, ist das, was das Regressionsmodell nicht erklären kann. Es ist die Differenz zwischen dem tatsächlichen Wert der abhängigen Variablen und der vorhergesagten Wert, den das Modell liefert. Diese Abweichung kann auf viele Faktoren zurückzuführen sein, die nicht im Modell berücksichtigt wurden oder auf unerklärliche Variationen in den Daten.
Wie werden die Begriffe "Regressionsvarianz" und "Residualvarianz" in der linearen Regression definiert und wie tragen sie zur Untersuchung der Abweichungen der Kriteriumsvariablen bei? Was ist die Gesamtvarianz der y-Werte?
Die Varianz der vorhergesagten Werte wird als Regressionsvarianz bezeichnet. Es handelt sich um die Varianz der Kriteriumsvariablen y, die in der Regressionsrechnung vorhergesagt werden Kann (→ aufgeklärte Varianz)
Die Varianz der Vorhersagefehler entspricht der Varianz der tatsächlichen y-Werte um die vorhergesagten Werte, also um die Regressionsgrade.
Diese Residualvarianz entspricht somit der Varianz der Kriteriumsvariablen y, die nicht durch das Regressionsmodell vorhergesagt werden kann.
s2y =s2yˆ +s2e
Die Gesamtvarianz der y-Werte ist gleich der Summe der Regressionsvarianz und der Residualvarianz
Wie hängen der quadrierte multiple Korrelationskoeffizient (R2) und der Determinationskoeffizient in der multiplen linearen Regression zusammen, und wie können sie als Maß für die Verringerung der Vorhersagefehler durch die Regressionsanalyse interpretiert werden?
Wie Kann R2 = 0.48 also besipielsweise interpretiert werden?
Der quadrierte multiple Korrelationskoeffizient R2 zwischen Prädiktoren und Kriterium entspricht dem Anteil der vorhergesagten Varianz an der Gesamtvarianz und ist somit mit dem Determinationskoeffizienten identisch.
Der Determinationskoeffizient kann auch als Maß dafür interpretiert werden, wie stark die Vorhersagefehler durch die Regressionsanalyse verringert werden können. Den Bezugspunkt bilden dabei Fehler, die bei einer Vorhersage ohne Berücksichtigung der Prädiktoren auftreten würden (Dabei werden die y-Werte durch den Mittelwert von y vorhergesagt).
Beispiel: R2 = 0,48: Die Fehler bei Berücksichtigung der Prädiktoren betragen 48% gegenüber der Nichtberücksichtigung der Prädiktoren. Die Gesamtheit der Vorhersagefehler wird also um 52% reduziert.
ANDERS: R2 = 0,48: Dies bedeutet, dass 48% der Varianz in der abhängigen Variablen (Kriterium) durch die Prädiktoren im Modell erklärt werden können. Mit anderen Worten, das Modell kann 48% der Abweichungen der Kriteriumswerte aufgrund der Prädiktoren vorhersagen. Die verbleibenden 52% der Varianz sind nicht durch die Prädiktoren im Modell erfasst und können auf andere Faktoren oder zufällige Einflüsse zurückgeführt werden.
Keine Frage, nur Formeln für “inferenzstat. Absicherung von R2” und “inferenzstat. Absicherung des Zuwachs von R2”
Was gibt der Standardschätzfehler an?
Der Standardschätzfehler: Der Standardschätzfehler gibt an, wie stark die tatsächlichen Werte um die von der Regressionsgeraden vorhergesagten streuen. Je kleiner der Standardschätzfehler, desto weniger weichen die tatsächlichen Werte von den vorhergesagten Werten ab.
Wie unterscheiden sich die Konzepte von R2, ∆R2, Semipartialkorrelation und Partialkorrelation in der multiplen linearen Regression? Erkläre, wie diese Maße jeweils den Gesamteffekt aller Prädiktoren, den Effekt eines Prädiktor-Sets und die individuelle Stärke eines einzelnen Prädiktors repräsentieren.
Erläutere das Konzept der Suppression in der multiplen linearen Regression. Warum kann es dazu kommen, dass der quadrierte multiple Korrelationskoeffizient (R2) größer ist als die Summe der quadrierten Partialkorrelationskoeffizienten (r2) der einzelnen Prädiktoren? Wie wird die Rolle von Suppressoren dabei erklärt, und wie beeinflussen sie die Vorhersagekraft der Prädiktoren?
Suppression
Es kann auch vorkommen, dass R2 größer ist als die Summe der r2 der einzelnen Prädiktoren. In solch einem Fall spricht man von Suppression. Eine Suppressorvariable ist mit dem Kriterium nur schwach korreliert, die Interkorrelation mit einem anderen Prädiktor führt jedoch dazu, dass dieser die Vorhersagekraft dieses Prädiktors unterdrückt.
Die Wirkungsweise von Suppressoren liegt in der Eliminierung von Fehlern/Störfaktoren, die in dem Prädiktor enthalten sind.
Was versteht man unter dem Begriff "Multikollinearität" in der multiplen linearen Regression und welche Auswirkungen kann sie auf die Schätzungen der Regressionskoeffizienten haben? Wie wird die Toleranz als Maß für Multikollinearität definiert und interpretiert?
Wenn die Prädiktoren sehr hoch miteinander korrelieren, spricht man von Multikollinearität.
Dies kann zu merkwürdigen Schätzungen von Parametern führen:
– Standardisierte Regressionskoeffizienten (beta-Gewichte) > 1 – Sehr große Standardfehler und breite Konfidenzintervalle für die Regressionskoeffizienten
Ein Maß für die Multikollinearität ist die Tolerenz.
Die Toleranz einer Variablen ist als 1 minus der quadrierten multiplen Korrelation dieser Variablen mit allen anderen unabhängigen Variablen in der Regressionsgleichung definiert. Je kleiner die Toleranz einer Variablen ist, desto redundanter ist demzufolge ihr Beitrag zur Regression.
Welche Herausforderungen können die Interpretation des Regressionskoeffizienten beeinflussen: Was kann die Güte für die Vorhersage einschränken? Gilt diese Problematik auch für die multiple Regression?
Der Regressionskoeffizient stellt nur dann ein adäquates Maß für den Zusammenhang zwischen zwei Variablen dar, wenn dieser Zusammenhang linear ist.
Ferner kann die Güte der Vorhersage eingeschränkt sein, wenn Ausreißer auftreten, die Variabilität der untersuchten Stichprobe eingeschränkt ist, oder heterogene Untergruppen zusammengefasst werden.
Diese Probleme gelten auch für die multiple Regression.
Bitte nenne die Voraussetzungen für MR. Welcher Test kann verwendet werden, um die Voraussetzung zu überprüfen?
Die Residuen müssen bei jedem vorhergesagten Wert normalverteilt sein und die gleiche Populationsvarianz aufweisen.
Diese zweite Voraussetzung (neben der Voraussetzung dass keine Multikollinearität gegeben sein darf) wird als Homoskedastizität bezeichnet.
Zur graphischen Überprüfung (siehe unten) kann man die vorhergesagten y-Werte (x-Achse) gegen die studentisierten Residuen (y-Achse) plotten.
Der White-Test (White, 1980) prüft, ob Heteroskedastizität vorliegt. Eine weiterer Test ist von Breuch-Pagan und ist in SPSS implementiert (siehe Folie 36)
SPSS-Beispiel für ein Modell mit zwei Prädiktoren: Nenne UV und AV!
Wie sieht eine Korrelationsmatrix aus/wozu dient sie?
Datensatz
Motivation: abhängige Variable, soll durch Lernleistung und Unterrichtsgüte (UVs) vorhergesagt werden.
Die Interpretation einer Korrelationsmatrix in SPSS oder einem anderen Statistikprogramm kann dir Einblick in die Beziehungen zwischen den untersuchten Variablen geben. Eine Korrelationsmatrix zeigt die Korrelationskoeffizienten zwischen allen Paaren von Variablen an:
Motivation und Motivation-> perfekte Korrelation r=1.0
Motivation und Lernleistung-> starke positive Korrelation r=.867
Motivation und Unterrcíchtsgüte-> starke positive Korrelation r=.741
usw.
Was zeigt uns diese SPSS Abbildung?
Für unseren Beispieldatensatz würde das ausgefüllte Dialogfenster so aussehen in. SPSS: AV: Motivation, UVs: LErnleistung und Unetrrichtsgüte
Interpretiere diesen Output. Was wurde hier gemacht?
Die Werte für Toleranz/VIF finden wir in der Tabelle Koeffizienten. Hier müssen wir nur einen der beiden Werte interpretieren, da die Toleranz lediglich der Kehrwert des VIF ist.
Sollte einer der Werte der Toleranz unter 0.1 sein bzw. einer der VIF-Werte über 10, wäre dies ein starkes Indiz für Multikollinearität In unserem Beispieldatensatz ist der niedrigste Wert für Toleranz 2,252. Wir können damit recht sicher sein, dass keine Multikollinearität zwischen den Prädiktoren besteht.
Bitte interpretiere diesen Output: 1) Modellzusammenfassung
1) Modellzusammenfassung:
Der multiple Korrelationskoeffizient kann interpretiert werden wie der einfache Korrelationskoeffizient von Pearson. Er wird mit einem großen R geschrieben, um ihn von Pearsons Korrelationskoeffizienten abzugrenzen, für den ein kleines r verwendet wird. Der multiple Korrelationskoeffizient ist lediglich die Korrelation zwischen den vorhergesagten Werten des Modells (lernleistung und Unterrichtsgüte) und den tatsächlichen Werten des Kriteriums Motivation.
Der Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen, wobei ein Wert von +1 einen perfekten positiven Zusammenhang zwischen beiden Variablen beschreibt, während eine Korrelation von −1 einen perfekten negativen (inversen) Zusammenhang (Antikorrelation) beschreibt. Eine Korrelation von Null bedeutet, dass kein Zusammenhang besteht.
Wir haben nach Cohen eine starke Korrelation von .878 zwischen den vorhergesagten und den tatsächlichen Werten, was für ein gutes Modell spricht. Der multiple Korrelationskoeffizient ist allerdings kein gebräuchliches Maß, um die Güte des Modells zu bestimmen. Dafür wird meist die erklärte Varianz (R²) verwendet:
Das Modell hat mit einem R² = .706 (korrigiertes R² = .706) eine hohe Anpassungsgüte (Cohen, 1988). Nach Cohen (1988) wäre die Varianzaufklärung auch nach der Korrektur hoch.
Bitte interpretiere diesen Output: 2) ANOVA.
2) ANOVA:
Als letztes können wir überprüfen, ob die Prädiktoren signifikant unser Kriterium vorhersagen. Diese Information findet sich in der Tabelle ANOVA.
Ob unser Ergebnis signifikant ist, zeigt sich in der letzten Spalte Sig. (z.B.:Wir haben unser Signifikanzniveau bei 5 % festgelegt). Das heißt, dass wir einen signifikanten Unterschied annehmen, wenn der Wert in der Spalte Sig. kleiner als 5 % bzw. ,05 ist. Ein Wert von genau 5 % oder mehr würde entsprechend bedeuten, dass das Ergebnis nicht signifikant ist. Wir überprüfen, ob sich der multiple Korrelationskoeffizient signifikant von 0 unterscheidet oder nicht.
In unserem Fall haben wir ein Ergebnis von .006, also p < .05 . (Wir können auch den genauen, ungerundeten p-Wert sehen, wenn wir in SPSS zuerst doppelt auf die Tabelle klicken und noch einmal doppelt auf den Wert.)
Wir könnten dieses Ergebnis so berichten:
Die Prädiktoren Unterrichtsgüte und Lernleistung sagen statistisch signifikant das Kriterium Motivation voraus, F(2,7) = 11,796, p < .05.
Was veranschaulicht uns das pp-Diagramm?
Im P-P-Diagramm werden die beobachteten gegen die erwarteten standardisierten Residuen geplottet. Bei Normalverteilung müssten die Werte auf der eingezeichneten Diagonalen liegen. Die Regression ist relativ robust gegenüber der Verletzung der Annahme multivariater Normalverteilung
Welcher test auf Heteroskedastizität wird durchgeführt?
Wie sieht ein Streudiagramm aus?
Analysestrategien in der multiplen Regression: wie ist das
Vorgehen bei der Konstruktion von Modellen mit mehreren Prädiktoren?
Vorgehen bei der Konstruktion von Modellen mit mehreren Prädiktoren:
Normalerweise sollten alle theoretisch relevanten Variablen in das Modell aufgenommen werden, da sonst die Effekte der Modellvariablen ungenau geschätzt werden. Dies geschieht in der Regel simultan (SPSS: Einschluss/Enter).
Alternativ können Prädiktoren schrittweise (einzeln oder in Gruppen) in das Modell aufgenommen werden. Dabei lassen sich zwei Varianten unterscheiden:
a) theoriegeleitet (sequenzielle Regression oder hierarchische Regression) und
b) nach der Größe der Vorhersagekraft (z.B. in der automatisierten Prozedur Schrittweise/Stepwise)
Diese Passage beschreibt, wie sich der Zuwachs an Erklärungskraft (ΔR2) in einem Regressionsmodell ändern kann, abhängig davon, in welcher Reihenfolge die Prädiktoren (unabhängige Variablen) dem Modell hinzugefügt werden.
ΔR2: ΔR2 ist der Zuwachs an Varianzaufklärung im Kriterium (abängige Variable), der durch die Hinzufügung von Prädiktoren zum Modell erreicht wird. Ein höherer ΔR2 zeigt an, dass die Prädiktoren eine größere Variation im Kriterium erklären können.
Reihenfolge der Prädiktoren: Die Reihenfolge, in der die Prädiktoren dem Modell hinzugefügt werden, kann den Zuwachs an Erklärungskraft beeinflussen. Das bedeutet, dass die Art und Weise, wie du die Prädiktoren sequenziell ins Modell einfügst, Auswirkungen auf die Größe des ΔR2 haben kann.
a, b, c: In der beschriebenen Formel repräsentieren a, b und c die Beiträge zur Erklärungskraft der Prädiktoren. Wenn X1 zuerst ins Modell aufgenommen wird, trägt X1 mit a zum ΔR2 bei, während X2 später hinzugefügt wird und seinen eigenen Beitrag von b hat. Der gemeinsame Beitrag, wenn beide Prädiktoren im Modell sind, ist c.
Abhängigkeit von der Reihenfolge: Der wichtige Punkt hier ist, dass die Reihenfolge, in der du die Prädiktoren in das Modell einfügst, die spezifischen Zuwächse und Beiträge der Prädiktoren zum ΔR2 beeinflusst. Das liegt daran, wie die zusätzliche Variation aufgrund der Prädiktoren mit bereits vorhandener Variation interagiert.
Was verdeutlicht dieses Beispiel?:
In dieser Beschreibung geht es darum, wie verschiedene Prädiktoren schrittweise in ein Regressionsmodell aufgenommen werden können, um ihre individuellen und kumulativen Beiträge zur Vorhersagekraft des Modells zu verstehen.
Simultane Aufnahme aller Prädiktoren: Wenn alle vier Prädiktoren gleichzeitig ins Modell aufgenommen werden, werden nur die direkten Effekte (a, b, c, d) der einzelnen Prädiktoren auf das Kriterium (abhängige Variable) berücksichtigt. Das bedeutet, dass die Beiträge jedes Prädiktors zur Vorhersage des Kriteriums ohne Berücksichtigung von anderen Prädiktoren gemessen werden.
Schrittweise Aufnahme mit indirekten Effekten: Alternativ dazu könnte man zuerst nur einen Prädiktor, wie den Sozioökonomischen Status (SÖS), ins Modell aufnehmen. Dieser enthält nicht nur seinen eigenen direkten Effekt auf das Kriterium, sondern auch indirekte Effekte über andere Prädiktoren. Zum Beispiel könnte der SÖS den Selbstwert beeinflussen, der wiederum das Kriterium beeinflusst.
Eigenständige Beiträge prüfen: Im zweiten Schritt könnte dann untersucht werden, ob die anderen Prädiktoren, wie der Selbstwert oder die Locus of Control, nachdem der SÖS bereits im Modell ist, zusätzliche individuelle Beiträge zur Vorhersage liefern können (ΔR2). Das ΔR2 würde zeigen, wie viel zusätzliche Varianz in der abhängigen Variable durch die Hinzufügung dieser Prädiktoren zum bereits bestehenden Modell erklärt werden kann.
Beispiel für eine hierarchische Regression an einer Stichprobe von Grundschülern (3. und 4. Klasse) für die Untersuchungsvariable Stimmung (Mood) zu zwei Messzeitpunkten (t1 = Pretest, t2 = Posttest) und einer Intervention, sich sozial zu vergleichen. Prädiktoren sind zwei unterschiedliche Fehlerorientierungen (Lernorientierung und Fehlerängstlichkeit) sowie die wahrgenommene Einstellung der Lehrerin zu Fehlern (Fehlertoleranz). Da im ersten Schritt Moodt1 aus Moodt2 herauspartialisiert wird, verändert sich die Bedeutung der Variable Moodt2 im zweiten Schritt zur Veränderung der Stimmung (Residuen t2)
Interpretiere!
Folgt :)
Definiere das Allgemeines lineares Modell (ALM).
Definition:
Das Allgemeine lineare Modell sagt aus, dass eine Variable Y sich als Linearkombination mehrerer anderer Variablen (X1 – Xm) plus einen Fehlerterm darstellen lässt.
im allg. linearen Modell werden y werte modelliert
Wie können Unterschiedshypothesen und Zusammenhangshypothesen miteinander in Verbindung gebracht werden? Welche Rolle spielen Zusammenhangshypothesen als grundlegende Konzepte, die Beziehungen zwischen Variablen konkretisieren?
Unterschiedshypothesen und Zusammenhangshypothesen sind in einander überführbar. Zusammenhangshypothesen können als grundlegender betrachtet werden, da sie eine Beziehung zwischen zwei Variablen konkretisieren (vgl. Schäfer, 2018, S. 187).
Wie trägt das Allgemeine Lineare Modell (ALM) zur Untersuchung von linearen Zusammenhängen zwischen Variablen bei, insbesondere im Hinblick auf die Prüfung der Varianzaufklärung von Kriteriumsvariablen?
Das Allgemeine Lineare Modell (ALM) führt viele Testverfahren auf lineare Zusammenhänge zwischen Variablen zurück. Ziel jedes Testverfahrens ist die Prüfung der Varianzaufklärung von Kriteriumsvariablen (abhängigen Variablen).
Wie sind die Konzepte der Untersuchung von bedeutsamen Mittelwertsunterschieden zwischen Gruppen (z. B. t-Test für unabhängige Stichproben) und der Überprüfung der statistischen Signifikanz der Steigung einer Regressionsgeraden (ALM) miteinander äquivalent? Was bedeutet es, dass die aufgeklärte Varianz der abhängigen Variable und der p-Wert (Signifikanzwahrscheinlichkeit) in diesem Zusammenhang identisch sind? Erläutern Sie, wie diese Äquivalenz einen Zusammenhang zwischen der Analyse von Unterschieden und Zusammenhängen im statistischen Modell widerspiegelt.
Merke!
Die Frage danach, ob ein bedeutsamer Mittelwertsunterschied zwischen den beiden Gruppen A und B besteht (Unterschiedshypothese, t-Test für unabhängige Stichproben) und die Frage, ob die Steigung der Regressionsgerade durch die Mittelwerte bedeutsam ist, ist im Rahmen des ALM mathematisch äquivalent. Aufgeklärte Varianz der abhängigen Variable und der p-Wert (Signifikanzwahrscheinlichkeit) sind identisch. (Vgl. Schäfer, 2016, S. 202)
Bedeutsame Mittelwertsunterschiede: Wenn ein signifikanter Mittelwertsunterschied zwischen den Gruppen A und B besteht, bedeutet das, dass die Mittelwerte der abhängigen Variable in den beiden Gruppen statistisch signifikant voneinander abweichen.
Regressionsgerade und Steigung: Die Steigung der Regressionsgerade beschreibt, wie stark eine unabhängige Variable die abhängige Variable beeinflusst. Wenn die Steigung der Regressionsgerade durch die Mittelwerte bedeutsam ist, zeigt das an, dass die Veränderungen in der unabhängigen Variable mit statistisch signifikanten Veränderungen in der abhängigen Variable verbunden sind.
Identische aufgeklärte Varianz und p-Wert: Die aufgeklärte Varianz der abhängigen Variable gibt an, wie gut die unabhängige Variable (oder die Gruppenzugehörigkeit) die Variation in der abhängigen Variable erklärt. Der p-Wert (Signifikanzwahrscheinlichkeit) gibt an, wie wahrscheinlich es ist, solche Ergebnisse zu erhalten, wenn der tatsächliche Effekt null ist (kein Zusammenhang oder kein Unterschied). Die Tatsache, dass die aufgeklärte Varianz und der p-Wert identisch sind, bedeutet, dass die mathematische Darstellung dieser Konzepte im Rahmen des ALM gleich ist, wenn es um die Interpretation von Unterschieden oder Zusammenhängen geht.
Insgesamt zeigt diese Äquivalenz, wie die Analyse von Gruppenunterschieden und Regressionsbeziehungen im ALM miteinander verknüpft ist und wie sie auf ähnliche statistische Prinzipien zurückgreifen.
Was zeigen die abbildungen a und b?
a) Originaldatenschema für einen t-Test für Unabhängige Stichproben.
b) Kodierung der unabhängigen Variable mittels Effektkodierung (für ein Regressionsmodell)
Interpretiere die Outputs, was stellen sie dar?
noch ergänzen aus Borzt und Schuster!
t-Test für unabhängige Stichproben
N=12, n=6
zweisetiges Testen
Interpretiere die Outputs!
Interpretation folgt
Was ist eine “Dummy Kodierung”? Beschreibe auch ein Beispiel
(eig Notizen, er hat so eine Folie nciht!)
Die Dummy-Kodierung (auch als Binärkodierung oder Indikatorvariable-Kodierung bezeichnet) ist eine Methode zur Darstellung von kategorialen Variablen mit zwei oder mehr Kategorien als numerische Werte in statistischen Analysen, insbesondere in Regressionsanalysen. Diese Kodierung ermöglicht es, kategoriale Variablen in mathematischen Modellen zu verwenden, die normalerweise numerische Werte erfordern.
Hier ist, wie die Dummy-Kodierung funktioniert:
Angenommen, Sie haben eine kategoriale Variable "Farbe" mit den Kategorien "Rot", "Grün" und "Blau". Anstatt die Farben direkt als Textwerte in einer Analyse zu verwenden, können Sie Dummy-Variablen erstellen, die für jede Kategorie eine eigene Spalte repräsentieren:
"Rot": 1 in der "Rot"-Spalte, 0 in den anderen Spalten
"Grün": 1 in der "Grün"-Spalte, 0 in den anderen Spalten
"Blau": 1 in der "Blau"-Spalte, 0 in den anderen Spalten
Durch die Verwendung von 1 und 0 in den Dummy-Variablen wird die An- oder Abwesenheit jeder Kategorie codiert. Dies ermöglicht es, die kategoriale Variable in einer linearen Regression oder anderen statistischen Analysen zu verwenden, die numerische Eingaben erfordern.
Es ist wichtig, dass bei der Dummy-Kodierung für eine Variable mit n Kategorien n-1 Dummy-Variablen erstellt werden. Dies liegt daran, dass die Kategorie, die nicht durch die Dummy-Variablen repräsentiert wird, als Referenzkategorie dient.
Die Dummy-Kodierung ist eine gängige Praxis in der Statistik und Datenanalyse, um kategoriale Variablen in quantitativen Modellen zu integrieren und statistische Beziehungen zu untersuchen.
Was wird illustriert/dargestellt?
Beispiel für eine Dummy-Kodierung. Es werden vier Treatments hinsichtlich ihrer Wirksamkeit hinsichtlich des subjektiven Wohlbefindens (subjective well-being, SWB) verglichen. Bei 4 Treatments resultieren 𝑘 − 1 = 4 − 1 = 3 Dummy-Variablen, da die vierte Bedingung eindeutig dadurch definiert ist, dass sie auf allen Dummy-Variablen den Wert 0 hat. In der Regressionsgleichung entspricht die Konstante a dem Mittelwert in der Gruppe mit nur 0 (Referenzgruppe). Ein bi-Koeffizient errechnet sich als Differenz der Mittelwerte der i-ten Gruppe und der Referenzgruppe. Diese Kodierung ist besonders gut für den Vergleich verschiedener Experimentalbedingen mit einer Kontrollbedingung (= Referenzgruppe) geeignet.
Was stellt dieser Output dar?
eine multiple Regressionsanalyse
Was ist eine Effektkodierung und was ist der Unterschied zur Dummy-Kodierung?
Die Effektkodierung (auch als kontrastkoeffizientenbasierte Kodierung oder differenzielle Kodierung bezeichnet) ist eine Methode zur Darstellung von kategorialen Variablen mit mehreren Kategorien in statistischen Analysen, insbesondere in linearen Regressionsmodellen. Im Gegensatz zur Dummy-Kodierung, bei der eine Kategorie als Referenzkategorie ausgewählt wird, erfasst die Effektkodierung die Unterschiede zwischen den Kategorien.
Was wird hier dargestellt?
Beispiel für eine Effekt-Kodierung. Bei der Effektkodierung werden den Probanden, die auf den 3 Dummy-Variablen den Wert 0 haben eine -1 zugewiesen. In der Regressionsgleichung entspricht die Konstante a dem Gesamtmittelwert der abhängigen Variablen. Ein bi-Koeffizient errechnet sich als Differenz des Mittelwertes der i-ten Gruppe und dem Gesamtmittelwert. Die b-Koeffizienten lassen sich als Schätzungen der Treatmenteffekte interpretieren.
Was ist eine Kontrastkodierung (hier dargestellt)?
Beispiel für eine Kontrast-Kodierung. Bei der Kontrastkodierung werden geplante Vergleiche (Kontraste) durchgeführt. Dabei gilt: Die Summe der Gewichte muss immer Null ergeben. X1 vergleicht die erste mit der zweiten Gruppe. X2 kontrastiert die dritte mit der vierten Gruppe. X3 vergleicht die gepoolten Gruppen 1,2 mit den gepoolten Gruppen 3,4. Die Informationen der unabhängigen Variable werden dann erschöpfend erfasst, wenn es sich um orthogonale Kontraste handelt. In der Regressionsgleichung entspricht die Konstante a dem Gesamtmittelwert der abhängigen Variablen. Ein bi-Koeffizient lässt sich als Funktion der Kontrastkoeffizienten darstellen. Eine Kontrastkodierung wird für geplante Einzelvergleiche verwendet, wie sie im Rahmen von ANOVAS durchgeführt werden
t-Test-Beispiel mit Dummykodierung
t-Test Beispiel mit Effektkodierung
Last changeda year ago