Buffl

VL 10 - Multiple Regression I

MU
by Merle U.

Was ist ein Modell? Beschreibe grob.

Warum ist der Begriff “statstsiches Modell” adäquater als “statistsiches Verfahren”?

(wichtig für Klausur: verstehen warum “Modell” in der Statistik adäquater ist als “stat. Verfahren”)

„Bleibt noch der Begriff Modell zu klären. Und damit sind wir an einem sensiblen Punkt in der Methodenlehre, an dem sich Statistik und Wirklichkeit berühren. Ein Modell ist eine vereinfachte Darstellung der Wirklichkeit.

Der Sinn dieser Vereinfachung ist, dass man leichter damit arbeiten kann. Für die Psychologie bedeutet das, dass wir die „Wirklichkeit“ des Erlebens und Verhaltens sowohl in handhabbare Einzelheiten zerlegen als auch in bestimmte mathematische Vorstellungen pressen. Zumindest ist das das Vorgehen der quantitativen Methoden. Erinnern Sie sich an das Problem des Messens – es bestand in der Schwierigkeit, die psychologische Wirklichkeit empirisch einzufangen und in Zahlen zu übersetzen. Was dabei übrig bleibt, ist ein Modell dieser Wirklichkeit. Für viele Analyseverfahren gilt dasselbe. Sie liefern im Prinzip keine Ergebnisse über die Wirklichkeit, sondern lediglich über unsere Modelle, die wir uns von der Wirklichkeit machen. Damit wäre es streng genommen sinnvoller, in der Statistik nicht von Analyseverfahren, sondern immer von Analysemodellen zu sprechen.

Während die Bezeichnung Allgemeines Lineares Modell dem Rechnung trägt, tun das viele andere Verfahren nicht. Es wäre also schön, wenn Sie diesen wichtigen Punkts stets im Hinterkopf behalten.“

(vgl. Schäfer, 2016, S. 188, Hervorhebungen durch Morgenroth)

Wie hängen der quadrierte multiple Korrelationskoeffizient (R2) und der Determinationskoeffizient in der multiplen linearen Regression zusammen, und wie können sie als Maß für die Verringerung der Vorhersagefehler durch die Regressionsanalyse interpretiert werden?

Wie Kann R2 = 0.48 also besipielsweise interpretiert werden?


Der quadrierte multiple Korrelationskoeffizient R2 zwischen Prädiktoren und Kriterium entspricht dem Anteil der vorhergesagten Varianz an der Gesamtvarianz und ist somit mit dem Determinationskoeffizienten identisch.

Der Determinationskoeffizient kann auch als Maß dafür interpretiert werden, wie stark die Vorhersagefehler durch die Regressionsanalyse verringert werden können. Den Bezugspunkt bilden dabei Fehler, die bei einer Vorhersage ohne Berücksichtigung der Prädiktoren auftreten würden (Dabei werden die y-Werte durch den Mittelwert von y vorhergesagt).


Beispiel: R2 = 0,48: Die Fehler bei Berücksichtigung der Prädiktoren betragen 48% gegenüber der Nichtberücksichtigung der Prädiktoren. Die Gesamtheit der Vorhersagefehler wird also um 52% reduziert.


ANDERS: R2 = 0,48: Dies bedeutet, dass 48% der Varianz in der abhängigen Variablen (Kriterium) durch die Prädiktoren im Modell erklärt werden können. Mit anderen Worten, das Modell kann 48% der Abweichungen der Kriteriumswerte aufgrund der Prädiktoren vorhersagen. Die verbleibenden 52% der Varianz sind nicht durch die Prädiktoren im Modell erfasst und können auf andere Faktoren oder zufällige Einflüsse zurückgeführt werden.

Wie sind die Konzepte der Untersuchung von bedeutsamen Mittelwertsunterschieden zwischen Gruppen (z. B. t-Test für unabhängige Stichproben) und der Überprüfung der statistischen Signifikanz der Steigung einer Regressionsgeraden (ALM) miteinander äquivalent? Was bedeutet es, dass die aufgeklärte Varianz der abhängigen Variable und der p-Wert (Signifikanzwahrscheinlichkeit) in diesem Zusammenhang identisch sind? Erläutern Sie, wie diese Äquivalenz einen Zusammenhang zwischen der Analyse von Unterschieden und Zusammenhängen im statistischen Modell widerspiegelt.


Merke!

Die Frage danach, ob ein bedeutsamer Mittelwertsunterschied zwischen den beiden Gruppen A und B besteht (Unterschiedshypothese, t-Test für unabhängige Stichproben) und die Frage, ob die Steigung der Regressionsgerade durch die Mittelwerte bedeutsam ist, ist im Rahmen des ALM mathematisch äquivalent. Aufgeklärte Varianz der abhängigen Variable und der p-Wert (Signifikanzwahrscheinlichkeit) sind identisch. (Vgl. Schäfer, 2016, S. 202)

  • Bedeutsame Mittelwertsunterschiede: Wenn ein signifikanter Mittelwertsunterschied zwischen den Gruppen A und B besteht, bedeutet das, dass die Mittelwerte der abhängigen Variable in den beiden Gruppen statistisch signifikant voneinander abweichen.

  • Regressionsgerade und Steigung: Die Steigung der Regressionsgerade beschreibt, wie stark eine unabhängige Variable die abhängige Variable beeinflusst. Wenn die Steigung der Regressionsgerade durch die Mittelwerte bedeutsam ist, zeigt das an, dass die Veränderungen in der unabhängigen Variable mit statistisch signifikanten Veränderungen in der abhängigen Variable verbunden sind.

  • Identische aufgeklärte Varianz und p-Wert: Die aufgeklärte Varianz der abhängigen Variable gibt an, wie gut die unabhängige Variable (oder die Gruppenzugehörigkeit) die Variation in der abhängigen Variable erklärt. Der p-Wert (Signifikanzwahrscheinlichkeit) gibt an, wie wahrscheinlich es ist, solche Ergebnisse zu erhalten, wenn der tatsächliche Effekt null ist (kein Zusammenhang oder kein Unterschied). Die Tatsache, dass die aufgeklärte Varianz und der p-Wert identisch sind, bedeutet, dass die mathematische Darstellung dieser Konzepte im Rahmen des ALM gleich ist, wenn es um die Interpretation von Unterschieden oder Zusammenhängen geht.

Insgesamt zeigt diese Äquivalenz, wie die Analyse von Gruppenunterschieden und Regressionsbeziehungen im ALM miteinander verknüpft ist und wie sie auf ähnliche statistische Prinzipien zurückgreifen.

Was ist eine “Dummy Kodierung”? Beschreibe auch ein Beispiel

(eig Notizen, er hat so eine Folie nciht!)

Die Dummy-Kodierung (auch als Binärkodierung oder Indikatorvariable-Kodierung bezeichnet) ist eine Methode zur Darstellung von kategorialen Variablen mit zwei oder mehr Kategorien als numerische Werte in statistischen Analysen, insbesondere in Regressionsanalysen. Diese Kodierung ermöglicht es, kategoriale Variablen in mathematischen Modellen zu verwenden, die normalerweise numerische Werte erfordern.

Hier ist, wie die Dummy-Kodierung funktioniert:

Angenommen, Sie haben eine kategoriale Variable "Farbe" mit den Kategorien "Rot", "Grün" und "Blau". Anstatt die Farben direkt als Textwerte in einer Analyse zu verwenden, können Sie Dummy-Variablen erstellen, die für jede Kategorie eine eigene Spalte repräsentieren:

  • "Rot": 1 in der "Rot"-Spalte, 0 in den anderen Spalten

  • "Grün": 1 in der "Grün"-Spalte, 0 in den anderen Spalten

  • "Blau": 1 in der "Blau"-Spalte, 0 in den anderen Spalten

Durch die Verwendung von 1 und 0 in den Dummy-Variablen wird die An- oder Abwesenheit jeder Kategorie codiert. Dies ermöglicht es, die kategoriale Variable in einer linearen Regression oder anderen statistischen Analysen zu verwenden, die numerische Eingaben erfordern.

Es ist wichtig, dass bei der Dummy-Kodierung für eine Variable mit n Kategorien n-1 Dummy-Variablen erstellt werden. Dies liegt daran, dass die Kategorie, die nicht durch die Dummy-Variablen repräsentiert wird, als Referenzkategorie dient.

Die Dummy-Kodierung ist eine gängige Praxis in der Statistik und Datenanalyse, um kategoriale Variablen in quantitativen Modellen zu integrieren und statistische Beziehungen zu untersuchen.

Author

Merle U.

Information

Last changed