Ein Musikstreamingdienst möchte wissen, wie sich das Investment in Werbung auf die Klickzahlen bestimmter Alben auswirkt. Darüber hinaus möchten sie wissen, wie sich die Häufigkeit, dass ein Album im Radio gespielt wird vor dem Release auf die Klickzahlen auswirkt.
Warum kann man diesen Fall nicht im einer Varianzanalyse rechnen?
Das hier sind intervallskalierte Werte, keine nominalskalierten, deshalb kann man das nicht mit der Varianzanalyse rechnen
.Varianzanalytische Verfahren stehen nur für kategoriale UVs zur Verfügung
Wie werden AVs und UVs bei der Multiplen Regression genannt?
UV -> Prädiktor
AV -> Kriterium
Wie lautet die Gleichung der einfachen linearen Regression und was bedeuten die Parameter?
i: Nummer der Person
y(i): geschätzter Wert für eine beliebige Person für die abhängige Variable
x(i): Messwert für eine beliebige Person für die Prädiktorvariable
b0: Achsenabschnitt / Intercept (der Regressionsgeraden mit der y-Achse)
b1: Steigung / slope / gradient (der Regressionsgeraden)
Wie sieht die Gleichung für die Multiple Regression aus und was bedeuten die Parameter?
Worum geht es bei der Regression?
Bei der Regression geht es darum ein lineares Modell zu finden (Gerade, Ebene, …), dass die beobachteten Werte gut vorhersagt. Je besser das lineare Modell die beobachteten Werte vorhersagt, desto kleiner ist der Fehler.
(D.h. der Abstand zu allen Datenpunkten sollte so klein wie möglich sein)
Was macht die Methode der kleinsten Quadrate?
Mit Hilfe der Methode der kleinsten Quadrate, die den Summed Squares aus der VA ähneln, können wir wieder Maße für den Anteil der Modellvarianz im Vergleich zur Fehlervarianz finden und Vorhersagen über die Güte des Modells machen
Wie ist die Formel für SStotal und was ist das?
SStotal ist die Differenz~ der beobachteten Werte und dem Mittelwert
Wie ist die Formel für SSresidual und was ist das?
SSresidual | error ist die Differenz~ der beobachteten Werte und dem vorhergesagten Wert des Modells.
Wie ist die Formel für SSmodel und was ist das?
SSmodel ist die Differenz~ des Mittelwerts und dem vorhergesagten Wert des Modells.
Was berechnet das Bestimmtheitsmaß / Godness of Fit?
Anteil der durch Prädiktor(en) (Xk) aufgeklärten Varianz bezüglich des Kriteriums / der Outcome Variable (Y):
Was sind Merkregeln für das Bestimmtheitsmaß?
R2 *100 = Anteil der aufgeklärten Varianz durch das Modell
Wurzel von R² = Pearson‘s Korrelationskoeffizient (gibt den Zusammenhang zwischen den Werten, die durch das Modell vorhergesagt werden und den beobachteten Werten der Outcome Variable an)
Warum sollte man R2 korrigieren?
durch Aufnahme zusätzlicher Variablen in die Regressionsgleichung steigt R2-> Gefahr von Überanpassung (Overfitting)
Die „echten“ Korrelationen sind in der Regel deutlich niedriger.
Dieses Phänomen wird „Shrinkage" genannt.
Shrinkage ist umso größer, je mehr UVs einbezogen werden und je geringer der Stichprobenumfang ist. Dadurch wird die Qualität von R2 als Schätzer für die realen Verhältnisse (d.h. in der Grundgesamtheit) schlechter. Das korrigierte R2 (adjusted R2) berücksichtigt dies.
Wie ist die Gleichung für das korrigierte R²?
Was prüft der Signifikanztest für R²?
Prüft, ob die Verbesserung des Modells (linearer Zusammenhang), substanziell vom Basismodell (kein Zusammenhang) ist. Die Nullhypothese ist also, dass R2= 0 ist
Was gilt für ein Modell bei der einfachen linearen Regression?
Null Modell (H0): Die Outcome Values werden durch den Mittelwert vorhergesagt (kein Zusammenhang).
Alternativmodell (H1): Die Outcome Values werden durch den Prädiktor vorhergesagt (linearer Zusammenhang).
Was gilt für ein Modell bei der multiplen Regression?
Null Modell (H0): Die Outcome Values werden nur durch einen Prädiktor vorhergesagt.
Alternativmodell (H1): Die Outcome Values werden durch mehr als einen Prädiktor vorhergesagt.
Was gilt für den Regressionskoeffizienten bk?
Gibt die Veränderung in der Outcome Variable an, wenn sich der Prädiktor um eine Einheit ändert und die anderen Prädiktoren 0 sind
je größer also bk, desto stärker ist der lineare Zusammenhang;
wenn bk = 0, dann kein Zusammenhang
Um also zu prüfen, ob die Veränderungen substanziell ist, prüft man ob bk signifikant von 0 abweicht.
Das macht man mit einem t-Test
ChatGPT: Dies sind die Gewichte für jeden Prädiktor. Sie geben an, um wie viel sich die abhängige Variable ändert, wenn der entsprechende Prädiktor um eine Einheit erhöht wird, während alle anderen Prädiktoren konstant gehalten werden.
Was gilt für den Intercept b0?
ChatGPT: Dies ist der Wert der abhängigen Variablen, wenn alle Prädiktoren den Wert 0 haben.
Fülle die Variablen x und y anhand des Fallbeispieles aus:
Ein Musikstreamingdienst möchte wissen, wie sich das Investment in Werbung auf die Klickzahlen bestimmter Alben auswirkt. Darüber hinaus möchten sie wissen wie sich die Häufigkeit, dass ein Album im Radio gespielt vor dem Release auf die Klickzahlen auswirkt.
Interpretiere diese Tabelle
Investment in Werbung klärt 33.5% der Varianz auf.
Wenn alle Prädiktoren einbezogen werden (hier auch Häufigkeit im Radio), steigt die Varianzaufklärung auf 62,9% signifikant.
Airplay klärt demnach 29,4 % der Varianz auf signifikant
Erkläre die Regeln der Dummy Codierung
Wenn Variable bereits dichotom ist, dann kodiere die eine Ausprägung mit 0 und die andere mit 1. Die Ausprägung mit 0 ist die Referenzkategorie und die Ergebnisse der anderen Ausprägung ist in Referenz zu dieser Ausprägung zu interpretieren.
Wenn die Variable mehr als zwei Stufen hat, dann bilde entsprechende neue dichotome Variablen, wobei es dann so viele neue Variablen gibt wie Ausprägungen -1. Die Kategorie, die überall eine 0 hat und damit nicht dargestellt wird ist die Referenzkategorie.
Kodiere Interaktionen zwischen zwei Prädiktoren durch Multiplikation der dummy-kodierten Variablen (geht nur bei dichotom).
Die Referenz (b0) ist die Gruppe, die mit 0 kodiert ist.
Erkläre die Regeln für Effekt Codierung
Wenn Variable bereits dichotom ist, dann kodiere die eine Ausprägung mit -1 und die andere mit 1. Die Ausprägung mit -1 ist die Referenzkategorie und die Ergebnisse der anderen Ausprägung ist in Referenz zu dieser Ausprägung zu interpretieren.
Wenn die Variable mehr als zwei Stufen hat, dann bilde entsprechende neue dichotome Variablen, wobei es dann so viele neue Variablen gibt wie Ausprägungen. Die Kategorie, die überall eine -1 hat und damit nicht dargestellt wird ist die Referenzkategorie.
Kodiere Interaktionen zwischen zwei Prädiktoren durch Multiplikation der effekt-kodierten Variablen (geht nur bei dichotom).
Die Referenz (b0) ist der Gesamtmittelwert.
Wie viel Prädiktoren gibt es bei n Kategorien im Prädiktor?
n - 1 Prädiktoren
Was macht die Partialkorrelation?
Gibt den linearen Zusammen zweier Variablen an, nachdem der lineare Einfluss einer dritten Variable (die mit beiden zusammenhängt) rausgerechnet wurde à Die Partialkorrelation misst also die Stärke und Richtung der Beziehung zwischen X und Y, wenn Z konstant gehalten wird.
Es werden quasi nur die Anteile der aufgeklärten Varianz miteinander in Beziehung gesetzt, die jeweils nicht mit der Drittvariable zusammenhängen.
Nenne die Voraussetzungen für die farbigen Felder:
Was sind wichtige Punkte zum Vorgehen bei der Regression?
Modellformulierung: theoretische Überlegungen über Ursache-Wirkungsbeziehung, relevante Variablen, Messung etc.
ggf. Dummy oder Effektkodierung für kategoriale Prädiktoren
Outlieranalyse (Abschnitte im Field dazu sehr empfohlen
Prüfung der statistischen Voraussetzungen
Schätzung der Regressionsfunktion
Beurteilung der Güte der Regressionsfunktion: Bestimmtheitsmaß R2, F-Statistik, Effektstärke und Anteil aufgeklärter Varianz
Beurteilung der Güte einzelner Regressionskoeffizienten: b-Werte und β-Gewichte, t-Statistik
Fülle die Tabelle aus:
Last changed3 months ago