2. Regressionsanalyse
2.1 Problemstellung
= Beziehungen zwischen Variablen analysieren
z.B. ob Variable durch andere beeinflusst wird + Effektstärke
für Entscheidungen, Erklärungen und Prognosen, insbesondere kausale Zsm.hänge
—> Werte AV schätzen und vorhersagen
fehleranfällig, oft falsche Ergebnisse oder falsche Interpretation
AV und UV
AV = Output (erklärte Variable, y-Variable, Prognosevariable)
—> z.B. Absatzmenge Produkt
UV = Input (erklärende Variable, x-Variable, Kovariable)
—> z.B. Preis, Werbung, Qualität
lineare Regression = Variablen quantitativ, durch binäre Variable auch quantitativer Regressor
Anwendungsfelder
Einfache lineare Regression
nach Regressionsfunktion von Y auf X gesucht
z.B. Wie wird Absatzmenge verändert, wenn Werbeausgaben geändert werden?
meist jedoch Beziehung nicht linear und nicht einziger Einflussfaktor
multiple Regression
mehrere Einflussgrößen berücksichtigen (eine Funktion mit mehreren UV)
Vorhersage von Y präzise
Einschränkungen: nicht alle beeinflussenden Variablen bekannt oder Beobachtung fehlt
2.2 Vorgehensweise
2.2.1 Modellformulierung
Auswahl und Definition der Variablen
Spezifizierung der funktionellen Form
Annahmen über Störgrößen (Zufallseinflüsse)
Prinzip der Sparsamkeit = Modell so einfach wie möglich, so komplex wie nötig
Vollständigkeit = Balance zwischen Einfachheit und Komplexität
je mehr Variablen, desto komplexer
z.B. Streudiagramm
z.B. Streudiagramm = zeigt Absatzmenge, mit Werbung tendenziell besser
—> lineares Modell geeignet für begrenzten Bereich von Werbeausgaben
—> gesamter Bereich = nichtlineare Formulierung nötig
Regressionsgerade
Y = a+b X
Y = geschätzte Absatzmenge, X = Werbeausgaben, a = konstanter Term, b = Regressionskoeffizient
2.2.2 Schätzung der Regressionsfunktion
= Basis: Datensatz (Beobachtung der Variablen), muss Realität angepasst sein
—> Modellschätzung oder Kalibrierung genannt
Einfache Regression
Methode der kleinsten Quadrate (KQ-Methode)
Regressionsgrade muss immer durch Mittelpunkt Daten laufen
Steigung b abhängig von Standardabweichung X und Y
durch Veränderung Skala der Variablen = Veränderung SA und Regressionskoeffizient
Einfache Regression: Regressionseffekt
Regressionseffekt = Regressionsgerade identisch mit SD-Linie
—> SD-Linie: Linie auch Mittelpunkt mir Steigung sy/sx
Einfache Regression: Korrelation
Korrelation und Regression im Zsm.hang
—> beide Stärke einer Beziehung zwischen 2 Variablen
—> Regression zusätzlich Wirkung messen, die UV auf AV hat + Prognosen für AV
Annahme: kausaler Zusammenhang zwischen AV (Y = Effekt) und UV (X = Ursache)
Einfache Regression: Residuen
= Unterschiede zwischen beobachteten und geschätzten y-Werten (zufällige Einflüsse, e = Error)
—> Abweichung Beobachtungspunktes i von Regressionsgerade
—> systematische Einflüsse: z.B. Preis, Werbung, Aktionen von Wettbewerbern
—> zufällige Einflüsse: z.B. Verhalten Konsument, unbeobachtbare Messfehler
Einfache Regression: Methode der kleinstem Quadrate (KQ-Methode)
—> Summe quadrierte Residuen = Funktion der unbekannten Regressionsparameter a/b
—> vertikale Abweichungen zwischen Beobachtung und Regressionsgerade minimieren
—> negative Abweichungen müssen in positive umgewandelt werden (quadrieren)
Einfache Regression: LAD
= Kriterium der geringsten absoluten Abweichungen
—> robuster als KQ-Methode, weniger empfindlich gegenüber Ausreißer
—> einfacher, aber rechnerisch schwieriger
—> nicht immer eindeutige Lösung
Einfache Regression: separate einfache Regression
—> Auswirkungen beider Marketingvariablen (Preis, Verkaufsförderung) analysieren
—> Schätzung separate Regressionsfunktion für jede UV
—> Problem: nicht sehr präzise, besser: Regressionsfunktion mit allen UV’s zusammen
multiple Regression: Regressionkoeffizient
= auch partielle Regressionskoeffizienten genannt
—> Werte im allgemeinen von anderen UV in Regressionsfunktion abhängen
—> b nun keine Schätzung mehr, sondern mit einbezogen
alle Effekte positiv = partieller RK kleiner als bei einfachen RK
multiple Regression: Standardisierte Regressionskoeffizienten (Beta-Koeffizienten)
—> je > Standardabweichung der UV, desto kleiner b
—> Möglichkeit Regressionskoeffizienten vergleichbar zu machen
—> Beta Koeffizient = standardisierter RK
—> Skalierung der Variablen X und Y eliminiert (unabhängig linearer Transformation Variable)
—> auch möglich, Variable zu standardisieren
—> für Prognose wird nicht standardisierter RK benötigt!
Regression mit 3 oder mehr Regressen —> RK ändert sich nicht bei Erweiterung, wenn UV unkorreliert sind
2.2.3 Prüfung der Regressionsfunktion
= Prüfung der Güte (Qualität), Maßnahmen zur Bewertung Anpassungsgüte (Godness-of-fit)
Standardfehler (SE) der Regression
wie stark Beobachtungen (vertikal) um geschätzte Regressionsfunktion streuen
Maß für statistische Genauigkeit (Präzision)
Anzahl der Freiheitsgrade (df) für Schätzung = Anzahl Beobachtungen abzüglich Anzahl Parameter in Regressionsfunktion
Bestimmtheitsmaß (R-Quadat
Quadrierte Korrelation zwischen Y und X
Anteil der Variation von Y, der durch UV erklärbar ist
je > R desto besser Anpassung
Zerlegung der Streuung von Y
—> Gesamtabweichung: aus erklärter Abweichung, durch Regressionsgerade + Residuum
—> SST = total zum of squares, misst Gesamtstreuung von Y
—> R2 = erklärte Streuung durch Gesamtstreuung
—> Minimierung residuelle Streuung SSR ist identisch mit Maximierung von R2
Stochastisches Modell der Regression und F-Test
Ergebnisse als zufällig angesehen (geschätztes Parameter und Prognose)
stochastisches Modell der Regression = aus systematischer + stochastischer Komponente
—> stochastische Komponente = Fehlertermn e (Einflüsse auf Y, nicht in systematischer Kom.)
—> systematische Komponente = als wahre Werte angenommen, unbekannt/ geschätzt
—> Fehlertermin nicht beobachtbar, aber manifestiert Residuen (Störgröße Zufallsvariable)
Stochastisches Modell der Regression und F-Test: ANOVA
ANOVA-Tabelle (wichtig für F-Test)
—> Quadratsumme SS, Freiheitsgrade df, mittlere Quadrate MS wichtig
Stochastisches Modell der Regression und F-Test: F-Test
empirischer Wert der F-Statistik muss berechnet werden
—> empirisches Signifikanzniveau (p-Wert) kann abgeleitet werden
—> je > F empirisch desto kleiner p
—> H0 abgelehnt, wenn p < a
—> Signifikanzniveau = Ho fälschlicherweise abgelehnt (Fehler 1. Art), a = 0,05
Overfitting und korrigiertes Bestimmtheitsmaß
R2 berücksichtigte nicht Anzahl der Beobachtungen (Stichprobenumfang N)
—> berücksichtigt nicht Anzahl UV im Regressionsmodell + Komplexität des Modells
Erhöhung von R2 kann bei Aufnahme neuer Variable zufällig sein
—> mit zunehmender Anzahl Variablen kann Präzision Schätzung verringert werden
—> starke Anpassung an Daten, nicht gut = overfitting
korrigiertes Bestimmungsmaß = zusätzlich zu R2
—> verwendet gleiche Infos wie F-Statistik (berücksichtigen bei N + Anzahl Parameter)
—> wird < wenn Anzahl Regressionen zunimmt, kann auch negativ werden
2.2.4 Prüfung der Regressionskoeffizienten
Präzision der Regressionskoeffizienten
Info über Präzision (Genauigkeit) + Wichtigkeit Variablen erhalten
SA von b (Standardfehler Koeffizienten) = Maß für Präzision
Präzision eines geschätzten Koeffizienten nimmt bei < R2 zu
t-Test der Regressionskoeffizienten
t-Test einfacher als F-Test und gebräuchlicher
F-Test = Testen einer Gruppe von Variablen
t-Test = nur Testen einer einzelnen Variable —> ob unbekannter Fahrer Regressionskoeffizient ß von 0 abweicht —> es gilt: F = t2
Nullhypothese: t-Statistik folgt t-Verteilung mit N-J-1 Freiheitsgraden
t-Test der Regressionskoeffizienten: Arten
Einseitiger t-Test = wenn Ergebnis je nach Richtung der Abweichung untersch. Konsequenzen
—> bessere Trennschärfe, erfordert ab mehr a-priori-Wissen
Zweiseitiger t-Test = in Regressionsanalyse angewandt
linksseitiger t-Test = wen Ablehnungsbereich auf linker Seite der Verteilung
Konfidenzintervall der Regressionskoeffizienten
in welchem Bereich Wert des wahren RK ß mit Konfidenzwahrscheinlichkeit liegt
Regressionsanalyse nur Punktschätzung
Konfidenzintervall = Bereich um b, in dem unbekannter Wert ß mit Wahrscheinlichkeit liegt
—> große abhängig von Irrtumswahrscheinlichkeit a
—> oder Konfidenzintervall (1-a)
je niedriger a desto größer das Intervall
2.2.5 Prüfung der Modellprämissen
Nichtlinearität
Liniearität = Vereinfachung Realität (nur Annäherung, einfache Handhabung)
Interaktionseffekt = Form der Nichtliniearität = wenn gemeinsamer Effekt von 2 UV größer/ kleiner als Summe Einzeleffekt
—> z.B. zwischen Preis und Werbung (Interaktionseffekt), Preis + Werbung verstärken sich
Erkennung von Nichtlinearität
—> Folge = verzerrte Parameter (systematische Fehler)
—> durch Fachkenntnis, statistische Werkzeuge (visuelle Inspektion Daten, Streudiagramm)
—> bei multiplen Regression = y-Werte gegen jede UV auftragen
Vernachlässigung relevanter Variablen, underfitting
fehlende relevante Variable, Annahme schwer zu erfüllen
Bias vergrößern sich mit b2 und Korrelation r
relevant wenn: Variable bedeutenden Einfluss auf Y, signifikant mit UV im Modell korreliert —> kein Bias wenn sie mit UV im Modell nicht korreliert
Entdeckung von vernachlässigten Variablen
> Residuen mit numerischen/ grafischen Methoden analysieren
—> grafische Methoden = leistungsfähiger, leichter verstehbar
—> Tukey Anscomble Plot = Residuen gegen geschätzte y-Werte geplottet
Vernachlässigung relevanter Variablen, underfitting: Drittvariable
Drittvariable und Konfundierung
—> Bias = können wahre Wirkung verschleiern, überhöhen, Illusion positiver Effekt erzeugen
—> bei Schlussfolgerung Kausalität Vorsicht geboten (v.a. bei Beobachtungsdatem)
—> Gefahr wichtige Drittvariable übersehen (confounders)
Vernachlässigung relevanter Variablen, underfitting: Kausaldiagramm, kirchen sink-Modell
Kausaldiagramme = durch Störvariable Z scheinkausale Korrelation möglich
—> Mediation: andere kausale Interpretation obwohl gleiche Diagramme (z.B. Placebo Effekt)
Einschluss irrelevanter Variable (Überanpassung)
—> kitchen sink-Modelle = alle verfügbaren Variablen in Modell aufenehmen
Zufallsfehler in unabhängigen Variablen
z.B. Messung Image, Vertrauen, Zufriedenheit auf Absatz (nie komplett zuverlässig)
—> Zuverlässigkeit wirkt sich auf Korrelations- und Regressionskoeffizienten auf
—> Effekt auf RK stärker, da Zufallfehlr in X auch SA in X erhält
—> Regression of mean = Verzerrung des RK gegen Null
—> regression fallacy (Trugschluss Regression) = zufälliger Effekt mit kausalem verwechselt
Heteroskedastizität
= Fehlerterme haben konstante Varianz
Skedastizität = statistische Streuung oder Variabilität, durch Varianz/ SA messbar
Fehlerterm nicht beobachtbar, deshalb Residuen heranziehen
Heteroske. = verringerte Präzision der Schätzung mit KQ-Methode, SE, p-Werte, Schätzung Konfidenzintervall ungenauer
erkennen durch visuelle Inspektion der Residuen
Umgang: Hinweis auf Nichtlinearität/ Vernachlässigung relevanter Einflussgrößen sein —> als Test auf Nichtlinearität verstanden
Heteroskedastizität: Methoden
Goldfeld/ Quandt Test
—> Stichprobe in 2 Teile geteilt + Varianzen der Residuen verglichen
—> perfekte Homoskedastizität wenn Varianzen gleich
Methode von Glesjer = Absoluteste der Residuen auf Regressoren regressiert
Autokorrelation
wenn Fehlerterme korrelieren
v.a. in Zeitreihen, aber auch in Querschnittsdaten
Abweichung von Regressionsgerade nicht mehr zufällig, sondern abhängig von Abweichungen früherer Werte
positive Abhängigkeit = aufeinanderfolgende Restwerte liegen nahe beinander
—> negativ = Werte schwanken stark und ändern Vorzeichen
verringert Präzision der Schätzung, SE von RK, p-Werte, KI ungenauer
Erkennung: visuelle Inspektion der Residuen
Bewältigung: Hinweis auf Nichtlinearität oder Vernachlässigung relevanter Variablen
—> Einbeziehen von Dummy-Variablen bei Zeitreihendaten oder Transformation
Normalverteilung der Störgrößen (inkl. QQ, PP Plots)
Annahme: Fehler normalverteilt, wichtig für Gültigkeit von Signifikanztests und KI
zur Prüfung Residuen wichtig (z.B. Histogramm mit Verteilung Residuen)
—> Q-Q-Plot: standardisierte Residuen in aufsteigender Reihenfolge sortiert, entlang x-Achse geplättet und Quantile Normalverteilung entlang y-Achse geplottet
—> P-P-Plot: erwartete Wahrscheinlichkeit der standardisierten Residuen entlang y-Achse gegen kumulative Anteile (Wahrscheinlichkeiten) der Beobachtung auf x-Achse geplottet
Verletzung Normalverteilung = oft Folge anderer Verletzungen (z.B. fehlende Variablen, Nichtlinearität, Ausreißer)
Multikollinearität und Präzision
Annahme: darf keine perfekte MK geben
—> MK = lineare Beziehung zwischen Regressoren
Folge von Fehlspezifikationen, z.B. derselbe Einfluss 2x als UV in Modell einbezogen
je größer M, desto kleiner Präzision (Sparsamkeit von Modellerstellung wichtig)
Ergebnis MK: R2 signifikant, obwohl kein Koeffizient der Regressionsfunktion signifikant
Multikollinearität und Präzision: nachweis
Nachweis: feststellen, welche Variablen betroffen + Stärke Ausmaß
—> Betrachtung Korrelationskoeffizient
—> jede UV auf die andere UV regressiert um multiple Beziehung zu bestimmen
Variance Inflation Factor (VIF) = gebräuchliche Maß für MK, mit Statistikprogramm
Präzision des geschätzten RK
—> Präzision steigt mit Variation Regression und Stichprobengröße N
—> Präzision nimmt ab mit SE der Regression (Anpassung Modell) und Multikollinearität
Multikollinearität und Präzision: Faktoranalyse
für Bewältigung MK (Zsm.hang zwischen UV analysieren)
am einfachsten: Stichprobengröße erhöhen
Ausreißer
Gründe: Zufall, Fehler bei Messung/ Dateneingabe, ungewöhnliches Ereignis außerhalb Forschungskontext oder innerhalb Forschungskontext
Erkennen von Ausreißern: grafische/ numerische Methoden
—> z.B. Streudiagramm, Ausreißer mit numerischer Methode genauer betrachten
—> um Größe Residuen zu beurteile = Standardisierung der Werte
Einfluss Ausreißer = Größe x Hebelwirkung
Ausreißer: Hebelwirkung
Leverage = je weiter Beobachtung auf x-Achse vom Mittelwert entfernt, desto größer Einfluss auf Steigung Regressionsgerade
Ausreißer: Arten Residuen
—> normale, nicht standardisierte vs. standardisierte
—> studentisierte = bezieht Hebelwirkung ein
—> studentisierte gelöscht = bezieht Hebelwirkung ein + SE nach Löschen Beobachtung i
Ausreißer: Arten Cooksche Distanz
= Maß für Einfluss von Ausreißern
—> Basis. studentisierte Residuum für Beobachtung i und Hut-Wert
Ausreißer: Löschung, Behandlung
Löschung von Ausreißern = Analyse wiederholen nachdem Ausreißer gelöscht
Behandlung = nicht automatisch löschen
—> wenn zufällig = nicht löschen, da keine Verletzung der Annahme
—> wenn doch löschen, dann dokumentieren
—> am besten beibehalten
2.4 Modifikationen und Erweiterungen
2.4.1 Regression mit Dummy-Variablen
erweitert Flexibilität des linearen Regressionsmodells
qualitative (nominal skalierte) Variablen als erkärende Variable/ Prädiktor einbeziehen
Dummy = binär (0,1 Variablen), mathematisch metrisch behandeln
2.4.2 Regressionsanalyse mit Zeitreihendaten
Eigenschaften: nach Zeit geordnet, erlauben Einbeziehung von Zeitvariablen in Modell
Abschätzung Werte von Y für zukünftige Zeitpunkte und -räume
Zeit = spezielle Variable, entwickelt sich in gleichförmiger Weise, unabhängig von Ereignissen
—> keine Ursache, hat Ordnungsfunktion
—> bringt Daten in feste und unveränderliche Reihenfolge
Zeitvariable = unterteilt Zeit in äquidistante Punkte/ Perioden
dadurch Prognose möglich
lineares Trendmodell mit saisonalen Dummy-Variablen
—> 4 Jahreszeiten unterscheiden (4 Dummy-Variablen)
—> eine Jahreszeit als Basis, um perfekte Multikollinearität zu vermeiden
—> durch Extrapolation = Prognose für beliebigen Zeitraum in Zukunft erstellen
Prognose
Prognosefehler = Standardfehler Prognose für zukünftige Prognose N+k berechnen
—> Prognosefehler nimmt mit Prognosehorizont zu, je weiter Prognose in Zukunft reicht
Intervall-Prognose = mithilfe Standardfehler der Prognose (so nicht nur Punktprognose)
2.4.3 Multivariate Regression
= Erweiterung multiple Regression mit mehr als 1 AV
jede der M AV durch desselben Satz UV beeinflusst
2.5 Anwendungsempfehlungen
Das zu untersuchende Problem muss genau definiert werden: Welche Variable soll erklärt oder vorhergesagt werden?
vor Regressionsanalyse, Streudiagramme und Korrelationsmatrix ansehen
Fachwissen + logische Überlegungen, um Einflussgrößen zu identifizieren + definieren
Die Anzahl der Beobachtungen muss ausreichend groß sein
Nach der Schätzung einer Regressionsfunktion muss das Bestimmtheitsmaß zunächst auf Signifikanz überprüft werden
Die einzelnen RK logistisch (auf Vorzeichen) + statistisch (auf Signifikanz) überprüft
Es ist zu überprüfen, ob die Annahmen des linearen Regressionsmodells erfüllt sind
Richtigkeit der Kausalitätsannahmen unerlässlich (außenstatistische Überlegungen wichtig)
Variablen aus Gleichung entfernt oder neue Variablen hinzugefügt werden
Gültigkeit anhand Realität überprüften
Zuletzt geändertvor 2 Jahren