2. Regressionanalyse

Buffl

MVAV - Statistik

by Desi T.

2. Regressionsanalyse

2.1 Problemstellung

= Beziehungen zwischen Variablen analysieren

z.B. ob Variable durch andere beeinflusst wird + Effektstärke
für Entscheidungen, Erklärungen und Prognosen, insbesondere kausale Zsm.hänge
—> Werte AV schätzen und vorhersagen
fehleranfällig, oft falsche Ergebnisse oder falsche Interpretation

2. Regressionsanalyse

2.1 Problemstellung

AV und UV

AV = Output (erklärte Variable, y-Variable, Prognosevariable)
—> z.B. Absatzmenge Produkt
UV = Input (erklärende Variable, x-Variable, Kovariable)
—> z.B. Preis, Werbung, Qualität
lineare Regression = Variablen quantitativ, durch binäre Variable auch quantitativer Regressor

2. Regressionsanalyse

2.1 Problemstellung

Anwendungsfelder

2. Regressionsanalyse

2.1 Problemstellung

Einfache lineare Regression

nach Regressionsfunktion von Y auf X gesucht
z.B. Wie wird Absatzmenge verändert, wenn Werbeausgaben geändert werden?
meist jedoch Beziehung nicht linear und nicht einziger Einflussfaktor

2. Regressionsanalyse

2.1 Problemstellung

multiple Regression

mehrere Einflussgrößen berücksichtigen (eine Funktion mit mehreren UV)
Vorhersage von Y präzise
Einschränkungen: nicht alle beeinflussenden Variablen bekannt oder Beobachtung fehlt

2. Regressionsanalyse

2.2 Vorgehensweise

2. Regressionsanalyse

2.2 Vorgehensweise

2.2.1 Modellformulierung

Auswahl und Definition der Variablen
Spezifizierung der funktionellen Form
Annahmen über Störgrößen (Zufallseinflüsse)
Prinzip der Sparsamkeit = Modell so einfach wie möglich, so komplex wie nötig
Vollständigkeit = Balance zwischen Einfachheit und Komplexität
je mehr Variablen, desto komplexer

2. Regressionsanalyse

2.2 Vorgehensweise

2.2.1 Modellformulierung

z.B. Streudiagramm

z.B. Streudiagramm = zeigt Absatzmenge, mit Werbung tendenziell besser
—> lineares Modell geeignet für begrenzten Bereich von Werbeausgaben
—> gesamter Bereich = nichtlineare Formulierung nötig

2. Regressionsanalyse

2.2 Vorgehensweise

2.2.1 Modellformulierung

Regressionsgerade

Y = a+b X
Y = geschätzte Absatzmenge, X = Werbeausgaben, a = konstanter Term, b = Regressionskoeffizient

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

= Basis: Datensatz (Beobachtung der Variablen), muss Realität angepasst sein

—> Modellschätzung oder Kalibrierung genannt

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression

Methode der kleinsten Quadrate (KQ-Methode)
Regressionsgrade muss immer durch Mittelpunkt Daten laufen
Steigung b abhängig von Standardabweichung X und Y
durch Veränderung Skala der Variablen = Veränderung SA und Regressionskoeffizient

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression: Regressionseffekt

Regressionseffekt = Regressionsgerade identisch mit SD-Linie
—> SD-Linie: Linie auch Mittelpunkt mir Steigung sy/sx

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression: Korrelation

Korrelation und Regression im Zsm.hang
—> beide Stärke einer Beziehung zwischen 2 Variablen
—> Regression zusätzlich Wirkung messen, die UV auf AV hat + Prognosen für AV
Annahme: kausaler Zusammenhang zwischen AV (Y = Effekt) und UV (X = Ursache)

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression: Residuen

= Unterschiede zwischen beobachteten und geschätzten y-Werten (zufällige Einflüsse, e = Error)
—> Abweichung Beobachtungspunktes i von Regressionsgerade
—> systematische Einflüsse: z.B. Preis, Werbung, Aktionen von Wettbewerbern
—> zufällige Einflüsse: z.B. Verhalten Konsument, unbeobachtbare Messfehler

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression: Methode der kleinstem Quadrate (KQ-Methode)

—> Summe quadrierte Residuen = Funktion der unbekannten Regressionsparameter a/b
—> vertikale Abweichungen zwischen Beobachtung und Regressionsgerade minimieren
—> negative Abweichungen müssen in positive umgewandelt werden (quadrieren)

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression: LAD

= Kriterium der geringsten absoluten Abweichungen
—> robuster als KQ-Methode, weniger empfindlich gegenüber Ausreißer
—> einfacher, aber rechnerisch schwieriger
—> nicht immer eindeutige Lösung

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

Einfache Regression: separate einfache Regression

—> Auswirkungen beider Marketingvariablen (Preis, Verkaufsförderung) analysieren
—> Schätzung separate Regressionsfunktion für jede UV
—> Problem: nicht sehr präzise, besser: Regressionsfunktion mit allen UV’s zusammen

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

multiple Regression: Regressionkoeffizient

= auch partielle Regressionskoeffizienten genannt
—> Werte im allgemeinen von anderen UV in Regressionsfunktion abhängen
—> b nun keine Schätzung mehr, sondern mit einbezogen
alle Effekte positiv = partieller RK kleiner als bei einfachen RK

2.2 Vorgehensweise

2.2.2 Schätzung der Regressionsfunktion

multiple Regression: Standardisierte Regressionskoeffizienten (Beta-Koeffizienten)

—> je > Standardabweichung der UV, desto kleiner b
—> Möglichkeit Regressionskoeffizienten vergleichbar zu machen
—> Beta Koeffizient = standardisierter RK
—> Skalierung der Variablen X und Y eliminiert (unabhängig linearer Transformation Variable)
—> auch möglich, Variable zu standardisieren
—> für Prognose wird nicht standardisierter RK benötigt!
Regression mit 3 oder mehr Regressen —> RK ändert sich nicht bei Erweiterung, wenn UV unkorreliert sind

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

= Prüfung der Güte (Qualität), Maßnahmen zur Bewertung Anpassungsgüte (Godness-of-fit)

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

Standardfehler (SE) der Regression

wie stark Beobachtungen (vertikal) um geschätzte Regressionsfunktion streuen
Maß für statistische Genauigkeit (Präzision)
Anzahl der Freiheitsgrade (df) für Schätzung = Anzahl Beobachtungen abzüglich Anzahl Parameter in Regressionsfunktion

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

Bestimmtheitsmaß (R-Quadat

Quadrierte Korrelation zwischen Y und X
Anteil der Variation von Y, der durch UV erklärbar ist
je > R desto besser Anpassung
Zerlegung der Streuung von Y
—> Gesamtabweichung: aus erklärter Abweichung, durch Regressionsgerade + Residuum
—> SST = total zum of squares, misst Gesamtstreuung von Y
—> R2 = erklärte Streuung durch Gesamtstreuung
—> Minimierung residuelle Streuung SSR ist identisch mit Maximierung von R2

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

Stochastisches Modell der Regression und F-Test

Ergebnisse als zufällig angesehen (geschätztes Parameter und Prognose)
stochastisches Modell der Regression = aus systematischer + stochastischer Komponente
—> stochastische Komponente = Fehlertermn e (Einflüsse auf Y, nicht in systematischer Kom.)
—> systematische Komponente = als wahre Werte angenommen, unbekannt/ geschätzt
—> Fehlertermin nicht beobachtbar, aber manifestiert Residuen (Störgröße Zufallsvariable)

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

Stochastisches Modell der Regression und F-Test: ANOVA

ANOVA-Tabelle (wichtig für F-Test)
—> Quadratsumme SS, Freiheitsgrade df, mittlere Quadrate MS wichtig

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

Stochastisches Modell der Regression und F-Test: F-Test

empirischer Wert der F-Statistik muss berechnet werden
—> empirisches Signifikanzniveau (p-Wert) kann abgeleitet werden
—> je > F empirisch desto kleiner p
—> H0 abgelehnt, wenn p < a
—> Signifikanzniveau = Ho fälschlicherweise abgelehnt (Fehler 1. Art), a = 0,05

2.2 Vorgehensweise

2.2.3 Prüfung der Regressionsfunktion

Overfitting und korrigiertes Bestimmtheitsmaß

R2 berücksichtigte nicht Anzahl der Beobachtungen (Stichprobenumfang N)
—> berücksichtigt nicht Anzahl UV im Regressionsmodell + Komplexität des Modells
Erhöhung von R2 kann bei Aufnahme neuer Variable zufällig sein
—> mit zunehmender Anzahl Variablen kann Präzision Schätzung verringert werden
—> starke Anpassung an Daten, nicht gut = overfitting
korrigiertes Bestimmungsmaß = zusätzlich zu R2
—> verwendet gleiche Infos wie F-Statistik (berücksichtigen bei N + Anzahl Parameter)
—> wird < wenn Anzahl Regressionen zunimmt, kann auch negativ werden

2.2 Vorgehensweise

2.2.4 Prüfung der Regressionskoeffizienten

Präzision der Regressionskoeffizienten

Info über Präzision (Genauigkeit) + Wichtigkeit Variablen erhalten
SA von b (Standardfehler Koeffizienten) = Maß für Präzision
Präzision eines geschätzten Koeffizienten nimmt bei < R2 zu

2.2 Vorgehensweise

2.2.4 Prüfung der Regressionskoeffizienten

t-Test der Regressionskoeffizienten

t-Test einfacher als F-Test und gebräuchlicher
F-Test = Testen einer Gruppe von Variablen
t-Test = nur Testen einer einzelnen Variable —> ob unbekannter Fahrer Regressionskoeffizient ß von 0 abweicht —> es gilt: F = t2
Nullhypothese: t-Statistik folgt t-Verteilung mit N-J-1 Freiheitsgraden

2.2 Vorgehensweise

2.2.4 Prüfung der Regressionskoeffizienten

t-Test der Regressionskoeffizienten: Arten

Einseitiger t-Test = wenn Ergebnis je nach Richtung der Abweichung untersch. Konsequenzen
—> bessere Trennschärfe, erfordert ab mehr a-priori-Wissen
Zweiseitiger t-Test = in Regressionsanalyse angewandt
linksseitiger t-Test = wen Ablehnungsbereich auf linker Seite der Verteilung

2.2 Vorgehensweise

2.2.4 Prüfung der Regressionskoeffizienten

Konfidenzintervall der Regressionskoeffizienten

in welchem Bereich Wert des wahren RK ß mit Konfidenzwahrscheinlichkeit liegt
Regressionsanalyse nur Punktschätzung
Konfidenzintervall = Bereich um b, in dem unbekannter Wert ß mit Wahrscheinlichkeit liegt
—> große abhängig von Irrtumswahrscheinlichkeit a
—> oder Konfidenzintervall (1-a)
je niedriger a desto größer das Intervall

2.2 Vorgehensweise