Kodierung von Daten
Überprüfen der Daten
➢ Korrekte Dateneingabe
➢ Vollständigkeit
➢ Aufmerksamkeitscheck
➢ Bearbeitungszeit
➢ Plausibilität
➢ Konsistenz
Missing Values- mögliche Ursachen und Behandlung
Mögliche Ursachen:
Fehlerhaftes Untersuchungsdesign
Antwortverweigerung
Mangelndes Wissen
Übersehen von Fragen, Motivationsprobleme
Unvollständigkeit von Sekundärdaten
Fehler bei der Kodierung
Möglichkeiten der Behandlung:
Daten nacherheben
Eliminierung
von Variablem
von Beobachtungen
Imputation (Ersetzen durch Schätzwerte
Lageparameter
Regression auf andere Variablen
Expertenschätzungen
verschiedene Schätzwerte zur Imputation
Multivariate Verfahren zur Datenverdichtung
Faktorenanalyse
Zusammenfassung von Variablen
Beispiel: Messung des Konstrukts ‚Innovativität‘ über 5 Items
Clusteranalyse
Zusammenfassung von Objekten
Beispiel: Segmentierung von Konsumenten anhand von Persönlichkeitsmerkmalen oder Produktpräferenzen
Multidimensionale Skalierung (MDS)
Grafische Abbildung der Ähnlichkeit von Objekten
Beispiel: Ähnlichkeit von Automarken
Analyse von Zusammenhängen
/
Verfahren zur Analyse von Zusammenhängen –Überblick
Beispiel von Zugaben
Beispiel Stimulus
Analyse bivariater Zusammenhänge
Korrelationskoeffizienten
Pearson‘s Korrelationskoeffizient und Interpretation
Kontingenzanalyse – Problemstellung
Die Kontingenzanalyse untersucht den Zusammenhang zwischen mehreren nominalskalierten Variablen.
Darstellung des Zusammenhangs in Kreuztabellen
Prüfung der Signifikanz des Zusammenhangs durch Kontingenzanalyse -> Chi2-Test
Stärke des Zusammenhangs:
Phi-Koeffizient
Kontingenzkoeffizient
!Auch mit mehr als 2 Variablen möglich
Chi2-Test (erster Signifikanztest)
t-Test auf Mittelwertunterschiede
Beispiel Zugabe: Fit Zugabe (manipuliert) / wahrgenommener Fit
Nichtparametrische Tests (keine Annahmen über Verteilung des Samples)
Grundidee:
Viele statistische Tests verlangen die Annahme bestimmter Verteilungen der
Variablen (z. B. Normalverteilung bei t-Test).
Nichtparametrische Tests sind demgegenüber verteilungsfrei (z. B. Chi2-Test).
→ Wichtig bei kleinen Stichproben, konservativ
Nichtparametrische Tests auf Mittelwertunterschiede (metrisch skalierte abhängige Variable; nominalskalierte unabhängige Variable):
Beispiel Zugaben: Mann-Whitney-Test
Regressionsanalyse
Regressionsanalyse – Problemstellung
➢ Die Regressionsanalyse untersucht den Zusammenhang zwischen einer metrisch
skalierten abhängigen und einer oder mehreren unabhängigen Variablen.
➢ Anwendungsgebiete: Ursachenanalyse oder Prognose
➢ Beispiele:
Kann das Kaufverhalten durch Eigenschaften von Personen erklärt werden?
(z. B.: Kann die Markentreue durch Eigenschaften von Konsumenten erklärt werden?)
Wie beeinflussen Preis, Werbung und Vertrieb den Absatz?
Wie hängt die Gesundheit von Ernährung, Sport und sozialen Faktoren ab?
Abhängige und unabhängige Variablen
Schätzung der Regressionsfunktion mit der Methode der Kleinsten Quadrate
Bestimmtheitsmaß
Regressionsanalyse – Vorgehensweise
➢ Modellformulierung
➢ Schätzung des Modells
➢ Prüfung der Annahmen der Regressionsanalyse
➢ Prüfung auf Ausreißer
➢ Prüfung der Modellgüte
➢ Prüfung & Interpretation der Regressionskoeffizienten
Beispiel Zugaben: Abhängige Variable / Unabhängige Variablen
Dummyvariablen-Kodierung
Nominalskalierte unabhängige Variablen müssen in Binärvariablen (Dummies) transformiert werden.
Anzahl Dummies = Anzahl Variablenausprägungen – 1
Kodierungsmöglichkeiten: „Indicator Coding“ versus „Effects Coding“
Beispiel: Berufstätigkeit (1= vollzeit; 2 = teilzeit; 3 = nein):
Interpretation der Regressionskoeffizienten:
Indicator Coding: Unterschied zur Referenzkategorie
Effects Coding: Unterschied zum Mittelwert der Stichprobe
Annahmen der Regressionsanalyse
Linearität
Diagnose von Nicht-Linearität durch Plot jeder unabhängigen Variablen mit der ab- hängigen Variablen
Ggf. Transformation von Variablen
Normalverteilung der Residuen
Bei großen Stichproben (K> 30) aufgrund des Zentralen Grenzwertsatzes unkritisch
Keine Multikollinearität (d. h. unabhängige Variablen sind unkorreliert)
Keine Autokorrelation (d. h. Residuen sind unkorreliert)
Problematisch vor allem bei Zeitreihen
Diagnose durch Durbin/Watson-Test (Soll-Wert: 2)
Keine Heteroskedastizität = Homoskedastizität (d. h. konstante Streuung der Residuen)
Diagnose durch Plot der standardisierten Residuen gegen die standardisierten Schätzwerte der abhängigen Variablen
Test auf Multikollinearität
Bivariate Korrelationskoeffizienten
Hohe Korrelationen sind ein Zeichen für Multikollinearität.
Toleranzen:
Toleranz der Variablen: 1-R2 dieser Regression R soll klein sein, also viel erklärt
Regression einer unabhängigen Variablen auf alle anderen unabhängigen Variablen
(Variance Inflation Factor (VIF = 1 / Toleranz)Kleine Toleranzwerte sind ein Zeichen für Multikollinearität (Daumenregel: < 0,5).
Verändern sich die Regressionskoeffizienten und/oder ihre Standardfehler, wenn man unabhängige Variablen aus dem Modell herausnimmt?
→aussagekräftigster Test; durchführen, wenn Alarmsignale (Korrelation, VIF)
Identifikation von Ausreißern
Ausreißer („Influential Observations“) können die Regressionsergebnisse stark beeinflussen.
Identifikation von Ausreißern über Cook‘s Distance:
Untersucht, wie stark die Regressionsgerade sich verändert, wenn man eine Beobachtung weglässt
Daumenregel für kritischen Wert: Cook‘s Distance > 1
Beispiel Zugaben: Maximaler Wert für Cook‘s Distance = 0,067 →keine Ausreißer identifiziert
Güte des Gesamtmodells
Beispiel Zugaben: Modellgüte
Interpretation der Regressionskoeffizienten
Beispiel Zugaben: Regressionskoeffizienten
Logistische Regression
Logistische Regression – Problemstellung
Die (binäre) logistische Regression untersucht den Zusammenhang zwischen einer binär skalierten abhängigen und einer oder mehreren unabhängigen Variablen.
Beispiele:
Wie unterscheiden sich Unternehmen mit einem eigenen Online-Vertrieb von Unternehmen, die diesen Vertriebskanal nicht nutzen?
Wie unterscheiden sich Käufer eines Produktes von Nicht-Käufern?
Bei binärskalierten abhängigen Variablen ist die Regressionsanalyse nicht anwendbar, da die Annahme normalverteilter Residuen verletzt ist.
-> Inferenzstatistische Aussagen wären unmöglich
Grundidee der Logistischen Regression
Verlauf der logistischen Funktion
Logistische Regression – Vorgehensweise
Formulierung des Modells
Schätzung des Modells
Überprüfung der Annahmen der logistischen Regression
Keine Multikollinearität
Keine Autokorrelation
IdentifikationvonAusreißern
Cook‘s Distance
Überprüfung der Modellgüte
Interpretation der Koeffizienten
Logistische Regression: Interpretation der Koeffizienten
Beispiel Zugaben: Variablen
Abhängige Variable: „Stellen Sie sich vor, Sie wollen Zahnpasta kaufen und haben die Wahl zwischen den folgenden 2er-Packungen. Welche würden Sie eher kaufen?“
Unabhängige Variablen (wie bei der linearen Regression):
Fit Zugabe - Produkt
Zugabe hedonisch / utilitaristisch
Qualität der Zugabe
Alter
Berufstätigkeit
Beispiel Zugaben: Klassifikationsgüte
Beispiel Zugaben: Koeffizienten
Varianzanalyse
Varianzanalyse: Problemstellung
Die Varianzanalyse untersucht den Zusammenhang zwischen einer metrisch skalierten abhängigen und einer oder mehreren nominal skalierten unabhängigen Variablen.
Häufig angewandt zur Auswertung von Experimenten
Einfaktoriell: Wie erfolgreich sind unterschiedliche Diäten?
Mehrfaktoriell: Wie wirken Eigenschaften von Produktzugaben auf die Attraktivität der Zugaben?
Einfaktorielle Varianzanalyse
Bestimmung der Varianzen
Signifikanz des Einflusses des Faktors
Mehrfaktorielle Varianzanalyse
➢ Vorgehensweise wie bei der einfaktoriellen Varianzanalyse
➢ Zusätzliches Phänomen: Interaktionen zwischen Faktoren
➢ Beispiel:
Sonderangebote wirken stärker, wenn sie von Handzetteln begleitet werden und
umgekehrt
Anders ausgedrückt: Die Wirkung der Kombination von Sonderangebot + Handzettel ist größer als die Summe der Einzelwirkungen
➢ Interaktionen sind einfach in Graphiken zu erkennen.
Graphische Analyse von Interaktionen
Aufteilung der Abweichungen
Beispiel Zugaben
Zuletzt geändertvor einem Jahr