Aufbereitung und Verdichtung von Daten

Buffl

Marktforschung

by Michaela G.

Kodierung von Daten

Überprüfen der Daten

➢ Korrekte Dateneingabe

➢ Vollständigkeit

➢ Aufmerksamkeitscheck

➢ Bearbeitungszeit

➢ Plausibilität

➢ Konsistenz

Missing Values- mögliche Ursachen und Behandlung

Mögliche Ursachen:

Fehlerhaftes Untersuchungsdesign
Antwortverweigerung
Mangelndes Wissen
Übersehen von Fragen, Motivationsprobleme
Unvollständigkeit von Sekundärdaten
Fehler bei der Kodierung

Möglichkeiten der Behandlung:

Daten nacherheben
Eliminierung
- von Variablem
- von Beobachtungen
Imputation (Ersetzen durch Schätzwerte
- Lageparameter
- Regression auf andere Variablen
- Expertenschätzungen

verschiedene Schätzwerte zur Imputation

Multivariate Verfahren zur Datenverdichtung

Faktorenanalyse	Zusammenfassung von Variablen Beispiel: Messung des Konstrukts ‚Innovativität‘ über 5 Items
Clusteranalyse	Zusammenfassung von Objekten Beispiel: Segmentierung von Konsumenten anhand von Persönlichkeitsmerkmalen oder Produktpräferenzen
Multidimensionale Skalierung (MDS)	Grafische Abbildung der Ähnlichkeit von Objekten Beispiel: Ähnlichkeit von Automarken

Analyse von Zusammenhängen

Verfahren zur Analyse von Zusammenhängen –Überblick

Beispiel von Zugaben

Beispiel Stimulus

Analyse bivariater Zusammenhänge

Korrelationskoeffizienten

Pearson‘s Korrelationskoeffizient und Interpretation

Kontingenzanalyse – Problemstellung

Die Kontingenzanalyse untersucht den Zusammenhang zwischen mehreren nominalskalierten Variablen.

Darstellung des Zusammenhangs in Kreuztabellen
Prüfung der Signifikanz des Zusammenhangs durch Kontingenzanalyse -> Chi2-Test
Stärke des Zusammenhangs:
- Phi-Koeffizient
- Kontingenzkoeffizient
- !Auch mit mehr als 2 Variablen möglich

Chi2-Test (erster Signifikanztest)

t-Test auf Mittelwertunterschiede

Beispiel Zugabe: Fit Zugabe (manipuliert) / wahrgenommener Fit

Nichtparametrische Tests (keine Annahmen über Verteilung des Samples)

Grundidee:

Viele statistische Tests verlangen die Annahme bestimmter Verteilungen der
Variablen (z. B. Normalverteilung bei t-Test).
Nichtparametrische Tests sind demgegenüber verteilungsfrei (z. B. Chi2-Test).
→ Wichtig bei kleinen Stichproben, konservativ

Nichtparametrische Tests auf Mittelwertunterschiede (metrisch skalierte abhängige Variable; nominalskalierte unabhängige Variable):

Beispiel Zugaben: Mann-Whitney-Test

Regressionsanalyse

Regressionsanalyse – Problemstellung

➢ Die Regressionsanalyse untersucht den Zusammenhang zwischen einer metrisch

skalierten abhängigen und einer oder mehreren unabhängigen Variablen.

➢ Anwendungsgebiete: Ursachenanalyse oder Prognose

➢ Beispiele:

Kann das Kaufverhalten durch Eigenschaften von Personen erklärt werden?
(z. B.: Kann die Markentreue durch Eigenschaften von Konsumenten erklärt werden?)
Wie beeinflussen Preis, Werbung und Vertrieb den Absatz?
Wie hängt die Gesundheit von Ernährung, Sport und sozialen Faktoren ab?

Abhängige und unabhängige Variablen

Schätzung der Regressionsfunktion mit der Methode der Kleinsten Quadrate

Bestimmtheitsmaß

Regressionsanalyse – Vorgehensweise

➢ Modellformulierung

➢ Schätzung des Modells

➢ Prüfung der Annahmen der Regressionsanalyse

➢ Prüfung auf Ausreißer

➢ Prüfung der Modellgüte

➢ Prüfung & Interpretation der Regressionskoeffizienten

Beispiel Zugaben: Abhängige Variable / Unabhängige Variablen

Dummyvariablen-Kodierung

Nominalskalierte unabhängige Variablen müssen in Binärvariablen (Dummies) transformiert werden.

Anzahl Dummies = Anzahl Variablenausprägungen – 1
Kodierungsmöglichkeiten: „Indicator Coding“ versus „Effects Coding“
Beispiel: Berufstätigkeit (1= vollzeit; 2 = teilzeit; 3 = nein):

Interpretation der Regressionskoeffizienten:

Indicator Coding: Unterschied zur Referenzkategorie
Effects Coding: Unterschied zum Mittelwert der Stichprobe

Annahmen der Regressionsanalyse

Linearität
- Diagnose von Nicht-Linearität durch Plot jeder unabhängigen Variablen mit der ab- hängigen Variablen
- Ggf. Transformation von Variablen
Normalverteilung der Residuen
- Bei großen Stichproben (K> 30) aufgrund des Zentralen Grenzwertsatzes unkritisch

Keine Multikollinearität (d. h. unabhängige Variablen sind unkorreliert)
Keine Autokorrelation (d. h. Residuen sind unkorreliert)
- Problematisch vor allem bei Zeitreihen
- Diagnose durch Durbin/Watson-Test (Soll-Wert: 2)
Keine Heteroskedastizität = Homoskedastizität (d. h. konstante Streuung der Residuen)
- Diagnose durch Plot der standardisierten Residuen gegen die standardisierten Schätzwerte der abhängigen Variablen

Test auf Multikollinearität

Bivariate Korrelationskoeffizienten
- Hohe Korrelationen sind ein Zeichen für Multikollinearität.
Toleranzen:
- Toleranz der Variablen: 1-R2 dieser Regression R soll klein sein, also viel erklärt
- Regression einer unabhängigen Variablen auf alle anderen unabhängigen Variablen
- (Variance Inflation Factor (VIF = 1 / Toleranz)Kleine Toleranzwerte sind ein Zeichen für Multikollinearität (Daumenregel: < 0,5).
Verändern sich die Regressionskoeffizienten und/oder ihre Standardfehler, wenn man unabhängige Variablen aus dem Modell herausnimmt?
→aussagekräftigster Test; durchführen, wenn Alarmsignale (Korrelation, VIF)

Identifikation von Ausreißern

Ausreißer („Influential Observations“) können die Regressionsergebnisse stark beeinflussen.
Identifikation von Ausreißern über Cook‘s Distance:
- Untersucht, wie stark die Regressionsgerade sich verändert, wenn man eine Beobachtung weglässt
- Daumenregel für kritischen Wert: Cook‘s Distance > 1
Beispiel Zugaben: Maximaler Wert für Cook‘s Distance = 0,067 →keine Ausreißer identifiziert

Güte des Gesamtmodells

Beispiel Zugaben: Modellgüte

Interpretation der Regressionskoeffizienten

Beispiel Zugaben: Regressionskoeffizienten

Logistische Regression

Logistische Regression – Problemstellung

Die (binäre) logistische Regression untersucht den Zusammenhang zwischen einer binär skalierten abhängigen und einer oder mehreren unabhängigen Variablen.
Beispiele:
- Wie unterscheiden sich Unternehmen mit einem eigenen Online-Vertrieb von Unternehmen, die diesen Vertriebskanal nicht nutzen?
- Wie unterscheiden sich Käufer eines Produktes von Nicht-Käufern?
Bei binärskalierten abhängigen Variablen ist die Regressionsanalyse nicht anwendbar, da die Annahme normalverteilter Residuen verletzt ist.
-> Inferenzstatistische Aussagen wären unmöglich

Grundidee der Logistischen Regression

Verlauf der logistischen Funktion

Logistische Regression – Vorgehensweise

Formulierung des Modells
Schätzung des Modells
Überprüfung der Annahmen der logistischen Regression
- Keine Multikollinearität
- Keine Autokorrelation
IdentifikationvonAusreißern
- Cook‘s Distance
Überprüfung der Modellgüte
Interpretation der Koeffizienten

Schätzung des Modells

Überprüfung der Modellgüte

Logistische Regression: Interpretation der Koeffizienten

Beispiel Zugaben: Variablen

Abhängige Variable: „Stellen Sie sich vor, Sie wollen Zahnpasta kaufen und haben die Wahl zwischen den folgenden 2er-Packungen. Welche würden Sie eher kaufen?“
Unabhängige Variablen (wie bei der linearen Regression):
- Fit Zugabe - Produkt
- Zugabe hedonisch / utilitaristisch
- Qualität der Zugabe
- Alter
- Berufstätigkeit

Beispiel Zugaben: Klassifikationsgüte

Beispiel Zugaben: Koeffizienten

Varianzanalyse

Varianzanalyse: Problemstellung

Die Varianzanalyse untersucht den Zusammenhang zwischen einer metrisch skalierten abhängigen und einer oder mehreren nominal skalierten unabhängigen Variablen.
Häufig angewandt zur Auswertung von Experimenten

Beispiele:

Einfaktoriell: Wie erfolgreich sind unterschiedliche Diäten?
Mehrfaktoriell: Wie wirken Eigenschaften von Produktzugaben auf die Attraktivität der Zugaben?

Einfaktorielle Varianzanalyse

Bestimmung der Varianzen

Signifikanz des Einflusses des Faktors

Mehrfaktorielle Varianzanalyse

➢ Vorgehensweise wie bei der einfaktoriellen Varianzanalyse

➢ Zusätzliches Phänomen: Interaktionen zwischen Faktoren

➢ Beispiel:

Sonderangebote wirken stärker, wenn sie von Handzetteln begleitet werden und
umgekehrt
Anders ausgedrückt: Die Wirkung der Kombination von Sonderangebot + Handzettel ist größer als die Summe der Einzelwirkungen
➢ Interaktionen sind einfach in Graphiken zu erkennen.

Graphische Analyse von Interaktionen

Aufteilung der Abweichungen

Beispiel Zugaben

Join Course

Preview

Author

Michaela G.

Information

Last changed
3 years ago

Report course