Buffl

Marketingcontrolling & Big Data

TB
by Tabea B.

Nennen sie 2 Beispiele um Daten zu bereinigen und die Konsequenz die daraus entstehen können

Nennen sie 2 Beispiele um Daten zu bereinigen und die Konsequenz die daraus entstehen können


Fehlerhafte Werte (z.B. unrealistische Altersangaben): Fehlerhafte Werte, wie unrealistische Altersangaben, werden korrigiert oder entfernt, um die Datenqualität zu verbessern. Dies erhöht die Zuverlässigkeit der Analysen und baut Vertrauen in die Datenintegrität auf. Allerdings kann es zu Datenverlust kommen, wenn seltene, aber korrekte Daten entfernt werden.

Fehlende Daten Fehlende Daten werden oft durch Durchschnittswerte, Medianwerte oder Schätzungen ersetzt, um Lücken zu füllen und Analysen zu ermöglichen. Dies stellt sicher, dass die Daten vollständig sind und keine Analyse durch fehlende Werte verfälscht wird. Allerdings kann das Einfügen von Schätzungen zu einer Verzerrung der Ergebnisse führen.

Ausreißer Ausreißer, die stark von den übrigen Daten abweichen, werden identifiziert und entfernt oder korrigiert, um die Analyse zu stabilisieren. Dies hilft, die Genauigkeit von Modellen und Vorhersagen zu verbessern. Allerdings können wichtige, aber seltene Ereignisse übersehen werden, wenn echte Ausreißer fälschlicherweise entfernt werden.

Inkonsistenz im Dateiformat Inkonsistente Dateiformate werden vereinheitlicht, um die Kompatibilität und Verarbeitung der Daten zu erleichtern. Dies verbessert die Effizienz und Genauigkeit der Datenverarbeitung. Allerdings kann der Prozess zeitaufwändig sein und zu Fehlern führen, wenn die Konvertierung nicht sorgfältig durchgeführt wird.

Doubletten (menschliche Tippfehler wie Straße & Str.) Doubletten, die durch Tippfehler entstehen, werden erkannt und konsolidiert, um redundante Datensätze zu vermeiden. Dies führt zu einer verbesserten Datenqualität und einer genaueren Analyse. Allerdings kann die automatische Bereinigung zu Verlusten führen, wenn unterschiedliche Einträge fälschlicherweise als doppelt betrachtet werden.

Data Leakage Data Leakage, das unbeabsichtigte Einbeziehen von Informationen aus dem zukünftigen Datensatz in die Analyse, wird verhindert, um die Integrität der Modelle zu gewährleisten. Dies schützt vor unrealistisch hohen Modellvorhersagen. Allerdings erfordert die Vermeidung von Data Leakage sorgfältige Planung und kann komplex und zeitaufwendig sein.

Assoziationsmodell erklären

Assoziationsmodelle sind statistische Techniken, die verwendet werden, um verborgene Muster und Beziehungen zwischen Variablen in großen Datensätzen zu identifizieren. Sie sind besonders nützlich im Bereich des Marketings, um zu verstehen, welche Produkte oder Ereignisse häufig zusammen auftreten. Ein bekanntes Beispiel ist die Analyse von Einkaufswagen-Daten, um herauszufinden, welche Produkte oft gemeinsam gekauft werden. Diese Modelle verwenden Metriken wie die Support (Häufigkeit des gemeinsamen Auftretens), die Confidence (Wahrscheinlichkeit, dass ein Produkt gekauft wird, wenn ein anderes bereits im Warenkorb ist) und die Lift (Verhältnis der beobachteten Support zur erwarteten Unterstützung unter der Annahme, dass die Produkte unabhängig sind).


Beispiel: Gesucht sind zum Beispiel Einkaufsgewohnheiten, also Dinge, die häufig miteinander gekauft werden. Verbessert werden kann damit die Kundnzufriedenheit, weil Artikel besser sortiert werden können oder der Absatz erhöht werden, durch ungünstige Anordnung (Personen müssen länger im Laden suchen und finden auf dem Weg weitere Dinge, die sie kaufen möchten)

Wir wollen frequent Items finden, also solche, die häufig gemeinsam gekauft werden und wollen im besten Fall Assoziationsregeln ableiten.

Dafür wird folgendermaßen vorgegangen:

Das Kriterium I wird festgelegt, also der Support, die Häufigkeit. Er gibt an, wie viele Datensätze diese Regel (also die Kombi zweier Produkte beispielsweise) im Verhältnis zu den Gesamtdaten unterstützen —> wird ausgerechnet {Brot;Bier} (Support = 1/2) —> es wird ein minimaler Support als unterer Schwellenwert festgelegt, darauf werden nur noch die Items erfüllt, die diese Regel erfüllen.

Das Kriterium II ist die Konfidenz. Dieser Wert sagt aus, wie viele Datensätze die Regel (also die jeweils gesuchte Kombination) unterstützen im Verhältnis zu den Datensätzen, die nur die Prämisse dieser Regel (also das erste Item der Klammer) erfüllen. —> {Brot,Bier} (Konfidenz = 1) —> hier sollen Regeln mit einer möglichst hohen Konfidenz gefunden werden.

Ableitung von Regeln: „Wenn der Kunde Schuhe kauft, dann hat er in 10% der Fälle auch Socken gekauft“


Nennen sie 2 Möglichkeiten von Webanalytics, beschreiben Sie zwei Möglichkeiten und ordnen sie die Chancen/Grenzen ein

Seitenaufrufe analysieren



Vorteile

  • Zielorientierter Indikator, vermittelt eine generelle Größe für die aktuelle Nutzung einer Website,

  • Vorlaufindikator: Vorteil durch Aktualität/Spontanität,

  • Einfachheit: Gute Metrik zur Abschätzung der allgemeinen Nachfrage einer Webseite


Nachteile

  • Dynamisches Nachladen verhindert Reload, Seitenaufruf (Durch zwischenspeicherung bekommt U. nicht mit, dass ich die Seite aufrufe und werde damit nicht als Aufrufer gezählt —> je nachdem wie viel auf der Website neu geladen werden muss, bekommt man im Zweifel keine vernünftigen Aussagen über Aufrufe/Analytics, eher unterbewertet)

  • iFrames: eingebundene iFrames generieren beim laden der Seite weiteren Aufruf Widgets, eingebunden in Webpage, ruft im Hintergrund andere Unterseiten oder Pages auf um Sachen darzustellen —> es kann passieren, dass ein Nutzer als mehrere Aufrufe gezählt werden, da mehrere Seiten geladen werden —> Überbewertung —> kann von Anwender blockiert werden, dass das überhaupt angezeigt wird


Besuche/Sitzungen analysieren

Vorteile:

  • Indikator Für Reichweite, Anzahl und Frequenz der Besucher

  • Saisonale Unterschiede: Festzustellen bei längerer Beobachtung

  • Identifikation der Zielgruppe: Besucherströme verstehen


Nachteile:

• HTTP Zustandslosigkeit: Timeouts erschweren Sitzungsmessungen


Besucher/User analysieren:

Vorteile:

  • Indikator für die komplette Reichweite des Webauftritts

  • Hotelgäste: Wert kann als Gruppe von Personen interpretiert werden

  • Anteilskennzahl: Trennung von Gruppen wie zB neue Besucher


Nachteile:

  • Addition von Zeiträumen ungeeignet: Besucher nur über gesamten Zeitraum trackbar (Über selbst definierten Zeitraum wird der Nutzer getrackt —> kann verfälscht werden, zB. wenn User nur an bestimmter Zeit des Jahres Interesse an Produkt hat. Daher gesamter Zeitraum wichtig zu betrachten)

  • Identifikation: Probleme mit den IP-Adressen bei der ID der Besucher (Gleicher rechner, anderes WLAN —> andere IP Adresse —> Nutzer kann so nicht mehr eindeutig identifiziert werden/ schwieriger)





Was ist Marktsegmentierung & Beispiel warum sie in einem Unternehmen nützlich ist

Marktsegmentierung betrachtet alle potentiellen Kunden innerhalb eines Marktes, während die Kundensegmentierung auf die Kunden fokussiert. Dies ist oftmals einfacher, da es häufig schwierig ist, an die entsprechenden Marktdaten zu gelangen.


Ein Marktsegment stellt eine Gruppe von Personen dar, die dieselben Interessen, Merkmale oder Eigenschaften haben. Die Marktsegmentierung ist ein verbraucherorientierter Prozess um die käuferspezifischen Merkmale datenbasiert zu erfassen und analytisch in gleiche/ähnliche Ausprägungen zu gruppieren.


Marktsegmentierung bezeichnet den Prozess, bei dem ein Markt in verschiedene Kundengruppen (Segmente) unterteilt wird, die ähnliche Bedürfnisse und Verhaltensweisen aufweisen. Dies ermöglicht es Unternehmen, ihre Marketingstrategien gezielter auf die spezifischen Bedürfnisse und Präferenzen dieser Segmente auszurichten.


Beispiel für die Nützlichkeit: Ein Unternehmen im Automobilsektor könnte die Marktsegmentierung nutzen, um seine verschiedenen Fahrzeugmodelle an unterschiedliche Kundengruppen anzupassen. Zum Beispiel könnten Luxusautos für wohlhabendere Kunden entwickelt werden, während kompaktere und preisgünstigere Modelle für junge, preisbewusste Käufer konzipiert sind. Durch die Segmentierung kann das Unternehmen effektiver auf die Bedürfnisse und Erwartungen seiner Kunden eingehen, die Kundenzufriedenheit steigern und seine Marktposition stärken.

Was verbirgt sich hinter Silhouetten-Score + beschreiben

Der Shilouette Score ist ein Verhältnismaß und wird eingesetzt, um die Kompaktheit und Trennschärfe von Clustern zu bewerten. Er kann auch eingesetzt werden, um in Kombination mit dem Ellebogen Score die optimale Anzahl von Clustern zu bestimmen, oder, wenn der Ellebogen  Score nicht überzeugt.


Alle einzelnen Clusterpunkte werden in einem Plot dargestellt, wobei auf der y-Achse die einzelnen Cluster getrennt gelabelt werden und auf der x-Achse die Breite s(x) für jeden Punkt aus  dem jeweiligen Cluster dargestellt wird. s(x) ergibt sich aus folgender Formel:




a(x) stellt die durchschnitlliche Distanz (Kohäsion) von x zu den Datenpunkten des eigenen Clusters dar

b(x) stellt die durchschnitlliche Distanz (Separation) von x zu den Datenpunkten des nächstgelegenen Clusters (zu diesem Datenpunkt) dar


Für jeden Datenpunkt wird nun der Shilouette Koeffizient s(x) berechnet, der ein Maß dafür ist, wie ähnlich dieser Punkt zu den anderen Punkten in seinem Cluster ist im Vergleich zu den Punkten im benachbarten Cluster.


Der Silhouette Score eines gesamten Datensatzes ist der Durchschnitt der Silhouette Koeffizienten aller Datenpunkte im Datensatz. Sein Wert reicht von -1 bis 1. Ein Wert nahe 1 signalisiert eine gute Clusterung. (Da die durchschnittliche Distanz der Punkte innerhalb eines Cluster signifikant geringer ist als die zu den benachbarten Clustern.) Ideal wird ein Wert von über 0,5 erreicht, in der Praxis gelten für gewöhnlich jedoch Werte zwischen 0,25 & 0,5 als gut.


Wie im Ellebogen Score: Berechnen des durchschnittlichen Shilouette Scores für verschiedene Clusteranzahlen und Darstellung in einem Plot: Der höchste Punkt zeigt die optimale Clusteranzahl an.



Messungenauigkeiten im Rahmen von Webanalytics beschreiben

Messungenauigkeiten der Customer Journey über mehrere Kanäle & Devices


Im Idealfall kann die Journey eines Nutzers über mehrere Geräte hinweg nachvollzogen werden.

Das Problem hier ist, dass der Nutzer als 3 verschiedene Personen dargestellt wird, da nicht erkannt wird, dass die gleiche Person nur über verschiedene Devices die Kanäle besucht.


Lösungen, um dieses Problem zu adressieren:

  • User ID im Account, die Personen dazu bringen, sich anzumelden

  • Digitales Ökosystem (Cookies, Daten die Google auch hat)

  • Device Bridges - Geräte vom gleichen Hersteller, die sich gegenseitig erkennen

  • Visitor Stitching: Nach Wahrscheinlichkeiten wird errechnet, wer ich bin (Nutzung von IP Adressen, Örtlichkeiten, Einkäufen etc)


Immer gleiches Analyticsystem verwenden! Mit Verhältnissen, statt absoluten Angaben arbeiten, eigene Website vorrangig als Benchmark nutzen, Auswertungssysteme für genaue Zahlen zu Rate ziehen.


HHTP Zustandslosigkeit bei Seitenbesuchern


—> Analytics-Systeme messen Besuche auf Basis festgelegter Timeout-Spannen (typisch 30min), nach der Zeit wird der User automatisch“abgemeldet“, wenn keine Aktivität mehr stattfindet

Die Herausforderung dabei ist die Zustandslosigkeit des Hypertext-Transfer-Protokolls, wenn User zB nach 32 Min wieder klickt, wird er als 2. Besucher gewertet (häufig bei vielen/lange Inhalten)

Das zweite Problem ist, wenn Besucher innerhalb dieser 30min die Seite verlassen und zurückkommen. Dann werden sie nur als ein Beuscher gewertet, obwohl es zwei sein müssten. (Passiert häufig bei schnell konsumierbaren Inhalten)


Dynamisches Nachladen verhindert einen Reload/Seitenaufruf —> durch Zwischenspeicherung der Seite im Cache bekommt U. Nicht mit, dass ich die Seite neu aufrufe weil keine neue Anfrage an den Server geschickt wird und werde damit nicht als Besucher gezählt —> je nachdem wie viel auf der Seite neu geladen werden muss, bekommt man keine vernünftigen Aussagen über Aufrufe —> Analytics eher unterbewertet


—> genauso auch bei Proxy Server, der Häufig bei Firmen genutzt wird und Inhalte zwischenspeichert


iFrames mit weiteren eingebundenen Seiten können als mehrere Seitenaufrufe gewertet werden und die Statistik verfälschen


Nennen sie heuristische Attributions-Modelle, ordnen sie zwei davon ein und nennen Sie Möglichkeiten/Grenzen

Ziel: Herausfinden, welche Interaktionen zwischen Unternehmen und Kunden (Kundenkontaktpunkte) den größten Einfluss auf die Entscheidung des Kunden hatten, dort zu kaufen.


Attribution ist der Prozess aus Sicht des Werebtreibenden, die Kontaktpunkte und die Abfolge zu identifizeiren, sowie jedem Kontaktpunkt einen Wert zuzuweisen, der seinem Beitrag zur Zielerreichung (Conversin) entsprechen soll.


Attributionsmodelle: systematische Zuordnungsvorschriften, die den Kontaktpunkte der Customer Journey die entsprechenden Werte zuschreiben, um den Einfluss der einzelnen Instrumente zu bestimmen.


Nutzen von Marketing-Attribution:

  • Optimierung des Marketing ROI

  • Verbesserung des Marketing Budgets

  • Verbesserung des Content Marketing (wegen automatischer Analyse der C.J.)

  • Besseres Verständnis der Customer Journey


Heurostische Modelle: einfache, regelbasierte Ansätze zum Verständnis des Einflusses der Instrumente entlang der Customer Journey


Analytische Modelle: datenbasierte Ansätze, die mittels multivariater Verfahren analysiert werden


Heuristische Modelle

Wir unterstellen, dass einzelne Kontaktpunkte mehr Einfluss auf den Ausgang der Customer Journey haben


First Touch

Kanal, der als erster Kontaktpunkt gilt, wird am wichtigsten bewertet und erhält 100% des Budgets —> Eingesetzt von U., die auf Awareness setzen, weil sie noch nicht sehr bekannt sind oder eine hohe Conversionrate haben, weil zB Produkt sehr überzeugend ist

Nachteil: Bei Produkten mit langem Laufzyklus (Kunde benötigt lange, um sich für das Produkt zu entscheiden) ist der Kanal schnell aus der C.J. verschwunden


Last Touch

Letzter Kanal, meist Website, wird mit 100% bespielt

Unternehmen, die sehr bekannt sind und über Suchmaschinen viel gefunden werden —> wollen Kunden nur dazu bringen, viel zu kaufen

U-förmig/W-förmig (Mischmodell)

Verteilung des Budgets auf 1. & letzten Kontakt oder in der Mitte noch einmal, um die gesamte UJ zu begleiten


Zeitlich verteilt (Time Decay)

An- oder absteigende priorierierung der Kanäle nach der CJ


Linear

„Wer keine Ahnung hat, was er machen soll“, kann aber auch sinnvoll sein



Analytische Attributionsmodelle



Vorteile

  • objektive Betrachtungsweise

  • Automatisiert, statt manuell

  • Schnell umsetzbar & anpassbar

  • Skalierbar auf große Datensätze



Herausforderungen

  • Datenbank & Analyseplattform müssen modernisiert sein

  • Fehlerhafte Know-How kann zu Fehlern führen

Fehlende Datenquellen

Mangelndes Change-Management

Mit welcher analytischen Methodik das Clustering durchführen? Wie eine Clusteranalyse funktioniert

Eine Clusteranalyse ist eine statistische Methode zur Gruppierung einer Menge von Objekten (Datenpunkten) in Cluster, sodass Objekte innerhalb eines Clusters ähnlicher sind zueinander als zu Objekten in anderen Clustern.


Daten sammeln & aufbereiten

2. Wahl eines Distanzmaßes

3. Wahl eines Clustering Algorithmus

4. Definition der Distanz zwischen den Clustern

5. Determinierung der Anzahl der Cluster

6. Validierung der Analyse


Eine Clusteranalyse ist eine Methode zur Gruppierung von Datenpunkten in Cluster, sodass die Punkte innerhalb eines Clusters ähnlicher sind als zu Punkten in anderen Clustern. Der Prozess beginnt mit der Datensammlung und -vorbereitung, wo Daten bereinigt und normalisiert werden. Anschließend wird eine Distanz- oder Ähnlichkeitsmaßnahme wie die euklidische Distanz ausgewählt. Dann wird ein Clustering-Algorithmus wie K-Means, hierarchisches Clustering oder DBSCAN angewendet, um die Cluster zu bilden. Der K-Means-Algorithmus beispielsweise teilt die Daten in kCluster, indem er wiederholt die Mittelpunkte der Cluster berechnet und die Datenpunkte den nächstgelegenen Mittelpunkten zuordnet, bis Konvergenz erreicht ist. Die Wahl der passenden Methode hängt von der Datenstruktur und dem Ziel ab: K-Means eignet sich für runde, gleich große Cluster, hierarchisches Clustering für eine hierarchische Struktur und DBSCAN für Cluster unterschiedlicher Form und Dichte. Die Qualität der Cluster wird abschließend mit Methoden wie dem Silhouette-Koeffizienten bewertet.


Author

Tabea B.

Information

Last changed