Skizzieren sie grob die 6 Schritte des CRISP-DM Modells
B1: Einflussfaktoren des Geschäftserfolgs verstehen
Analyse des Geschäftsmodells
Klarheit über die Ziele
Kundenproblem & Erfolgstreiber des Geschäftsmodells verstehen
Business-Plan erstellen: Problemstellung & Zielsetzung, Ressourcen & Nutzung, Projektplan, Risiken & Abbruchkriterien, Befindlichkeiten
B2 Bestandsaufnahme der verfügbaren Daten
Rohdatenbestand in verarbeitbare Form bringen
Datenqualität auswerten
Korrelationsanalysen durchführen
Daten = gespeicherte Infos (numerisch/kategorial)
Datensatz = Aggregation von einzelnen Daten zu den Variablen
Datenbank = Samlmlung verschiedener Datensätze/-tabellen
Datenbankenmanagementsystem (DBMS) = regelt Art, wie Daten gespeichert & abgerufen werden können
B3 Datenaufbereitung
1. Datenbereinigung
fehlerhafte Werte (unrealistische Altersangaben etc)
Fehlende Daten
Ausreißer
Inkonsistenz im Dateiformat (kompatible Daten/Formate?)
Doubletten (Menschliche Tippfehler wie Straße & Str.)
Data Leakage
—> Optionen beim Umgang mit Qualitätsmängeln: Auschließen/Löschen, Überschreiben, Ignorieren
2. Datentransformation
Berechnung neuer Variablen
Klassifizieren von Variablen
3. Datenreduktion
Redundante Merkmale entfernen
Verinfachung
B4 Datenanalyse & Modellierung
Siehe Vorlesung 1
B5 Realitätsabgleich & Qualitätssicherung
???
B6 Einsatz des entwickelten Modells
Nennen sie 2 Beispiele um Daten zu bereinigen und die Konsequenz die daraus entstehen können
Fehlerhafte Werte (z.B. unrealistische Altersangaben): Fehlerhafte Werte, wie unrealistische Altersangaben, werden korrigiert oder entfernt, um die Datenqualität zu verbessern. Dies erhöht die Zuverlässigkeit der Analysen und baut Vertrauen in die Datenintegrität auf. Allerdings kann es zu Datenverlust kommen, wenn seltene, aber korrekte Daten entfernt werden.
Fehlende Daten Fehlende Daten werden oft durch Durchschnittswerte, Medianwerte oder Schätzungen ersetzt, um Lücken zu füllen und Analysen zu ermöglichen. Dies stellt sicher, dass die Daten vollständig sind und keine Analyse durch fehlende Werte verfälscht wird. Allerdings kann das Einfügen von Schätzungen zu einer Verzerrung der Ergebnisse führen.
Ausreißer Ausreißer, die stark von den übrigen Daten abweichen, werden identifiziert und entfernt oder korrigiert, um die Analyse zu stabilisieren. Dies hilft, die Genauigkeit von Modellen und Vorhersagen zu verbessern. Allerdings können wichtige, aber seltene Ereignisse übersehen werden, wenn echte Ausreißer fälschlicherweise entfernt werden.
Inkonsistenz im Dateiformat Inkonsistente Dateiformate werden vereinheitlicht, um die Kompatibilität und Verarbeitung der Daten zu erleichtern. Dies verbessert die Effizienz und Genauigkeit der Datenverarbeitung. Allerdings kann der Prozess zeitaufwändig sein und zu Fehlern führen, wenn die Konvertierung nicht sorgfältig durchgeführt wird.
Doubletten (menschliche Tippfehler wie Straße & Str.) Doubletten, die durch Tippfehler entstehen, werden erkannt und konsolidiert, um redundante Datensätze zu vermeiden. Dies führt zu einer verbesserten Datenqualität und einer genaueren Analyse. Allerdings kann die automatische Bereinigung zu Verlusten führen, wenn unterschiedliche Einträge fälschlicherweise als doppelt betrachtet werden.
Data Leakage Data Leakage, das unbeabsichtigte Einbeziehen von Informationen aus dem zukünftigen Datensatz in die Analyse, wird verhindert, um die Integrität der Modelle zu gewährleisten. Dies schützt vor unrealistisch hohen Modellvorhersagen. Allerdings erfordert die Vermeidung von Data Leakage sorgfältige Planung und kann komplex und zeitaufwendig sein.
Was verbirgt sich hinter einem neuronalen Netz, wie ist der schematische Ablauf?
Ein neuronales Netz ist ein Modell, das nach dem Vorbild des menschlichen Gehirns funktioniert und komplexe Muster in Daten erkennt. Es besteht aus mehreren Knoten (Neuronen), die in Schichten angeordnet sind: Die Eingabeschicht, verborgene Schichten und Ausgabeschicht. Daten gehen in die Eingabeschicht und durchlaufen die verborgenen Schichten, wo sie verarbeitet werden. Die Knoten, die diese Schichten bilden, sind über Kanten verbunden, über welche sie die Informationen weitergeben. Die Eingabeschicht nimmt Infromationen aus der Welt auf und gibt sie an die verborgende Schicht weiter. Die verborgene Schicht kann aus beliebig vielen Ebenen bestehen. Innerhalb dieser werden Informationen weitergereicht und immer wieder neu gewichtet. Die Ausgabeschicht gibt das Ergebnis aus, beispielsweise eine Wahrscheinlichkeitsverteilung. Der Unterschied zwischen dieser Vorhersage und dem tatsächlichen Ergebnis wird dann berechnet und dieser Fehler wird genutzt, um die Verbindungen im Netz zu verbessern. Durch viele Wiederholungen dieses Prozesses lernt das Netzwerk immer genauere Vorhersagen zu treffen.
Geben sie ein Beispiel für maschinelles überwachtes und unüberwachtes Lernen
Überwachtes Lernen
—> Computer werden gewisse Anhaltspunkte für den zu entwickelnden Algorithmus gegeben (Datenfelder des Datenbestands & Zielwerte/Label)
—> Texterkennung, Wetter-, Umsatz-, Nachfrageprognosen
Unüberwachtes Lernen
Analyse auf unbekannte Strukturen
—> dem Computer werden keine Label mitgegeben, das System ist bei der Identifikation von Mustern & Regeln auf sich allein gestellt
—> Strukturen erkennen, Markt-, Kundensegmentierung
Assoziationsmodell erklären
Assoziationsmodelle sind statistische Techniken, die verwendet werden, um verborgene Muster und Beziehungen zwischen Variablen in großen Datensätzen zu identifizieren. Sie sind besonders nützlich im Bereich des Marketings, um zu verstehen, welche Produkte oder Ereignisse häufig zusammen auftreten. Ein bekanntes Beispiel ist die Analyse von Einkaufswagen-Daten, um herauszufinden, welche Produkte oft gemeinsam gekauft werden. Diese Modelle verwenden Metriken wie die Support (Häufigkeit des gemeinsamen Auftretens), die Confidence (Wahrscheinlichkeit, dass ein Produkt gekauft wird, wenn ein anderes bereits im Warenkorb ist) und die Lift (Verhältnis der beobachteten Support zur erwarteten Unterstützung unter der Annahme, dass die Produkte unabhängig sind).
Beispiel: Gesucht sind zum Beispiel Einkaufsgewohnheiten, also Dinge, die häufig miteinander gekauft werden. Verbessert werden kann damit die Kundnzufriedenheit, weil Artikel besser sortiert werden können oder der Absatz erhöht werden, durch ungünstige Anordnung (Personen müssen länger im Laden suchen und finden auf dem Weg weitere Dinge, die sie kaufen möchten)
Wir wollen frequent Items finden, also solche, die häufig gemeinsam gekauft werden und wollen im besten Fall Assoziationsregeln ableiten.
Dafür wird folgendermaßen vorgegangen:
Das Kriterium I wird festgelegt, also der Support, die Häufigkeit. Er gibt an, wie viele Datensätze diese Regel (also die Kombi zweier Produkte beispielsweise) im Verhältnis zu den Gesamtdaten unterstützen —> wird ausgerechnet {Brot;Bier} (Support = 1/2) —> es wird ein minimaler Support als unterer Schwellenwert festgelegt, darauf werden nur noch die Items erfüllt, die diese Regel erfüllen.
Das Kriterium II ist die Konfidenz. Dieser Wert sagt aus, wie viele Datensätze die Regel (also die jeweils gesuchte Kombination) unterstützen im Verhältnis zu den Datensätzen, die nur die Prämisse dieser Regel (also das erste Item der Klammer) erfüllen. —> {Brot,Bier} (Konfidenz = 1) —> hier sollen Regeln mit einer möglichst hohen Konfidenz gefunden werden.
Ableitung von Regeln: „Wenn der Kunde Schuhe kauft, dann hat er in 10% der Fälle auch Socken gekauft“
Analytics definieren, was sie bedeuten
Analytics bezieht sich auf die systematische Bereitstellung, Verarbeitung und Interpretation von Daten, um Muster, Trends und Erkenntnisse zu gewinnen. Es umfasst verschiedene Techniken und Technologien, die zur Analyse von Rohdaten verwendet werden, um fundierte Entscheidungen zu treffen und Geschäftsprozesse zu optimieren.
Unterscheidung zwischen Web & Digital Analytics: Web Analytics beziehen sich nur aug die Analyse und Optimierung einer Website, Digital Analytics auf das Messen, die Analyse und das Auswerten von Daten zur Optimierung digitaler Angebote wie Websites, Apps, Emials oder Social media Kanälen.
Digital Analytics lassen sich in 3 Kategorien unterteilen:
Earned media - Social Media Analytics
—> Blogs, Foren, Social Media etc
Owned Media - Web Analytics
—> Corporate Website, C. Blogs, C. Shops, C. Apps, etc
Paid Media - Camapain Analytics
—> Display Ads, Sponsored Ads, Google Ads, etc.
Welche Anwendung finden Analytics in einem Unternehmen?
Marketing
- Kampagnensteuerung
- CRM
- Zielgruppenanalyse
Personal
- Recruiting (Kampagnen, Bewerberzahlenauswertung)
Vertrieb
- eCommerce
- Online Verkäufe
Analytics/IT
- Website Tracking
Produktmanagement
Portfolioanalyse
Was ist die serverseitige Datensammelmethode, ein Logfile & wozu wird es verwendet
Die serverseitige Datensammelmethode erfasst Daten direkt auf dem Server, der eine Website oder Anwendung hostet, statt vom Browser des Nutzers. Dies geschieht indem der Server Anfragen und Interationen protokolliert. Dafür sind Logfiles ein häufig genutztes Instrument:
Anfrage vom Client: Wenn ein Nutzer eine Webseite besucht oder eine Aktion ausführt (z.B. ein Formular absendet), sendet der Browser eine HTTP-Anfrage an den Webserver.
Verarbeitung der Anfrage: Der Server empfängt & verarbeitet die Anfrage. Währenddessen sammelt er Daten über die Anfrage, zB- IP Adresse, User Agent (Browserinfos & Betriebssystem), URL, Zeitstempel & HTTP Statuscode, Referer (zuvor besuchte URL)
Protokollierung in Logfiles: Diese Infos speichert er in sog. Logfiles. Das ist eine einfache Textdatei mit detaillierten Aufzeichnungen über jede Anfrage an den Server.
Analyse der Logfiles: Manuell oder über spezielle Softwares werden Logfiles dann analysiert, um Erkenntnisse über Nutzerverhalten, Performance der Website etc zu erhalten.
Vorteile
Date Datensicherheit: Daten werden direkt auf dem Server erfasst und sind weniger anfällig für Manipulationen
Umgehung von Ad-Blockern: Daten werden unabhängig von Browser-Einstellungen und Ad-Blockern gesammelt.
Detaillierte Informationen: Logfiles enthalten umfangreiche Informationen über jede Serveranfrage, die tiefgehende Analysen ermöglichen.
Was ist die Clientseitige Datensammelmethode, Pagetag, wie sammle ich damit Daten?
Die clientseitige Datensammelmethode erfasst Daten direkt im Browser des Nutzers während seines Besuchs auf einer Webseite. Dies erfolgt meist über JavaScript und andere Technologien, die in die Webseite eingebettet sind.
Einettung: Ein Page Tag ist ein kleines Stück JavaScript-Code, das in den HTML-Code der Webseite eingefügt wird. Beliebte Tools dafür: Google Analytics, Adobe Analytics oder Facebook Pixel)
Datenerfassung: Der JavaScript-Code wird im Browser des Nutzers ausgeführt, sobald die Webseite geladen wird. Er erfasst Daten wie Seitenaufrufe (Welche Seiten der Nutzer besucht), Verweildauer (Wie lange der Nutzer auf einer Seite bleibt), Klickverhalten (Welche Links und Schaltflächen der Nutzer anklickt), Interaktionen (Scrollverhalten, Formularübermittlungen und andere Nutzeraktionen),
Datenübertragung: nach Beendigung der Aktion ruft der Pagetag die URL des Tracking Servers auf, wo die Daten gesppeichert werden.
Diese Methode befindet sich in einer Grauzone, das hier Verhalten von Nutzern oftmals sehr genau aufgezeichnet wird, auch ohne deren explizite Zustimmung.
Was sind Vor & Nachteile der clientseitigen Datensammelmethode?
Vorteil
Kann alles mögliche an Nutzertracking liefern, viel mehr Daten als bei der Serverseitigen Sammlung
Tracking über mehrere Website möglich, also auch Subpages der eigenen Seite
Nachteil
Möglichkeit, Tracking/Page-Tag durch Einstellungen zu blockieren
Auswertung des PageTags nur mit Analytics Software möglich -> kostenintensiver
ggf. Datenschutzprobleme, da Grauzone
Beim Umbauen der Webpage nicht mehr vergleichbar, weil Nutzerverhalten natürlich ganz anders
nach Menge getrackter Daten kann Pagetag die Ladezeit der Website beeinflussen
diverse Probleme möglich: Caching/Proxy Server —> Browser/PC „ist eine faule sau“, lädt sich nicht von jedem Webserver alles runter. wenn er merkt dass eine Website regelmäßig aufgerufen wird, werden bestimmte Daten zwischengespeichert, damit website schneller geladen werden kann
Clientseitige Datensammlung: Bietet detaillierte und granulare Daten über das Nutzerverhalten, erfordert aber die Einwilligung des Nutzers und kann durch Browsereinstellungen beeinträchtigt werden.
Was sind Vor und Nachteile der serverseitigen Datensammelmethode?
Serverseitig (LogFile)
unabhängig von Blockern im Browser
kostengünstiger & wenig abhängig von Analytics Software
nicht in Grauzone unterwegs -> eher kein Datenschutzproblem
relativ robust bei Änderungen der Website
keine Beeinträchtigung der Ladezeit
keine Messungenauigkeiten
Nachteile
wenige Informationen, keine zusätzlichen Details abseits von dem, was ein LogFile mit runterschreibt
kein Tracking über mehrere Websites
Problem, wenn U. mehrere Webserver hat, wenn in Produktkategorie geklickt wird kann das nicht mehr gesehen bzw. verknüpft werden
Serverseitige Datensammlung: Erfasst grundlegende technische Daten und ist weniger anfällig für Nutzereinstellungen, bietet jedoch weniger detaillierte Einblicke in das spezifische Nutzerverhalten.
Was sind Unterschiede zwischen der clientseitigen und der serverseitigen Datensammelmethode?
Unterschiede: Ort, Informationsgehalte, Genauigkeit, Vollständigkeit/Zuverlässigkeit, Datenschutz, Handhabung, Implementierung & Wartung —> genauer erläutern
Was sind Cookies, was sind hier Herausforderungen
Cookies sind kleine Textdateien, die von einer Website auf dem Gerät des Nutzers gespeichert werden, während dieser die Website besucht. Sie enthalten Daten, die nützlich sind, um das Benutzererlebnis zu verbessern, die Funktionalität der Website zu unterstützen und Informationen für Analysen zu sammeln.
Aus Sicht der Website sind Cookies die quasi einzige Möglichkeit, Daten ohne explizite Erlaubnis des Users zu speichern. Auslesen der Cookies ist nur von der Domain aus möglich, die das Cookie gesetzt hat.
Arten von Cookies:
First Party Cookies: geschrieben & gelesen von Webserver, der aktuelle Seite darstellt
Third Party Cookies: geschrieben & gelesen von Drittserver, der bestimmte Ressourcen der Seite liefert (eingebunden zB in Form von Ad-Servern) —> Domain übergreifendes Tracking möglich
Third Party Cookies sind mittlerweile fast vollständig verboten.
Was sind alternative Methoden des Targetings ohne Third Party Cookies?
Third-Party Cookies werden abgeschafft/verboten —> für OnlineMarketing Welt eine große Herausforderung, weil das die große Quelle für Webanalytics & Targeting war
Neue Strategien
Ideale Strategie: Anreize für den Verbraucher schaffen, die Daten herzugeben zB Gutscheine, Rabatte, Zugang zu exklusivem Club etc
Saubere und transparente Kommunikation (schleichwege gehen kaum mehr)
Gruppendatenerhebung/analysen -> trotzdem werden individuellen Daten abgegeben
KI: bereits große und ausreichende Mengen an Daten wurden gespeichert. Algorithmen könnten Nutzerprofile zu rekonstruieren —> aber Präferenzen bleiben ja nicht gleich, also vermutlich nicht lange hilfreich
Was ist eine Cloud Infrastruktur mit Vor- und Nachteilen
Speicherung der gesammelten Daten: Intern oder extern über Cloud Infrastruktur?
Eine Cloud-Infrastruktur ist ein Framework, das es ermöglicht, IT-Ressourcen wie Rechenleistung, Speicherplatz, Netzwerkkapazitäten und Softwaredienste über das Internet bereitzustellen und zu verwalten. Diese Ressourcen sind nicht lokal auf einem physischen Gerät oder Server installiert, sondern befinden sich in einem Netzwerk von miteinander verbundenen Servern, die oft über verschiedene geografische Standorte verteilt sind.
Interner Betrieb
- niedrige Unterhaltskosten
- Sicherheit (nur so gut wie die Person, die die Daten gesichert hat)
- Datenhoheit
Datenschutz
hohe Anschaffungs/Investitionskosten
Logistik/ benötigte Lagerfläche -> unflexibel
Flexibilität vor allem im ZugriffSkalierung keine Flexibilität bei der Anbieterwahl
Cloud betrieben
niedrige Anschaffungskosten
Hohe Flexibilität im Zugriff
Keine Lagerflächen/Logistik benötigt
Einfache Skalierung
Flexibilität bei der Anbieterwahl
verhältnismäßig hohe laufende Kosten
Keine Datenhoheit
Datenschutz??
Nennen sie 2 Möglichkeiten von Webanalytics, beschreiben Sie zwei Möglichkeiten und ordnen sie die Chancen/Grenzen ein
Seitenaufrufe analysieren
Zielorientierter Indikator, vermittelt eine generelle Größe für die aktuelle Nutzung einer Website,
Vorlaufindikator: Vorteil durch Aktualität/Spontanität,
Einfachheit: Gute Metrik zur Abschätzung der allgemeinen Nachfrage einer Webseite
Dynamisches Nachladen verhindert Reload, Seitenaufruf (Durch zwischenspeicherung bekommt U. nicht mit, dass ich die Seite aufrufe und werde damit nicht als Aufrufer gezählt —> je nachdem wie viel auf der Website neu geladen werden muss, bekommt man im Zweifel keine vernünftigen Aussagen über Aufrufe/Analytics, eher unterbewertet)
iFrames: eingebundene iFrames generieren beim laden der Seite weiteren Aufruf Widgets, eingebunden in Webpage, ruft im Hintergrund andere Unterseiten oder Pages auf um Sachen darzustellen —> es kann passieren, dass ein Nutzer als mehrere Aufrufe gezählt werden, da mehrere Seiten geladen werden —> Überbewertung —> kann von Anwender blockiert werden, dass das überhaupt angezeigt wird
Besuche/Sitzungen analysieren
Vorteile:
Indikator Für Reichweite, Anzahl und Frequenz der Besucher
Saisonale Unterschiede: Festzustellen bei längerer Beobachtung
Identifikation der Zielgruppe: Besucherströme verstehen
Nachteile:
• HTTP Zustandslosigkeit: Timeouts erschweren Sitzungsmessungen
Besucher/User analysieren:
Indikator für die komplette Reichweite des Webauftritts
Hotelgäste: Wert kann als Gruppe von Personen interpretiert werden
Anteilskennzahl: Trennung von Gruppen wie zB neue Besucher
Addition von Zeiträumen ungeeignet: Besucher nur über gesamten Zeitraum trackbar (Über selbst definierten Zeitraum wird der Nutzer getrackt —> kann verfälscht werden, zB. wenn User nur an bestimmter Zeit des Jahres Interesse an Produkt hat. Daher gesamter Zeitraum wichtig zu betrachten)
Identifikation: Probleme mit den IP-Adressen bei der ID der Besucher (Gleicher rechner, anderes WLAN —> andere IP Adresse —> Nutzer kann so nicht mehr eindeutig identifiziert werden/ schwieriger)
Was ist Marktsegmentierung & Beispiel warum sie in einem Unternehmen nützlich ist
Marktsegmentierung betrachtet alle potentiellen Kunden innerhalb eines Marktes, während die Kundensegmentierung auf die Kunden fokussiert. Dies ist oftmals einfacher, da es häufig schwierig ist, an die entsprechenden Marktdaten zu gelangen.
Ein Marktsegment stellt eine Gruppe von Personen dar, die dieselben Interessen, Merkmale oder Eigenschaften haben. Die Marktsegmentierung ist ein verbraucherorientierter Prozess um die käuferspezifischen Merkmale datenbasiert zu erfassen und analytisch in gleiche/ähnliche Ausprägungen zu gruppieren.
Marktsegmentierung bezeichnet den Prozess, bei dem ein Markt in verschiedene Kundengruppen (Segmente) unterteilt wird, die ähnliche Bedürfnisse und Verhaltensweisen aufweisen. Dies ermöglicht es Unternehmen, ihre Marketingstrategien gezielter auf die spezifischen Bedürfnisse und Präferenzen dieser Segmente auszurichten.
Beispiel für die Nützlichkeit: Ein Unternehmen im Automobilsektor könnte die Marktsegmentierung nutzen, um seine verschiedenen Fahrzeugmodelle an unterschiedliche Kundengruppen anzupassen. Zum Beispiel könnten Luxusautos für wohlhabendere Kunden entwickelt werden, während kompaktere und preisgünstigere Modelle für junge, preisbewusste Käufer konzipiert sind. Durch die Segmentierung kann das Unternehmen effektiver auf die Bedürfnisse und Erwartungen seiner Kunden eingehen, die Kundenzufriedenheit steigern und seine Marktposition stärken.
“Eine Conversion ist die Anzahl der Abschlüsse auf meiner Website“ - Ordnen Sie diese Aussage kritisch ein
Der Satz ist deswegen kritisch zu betrachten, weil die Conversion nicht klar definiert ist. Sie wird durch das jeweilige U. Anhand der Ziele individuell festgelegt.
Eine Conversion kann alles sein, was ich selbst definiere, zB Blog-/Newsletteranmeldung oder auch Seitenaufrufe. Es müssen nicht zwangsläufig Abschlüsse sein oder Geld damit verdient werden, wird aber in den meisten U. so gehandhabt.
Die 7 Schritte der Marktsegmentierung beschreiben
Für oder gegen eine Marktsegmentierung entscheiden —> Ist Markt geeignet? Kann sich U langfristig verpflichten?
Anforderungen für Segmentierung festlegen —> Wie würden die idealen Zielsegmente aussehen? (Messbarkeit, Zugänglichkeit, Differenzierbarkeit, Umsetzbarkeit)
Daten sammeln —> Segmentierungskriterien & beschreibende Variablen
Daten erkunden —> Daten ggf. vorverarbeiten
Segmente extrahieren —> Verwenden geeigneter Verfahren/Algorithmen (k-means clustering, Ellebogen, etc)
Segmente profilieren & beschreiben —> wichtigste Merkmale der Segmente bestimmen, beschreiben & bewerten
Marketingprogramm anpassen & Erfolg bewerten —> Zielsegmente auswählen, an Zielsegmente angepassten Marketing-Mix entwickeln
Wo liegen Chancen & Herausforderungen von Marktsegmentierung in Unternehmen?
Chancen
gezielterer Einsatz von Maßnahmen & Budget —> idealerweise weniger Kosten -> höherer ROI
Möglichkeit, Kundenbindung zu stärken
Verbessertes Vertriebsmanagement
Herausforderungen
fehlerhafte Segmentierung —> Vertrauensverlust
zu starker Fokus auf bestehenden Kundenstamm
Inkonsistenz der Botschaften bei zu ungenauer Zuordnung
(zB eine Person zählt in zwei Segmente)
hohe Investitionen (Budget & Ressourcen)
• Mikromarketing (zu viele, kleinteilige Segmente) —> wichtig, vorher zu wissen, wie viele Segmente ich bedienen kann, zB gemessen an den Teams, die jeweils ein Segment bespielen
Hyper-Segmentierung (Segmentierung nach Charakteristika, die für meinen Kundenstamm irrelevant sind) —> hat dann keinen Mehrwert mehr
Die schritte eines k-menas Clusterings in Bezug auf Marktsegmentierung erklären
Beim Clustering in der Marktsegmentierung ist das Ziel, Kundengruppen mit ähnlichen Merkmalen zu identifizieren um auf diese zugeschnittene Marketingmaßnahmen zu entwickeln. Kundenprofile können als multidimensionale Datenpunkte dargestellt werden, wobei jede Dimension ein bestimmtes Merkmal wie Alter, Einkommen, Kaufverhalten, Präferenzen usw. darstellt.
Das Ziel des k-means Clusterings ist es, alle Datenpunkte in Clustern zu gruppieren, wobei ähnliche Datenpunkte innerhalb desselben selben Clusters liegen sollen und jeder Datenpunkt nur genau einem Cluster zugeteilt ist.
Das Clustering geschieht mithilfe eines Algorithmus, beispielsweise in R:
Zufällige Auswahl von x Punkten als Clusterzentren (Centroiden). Die Anzahl ergibt sich aus der gewünschten Clusterzahl
Jeder Datenpunkt wird dem nächstgelegenen Clustercentoiden zugewiesen (meist aufgrund des euklidischen Distanzmaßes)
Daraufhin wird innerhalb der Cluster der Durchschnitt aller Datenpunkte berechnet und anhand dessen ein neuer Centroid bestimmt
Nun werden die Datenpunkte wieder den ihnen nächstgelegenen Centroiden zugeteilt und neue Cluster gebildet.
Dieses Verfahren findet solange statt, bis die Centroiden sich nicht mehr verändern, also stabile Cluster gebildet wurden oder die maximale Iterationszahl erreicht ist.
Erkläre und beschreibe den Ellebogenscore
Der Ellebogenscore wird zur Bestimmung der optimalen Clusteranzahl unter Berücksichtigung der Homogenität und Handhabbarkeit der Cluster eingesetzt. Er wird vor der Durchführung des k-means Clusterings eingesetzt.
Die Betrachtung des Ellebogenscores im Cluster dienen.
Der Screeplot beschreibt die Anzahl der Cluster auf der x-Achse und die kumiulierte Entfernung der Clusterpunkte zu ihren jeweiligen Centroiden auf der y-Achse in einem Balkendiagramm. Der Ellebogenscore beschreibt den Punkt, an dem die Linie, die die Balken miteinander verbindet, signifikant abflacht. Ab dieser Stelle, dem „Knick“ bringt die Erhöhung der Clusterzahl keinen bedeutenden Mehrwert mehr, wir wählen also die Anzahl der Cluster, die an diesem Punkt liegt.
Was verbirgt sich hinter Silhouetten-Score + beschreiben
Der Shilouette Score ist ein Verhältnismaß und wird eingesetzt, um die Kompaktheit und Trennschärfe von Clustern zu bewerten. Er kann auch eingesetzt werden, um in Kombination mit dem Ellebogen Score die optimale Anzahl von Clustern zu bestimmen, oder, wenn der Ellebogen Score nicht überzeugt.
Alle einzelnen Clusterpunkte werden in einem Plot dargestellt, wobei auf der y-Achse die einzelnen Cluster getrennt gelabelt werden und auf der x-Achse die Breite s(x) für jeden Punkt aus dem jeweiligen Cluster dargestellt wird. s(x) ergibt sich aus folgender Formel:
a(x) stellt die durchschnitlliche Distanz (Kohäsion) von x zu den Datenpunkten des eigenen Clusters dar
b(x) stellt die durchschnitlliche Distanz (Separation) von x zu den Datenpunkten des nächstgelegenen Clusters (zu diesem Datenpunkt) dar
Für jeden Datenpunkt wird nun der Shilouette Koeffizient s(x) berechnet, der ein Maß dafür ist, wie ähnlich dieser Punkt zu den anderen Punkten in seinem Cluster ist im Vergleich zu den Punkten im benachbarten Cluster.
Der Silhouette Score eines gesamten Datensatzes ist der Durchschnitt der Silhouette Koeffizienten aller Datenpunkte im Datensatz. Sein Wert reicht von -1 bis 1. Ein Wert nahe 1 signalisiert eine gute Clusterung. (Da die durchschnittliche Distanz der Punkte innerhalb eines Cluster signifikant geringer ist als die zu den benachbarten Clustern.) Ideal wird ein Wert von über 0,5 erreicht, in der Praxis gelten für gewöhnlich jedoch Werte zwischen 0,25 & 0,5 als gut.
Wie im Ellebogen Score: Berechnen des durchschnittlichen Shilouette Scores für verschiedene Clusteranzahlen und Darstellung in einem Plot: Der höchste Punkt zeigt die optimale Clusteranzahl an.
Large Language Modell und Funktionsweise erklären
Ein Large Language Model ist eine fortschrittliche künstliche Intelligenz, die große Mengen an Textdaten verwendet, um natürliche Sprache zu verstehen und zu generieren. Es basiert auf einem tiefen neuronalen Netzwerk mit Millionen bis Milliarden von Parametern, das kontextuelle Muster in Texten lernt. Diese Modelle können komplexe Aufgaben wie Textverständnis, Übersetzung, Textgenerierung und mehr durchführen, indem sie sprachliche Muster erkennen und darauf basierend Vorhersagen treffen.
Schritt 1: Wörter in Sprache übersetzen, die ein Modell versteht. Per Tokenizing wird der Text in einzelne Wörter (Tokens) zerlegt.
Schritt 2: nun werden Wörter gesucht, die mit den einzelnen Tokens verwendet werden zB „fahren“ mit wir, der Bus, er hat einen etc…seit stunden im Kreis, gut mit unserer Taktik.
Schritt 3: Erstellung eines Vektors mit Wahrscheinlichkeiten für jedes einzelne Wort, neben unserem Wort zu stehen
Schritt 4: Beziehungen zwischen den Wörtern (Kontext) verstehen
Apriori Algorithmus erklären
Der Apriori-Algorithmus ist ein weit verbreiteter Algorithmus zur Identifikation häufiger Itemsets in Transaktionsdatenbanken und zur Ableitung von Assoziationsregeln. Er arbeitet nach dem Prinzip, dass ein Itemset nur dann frequent sein kann, wenn alle seine Teilmengen ebenfalls frequent sind.
Der Apriori Algorithmus ist einer der bekanntesten Algorithmen zur Assoziationsanalyse. Er findet häufig auftretende Itemsets und erzeug starke Assoziationsregeln aus den häufig auftretenden Items. Angegeben wird auch hier der minimale Support und die minimale Konfidenz. Im ersten Schritt wird der Support mit k=1 Items gebildet und alle Items mit einem kleineren Support als Supportmin (1/4) aussortiert.
In der zweiten Iteration der Support mit K=2 Items, auch hier werden wieder nur die Items mit Supportmin hergezogen um weiterzurechnen.
In der dritten Iteration das gleiche Spiel, nun werden 3 Items zusammen betrachtet.
In der 4. Iteration findet der Algorithmus keine Regel mehr G4 = { }, er stoppt.
Der Apriori-Algorithmus ist effizient, weil er die Eigenschaft ausnutzt, dass alle Teilmengen eines frequent Itemsets ebenfalls frequent sein müssen. Dadurch wird die Anzahl der zu prüfenden Kandidaten-Itemsets erheblich reduziert. Die iterativen Schritte des Algorithmus erlauben eine systematische und skalierbare Identifikation häufiger Itemsets in großen Transaktionsdatenbanken.
Funktionsweise der Bilderkennung eines neuronalen Netzes erklären
Beispiel: Bild eines Autos, KI soll erkennen, ob im Bild ein Mensch oder Auto dargestellt wird.
Neuronales Netz erkennt nur die einzelnen Pixelwerte, keine Formen und Farben.
In der Eingabeschicht benötigt so viele Neuronen, wie das Bild Pixel hat. Jeder Pixelwert wird einem Neuron übermittelt.
Den Neuronen werden dann Werte zugeteilt, in diesem Fall zB die Farbwerte der einzelnen Pixel.
Für den Wert des nächsten Neurons in der verborgenenn Schicht wird die gewichtete Summe der auf das Neuron zeigenden aktivierten Neuronen berechnet. Die Gewichtung ist zu Beginn beliebig.
Das Neuron wird in eine aktivierungsfunktion gegeben, die berechnet, ob das Neuron aktiv ist (>0) oder nicht. Ist das Neuron aktiv, „feuert“ es mit seinem entsprechenden Wert, etc.
Der Vorgang wird so lange wiederholt, bis der Ausgabeschicht Werte vorliegen. Diese sind Wahrscheinlichkeiten, auf deren Basis sich das Netz entscheidet, ob das Bild ein Auto oder einen Mensch darstellt. Jeder Knoten fragt quasi eine Frage ab „Haare?“ „Augen?“ „Räder?“ Und gibt einen Wert aus, der am Ende darauf hinweist, wie wahrscheinlich es ein Auto/Mensch ist.
Zu Beginn können Klassifizierungen falsch sein. Wird dem neuronalen Netz dieses Feedback gegeben, berechnet es die Gewichtungen um und lernt damit immer besser, Bilder richtig zu erkennen.
Messungenauigkeiten im Rahmen von Webanalytics beschreiben
Messungenauigkeiten der Customer Journey über mehrere Kanäle & Devices
Im Idealfall kann die Journey eines Nutzers über mehrere Geräte hinweg nachvollzogen werden.
Das Problem hier ist, dass der Nutzer als 3 verschiedene Personen dargestellt wird, da nicht erkannt wird, dass die gleiche Person nur über verschiedene Devices die Kanäle besucht.
Lösungen, um dieses Problem zu adressieren:
User ID im Account, die Personen dazu bringen, sich anzumelden
Digitales Ökosystem (Cookies, Daten die Google auch hat)
Device Bridges - Geräte vom gleichen Hersteller, die sich gegenseitig erkennen
Visitor Stitching: Nach Wahrscheinlichkeiten wird errechnet, wer ich bin (Nutzung von IP Adressen, Örtlichkeiten, Einkäufen etc)
Immer gleiches Analyticsystem verwenden! Mit Verhältnissen, statt absoluten Angaben arbeiten, eigene Website vorrangig als Benchmark nutzen, Auswertungssysteme für genaue Zahlen zu Rate ziehen.
HHTP Zustandslosigkeit bei Seitenbesuchern
—> Analytics-Systeme messen Besuche auf Basis festgelegter Timeout-Spannen (typisch 30min), nach der Zeit wird der User automatisch“abgemeldet“, wenn keine Aktivität mehr stattfindet
Die Herausforderung dabei ist die Zustandslosigkeit des Hypertext-Transfer-Protokolls, wenn User zB nach 32 Min wieder klickt, wird er als 2. Besucher gewertet (häufig bei vielen/lange Inhalten)
Das zweite Problem ist, wenn Besucher innerhalb dieser 30min die Seite verlassen und zurückkommen. Dann werden sie nur als ein Beuscher gewertet, obwohl es zwei sein müssten. (Passiert häufig bei schnell konsumierbaren Inhalten)
Dynamisches Nachladen verhindert einen Reload/Seitenaufruf —> durch Zwischenspeicherung der Seite im Cache bekommt U. Nicht mit, dass ich die Seite neu aufrufe weil keine neue Anfrage an den Server geschickt wird und werde damit nicht als Besucher gezählt —> je nachdem wie viel auf der Seite neu geladen werden muss, bekommt man keine vernünftigen Aussagen über Aufrufe —> Analytics eher unterbewertet
—> genauso auch bei Proxy Server, der Häufig bei Firmen genutzt wird und Inhalte zwischenspeichert
iFrames mit weiteren eingebundenen Seiten können als mehrere Seitenaufrufe gewertet werden und die Statistik verfälschen
Nennen sie heuristische Attributions-Modelle, ordnen sie zwei davon ein und nennen Sie Möglichkeiten/Grenzen
Ziel: Herausfinden, welche Interaktionen zwischen Unternehmen und Kunden (Kundenkontaktpunkte) den größten Einfluss auf die Entscheidung des Kunden hatten, dort zu kaufen.
Attribution ist der Prozess aus Sicht des Werebtreibenden, die Kontaktpunkte und die Abfolge zu identifizeiren, sowie jedem Kontaktpunkt einen Wert zuzuweisen, der seinem Beitrag zur Zielerreichung (Conversin) entsprechen soll.
Attributionsmodelle: systematische Zuordnungsvorschriften, die den Kontaktpunkte der Customer Journey die entsprechenden Werte zuschreiben, um den Einfluss der einzelnen Instrumente zu bestimmen.
Nutzen von Marketing-Attribution:
Optimierung des Marketing ROI
Verbesserung des Marketing Budgets
Verbesserung des Content Marketing (wegen automatischer Analyse der C.J.)
Besseres Verständnis der Customer Journey
Heurostische Modelle: einfache, regelbasierte Ansätze zum Verständnis des Einflusses der Instrumente entlang der Customer Journey
Analytische Modelle: datenbasierte Ansätze, die mittels multivariater Verfahren analysiert werden
Heuristische Modelle
Wir unterstellen, dass einzelne Kontaktpunkte mehr Einfluss auf den Ausgang der Customer Journey haben
First Touch
Kanal, der als erster Kontaktpunkt gilt, wird am wichtigsten bewertet und erhält 100% des Budgets —> Eingesetzt von U., die auf Awareness setzen, weil sie noch nicht sehr bekannt sind oder eine hohe Conversionrate haben, weil zB Produkt sehr überzeugend ist
Nachteil: Bei Produkten mit langem Laufzyklus (Kunde benötigt lange, um sich für das Produkt zu entscheiden) ist der Kanal schnell aus der C.J. verschwunden
Last Touch
Letzter Kanal, meist Website, wird mit 100% bespielt
Unternehmen, die sehr bekannt sind und über Suchmaschinen viel gefunden werden —> wollen Kunden nur dazu bringen, viel zu kaufen
U-förmig/W-förmig (Mischmodell)
Verteilung des Budgets auf 1. & letzten Kontakt oder in der Mitte noch einmal, um die gesamte UJ zu begleiten
Zeitlich verteilt (Time Decay)
An- oder absteigende priorierierung der Kanäle nach der CJ
Linear
„Wer keine Ahnung hat, was er machen soll“, kann aber auch sinnvoll sein
Analytische Attributionsmodelle
objektive Betrachtungsweise
Automatisiert, statt manuell
Schnell umsetzbar & anpassbar
Skalierbar auf große Datensätze
Datenbank & Analyseplattform müssen modernisiert sein
Fehlerhafte Know-How kann zu Fehlern führen
Fehlende Datenquellen
Mangelndes Change-Management
Führen sie an folgendem Beispiel eine Markov-Chain Attribution durch
Eines der populärsten Modelle ist die Markov-Chain Attribution. Ihr Ziel ist es, die Wertigkeit der einzelnen Kanäle zu bewerten.
Jeder Weg der Customer Journey wird in einer Grafik mit Pfeilen und versch. Farben dargestellt. Die Pfeile in jedem Schritt werden gezählt und durch die Gesamtzahl der Pfeile geteilt. Dann wird jeder Weg betrachtet und die Werte der Pfeile multipliziert. Darufhin wird der Removal Effekt berechnet. Dabei wird ein Kanal entfernt und betrachtet, wie viele Conversions dann noch entstehen würden.
Die Werte sagen erst nichts aus, sie müssen noch normalisiert werden. Dafür wird der Removal Effekt durch den kumulierten Removal Effekt geteilt. Der höchste Wert zeigt dann den zu priorisierenden Kanal an.
Metriken, Raten & KPIs für Web Content Controlling
Mit welcher analytischen Methodik das Clustering durchführen? Wie eine Clusteranalyse funktioniert
Eine Clusteranalyse ist eine statistische Methode zur Gruppierung einer Menge von Objekten (Datenpunkten) in Cluster, sodass Objekte innerhalb eines Clusters ähnlicher sind zueinander als zu Objekten in anderen Clustern.
Daten sammeln & aufbereiten
2. Wahl eines Distanzmaßes
3. Wahl eines Clustering Algorithmus
4. Definition der Distanz zwischen den Clustern
5. Determinierung der Anzahl der Cluster
6. Validierung der Analyse
Eine Clusteranalyse ist eine Methode zur Gruppierung von Datenpunkten in Cluster, sodass die Punkte innerhalb eines Clusters ähnlicher sind als zu Punkten in anderen Clustern. Der Prozess beginnt mit der Datensammlung und -vorbereitung, wo Daten bereinigt und normalisiert werden. Anschließend wird eine Distanz- oder Ähnlichkeitsmaßnahme wie die euklidische Distanz ausgewählt. Dann wird ein Clustering-Algorithmus wie K-Means, hierarchisches Clustering oder DBSCAN angewendet, um die Cluster zu bilden. Der K-Means-Algorithmus beispielsweise teilt die Daten in kCluster, indem er wiederholt die Mittelpunkte der Cluster berechnet und die Datenpunkte den nächstgelegenen Mittelpunkten zuordnet, bis Konvergenz erreicht ist. Die Wahl der passenden Methode hängt von der Datenstruktur und dem Ziel ab: K-Means eignet sich für runde, gleich große Cluster, hierarchisches Clustering für eine hierarchische Struktur und DBSCAN für Cluster unterschiedlicher Form und Dichte. Die Qualität der Cluster wird abschließend mit Methoden wie dem Silhouette-Koeffizienten bewertet.
Zuletzt geändertvor 5 Monaten