Was ist Web Mining
Verwendung von Data Mining Techniken um automatisch Informationen aus WWW-Dokumenten und -Diensten zu finden (Hyperlin Strukturen, Seiteninhalten, Nutzungsdaten)
Charakteristiken des WWW
Rapides Wachstum —> Größte öffentlich zugängliche Datenquelle
Verschiedene Datentype (Strukturiert & Unstrukturiert)
Heterogene Informationen (unterschiedliche Webseiten, gleicher Inhalt)
Verknüpfte Informationen (Referenzen auf ander Dokumente)
Verauschte und fehler Fehlerhafte Daten (Keine Qualität)
Dynamik: Daten können sich jederzeit ändern
Web als virtuelle Gesellschaft (Analyse deren Interaktionen)
Herausforderungen bei Web Mining
Finden von Relevanten ist aufgrund Menge, Vielfalt und Dynamik sehr schwer —> Gibt einige Algorithmen die darauf spezialisiert sind
Braucht Data Mining Kenntnisse
Web Mining vs. Data Mining
Data Mining
Web Mining
Strukturierte Daten
Semi- bis unstrukturierte
Relationale DB
Verknüpfte Daten
Definierte Tabellenstruktur
Spontane Änderung und Evaluation
Vorgehen bei der textuellen Datenverarbeitung
Textvorverarbeitung: Bereinigung des Texts
Tokenisierung: Aufteilen des Texten in einzelne Wörter (Token)
Erstellung Vokabular: Liste aller eindeutigen Wörter im Text erstellen
Vektorisierung: Zählen der Häufigkeit jedes Wortes in jedem Dokument
Beschreibe ein einfaches Modell zur Textrepräsentation
Bag Of Words
Führt Textdaten in numerische Form
Texte werden als Vektor dargestellt
Vektoren sind abhängig vom Vokabular
Vektor-Werte sind Abhängig von der Häufigkeit des Auftretens eines Wortes
Vgl. Vektordarstellung im Vector Space Modell (IR)
Vorteile:
Einfache Implementierung und Verständlickiet
Effektivität bei vielen Anwendungen wie Textklassifiziereng
Nachteile:
Verlust Kontextinformationen
Hohe Dimensionalität (Rechenaufwand und Speicherbedarf)
Was ist Crawling?
Automatisierte Prozess des systematischen Durchsuchen und Indexieren von Webseiten
Erstellt Datenbank für Suchmaschine, spezielle Algorithmen um Links zu finden und Seiten zu klassifizieren
Was ist Web Sccaping?
Extraktion spezifischer Daten von Webseiten
Verwendet Parser um Daten von HTML-Strukturen zu extrahieren
Ergebnis: Strzkturierte Daten wie Tabellen, Texte, Bilder
Was ist Sentiment Analyse bzw. Opinion Mining?
Erkennung spezifischer Meinungen zu verschiedenen Aspekten
Nutzt Quellen wie Produktrezensionen, Foren, soziale Netzwerke
Text Mining und Feature Extraktion werden genutzt um detailiertes Verständnis von Kunden zu erhalten
Was ist VADER?
Valence Aware Dictionary and sEntiment Reasoner: ist ein Lexikon- und regelbasiertes Tool zur Sentiment-Analyse. VADER berücksichtigt Satzzeichen, Großschreibung & Kontext-Effekte
Textvorverabitung (Kaum, das VADEr selbst viel macht)
Textanalyse (Text wird in einzelne Wörter und Phrasen zerlegt
Wörter im Lexikon (Gleicht Wörter mit Sentimentlexikon ab)
Intensifikatoren/Negationen (Analyse von Wörtern die positiv oder negativ verstärken)
Berechnung Sentimentwerte (z.B. Großartig +3,1)
Klassifikation (Aufsummieren der Werte)
Use cases Web Content Mining
Marktdaten (Sammeln und Analysieren von Markt/Wettbewerberdaten)
Content Recommendation System (Collaborative or Content Based Filterung durch Analyse Nutzerverhalten)
Trend Analysis (Identifizierung und Verfolgen aufkommender Trends in Soziale Medien, Nachrichten durch Text Mining und Zeitreihenanalyse)
Fraud Detection (Erkennen und Vorbeugen betrügerischer Aktivitäten durch Musteranalyse oder Anomalie Erkennung in Transaktionen, Kommentaren, etc.)
Search Engine Optimization: Optimieren von Webseiteninhalten für bessere Suchmaschinenrankings durch Keyword-Analysen
Was ist Web Structure Mining?
Finden & Interpretieren von Mustern in Hyperlink-Strukturen & sozialen Beziehungen zwischen Akteuren des Webs
Usecases Web Structure Mining
Ranking von Webseiten
Produkt & Freundesempfehlungen
Besseres Verständnis von Usern
Erkennen von Mustern
Graphen grundlegende Kompnenten
Graph: Sammlung von knoten und Kanten
Knoten: Geben Entitäten, Zustände oder Elemente an
Kanten: Geben Beziehungen oder Interaktionen zwischen Knoten an
Metriken eine Grpahs
Degree: Anzahl der Kanten die an einem Kniten grenzen
Density: Grad der Verbundenheit, Anzahl vorhande Kanten im Verhältnis zu Anzahl der möglichen
Clustering Coefficient: Miss lokale Dichte. Gibt an wie viele der möglichen Knoten zu Nachbar existieren
Shortest Path: Kürzester Weg der von einem Knoten zum anderen führt (ungewichtete Graphen: Breitensuche, gewichtet: Dijkstra Algorithmus)
Diameter: Maximale Länge des kürzesten Pfades zwischen irgendeinem Paar Knoten
Prominencemetriken
Centrality:
Wie zentral ist ein Knoten im Netzwerk
Relationen werden ungerichtet interpretiert
Muss oft in Kontext gesetzt werden
Kann mit Social Power verglichen werden
Prestige:
Bedeutung eines Knotes basierend auf eingehende Verbindungen von anderen Knoten
Kann mit Reputation (Likes, Zitationen) verglichen werden
Centrality-Metriken
Degree Centrality: Misst Anzahl der direkten Verbindungen eines Knotens (kann normalisiert durch die Anzahl der möglichen dargestellt werden)
Betweeness Centrality: Musst wie oft ein Knoten auf dem kürzesten Pfad zwischen anderen Knoten liegt (Vermittler)
Closeness Centrality: Misst durschnittle kürzeste Entfernung eines Knoten zu Nachbar -> Knoten der durchschnittlich nahe liegt kann als Vermittler fungieren
Prestigemetriken
Degree Prestige: Anzahl der eingehenden Verbindungen
Proximity Prestige: Bewertet Knoten basierend auf Nähe zu anderen wichtigen Knoten
Rank Prestige: Misst Bedeutung basierend auf Qualität der eingehenden Knoten
Was ist der Pagerank Algorithmus?
Variation des Rank Prestige in welchem Prestige des Knoten auf alle ausgehenden Links verteilt wird
Hilft relevante Suchergebnisse darzustellen
Integration des Damping Facotr
Modellier Random Surfer Verhalten
0,85 = 85% folgt der den Links auf derzeitigen Seite
Verhindert Nicht beachtung Dead-End Webseiten
Verhindert Dominanz von Zyklen, die auf sich gegenseitig verweisen
Vorgehen zur Berechnung des Pagerank
Graph der Verlinkungen repräsentiert als Adjazenzmatrix darstellen
Normierung zu spalten-stochastischen Matrix
Berücksichtigung des Damping Factors
Berechnung des Eingenvektor
Was ist Community Detection?
Community = Gruppe von Akteuren zwischen denen Interaktionen (relativ) häufig sind
Analyse hilft Nutzer besser zu verstehen
Vergleich zwischen Individuellem Verhalten und Gruppenerwartungen
Gibt mehrere Methoden zur Identifizierung: K-Cores, Cliques, Divise hierarchical clusterung
Verlgieche K-Cores und Divise Hierarchical CLustering
K-Cores:
Identifikation von stark verbundenen Subnetzen
Basiert auf Degree (Grad) von Knoten
Entfernen Sie alle Knoten mit Grad wneiger als K
Wiederhole bis Graph in Komponeten zerfällt sie zusammenhängende Untergruppen bilden
Divise Hierarchical Clustering:
Wähle Cluster der aufgeteilt werden soll (Gesamter Graph oder basierend auf Inhomogenität)
Aufteilung K-Means oder ander CLustering Algorithmus, Entfernung basiered auf hoher Betweeness
Wiederhole bis gewünschte Anzahl erreicht
Was ist Web Usage Ming:
Automatisierte Entdeckung und Analyse von Mustern in der Interaktion von
Nutzern mit Webseiten
Ziele:
Kundenbindung
Cross-Marketing-Strategien
Wirkung von Werbekampagnen
Personalisierte Inhalte präsentieren
Web Usage Mining Prozess
Datensammlung & Vorverarbeitung (Datenbereinigung und Einebziehung von Domänenwissen)
Mustererkennung (Finden von Mustern die das typische Verhalten der Nutzer wiedergeben
Musternalyse (Verarbeitung hin zu Benutzermodellen zum Input für Verbesserungen)
Typische Datenquellen für Web Usage Mining
Webserver-Zugriffsprotokolle (IP-Adressen, Zugriffzeiten, Cookies)
E-Commerce (Warenkorbänderungen, Werbe- oder Produktklickrate, Käufe)
Nutzereignisse auf Social Media
Wie funktionierung Datenvorverabreitung, Datenfusion und -säuberung beim Web Usage Mining?
Datenvorverarbeitug: Erstellen eines geeignetes Zieldatensatzes
Zeitaufwendiger und rechenintensiver Schritt aufgrund der Datenstruktur und -heterogenität
Datenfusion: Zusammenführen der verteilten Log-Dateien
Datensäuberung:
Eliminieren von verrauschten und überflüssigen Informationen
Irrelevante Logeinträge wie transferierte Bytes, HTTP-Protokoll, etc. wird entfernt
Löschen von Crawlereinträgen (50% Traffic)
Wie werden Nutzer identifiziert?
Pageview Identifizierung:
Identifizierung von Seitenzugriffen
Pageview kann eine Kollektion von Webobjekten oder anderen Ressourcen sein oder auch ein User Event
Nutzeridentifizierung
Identifizierung von Nutzern (ohne konkretes Wissen über Identität)
Sequenz von Aktivitäten wird als User Activit Record bezeichnet
Identifizierung über Cookies oder einer Kombination aus IP-Adresse und anderen Attributen
Session Identifizierung
Segmentierung der Records auf einzelne Sessions
Webseiten ohne Authentifizierungsinformationen müssen heuristische Methoden (Annahme basierend auf zeit oder IP)
Mustererkennung - Session- und Benutzeranalyse
Statistische Analyse von Daten die sehr häufig verwendet wird und auch von vielen kommerzielle Analysetools angeboten wird
Gewinnen von Erkenntnissen zu Besucherverhalten (Häufigst aufgerufene Seite, durchschnittliche Verweildauer, Ausstiegspunkte)
Potenzielle Verbesserung der Systemleistung und Unterstützung von Marketingmaßnahmen
Mustererkennung - Assoziationsanalyse
Statistisches Erkennen von Gruppen von Artikeln oder Seiten, die oft zusammen gekauft bzw. aufgerufen werden
—> Effizienterer Seiteninhalt und effektivere „cross-sale“-Produkt Empfehlungen
Mustererkennung - Clusteranalyse
Gruppierung einer Menge von Objekten mit ähnlichen Merkmalen: Nutzer oder Webseiten Cluster sind möglich
Clustern von Nutzern, die ähnliche Browsing-Muster aufweisen
Ableitung von demographischen Merkmalen oder anderen Features für Marktsegmentierung
Bereitstellung von Querverweisen zu ähnlichen Themen/Produkten
Mustererkennung - Klassifizierung und Vorhersage
Datenelemente werden vordefinierten Klassen zugeordnet
Erstellen eines Profils von Benutzer, die einer gemeinsamen Klasse zugehören
Klassifizierung der Nutzer nach Kaufneigung und daraus dann Ableitung von Marketingmaßnahmen
Was ist Case-Based Rasoning
Methode der Problemlösung, die auf der Wiederverwendung von WIssen aus vergangenen Fällen basiert
Wenn ein neues Problem auftritt such das System nach ähnlichen bereits gelösten Fällen
Einsatz ist Medizinischer Diagnose, Rechtssystemen, Technischer Support, Produktempfehlungen
Grundlegende Konzepte CBR
Fall (Case): Detaillierte Beschreibung eines spezifischen Problems, seiner Lösung und deren Beschreibung (Triple)
Fallbibliothek (Case Livrary): Sammlung von früheren Fällen
Ähnlichkeitsbewertung (Similarity Assessment): Prozess um ähnliche Fälle zu funden
Anpassung (Adaption): Modifikation der früheren Lösungen für das neue Problem
Prozess des CBR
Retrieve (Abrufen): Finden passende Fälle
Reuse (Wiederverwenden): Anwenden der Informationen und Lösungen aus den gefundenen Fällen
Revise (Überarbeiten): Anpassung der vorgeschlagenen Lösung an die spezifische Anforderungen des neuen Problems
Retain (Beibehalten): Integration des neuen Falls in die Fallbibliothek
Vor- und Nachteile von CBR
Lernfähig: System wird kontinurilich besser
Flexibilität: Kann auf Vielzahl von Problemstellungen angewandt werden
Effizienz: Reduziert die Zeit zur Problemlösung
Anpassungsfähigkeit: Lösungen können leicht an neue Situation angepasst werden
Qualität der Fallbasis entscheidend: Abhängig
Skalierbarkeit: Bei großen Fallbibliotheken kann Effizienz leiden
Ähnlichkeitsbewertung: Identifikation von Ähnlichkeitsmetriken sehr zentral aber schwer
Unterschied CBR und Rule based System
CBR
Rule Based
Art
Fallbasiert
Regelbasiert
Problemlösung
Suche nach ähnlichen Fällen
Verwendung logischer Schlussfolgerungen
Lernfähigkeit
Sehr hoch. System lernt mit jedem Fall
Neue Regeln müssen definiert werden
Anwendung
Probleme mit unstrukturierten Daten oder hoher Komplexität
Effizient ind strukturierten Daten/Umgebung
Implementierungsschritte CBR-Syszems
Fall Sammlung
Fall Repräsentation (Darstellung in welchem Format)
Indexierung: Entwicjeln eines effizienten Systems zur Indexierung und schnellen Abrufbarkeit
Ähnlichkeitsbewertung: Implementierung von Algorithmen zur Bewertung der Ähnlichkeit
Anpassungsmechanismus: Stratgien zur Anpassung früherer Lösungen
Zuletzt geändertvor 6 Monaten