Definition von KDD:
- Ermittlung von Zusammenhängen in Daten, welche über die reine Widergabe oder Aggregation der einzelnen Datenreihen hinausgehen
Ziel: Muster in Datensätzen erkennen und explizit machen
Zielbeziehungen
- Indifferenz: Realisierung von Ziel A wirkt sich nicht auf Realisierung von Ziel B aus
- Komplementarität: Realisierung von Ziel A beeinflusst Realisierung von Ziel B positiv
o Symmetrisch: Erreichung der Ziele hängt wechselseitig voneinander ab
o Asymmetrisch: Erreichung der Ziele hängt nur in einer Wirkungsrichtung voneinander ab
- Konkurrenz: Realisierung von Ziel A beeinflusst Realisierung von Ziel B negativ
Fehlerklassen
- Semantische Fehler: Daten bilden das Universum nicht korrekt ab, da sie inhaltlich abweichen
- Coverage Fehler: Realitätsausschnitt der Daten ist kleiner als angenommen
- Syntaktische Fehler: Daten bilden Universum nicht korrekt ab, da die Form der Daten eine korrekte Interpretation unmöglich macht
Fehlerursachen
- Verschmutzung: Abweichung von der Realität, obwohl korrekte Daten vorgelegen hätten
- Noise bzw. Rauschen:
o Instanzen, welche nicht zum betrachteten Universum gehören
o Attribute, welche irrelevant für Untersuchungsgegenstand sind
o Attributwerte, welche falsch beobachtet oder gemessen wurden
- Statistischer Noise: Daten sind Kombination aus Signal und Noise
- Unzulässige Werte: Syntaktisch nicht zulässige Werte, können erkannt werden
- Fehlende bzw. unvollständige Werte / Nullwerte: Keine Angabe zu Attribut
- Redundanz: Doppelte Daten zu gleichem Objekt
- Unregelmäßigkeiten: Uneinheitliche Form der vorliegenden Daten
Umgang mit Fehlern:
- Laissez-Faire-Prinzip: Bei harmlosen und seltenen Fehlern ist keine Aktion erforderlich
- Reaktives Vorgehen: Bereinigung nach Auftritt des Fehlers aber keine Ursachenbehebung
- Proaktives Vorgehen: Vermeidung im Voraus
Qualitative und quantitative Attribute:
- Qualitative bzw. kategorische Attribute:
o Nominal oder ordinal skaliert
o Arithmetische Operationen nicht zulässig
- Quantitative bzw. numerische Attribute:
o Intervall- oder Verhältnisskala
o Wertebereich diskret oder kontinuierlich
o Möglichkeit eines Wechsels auf niedrigeres Skalenniveau durch Informationsverlust
o Umwandlung von quantitativen in qualitative Attribute unter möglichst geringem Informationsverlust wird „Diskretisierung“ genannt
- Vier Niveaustufen:
o Nominal skalierte Attribute:
§ Eindeutige und überschneidungsfreie Unterschreidung der Attribute möglich, jedoch sind keine Aussagen über Beziehungen von Attributwerten zueinander möglich
§ Beispiel: Waagennummer von Gemüse im Supermarkt
o Ordinal skalierte Attribute:
§ Ermöglichen Rangfolge der Attributwerte
§ Beispiel: Beliebtheit hoch, mittel, niedrig
o Intervallskala:
§ Differenzbildung zwischen Attributwerten möglich
§ Beispiel: Differenz zwischen Tagen des Ablaufdatums
o Verhältnisskala:
§ Nullpunkt der Attributwerte existiert
Normalisierung:
Grundaufgaben von DM:
Assoziationsanalyse
Erkennung logischer Abhängigkeiten zwischen einzelnen Attributen einer Instanz
Clusteranalyse
Unterteilung einer Gesamtheit in mehrere, in sich homogene Gruppen
Zielgröße unbekannt
Klassifizierung
Finden einer Zuordnungsvorschrift, die Instanzen in Klassen einteilt
Menge der Klassen muss vorab bekannt sein
Approximation / Regression
Überwachtes und unüberwachtes Lernen:
- Überwachtes Lernen: Zu lernende Größe innerhalb der Trainingsdaten ist bekannt (bei Klassifizierung und Approximation), Erfolg kann formal überwacht werden
- Unüberwachtes Lernen: Strukturen im Datenbestand sind im Voraus nicht bekannt (bei Clusteranalyse)
Occam’s Razor:
- Traditionelles Prinzip der Wirtschaft: Bei gleicher Erklärungskraft sind einfache Theorien komplexen Theorien vorzuziehen
No Free Lunch Theorem:
- Zentrales Ergebnis der statistischen Lerntheorie besagt, dass Kriterien zur Auswahl des Algorithmus nur begrenzt anwendbar sind:
- Dient der Klassifizierung und Approximation, wobei Fokus hier auf Klassifizierung liegt
- Ziel: Vorhersage von Instanzen zu Klassen, das Konzept wird dabei in Partitionen aufgeteilt
- Statistische Modellierung von Klassifizierungs- und Approximationsproblemen
- Modellierung als Funktion
- Gruppierung von Instanzen nach Kriterien, ohne das Gruppen im Voraus bekannt sind
- Unüberwachtes Verfahren
- Objekte innerhalb eines Clusters möglichst ähnlich, Cluster untereinander möglichst unterschiedlich
Divisiv(aufspaltend)
Zusammenführung (agglomerativ)
Distanzfunktionen:
Distanzen beim Clustering:
o Single-Linkage: Minimale paarweise Entfernung zweier Instanzen
o Complete-Linkage: Maximale paarweise Entfernung zweier Instanzen
o Average-Linkage: Mittell der paarweisen Entfernungen zweier Instanzen
o Centroid: Abstand der Mittelpunkte der Cluster
o Ward: Minimiert Variant innerhalb des neu entstehenden Clusters
- Erkennung von wenn-dann-Regeln (Auftreten von einem oder mehreren Items als Konsequenz vom Auftreten eines oder mehrerer anderer Items)
- Beispiel: häufig zusammen gekaufte Waren in Supermarkt
Konfidenz und Support:
Support: Wahrscheinlichkeit, dass Itemmenge in Transaktion vorkommt.
(Häufigkeit A und B)/(Anzahl aller Transaktionen)
Konfidenz: Relative Häufigkeit des Vorkommens der Konklusion unter der Bedinung der Prämisse.
(Support (A->B))/(Support(A))
Kriterien zur Beurteilung von Modellen:
Validität
Neuigkeitsgehalt und Verständlichkeit
Nützlichkeit
Zuletzt geändertvor 2 Jahren