undefined

by Alexander S.

Definition von KDD:

- Ermittlung von Zusammenhängen in Daten, welche über die reine Widergabe oder Aggregation der einzelnen Datenreihen hinausgehen

Ziel: Muster in Datensätzen erkennen und explizit machen

Zielbeziehungen

- Indifferenz: Realisierung von Ziel A wirkt sich nicht auf Realisierung von Ziel B aus

- Komplementarität: Realisierung von Ziel A beeinflusst Realisierung von Ziel B positiv

o Symmetrisch: Erreichung der Ziele hängt wechselseitig voneinander ab

o Asymmetrisch: Erreichung der Ziele hängt nur in einer Wirkungsrichtung voneinander ab

- Konkurrenz: Realisierung von Ziel A beeinflusst Realisierung von Ziel B negativ

Fehlerklassen

- Semantische Fehler: Daten bilden das Universum nicht korrekt ab, da sie inhaltlich abweichen

- Coverage Fehler: Realitätsausschnitt der Daten ist kleiner als angenommen

- Syntaktische Fehler: Daten bilden Universum nicht korrekt ab, da die Form der Daten eine korrekte Interpretation unmöglich macht

Fehlerursachen

- Verschmutzung: Abweichung von der Realität, obwohl korrekte Daten vorgelegen hätten

- Noise bzw. Rauschen:

o Instanzen, welche nicht zum betrachteten Universum gehören

o Attribute, welche irrelevant für Untersuchungsgegenstand sind

o Attributwerte, welche falsch beobachtet oder gemessen wurden

- Statistischer Noise: Daten sind Kombination aus Signal und Noise

- Unzulässige Werte: Syntaktisch nicht zulässige Werte, können erkannt werden

- Fehlende bzw. unvollständige Werte / Nullwerte: Keine Angabe zu Attribut

- Redundanz: Doppelte Daten zu gleichem Objekt

- Unregelmäßigkeiten: Uneinheitliche Form der vorliegenden Daten

Umgang mit Fehlern:

- Laissez-Faire-Prinzip: Bei harmlosen und seltenen Fehlern ist keine Aktion erforderlich

- Reaktives Vorgehen: Bereinigung nach Auftritt des Fehlers aber keine Ursachenbehebung

- Proaktives Vorgehen: Vermeidung im Voraus

Qualitative und quantitative Attribute:

- Qualitative bzw. kategorische Attribute:

o Nominal oder ordinal skaliert

o Arithmetische Operationen nicht zulässig

- Quantitative bzw. numerische Attribute:

o Intervall- oder Verhältnisskala

o Wertebereich diskret oder kontinuierlich

o Möglichkeit eines Wechsels auf niedrigeres Skalenniveau durch Informationsverlust

o Umwandlung von quantitativen in qualitative Attribute unter möglichst geringem Informationsverlust wird „Diskretisierung“ genannt

- Vier Niveaustufen:

o Nominal skalierte Attribute:

§ Eindeutige und überschneidungsfreie Unterschreidung der Attribute möglich, jedoch sind keine Aussagen über Beziehungen von Attributwerten zueinander möglich

§ Beispiel: Waagennummer von Gemüse im Supermarkt

o Ordinal skalierte Attribute:

§ Ermöglichen Rangfolge der Attributwerte

§ Beispiel: Beliebtheit hoch, mittel, niedrig

o Intervallskala:

§ Differenzbildung zwischen Attributwerten möglich

§ Beispiel: Differenz zwischen Tagen des Ablaufdatums

o Verhältnisskala:

§ Nullpunkt der Attributwerte existiert

Normalisierung:

Grundaufgaben von DM:

Assoziationsanalyse
- Erkennung logischer Abhängigkeiten zwischen einzelnen Attributen einer Instanz
Clusteranalyse
- Unterteilung einer Gesamtheit in mehrere, in sich homogene Gruppen
- Zielgröße unbekannt
Klassifizierung
- Finden einer Zuordnungsvorschrift, die Instanzen in Klassen einteilt
- Menge der Klassen muss vorab bekannt sein
Approximation / Regression

Überwachtes und unüberwachtes Lernen:

- Überwachtes Lernen: Zu lernende Größe innerhalb der Trainingsdaten ist bekannt (bei Klassifizierung und Approximation), Erfolg kann formal überwacht werden

- Unüberwachtes Lernen: Strukturen im Datenbestand sind im Voraus nicht bekannt (bei Clusteranalyse)

Occam’s Razor:

- Traditionelles Prinzip der Wirtschaft: Bei gleicher Erklärungskraft sind einfache Theorien komplexen Theorien vorzuziehen

No Free Lunch Theorem:

- Zentrales Ergebnis der statistischen Lerntheorie besagt, dass Kriterien zur Auswahl des Algorithmus nur begrenzt anwendbar sind:

Entscheidungsbaumverfahren

- Dient der Klassifizierung und Approximation, wobei Fokus hier auf Klassifizierung liegt

- Ziel: Vorhersage von Instanzen zu Klassen, das Konzept wird dabei in Partitionen aufgeteilt

Regressionsanalyse

- Statistische Modellierung von Klassifizierungs- und Approximationsproblemen

- Modellierung als Funktion

Clusteranalyse

- Gruppierung von Instanzen nach Kriterien, ohne das Gruppen im Voraus bekannt sind

- Unüberwachtes Verfahren

- Objekte innerhalb eines Clusters möglichst ähnlich, Cluster untereinander möglichst unterschiedlich

Divisiv(aufspaltend)
Zusammenführung (agglomerativ)

Distanzfunktionen:

Distanzen beim Clustering:

o Single-Linkage: Minimale paarweise Entfernung zweier Instanzen

o Complete-Linkage: Maximale paarweise Entfernung zweier Instanzen

o Average-Linkage: Mittell der paarweisen Entfernungen zweier Instanzen

o Centroid: Abstand der Mittelpunkte der Cluster

o Ward: Minimiert Variant innerhalb des neu entstehenden Clusters

Apriori-Algorithmus

- Erkennung von wenn-dann-Regeln (Auftreten von einem oder mehreren Items als Konsequenz vom Auftreten eines oder mehrerer anderer Items)

- Beispiel: häufig zusammen gekaufte Waren in Supermarkt

Konfidenz und Support:

Support: Wahrscheinlichkeit, dass Itemmenge in Transaktion vorkommt.

(Häufigkeit A und B)/(Anzahl aller Transaktionen)

Konfidenz: Relative Häufigkeit des Vorkommens der Konklusion unter der Bedinung der Prämisse.

(Support (A->B))/(Support(A))

Kriterien zur Beurteilung von Modellen:

Validität
Neuigkeitsgehalt und Verständlichkeit
Nützlichkeit

Join Course

Preview

Author

Alexander S.

Information

Last changed
3 years ago

Report course

Einheit 2