Datenaufbereitung

Buffl

Machine Learning

by Daniel E.

Warum Datenaufbereitung?

Real-World-Daten sind:

Was ist das Ziel der Datenaufbereitung?

Optimierung der Datenqualität

Was sind die Parameter der Datenqualität?

Genauigkeit/Korrektheit
Relevanz
Vollständigkeit
Konsistenz

Was sind die Schritte der Datenaufbereitung?

Datenbereinigung (Data clean(s)ing)
Datenintegration (Data integration)
Datentransformation (Data transformation)
Datenreduktion (Data reduction)

Wie verfährt man mit fehlenden Werten?

Entfernung der gesamten Instanzen (Zeilen)
Ersetzen durch Lageparameter?
- Mittelwert, Median, Modus
Ersetzen durch wahrscheinlichsten Wert

Wie lassen sich die wahrscheinlichsten Werte berechnen?

durch Lernen von Verhersagemodellen auf vollständigen Instanzen

—> Trainingsdaten

Wie heißen die Trainingsverfahren für die Vorhersage fehlender Attribute bei metrischen und kategorischen Variablen?

metrische Zielvariablen: Regression
kategorische Zielvariablen: Klassifikation

Wie verfährt man mit fehlerhaften Werten?

Was sind Ausreißer?

Messwerte, die nicht in die Messreihe passen oder nicht den Erwartungen entsprechen

Wie werden Ausreißer definiert/erkannt?

2-σ-Methode

basiert auf Mittelwert und Standardabweichung (σ)
Werte, die >=2 Standardabweichungen (σ) vom Mittelwert abweichen

Berechnung von Clustern

Elemente, die keinem Cluster zugeordner werden können

Entfernen von Duplikaten?

basiert auf Distanzfunktion

entferne identische oder sehr ähnliche Zeilen bis auf eine

Was sind metrische Distanzmaße?

Wie lassen sich Distanzen auf numerischen Attributen berechnen?

Wie berechnet man Distanzen auf ordinalen Attributen?

Betrachtung der Ränge
- Berechnung einer Abbildung der Ränge
- Anwendung der Berechnung numerischer Distanzen auf den Rängen

Was ist das Integer Encoding?

mit f Ausprägungen

Wie berechnet man Distanzen auf nominalen Attributen?

Auch wenn Ausprägungen als ganze Zahlen repräsentiert werden, nicht als numerische Werte interpretieren!

Was ist das One-Hot Encoding?

Hintergrund: Integer Encoding bei nominalen Attributen nicht möglich

Wie berechnet man Distanzen auf binären Attributen?

Was ist der Jaccard Koeffizient?

Ähnlichkeitsmaß

Wie berechnet man Distanzen auf gemischten Attributtypen?

verwendung unterschiedlicher Distanzfunktionen und Kombination mit einer Norm:

oder: Überführung aller Attribute in numerische Attribute

Integer Encoding für ordinale Attribute
One-hot Encoding für nominale Attribute

Was ist die Levenshtein-Distanz?

Distanzmaß für Zeichenketten
minimale Anzahl von Operationen zur Umwandlung von erster in zweite Zeichenkette
- Einfügen, Entfernen, Ersetzen eines Zeichens
Beispiel:

Was sind Datenintegration und deren Ziel?

Kombination von Daten aus unterschiedlichen Quellen zu einem kohärenten Datensatz
Redundanzen und Inkonsistenzen so weit wie möglich
reduzieren

Was ist Datentransformation?

Wie normalisiert man Daten?

Wie standardisiert man Daten?

mittels Z-Transformation mit Erwartungswert = 0 und Varianz = 1 —> Standardabweichung = 1

Was sind Dimensionsreduktion und deren Ziele?

Entfernung unwichtiger Merkmale
dadurch Speicher- und Laufzeitoptimierung
bessere Visualisierbarkeit im 2D- oder 3D-Raum

Was ist der Fluch der Dimenionalität (Curse of dimensionality)?

Geringere Dichte mit höherer Dimension
Unterschied zwischen minimaler und maximaler Distanz wird beliebig klein

Was sind Verfahren zur Dimensionsreduktion?

Mekmalsselektion
Pricipal Componente Analysis (PCA)
Kernal PCA
Autoencoder
t-SNE (T-distibuted Stochastic Neigbor Embedding)
distanzbasierte Verfahren
- Principal Coordinate Analoysis (PCoA)
- Metrisches/Klassisches Multidimansional Scaling (MDS)
  - Darstellung von Objekten auf Basis ihrer Distanzen/Ähnlichkeiten im 2D-/3D-Raum
- Non-metric Multidimansional Scaling (NMDS)

Wie funktioniert Merkmalsselektion?

manuelle Auswahl Untermenge relevanter Features für geg. Fragestellung
ODER: Selektion relevanter Features durch computergestützte Methoden
- Filter-Methoden
  - mittels Korrelationskoeffizient —> Vergleich Verteilungen positiver und negativer Instanzen
- Wrapper-Methoden
  - Training und Evaluation auf verschiedenen Untermengen —> Auswahl der Untermenge mit bestem Ergebnis
- Eingebettete Methoden
  - z.B. Random Forest

Fakten zu Wrapper-Methoden im Kontext Merkmalsselektion?

sehr rechenaufwändig: d Merkmale —> 2^d Kombinationen
Greedy Algorithmus

Wie funktioniert grob die Hauptkomponentenanalyse (PCA)?

Ersetzung der Features durch Linearkombination
Datensatz D hat Matrixstruktur n x p mit
- n Samples
- jeweils p Merkmalen
Transformation der Matrix in Unterraum R^q mit q < p
- möglichst geringer Informationsverlust
- Auflösung von Korrelationen

Was sind Grundannahmen und Ziel der PCA?

Richtungen mit größter Varianz (Streuung) beinhalten meiste Informationen
somit: Projektion der Daten auf Richtungen mit größter Varianz

Was sind die Hauptkomponenten der PCA?

summary variables
eine Linearkombination der originalen Variablen
untereinander unkorreliert

Was ist die Hauptachsentransformation (PCA)?

Minimierung der Korrelation mehrdimensionaler Merkmale durch Überführung in Vektorraum mit neuer Basis
Projektion auf Verktor w: z = w^T x

Beispiel: schlechte/gute Projektionsgerade (PCA)

schlecht

Wie berechnet sich die Kovarianzmatrix C?

Wie erreicht man maximale Varianz (PCA)?

Wie ist das Vorgehen bei der PCA?

Was ist Multidimensionale Skalierung und dessen Ziel?

Ziel: Finden einer Konfiguration (Anordung von Objekten) mit Distanzen = erhobenen?! Ähnlichkeiten

Was sind die Unterarten der Multidimensionalen Skalierung?

metrische multidimensionale Skalierung
- PCoA (Hauptkoordinatenanalyse)
- Distanzen werden weitestgehend bewahrt
- “quantitative Ähnlichkeiten”
Nicht-metrische multidimensionale Skalierung (NMDS)
- Ränge statt metrischer Werte
- Monotonie statt tatsächlicher Distanzen
- “qualitative Ähnlichkeiten”

Was ist t-SNE und dessen Eigenschaften?

t-Distributed Stochastic Neigbor Embedding
Erhaltung lokaler Ähnlichkeiten (nachbarschaftserhaltend)
- Unterschied zu PCA: PCA erhält große Distanzen
nicht-lineares Dimensionsreduktionsverfahren

Join Course

Preview

Author

Daniel E.

Information

Last changed
3 years ago

Report course