Warum Datenaufbereitung?
Real-World-Daten sind:
Was ist das Ziel der Datenaufbereitung?
Optimierung der Datenqualität
Was sind die Parameter der Datenqualität?
Genauigkeit/Korrektheit
Relevanz
Vollständigkeit
Konsistenz
Was sind die Schritte der Datenaufbereitung?
Datenbereinigung (Data clean(s)ing)
Datenintegration (Data integration)
Datentransformation (Data transformation)
Datenreduktion (Data reduction)
Wie verfährt man mit fehlenden Werten?
Entfernung der gesamten Instanzen (Zeilen)
Ersetzen durch Lageparameter?
Mittelwert, Median, Modus
Ersetzen durch wahrscheinlichsten Wert
Wie lassen sich die wahrscheinlichsten Werte berechnen?
durch Lernen von Verhersagemodellen auf vollständigen Instanzen
—> Trainingsdaten
Wie heißen die Trainingsverfahren für die Vorhersage fehlender Attribute bei metrischen und kategorischen Variablen?
metrische Zielvariablen: Regression
kategorische Zielvariablen: Klassifikation
Wie verfährt man mit fehlerhaften Werten?
Was sind Ausreißer?
Messwerte, die nicht in die Messreihe passen oder nicht den Erwartungen entsprechen
Wie werden Ausreißer definiert/erkannt?
2-σ-Methode
basiert auf Mittelwert und Standardabweichung (σ)
Werte, die >=2 Standardabweichungen (σ) vom Mittelwert abweichen
Berechnung von Clustern
Elemente, die keinem Cluster zugeordner werden können
Entfernen von Duplikaten?
basiert auf Distanzfunktion
entferne identische oder sehr ähnliche Zeilen bis auf eine
Was sind metrische Distanzmaße?
Wie lassen sich Distanzen auf numerischen Attributen berechnen?
Wie berechnet man Distanzen auf ordinalen Attributen?
Betrachtung der Ränge
Berechnung einer Abbildung der Ränge
Anwendung der Berechnung numerischer Distanzen auf den Rängen
Was ist das Integer Encoding?
mit f Ausprägungen
Wie berechnet man Distanzen auf nominalen Attributen?
Auch wenn Ausprägungen als ganze Zahlen repräsentiert werden, nicht als numerische Werte interpretieren!
Was ist das One-Hot Encoding?
Hintergrund: Integer Encoding bei nominalen Attributen nicht möglich
Wie berechnet man Distanzen auf binären Attributen?
Was ist der Jaccard Koeffizient?
Ähnlichkeitsmaß
Wie berechnet man Distanzen auf gemischten Attributtypen?
verwendung unterschiedlicher Distanzfunktionen und Kombination mit einer Norm:
oder: Überführung aller Attribute in numerische Attribute
Integer Encoding für ordinale Attribute
One-hot Encoding für nominale Attribute
Was ist die Levenshtein-Distanz?
Distanzmaß für Zeichenketten
minimale Anzahl von Operationen zur Umwandlung von erster in zweite Zeichenkette
Einfügen, Entfernen, Ersetzen eines Zeichens
Beispiel:
Was sind Datenintegration und deren Ziel?
Kombination von Daten aus unterschiedlichen Quellen zu einem kohärenten Datensatz
Redundanzen und Inkonsistenzen so weit wie möglich
reduzieren
Was ist Datentransformation?
Wie normalisiert man Daten?
Wie standardisiert man Daten?
mittels Z-Transformation mit Erwartungswert = 0 und Varianz = 1 —> Standardabweichung = 1
Was sind Dimensionsreduktion und deren Ziele?
Entfernung unwichtiger Merkmale
dadurch Speicher- und Laufzeitoptimierung
bessere Visualisierbarkeit im 2D- oder 3D-Raum
Was ist der Fluch der Dimenionalität (Curse of dimensionality)?
Geringere Dichte mit höherer Dimension
Unterschied zwischen minimaler und maximaler Distanz wird beliebig klein
Was sind Verfahren zur Dimensionsreduktion?
Mekmalsselektion
Pricipal Componente Analysis (PCA)
Kernal PCA
Autoencoder
t-SNE (T-distibuted Stochastic Neigbor Embedding)
distanzbasierte Verfahren
Principal Coordinate Analoysis (PCoA)
Metrisches/Klassisches Multidimansional Scaling (MDS)
Darstellung von Objekten auf Basis ihrer Distanzen/Ähnlichkeiten im 2D-/3D-Raum
Non-metric Multidimansional Scaling (NMDS)
Wie funktioniert Merkmalsselektion?
manuelle Auswahl Untermenge relevanter Features für geg. Fragestellung
ODER: Selektion relevanter Features durch computergestützte Methoden
Filter-Methoden
mittels Korrelationskoeffizient —> Vergleich Verteilungen positiver und negativer Instanzen
Wrapper-Methoden
Training und Evaluation auf verschiedenen Untermengen —> Auswahl der Untermenge mit bestem Ergebnis
Eingebettete Methoden
z.B. Random Forest
Fakten zu Wrapper-Methoden im Kontext Merkmalsselektion?
sehr rechenaufwändig: d Merkmale —> 2^d Kombinationen
Greedy Algorithmus
Wie funktioniert grob die Hauptkomponentenanalyse (PCA)?
Ersetzung der Features durch Linearkombination
Datensatz D hat Matrixstruktur n x p mit
n Samples
jeweils p Merkmalen
Transformation der Matrix in Unterraum R^q mit q < p
möglichst geringer Informationsverlust
Auflösung von Korrelationen
Was sind Grundannahmen und Ziel der PCA?
Richtungen mit größter Varianz (Streuung) beinhalten meiste Informationen
somit: Projektion der Daten auf Richtungen mit größter Varianz
Was sind die Hauptkomponenten der PCA?
summary variables
eine Linearkombination der originalen Variablen
untereinander unkorreliert
Was ist die Hauptachsentransformation (PCA)?
Minimierung der Korrelation mehrdimensionaler Merkmale durch Überführung in Vektorraum mit neuer Basis
Projektion auf Verktor w: z = w^T x
Beispiel: schlechte/gute Projektionsgerade (PCA)
schlecht
gut
Wie berechnet sich die Kovarianzmatrix C?
Wie erreicht man maximale Varianz (PCA)?
Wie ist das Vorgehen bei der PCA?
Was ist Multidimensionale Skalierung und dessen Ziel?
Ziel: Finden einer Konfiguration (Anordung von Objekten) mit Distanzen = erhobenen?! Ähnlichkeiten
Was sind die Unterarten der Multidimensionalen Skalierung?
metrische multidimensionale Skalierung
PCoA (Hauptkoordinatenanalyse)
Distanzen werden weitestgehend bewahrt
“quantitative Ähnlichkeiten”
Nicht-metrische multidimensionale Skalierung (NMDS)
Ränge statt metrischer Werte
Monotonie statt tatsächlicher Distanzen
“qualitative Ähnlichkeiten”
Was ist t-SNE und dessen Eigenschaften?
t-Distributed Stochastic Neigbor Embedding
Erhaltung lokaler Ähnlichkeiten (nachbarschaftserhaltend)
Unterschied zu PCA: PCA erhält große Distanzen
nicht-lineares Dimensionsreduktionsverfahren
Zuletzt geändertvor einem Jahr