Weshalb müssen Daten prepariert werden?
Daten aus der realen Welt sind schmutzig
Daten stammen aus unterschiedlichen Informationsquellen
Nennen Sie die verschiedenen Arten von Missing Values?
Missing Completely At Random (MCAR)
Missing At Random (MAR)
=> Geschlecht X mag es weniger wahrscheinlich, dass es sein Gewicht Y angibt
Not Missing At Random (NMAR)
=> Schwere Personen geben ihr Gewicht seltener an.
Wie geht man mit fehlenden Werten um?
Datensatz ignorieren oder entfernen
Ergänzen mit Hilfe: Median, häufigster Wert, nächster Wert o.Ä
Was versteht man unter Missing Value Imputation?
Prozess der Ersetzung fehlender Daten durch Ersatzwerte
Welche Techniken bzw. Methoden gibt es bei der Dimensionsreduktion?
Untersuchung mittels Messgrößen
Transformationen mittels PCA, LDA oder t-SNE
Mit Hilfe von Machine Learning
Was ist das Ziel der Normalisierung?
Transformation von Attributen, um Datensatzbereiche vergleichbar zu machen
Wo liegt der Wertebereich nach der Normalisierung?
Zwischen 0 und 1
Erläutern Sie die Abkürzung PCA.
Principal Components Analysis
Reduzierung der Anzahl der unabhängigen Variablen bei geringem Informationsverlust
unsupervised
Wann ist PCA nutzlich?
Bei einer großen Anzahl von Variablen und geringen Beobachtungen
Multikollinearität
Anwendung nur bei numerischen Variablen
Erläutern Sie die Abkürzung LDA.
Linear Discriminant Analysis
supervised
Was haben die beiden Methoden Feature Selection und Dimensionality reduction gemeinsam?
Reduzieren die Anzahl der Merkmale in einem Datensatz
Welche Normalisierungs-Techniken gibt es?
Min-Max Normalisierung
z-score Normalisierung
Was ist der Nachteil der Min-Max Normalisierung?
Die Datenwerte werden in Richtung des Mittelwerts gebracht
Wofür ist die z-score Normalisierung besser?
Wenn man sicherstellen will, dass Ausreißer stärker gewichtet werden als andere Werte.
Last changed3 months ago