Was für Lernziele gibt es im Kapitel Lernvorbereitung?
Was ist ein häufiges Problem mit Daten hoher Dimensionalität?
Problem: oft Daten mit hoher Dimensionalität (z.B. viele Messwerte bei jeder Beobachtung)
· Unterscheidbarkeit der Daten nimmt ab -> Clustering wird schwierig
· Hochdimensionale Datensätze oft dünn besetzt (große Abstände zwischen Datenpunkten)
· Gefahr des Overfittings (Occams Razor)
· Schwer vorstellbar
Welcher Nutzen wird durch die Dimensionsreduktion erreicht?
· Weniger Speicherplatz + schneller
· Entfernung von „Rauschen“
· Ermöglicht Visualisierung (2D, 3D)
Welche Methoden der Dimensionsreduktion wurden behandelt?
Was wird under Expertenwissenvertanden
· Expertenwissen: Auswahl relevanter Datenquellen
Erkläre unter “Ende der Theory” Ansatz die Teilmengenselektion. Welche zwei Ansätze gibt es dort?
Ende der Theorie“-Ansatz
Teilmengenselektion = Variablenauswahl, die am meisten zur Genauigkeit beitragen
Greedy-Suchalgorithmus: Rückwärtsselektion/Sequenzielle Rückwärtsauswahl (SBS = Sequential Backwards Selection): testet der Reihe nach, welches Merkmal bzw. welche Merkmale entfernt werden können, sodass die geringste Leistungseinbuße (z.B. Vorhersagegenauigkeit) erreicht wird
Vorwärtsselektion: mit einem Merkmal wird angefangen und weitere hinzugefügt, bis das Modell leistungsfähig genug ist
Random Forsts: Entscheidungsbäume werden erstellt, anhand derer die Wichtigkeit eines Merkmals ermittelt wird
Was wird unter dem Extrahieren von Merkmalen (Feature Extraction) verstanden und unter welchen zwei Methoden kann dort unterschieden werden?
Extrahieren von Merkmalen = Feature Extraction: anhand der Menge der Merkmale werden Informationen zur Konstruktion eines neuen Merkmalsraums (mit niedrigerer Dimension) ermittelt keine Entfernung von Merkmalen
Hauptkomponentenanalyse (PCA): unüberwachte Datenkomprimierung Daten auf niedriger-dimensionalen Unterraum projizieren, sodass die Varianz entlang der orthogonalen Merkmalsachsen maximal wird (Klassenbezeichnungen der Trainingsmenge werden ignoriert)
Lineare Diskriminanzanalyse (LDA): überwachtes Verfahren Trennbarkeit von Klassen wird maximiert unter Berücksichtigung der Klasseninformation
Kernel-Hauptkomponentenanalyse (KPCA): nichtlineare Dimensionsreduktion
T-verteiltes Stochastic Neighbor Embedding
Lineare Diskriminantenanalyse
Thema: Skallierung
Welche Probleme treten bei der Skalierung auf, was sind die Folgen draus und welche zwei Lösungsansätze gibt es?
Probleme: verschiedene Datenformate, Einheiten, Größenordnungen:
Folgen:
in ML nicht verarbeitbar, rechnen mit Zahlen ohne Einheiten
schlechtes Verhalten wenn nicht standardisiert (nur Entscheidungsbäume + random forests skalenvariant)
Lösungsansätze: Feature Scaling
Min-Max-Skalierung: Merkmal auf Intervall [0,1] abbilden
Pro: erfordert keine gaußförmige Verteilung der Daten
Con: nicht robust gegenüber Ausreißern
Standardisierung (Z-Score Normierung): MW sind bei 0 und SD bei 1 zentriert
Pro: z-Scores ermöglichen Vergleich zwischen Datensätzen mit unterschiedlichen MW/SD
Con: Daten müssen grobe Normalverteilung besitzen, nicht robust ggü. Ausreißern; ursprüngliche Daten können nur mit MW/SD wiederhergestellt werden
Thema: Datenvorbereitung in Bilddaten
Welche klassischen Werkzeuge gibt es in der Datenvorbereitung von Bilddaten?
· Klassische Werkzeuge: Farbfilter, Kontrastveränderung, Helligkeit
· Dimensionsreduktion (bei Bildern hat man 3 Dimensionen)
o Verringerung der Auflösung
o Bildausschnitt verweden
o Graustufenbilder statt Farbfotos
Was bedeutet Labeling und Semantische Segmentierung?
Labeling: Unterscheidung zwischen Hintergrund, Werkzeug, Verschleiß
Semantische Segmentierung: jedem Pixel wird einzeln eine Bedeutung zugewiesen, KI klassifiziert jedes Pixel
Was bedeutet Data Augmentation, welche Vor - und Nachteile und welche zwei Unterscheidungen gibt es?
Data Augmention: geringfügige Adaptionen der Originaldatei (Farbe, Helligkeit, Kontrast, Drehung, Verschiebung, …) —> Vergrößerung Datensatz, Gefarh Overfitting reduzieren
Pro: schnelles Training
Con: mehr Speicherbedarf
Offline Augmention: vor dem Training
Online/ Realtime Augmention: während des Training —> keine zusätzlichen Dateien
Pro: kein zusätzlicher Speicherbedarf
Con: kein Zugriff auf verwendete Daten
Thema: Datenaufteilung
Wie und nach welchem Verhältnis werden Datenaufgeteilt?
· Trainingsdaten: Training + Optimierung des Lernalgorithmus
· Testdaten: Beobachtung des Modells auf unbekannte Daten, Erstellung von Leistungsmetriken anhand des Verhaltens mit Testdaten
· Validierungsdaten (optional): Vergleich während des Trainings, Abbruch bei Unterschreitung eines erlaubten Fehlers
—> Verhältnisse von Merkmalsausprägungen in den Gesamtdaten können bei der Unterteilung in Teilmengen beibehalten werden (stratify, stratification)
—> Aufteilungsverhältnis: 60:40, 70:30, 80:20 (große Datenmengen: 90:10, 99:1)
Zuletzt geändertvor 9 Monaten