Welche Lernparadigmen gibt es beim Machine Learning
Supervised (Eingabewerte (features) und Zielwerte. Wird mit gelabeled Daten trainiert)
Unsupervised
Reinforcement Learning
Warum Train/Test Split
Train: Verwendet um Modell zu trainieren und Parameter zu optimieren. Modell lernt Muster und Merkmale in den Daten
Test: Evaluierung Modelleistung basierend auf Daten, die während des Trainings nicht gesehen (Vermindert Risiko für Overfitting)
Zwei Kategorien des Supervised Learnings
Regression: Zusammenhang zwischen Eingabedaten und kontinuirlichen Ausgabewerten (Versucht Funktion zu finden die Beziehung zwischen Features und zugehörigem Ausgabewert beschreibt) —> Numerische Werte
Vorhersage von Imobilienpreisen
Analyse historische Verkehrdaten und aktueller Verkehrbedingungen
Lebenserwartung bei Menschen
Klassifikation: Eingaben stellen Feature Vektoren, die bestimmten Klassen zugeordnet werden können. Erstellt Decision Boundaries die Mermalsräume trennen —> Ganzzahlige Werte (True/False)
Spam Filter
Objekterkennung
Spracherekennung
Diagnostik
Modelle der Regression
Lineare Regression: Berechnung lineare Funktion, die Abweichung zu einzelnen Datenpunkten minimiert
Decision Tree: Rekursive Aufteilung in Teilmengen des Baums (Basierend auf Entropie, Gini Index) —> Bis Homogene Teilmengen, Top-Down Prinzip
Random Forest: Benutzt vielzahl an Entscheidungsbäumen —> Durchschnitt der Ausgaben wird genutzt (Erhöht Robustheut und Genauigkeit durch Konsensusmechanismen). Nutzt Techniken wie Bootstram Aggregating und Feature Randominisierung um Korrelation zu reduzieren
Was ist Pruning
Hilft Entscheidungsbäume zu vereinfache und Overfitting zu vermeiden —> Entfernun irrelevanter Zweige
Pre-Prunning: Limitiert Wachstums der Bäume, z.B. durch Tiefenlimit
Post-Prunning: Entfernt Zweige nach Aufbau, die wenig bis nicht zur Modellgenauigkeit beitragen
Modelle der Klassifikation
Logistische Regression: Dichotome Variable (zwei Ausprägungen). Wir suchen Wahrscheinlichkeit, dass es einen Zustand annimmt (Erst Linear dann transformation zu sigmoind funktion)
Support Vector Machone: Hyperplane (eine Linie in 2D, eine Ebene in 3D usw.) finden, die die Datenpunkte verschiedener Klassen mit maximalem Abstand trennt.
Entscheidungsbäume (und Random Forest) können ebenfalls Dinge zu einer Kategorie zuordnen
Evaluation
Nutzung Confusion Matrix
Kalkulation Precision: TP/(TP+FP): Wichtig wo Kosten für positives hoch sind
Kalkulation Recall: TP/(TP+FN): Wichtig wo Kosten für negatives hoch sind
Kalkulation F1: 2x (Precision x Recall)/(Precision+Recall)
Was versteht man unter Kreuvalidierung
Grundidee besteht darin, den verfügbaren Datensatz in mehrere Teile zu unterteilen und das Modell mehrfach zu trainieren und zu testen
K-Fold Cross-Validation: Daten werden in k-Teile unterteilt. Modell wird k mal trainiert und getestet wobei in jeder interation ein anderer Testdatensatz
Leave-One-Out Cross-Validation: So viele Teile wie Datenpunkte. In jeder Interation ein einzelner Teil zum testen
Random Subsampling: Mehrfach zufäälig aufgteilt und trainiert und getestet. Durchschitt der Ergebnisse wird gebildet
Supervised Neuronales Netzt
Ein neuronales Netzwerk besteht aus mehreren Schichten von Neuronen
Typischerweise gibt es eine Eingabeschicht, eine oder mehrere versteckte Schichten und eine Ausgabeschicht.
Training:
Vorwärtspropagation: Eingaben durchlaufen die einzelnen Schichten durch welche sie transformiert werden
Fehlerberechnung: Der Unterschied zwischen der vorhergesagten Ausgabe des Netzwerks und dem tatsächlichen Label wird berechnet
Rückwärtspropagation (Backpropagation): Der Fehler wird zurück durch das Netzwerk propagiert, und die Gewichte der Verbindungen werden angepasst, um den Fehler zu minimieren
Aufbau eines Neurons
Topologien von SupervisedNN
Uni-directional:
Bi-directional (Wo Kontext wichtig ist)
Memory & Attention
Generativ
Wie funktioniert ein Generativ Adverserial Network?
2 Neurale Netze, die gegeneinander arbeiten
Generator versucht, realistische Daten zu erstellen, und der Diskriminator versucht, zwischen echten Daten und vom Generator erzeugten Daten zu unterscheiden
Generator wird mit der Bewertung des Diskriminators trainiert und ist meist ein ein Deconvolutional Neural Network (Verarbeiten von niedriger Auflösung zu hoher)
Diskriminator mein Convolutional Neural Network (Verarbeiten Daten von der hohen räumlichen Auflösung zu niedrigeren Auflösungen)
GAN ist Training mit großen Datenmengen schwierig, daher von autoregressiven Diffusion Modellen verdrängt
Was ist ein RNN?
Recurrent Neural Networks
Klasse von NN, die für die VErarbeitung von Squenzen oder zeitlichen Datenstrukturen entwickelt wurde.
Können Informationen über mehrere Schritt speichern
Verwenden rekurrente Schritten. Einheit akzeptiert eine Eingabe sowie Informationen aus vorherigen Schritten
Daten werden in Neuronen gespeichert (kein zentraler Speicher)
Was sind NTMs?
Neural Turing Machines
Speichern Daten in zentralen Speicher (inspiriert von Arbeitsgedächtnis)
NTMs bestehen aus zwei Hauptkomponenten: einem neuronalen Netzwerk und einem externen Speicher
Das neuronale Netzwerk fungiert als Controller, das Eingaben verarbeitet, Entscheidungen trifft und Operationen auf dem externen Speicher ausführt
Verwenden oft Attention-Gewichte oder differentiable Memory Adressing (Effizientes Zugreifen auf Speicher)
Transformer effizienter da verteilt arbeiten können und besser bei Sequenzen
Was ist Zeitreihenanalyse
Erheben von statistischen Messgrößen (Mittelwert, Varianz, Moving Average)
Zerlegung in Komponenten (Decomposition)
Vergleich von mehreren Zeitreihen
—> Erkennen von Mustern
Verständnis von vergangenem Verhalten
Oft erster Schritt für Vorhersagen
Unterschiedung von Zeitreihen
Komponenten der Zeitreihenanalyse
Trend: Langfristige Richtung und Wachstumsmuster
Schwankungen: Regelmäßige Muster, die in fest zeiträumen oder zyklisch wenn unbestimmte Abstände
Irregulärer Rest: Das Rauschen und nicht erklärbare
Modelle der Zeitreihenzerlegung
Additives Modell: Daten sind Sume von Zeitreihenkomponenten. Saisonale Schwakungen unabhängig von Rend —> Fröße der Schwankungen konstant
Multiplikatives Modell: Saisonale Schwankungen proportional zum Trend —> Mit Trend steigen auch saisonale Effekte
Vorgehen bei Vergleich von Zeitreihen
Fast immer Vorverarbeitung notwendig (Relative Zeitpunkte, Amplitude skalieren, Bereinigen von Rauschen)
Zeitreihenzerlegung (Vergleich der Komponenten, ähnlicher Trend/Muster)
Matching Analyse (Welche Zeitreihe passt am besten zur Eingabe)
Analyse Algorithmus: Dynamic Time Wrapping
Modell zur Matching Analyse
Dynamic Time Warping (DTW)
Ansätze und Modelle der Zeitreihenvorhersage
Statistisch:
ARIMA
SARIMA
Exponentielle Glättung
Deep Learning
LSTM
GRU
Wie funktioniert ARIMA?
Auto Regressive Integrated Moving Average
AR: Diese Komponente bezieht sich auf die Nutzung der linear gewichteten Summe vergangener Werte der Zeitreihe, um zukünftige Werte zu prognostizieren.
I: Anzahl Differenzierung, um Daten wenn notwendig stationär zu machen
MA: Diese Komponente verwendet den Fehler des Vorhersagemodells, um zukünftige Werte zu schätzen. (Das was von AR-Modell übrig bleibt/nicht genutzt wird)
Wie funktioniert Exponentielle Glättung
Reihe von Verfahren zur Vorhersage von Zeitreihen
Schätzung der zukünftigen Werte auf Grundlage gewichteter Mittlerwerte
Neuste Beobachtungen haben höheres Gewicht
Wie funktionieren LSTMs?
Lernt Langzeitabhängigkeiten - Deep Learning Zeitreihenvorhersage
Hat Rückkopplungsverbindungen (Recurrent Neural Network)
Speicherzellen die Info speichern
Besteht aus mehreren Gates
Forget Gate (Welche Information aus dem vorherigen Schritt soll behalten werden?”)
Input Gate (Welche Information aus dem aktuellen Schritt soll hinzugefügt werden?)
Outputgates (Welche Information soll in den nächsten weitergegeben werden?” )
Was sind GRUs?
Gated Recurrent Unit (GRU) - Deep Learning Zeitreihenvorhersage
Weniger Parameter wie LSTMs und keine Speicherzelle —> Für kürzere Abhängigkeiten gut
Auch Stuerung über Gates
Reset Gate: Inwieweit soll der vorherige Hidden State den aktuellen beeinflussen. Wie viel vergessen
Update Gate: Wie viele der neuen Informationen sollen dem hidden State hinzugefügt werden
Was sind Anomalien
Fälle, die in irgendeiner Weise ungewöhnlich sind und von einer Vorstellung von Normalität abweichen
Aka Ausreißer, Neuheit, Abweichung oder Unstimmigkeit
Arten von Anomalien
Unbeabsichtigte Anomalien: Rauschen, Zufälle
Beabsichtigte Anomalien: Aktionen und Ereignisse als Auslöser
Punktanomalien: Globale Sonderfälle
Kontextbezogene Anomalien
Kollektive Anomalien: Gemeinsam von der Norm abweichend, einzeln aber nicht unbedingt
Was ist eine Statistische Methode der Anomalieerkennung?
Z-Score: Statistisches Maß, das angibt, wie weit ein einzelner Datenpunkt (eine Beobachtung) von dem Mittelwert einer Datenverteilung entfernt ist, gemessen in Standardabweichungen.
ML-basierte Methoden der Anomalieerkennung
Local Outlier Factor
Isolation Forest
Wie funktioniert Local Outlier Factor?
Nachbarschaftsdefinition: Für jeden Datenpunkt wird eine Nachbarschaft definiert (K-nearest neighbour). Gewisse Distanz muss festgelegt werden
Erweiterung der Nachbarschaft: Der Algorithmus erweitert die Nachbarschaft jedes Punktes, um auch die Nachbarschaft seiner Nachbarn zu berücksichtigen
Berechnung der lokalen Dichte: Für jeden Datenpunkt wird die lokale Dichte basierend auf der Dichte seiner Nachbarschaft berechnet (Local Reachability Density)
Berechnung des LOF: Der Local Outlier Factor für jeden Datenpunkt wird berechnet, indem seine lokale Dichte mit der durchschnittlichen lokalen Dichte seiner Nachbarn verglichen wird
Ausreißererfassung: Datenpunkte mit einem hohen LOF-Wert werden als Ausreißer betrachtet
Wie funktioniert Isolation Forest?
Zufällige Teilung durch Bäume, wobei jede Partitionierung durch zufällige Spalte und einem zufälligem Schwellenwert erfolgt
Ausreißerstatus wird durch Tiefe bestimmt. Ausreißer brauchen weniger Teilungen um isoliert zu werden —> Berechnung Anomalie Score
—> Gibt auch Fizzy Isolation Forests:Keine harte Trennung zwischen normalen Punkten und potenziellen Ausreißern (Geht eher nach Zugehörigkeitsgrad —> Wahrscheinlichkeit). Sind flexibler und besser bei komlexen Datenstrukturen
Was sind zwei Distanzmetriken?
Euklidische Distanz
Manhattan Distanz
Zuletzt geändertvor 6 Monaten