Welche Arten des Lernen gibt es?
Supervised Learning
Zusammenhang zwischen
Eingangsdaten und Labeld Daten
Unsupervised (Unüberwachtes Learning
Nur EIngangsdaten, keine Label und wir wollen die Struktur lernen in den Daten
Reinforcement Learning
Wie man mit Interaktionen eine optimale Entscheidung lernen kann, eine optimale Policy
Was ist maschinelles lernen und was ist das Ziel und welche zwei Arten gubt es?
Ziel: Die Methode des maschinellen Lernens sollte die beste Hypotheseℎ≈𝑡 im großen Hypothesenraum𝐻 finden, die am besten zu den beobachteten Daten passt
Zwei Arten:
Induktion: Von Lernbeispielen (vom speziellen ins Allgemeine).
Deduktion: Aus gelernter Hypothese andere Daten (z.B. Testdaten) ableiten
Induktive Lernhyptohese: Wenn wir auf Trainingsdaten mit unserer Hypothese optimal performen, dass wir dann auf neuen Daten auch gut performen —> Dabei hilft der Induktive bias (Annahmen des Lernalgorithmus um das lernen zu erleichtern)
Woraus besteht das Lernsystem?
Learning system= Hypothesis space+ Learning method
Gib die Formel für den Emprischen Risk minimization (emprischer Fehler) und was bedeutet er?
Was wollen wir minimieren, um die optimale Hypothese zu bekommen?
Was ist der Generalization Gap?
Wollen den empirischen Fehler minimieren: Der Fehler auf dem Trainigsdatensatz P.
P ist Verteilung der Daten, den wir approximieren mit unseren Trainingsdaten —> Dabei kommt es zu Fehlern zwischen Traoningsdaten und tatsächlichen Verteilung (Gap) —> Dies versucht man zu Approximieren mit der Aufteilung in verschiedene Datensätze
Was ist Underfitting und was ist Overfitting und welche anderen Evaluate Models gibt es noch. Wie können wir unser Model verbessern?
Unterfitting: Modell ist nicht komplex genug um den Zusammenhang zu lernen
Overfitting: Unser Modell lernt Trainingsdaten auswendig —> lernt sogar Fehlerauswendig:
Andere: True positive Rate, accuracy, Cross Validation
Verbessungsmethoden: Boosting, Bagging, Adaboost
Was ist die VC Dimension?
Wie flexibel, wieviel Kapazität hat unser Model
Hier VC- Dimension von 3
Erkläre die Lernmethodic Support Vector Machine, was ist das Problem und die Lösung.
Nimmt eine zusätzliche Annahme: Den Rand maximieren —> gibt es nur eine optimale Hypothese die das Problem löst.
Hyperlane ist nur abhängig von den Support Vectoren —> sind am schwierigsten zu klassifizieren
Soft Margin: Lässt leichte Fehler zu aber Generalisierung erhöht in dem sie den Rand maximiert
Bei nicht linearen Problemen: Transformieren die Eingabedaten in einen linear lösbaren Raum —> Non-linear SVM
Um Effizient (statt mit nicht linearen funktion und dem Skalarprodukt) zu arbeiten verwenden wir eine Kernel function
Welche nicht parametrischen Funktionen gibt es (keine fixe Anzahl an parametern) ?und welches Thema ist das?
Thema: Entscheidungsbäume
Aufbau des Baums: wie stark reduziert ein Attribut die Entropie (Information Gain)
Iterartive Anwendung des Information Gain erhalten wir den ID3 Algorithmus (von oben nach unten den Baum aufbauen)
Problem: Algorithmus neigt zum Overfitting:
Reduzierung von Overfitting und mehr Generalisierung:
Early Stopping, Pruning, Bagging, Random forests
Um was ging es bei Neuronalen Netzen?
lineares Model
XOR konnte nicht gelöst werden —> um nicht lineare Probleme zu lösen brauchen wir andere Präsentation
Wenn wir noch einen Layer dazunehmen können wir die Repräsentation mitlernen und das Problem lösen.
Universal function approximation theorem: mit einem hiddenlayer können wir alle funktionen mit einem fehler epsiln approximieren
WIe lernen wir auf dem Modell ? —> Optimieren —> Optimierungsalgorithmus = Gradient Descent
Gradient Descent: Können das neuronale Netz trainieren —> um Gradienten zu berechnen für jeden Parameter haben wir die Kettenregel angewendet —> nennt sich Backpropagation
Wie gestalten wir den Lernalgorithmus und was hat das mit Hyperparametern zu tun?
SGD is basic lernmethode
Momentum und Adam ist neu
Versuchen den Gradient Descent bessere Gewichtsupdates machen damit man schneller und effektiver lernen kann
Statische und dynamische Lernraten
Dynamische Lernraten: Vorteil wir können anfang hoch starten und danach dann niedriger. Am anfang schnell loss minimieren und am ende minimum finden
Regulaisierungsmethoden:
Optimierung: Optimum finden
ML: Wir wollen generalisierung haben (soll auch auf echten Daten funktionieren), wenn wir nur auf Trainingsdaten gute Eregbnisse kriegen, sind wir schnell in einem Overfit: Bei Regularisierungsmethoden machen wir unsere Optimierung aktiv schlechter in der Hoffnung, dass es dann auf echten Daten besser funktioniert.
Weight Decay —> Regularisierungsmethode: wWir optimieren nicht nur den ursprünglichen Loss sondern auch eine Regularisierungsterm, der den Loss höher macht.
Weiter Regularisierungs Methoden: Label smoothing, Bild aurgmentierung (alles um Overfitting zu reduzieren)
Initialisierung Parametern: schlechte Initialisierung von Paramtern wird trainign schlecht —> vanishing gradient tritt auf und der Gradient wird 0 wodurch unsere Backpropagation nicht mehr funktioniert
Thema Convolutional Neural Networks
CNN: Neuronale Netze mit Lokalität der Eingaben Berücksichten
Wenn wir Bilder in neuronale Netze eingeben wollen, funktioniert das nicht, weil wir dann zu viele Gewichte brauchen und das nicht Speichern können —> Bie CNN benutzen wir ein kleines neuronales Netz und lassen es über das Bild rübergleiten —> Base operation —> Convolutional
Mehre Layers und Aktivierungsfunktionen -> die soll man alle können !
Architecturen —> vorallem ResNet relevant, das Skipconnections einfügt und identeingabe auf die Ausgabe drauf addiert wird.
Unsupervised learning
Unlabeld Daten (wenn man Datensätze hat die nicht gelabeld sind)
Struktur in den Daten zu lernen —> Clustering und Generative
Clustering:
Algorithmen: K-Means (GUT KÖNNEN!), wie funktioniert er, was macht er wenn er nicht funkioniert (Daten keine gute Struktur, schlecht Initailsiert oder zu wenige K z.B.)
Anpassungen an den K-Means um ihn robuster zu machen (auch können)
DBSCAN:
auch gut können
Folien: neue Folien wird der gut erklärt
Autoencoder:
latente Represntation von den EIngabedaten lernt. Wir lernen, wie wir unsere Eingabedaten komprimieren?
Bayesian learning
Wir kombinieren Vorwissen mit dem Wissen aus den Daten (Bayes Theorem)
Optimale Hyptohese finden wollen: maximum a posteriori schätzung
Wenn wir a priori weglassen (alle Hypothesen sind gleich wahrscheinlich) —> maximum likelihood
Verwenden bei Klassifkatoren:
Optimal Bayes Classifier —> durch Annahmen (bedingte unabhängigkeit) vereinfacht die berechnung —> naiver bayes classifier (hier sind die Merkmale bedingt unabhängig)
Bayesian Networks: Wie können wir komplexe wahrscheinlichkeitsverteilungen modellieren —> Graphen modellierung (welche sind abhängig und welche unabhängig)
Expectation-maximiatuin algorithm: Stgatisches Model (Wahrsch.Vert. approximieren wollen mit latenten Zuständen —> EM Algorithmus) —> bei komplexeren
NLP and Sequence Models
NLP: Wie können wir einenm Computer beibringen nat. Sprache in Form von Text zu verarbeiten
Heute verwendet: Byte-pair encoding (gab es ein beispiel in der Vorlesung —> anschauen)
Approximieren: Neuronale Netze: RNN, LSTM (Sequenzmodelle) —> Haben ein Zustand
Reninforcement Learning
Kein datensatz gegeben —> Agent interagiert mit der Umgebung und die Daten werden dadurch aktiv generiert
Agent muss aktionen so wählen, dass er zukünftig große Belohnungen bekommt —> soll strategie lernen, dass er das wählt
Umgebung: MDP: Efüllt die Markov Eigenschaft (alle relevanten Informationen im aktuellen Zustand gespeichtert und wir müssen nicht die Vergangenheit nicht berücksichtgen bei den Entscheidungen
Model: Was ist die zukünfitge Belohnung und in welchem Folgezustand landen wir?
Wenn es nicht bekannt ist: Agent muss Model lernen oder schätzen, manchmal brauchen wir auch keins
Policy: Strategie: Welche Aktion wird bei welchem zustand ausgeführt
Value functions: Bewertungsfunktionen: V für Zustände und Q fumktion für die Aktionen kennengelernt, die Angeben wie groß ist unserer Erwarteter Return oder Gewinn gegeben für unseren Zustand bzw. Aktion
Reniforcement Learning
Agent: optimale Strategie zu finden, die erwartete, kummulierte, diskontierte Belohnung maximiert.
Policy Iteration: Abwechseln zwischen Evaluation und Improvement
Bei gegebener Strategie —> Evaluation (Q und V Werte berechnen) —> danach versuchenw ir strategie zu verbessern (z.B. Greedy)
kovergiert zum optimum
Dynamic programming: Berechnen es iterativ —> Model muss bekannt sein weil es zu berechnung brauchen
Value iteration: Zusammenfassung der evluation und improvement gemeinsam durchführt
Aber wir kennen das Model nicht und deswegen müssen wir erfahrungen sammel —> Aktionnen ausführen und anhand der Belohnungen entscheiden wie wir uns verbessern wollen —> Kreislauf
Model icht kennen —> Explorieren( ausprobieren)
Werte basierte RL: Q und V Funktion lernen und draus implizit die Stragie ableiten
Monte Carlo Methode: Erwartungswert durch Sampling und durchschnitt berechnen
TD-Learning: Bellmann Gleichung —> Recursiven Zusammenhang zwischen jetzigen und dem zukünfitgen Zeitpunkt —> können einen Lost (TD-Error) definieren —> das können wir optimieren.
2 Ausprägungen: SARSA (neu Erfahrung generieren) und Q-learning (Erfahrung aus der Veregangen heit wieder verwenden —> ist effizienter)
n-step bootstr. —> beides kombinieren
Deep Q-Learning:
V Q learning algorithmus approximieren mit neuronalen netzen für die Q funktion —> statt Tabelle wir zustand und Aktion in neuronales Netz eingegeben und wird mit Gradient descent berechnen
3 Probleme
catastr. forgetting: Zustände die nacheinander folgen, vergessen wir was wir gemacht haben
Target: WOhin wir optimieren verändert sich wenn wir parameter aktualisieren, was nicht gut ist da wir statische Ziele haben wollen und deshalb haben wir target network angeschaut
Overestimation: Effekt, dass wir die Auswahl der aktionen und Evaluationen beides mit einem Schätzer machen der nicht so genau ist —> selbstverstärkender effekt und das kann man aufbrechen durch zwei Q werde —> eins für selektion udn einen für evaluationen
Last changed10 months ago