Optimizer: Definition
Algorithmus, der folgendes Problem löst:
geg. parametrische Funktion fΘ, Datensatz X, Loss Function loss, finde Parameter Θ sodass average Loss aud X (Loss = E<loss(fΘ(x), labelx)> minimal ist
fΘ is differenzierbar in Θ, loss ist differenzierbar bzgl der Predictions fΘ(x)
loss wird in Statistical Learning Theory auch empirical risk genannt
Loss landscape
verfügbare Informationen:
aktuelle Parameter Θ
loss an aktuellem Punkt
loss-Gradient an aktueller Position (Steigungsrichtung und -betrag)
bisheriger Pfad (teilweise)
nicht verfügbar: Informationen über Umgebung (was liegt vor uns?) -> “thick fog”
Gradient Descent
Strategie: gehe in Richtung des steilsten Abstiegs (Gradient)
ΔΘ = -η*gradΘLoss
η: Lernrate
ΔΘ: Lernschritt
mögliche Probleme: an Plateaus geht es nicht mehr weiter
SGDM
Stochastic Gradient Descent with Momentum
Strategie: folge der Steigung abwärts, aber behalte Momentum (“Schwung”)
ΔΘt = -η*gradΘLoss + βΔΘt-1
β<1: Momentum
mögliche Probleme:
Sattelpunkte -> Momentum verursacht Oszillation zwischen Wänden
Adam
Strategie: folge der Steigung abwärts mit Momentum, aber verlangsame in Richtungen, die zuvor oft das Vorzeichen geändert haben
ΔΘt = -η*mt/sqrt(vt)
mt = (1-β1)*gradΘLoss + β1*mt-1
erstes Momentum
beeinflusst durch Vorzeichenwechsel des Loss Gradienten
Zähler wird kleiner in Richtungen, die Vorzeichen oft wechseln
vt = (1-β2)*(gradΘLoss)^2 + β2*vt-1
zweites Momentum
nicht durch Vorzeichen beeinflusst
Probleme: Betrag des Gradienten könte über die Zeit / verschiedene Parameter sehr verschieden sein
globale, konstante LR wäre suboptimal
mehrere LRs unmöglich, gut zu bestimmen
LAMB
Layer-wise Adaptive Moments optimizer for Batch Training
Strategie:
folge der Steigung abwärts mit Momentum, aber verlangsame in Richtungen, die zuvor oft das Vorzeichen geändert haben
normalisiere jeden Schrittvektor und skaliere ihn neu
ΔΘt = η ΔΘt Adam / ||ΔΘt Adam|| * ||Θt ||
Relation zu Statistical Learning Theory
Empirical Risk Minimization: Optimizer minimiert empirische Loss-Funktion
Structural risk minimization:
entweder unter Kandidaten mit niedrigem ER eine einfache parametrische Funktion wählen
oder Lösungsraum einschränken (Regularization, Weight sharing)
Regularisierung:
Regularisation loss terms (L1-L2-regularization -> Norm auf Gewichtsvektoren)
Dropout
Weight decay (verkleinere alle Gewichte nach jedem Lernschritt)
Zuletzt geändertvor einem Jahr