undefined

von Mona I.

Optimizer: Definition

Algorithmus, der folgendes Problem löst:
- geg. parametrische Funktion fΘ, Datensatz X, Loss Function loss, finde Parameter Θ sodass average Loss aud X (Loss = E<loss(fΘ(x), labelx)> minimal ist
fΘ is differenzierbar in Θ, loss ist differenzierbar bzgl der Predictions fΘ(x)
loss wird in Statistical Learning Theory auch empirical risk genannt

Loss landscape

verfügbare Informationen:
- aktuelle Parameter Θ
- loss an aktuellem Punkt
- loss-Gradient an aktueller Position (Steigungsrichtung und -betrag)
- bisheriger Pfad (teilweise)
nicht verfügbar: Informationen über Umgebung (was liegt vor uns?) -> “thick fog”

Gradient Descent

SGDM

Stochastic Gradient Descent with Momentum
Strategie: folge der Steigung abwärts, aber behalte Momentum (“Schwung”)
ΔΘt = -η*gradΘLoss + βΔΘt-1
- β<1: Momentum
mögliche Probleme:
- Sattelpunkte -> Momentum verursacht Oszillation zwischen Wänden

Adam

Strategie: folge der Steigung abwärts mit Momentum, aber verlangsame in Richtungen, die zuvor oft das Vorzeichen geändert haben
ΔΘt = -η*mt/sqrt(vt)
- mt = (1-β1)*gradΘLoss + β1*mt-1
  - erstes Momentum
  - beeinflusst durch Vorzeichenwechsel des Loss Gradienten
  - Zähler wird kleiner in Richtungen, die Vorzeichen oft wechseln
- vt = (1-β2)*(gradΘLoss)^2 + β2*vt-1
  - zweites Momentum
  - nicht durch Vorzeichen beeinflusst
Probleme: Betrag des Gradienten könte über die Zeit / verschiedene Parameter sehr verschieden sein
- globale, konstante LR wäre suboptimal
- mehrere LRs unmöglich, gut zu bestimmen

LAMB

Layer-wise Adaptive Moments optimizer for Batch Training
Strategie:
- folge der Steigung abwärts mit Momentum, aber verlangsame in Richtungen, die zuvor oft das Vorzeichen geändert haben
- normalisiere jeden Schrittvektor und skaliere ihn neu
ΔΘt = η ΔΘt Adam / ||ΔΘt Adam|| * ||Θt ||

Relation zu Statistical Learning Theory

Empirical Risk Minimization: Optimizer minimiert empirische Loss-Funktion
Structural risk minimization:
- entweder unter Kandidaten mit niedrigem ER eine einfache parametrische Funktion wählen
- oder Lösungsraum einschränken (Regularization, Weight sharing)
Regularisierung:
- Regularisation loss terms (L1-L2-regularization -> Norm auf Gewichtsvektoren)
- Dropout
- Weight decay (verkleinere alle Gewichte nach jedem Lernschritt)

Zuletzt geändert
vor 2 Jahren

Optimizers