Reinforcement Learning

by enzo K.

Was ist der Unterschied zwischen Model-Free und Model-Based Reinforcement Learning beim Lernen einer Strategie? Nennen Sie je einen Vor- und Nachteil der beiden Methoden.

Model Free: es wird kein modell der umgebung erstellt, sondern lernt durch interaktion und belohnungen

Vorteil: einfache implementierung

Nachteil: ist ineffizienter, braucht mehr samples

Model Based: Entweder es wird ein Modell der umgebung gelernt oder es wird von anfang an zur verfügung gestellt

Vorteil: kann effizienter sein

Nachteil: Modellerstellung kann aber auch sehr rechenintensiv sein, ungenauigkeiten können zu suboptimalen strategien führen

Nennen Sie zwei Verfahren zur Minimierung der Auswirkungen von Fehlern im gelernten Modell bei Model-Based Reinforcement Learning auf die Planung.

Das Problem dabei ist dass die gelernten modelle nicht perfekt sind, eventuell wegen fehlenden daten oder ähnlichen, wenn modell falsch ist summieren sich fehler gegebenenfalls auf.

Lösungsanstäze : 1.Modellunsicherheiten einbauen, in regionen in denen das modell sich unsicher ist möchten wir langsam laufen

Data aggregation, update das modell mit neu gesammelten erfahrungen um distributional shift zu minimieren
Replanning: nicht auf einen plan am anfang verlassen sondern konstant neu planen mit jedem schritt

Was ist der unterschied zwischen closed und open loop?

ClosedLoop verwendet jedes Mal das Feedback, was es in einem Zustand bekommt. So lernt der Agent die Strategie.

Im OpenLoop verwendet der Agent nur am Anfang das Feedback aus dem Zustand. Dann plant der Agent direkt eine Aktionssequenz.

Dieser Polidy Gradient hat eine Hohe Varianz

Lösungsansatz 1: Causality

Ersetzt die erwarteten Belohnungen mit den Tatsächlichen belohnungen (Erwartungswerte aus der Vergangenheit werden vernachlässigt)

Lösungsansatz 2: Baseline

Beim Baseline-Ansatz wird eine Baseline von der Summe der Belohnungen abgezogen, ohne den Erwartungswert zu verändern.

Ein Modell besteht aus der Übergangsfunktion und der Belohnungsfunktion und bestimmt somit das Verhalten/die Dynamik der Umgebung.

Robotik - durch das lernen der umgebung vorab / optimieren in einer simuliierten umgebung können risiken für schäden minimiert werden

Autonomes fahren- in einer simulierten welt erstmal trainieren und dann auf straßenverkehr übertragen

Was ist der unterschied zwischen global und Lokal im model based reinforcement learning

Beim globalen Ansatz “Learn how to act in any situation”

Beim lokalen Ansatz “find best action sequence fot current situation”

Was ist das Problem beim Model-Based Reinforcement Learning?

das modell hat in der regel einen bias, und ist nicht perfekt

Lösungen: Data aggregation, replanning, model uncertainty

Nenne 3 methoden für planning

(Local solutions)

Random Shooting Method und Cross entropy Method (CEM)

(MPC) Model predictive Control

Nenne 2 Beispiele für model based reinforcement learning

(global solutions)

Backpropagation through time

Dyna Style methods

Nenne Beispiele für Partial Observability

ist wenn das modell nicht alle relevanten informationen als zstand hat Pomdp

State space models

Dreamer

Was muss man über backpropagation through time wissen

idee: Den Policy-Gradienten durch das Modell rückwärts propagieren.

nennt man auch “pathwise policy gradient”

Probleme

parameter sesitivity
vanishing oder exploding gradients

Dyna Style Models was muss man wissen

Mische echte und model generierte erfahrungen und wende traditionelle modellfeie methoden an

Das modell hat dann größeren, augmentierten trainingsdatensatz

Beachte, der rollout horizont soll klein bleiben, damit sich eventuelle fehler nich akkumulieren

Metag Algo:

1. Führe eine Strategie (z.B. eine zufällige Strategie) aus, um Daten zu sammeln.

2. Lerne ein Modell, indem du die Vorhersagen des Modells mit den tatsächlichen Ergebnissen vergleichst und die Abweichungen minimierst.

3. Führe eine k-Schritt-Entwicklung mit dem Modell durch, beginnend von einem Zustand, der zufällig aus den gesammelten Daten ausgewählt wurde.

4. Aktualisiere die Strategie basierend auf den Erfahrungen, die vom Modell generiert wurden, und den realen Erfahrungen.

#was sind latent stat transition models oder auch state space models

Latente state transition models

• Auch bekannt als state space models

• Die Anfangsbeobachtung einbetten und dann im latenten lernen und planen

• Zukünftige Beobachtungen nach Bedarf rekonstruieren

Was ist Partially observable MDP (POMDP)

formelle beschreibung für ein partiell beobachtbares und sequenzielles entscheidungs problem

Am effizientesten: Model based

Weniger effizient: QLearning

Am wenigsten: REINFORCE

Wie kann ein Modell mit model based RL gelernt werden, wie wird das gelernte modell im anschluss verwendet werden

Ein Modell kann mit model-based Reinforcement Learning (RL) gelernt werden, indem ein dynamisches Modell der Umwelt trainiert wird, das die Übergangswahrscheinlichkeiten und Belohnungen basierend auf Zustands- und Aktionspaaren vorhersagt. Anschließend wird dieses gelernte Modell verwendet, um mögliche zukünftige Zustände und Belohnungen zu simulieren und auf dieser Basis eine optimale Strategie (Policy) zu finden. Das gelernte Modell wird dann verwendet, um in der realen Umwelt Entscheidungen zu treffen, indem es Vorhersagen über die Konsequenzen verschiedener Aktionen macht und die beste Aktion auswählt.

Nenne zwei gründe für modell bias und zwei lösungen

Fehlende Trainingsdaten
fehler wegen funktionsapproximation

Lösungen:

data aggregation

Replanning

Was ist die grundidee von Gradient Ascent

update die strategie direkt mit gradient ascent

Was macht der policy gradient

erhöht die wahrscheinlichkeit von trajektorien mit positiven belohnungen

Wie funktioniert der Reinforce Algorithm

Dieser Schätzt den Strategie gradienten (policy Gradient) mit monte carlo schätzungen

Was sind die probleme mit reinforce Algo?

Zu hohe varianz

wie kann ich die probleme der hohen varianz von reinforce lösen?

Causality und Baseline

Was ist Actor Critic?

mischung aus policy und value based RL

Actor wählt die aktionen und wird mit strategie gradienten (policy gradient) aktualisisert

Critic bewertet aktion und wird über eine strategiebewertungs methode aktualisiert

Was sind trust region methods ?

• Ersatz-Ziele, die nur mit dem “wahren” Ziel übereinstimmen, wenn die neue Policy in der “Vertrauensregion” um die alte Policy bleibt

• Trust Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO)

Was sind die vorteile von Policy based RL

Sie können leichter stochastische Strategien lernen, “ Smooth Updates”, und Sie können hochdimensional kontinuierliche Aktionsräume unterstützen.

wie funktioniert policy based RL

Policy wird durch ein neuronales Netz approximiert und mithilfe von Gradient Ascent wird die Zielfunktion maximiert.

wie funktioniert Actor Critic

Was sind nachteile von Actor critic

Join Course

Preview

Author

enzo K.

Information

Last changed
a year ago

Report course