Was ist der Unterschied zwischen Model-Free und Model-Based Reinforcement Learning beim Lernen einer Strategie? Nennen Sie je einen Vor- und Nachteil der beiden Methoden.
Model Free: es wird kein modell der umgebung erstellt, sondern lernt durch interaktion und belohnungen
Vorteil: einfache implementierung
Nachteil: ist ineffizienter, braucht mehr samples
Model Based: Entweder es wird ein Modell der umgebung gelernt oder es wird von anfang an zur verfügung gestellt
Vorteil: kann effizienter sein
Nachteil: Modellerstellung kann aber auch sehr rechenintensiv sein, ungenauigkeiten können zu suboptimalen strategien führen
Nennen Sie zwei Verfahren zur Minimierung der Auswirkungen von Fehlern im gelernten Modell bei Model-Based Reinforcement Learning auf die Planung.
Das Problem dabei ist dass die gelernten modelle nicht perfekt sind, eventuell wegen fehlenden daten oder ähnlichen, wenn modell falsch ist summieren sich fehler gegebenenfalls auf.
Lösungsanstäze : 1.Modellunsicherheiten einbauen, in regionen in denen das modell sich unsicher ist möchten wir langsam laufen
Data aggregation, update das modell mit neu gesammelten erfahrungen um distributional shift zu minimieren
Replanning: nicht auf einen plan am anfang verlassen sondern konstant neu planen mit jedem schritt
Was ist der unterschied zwischen closed und open loop?
ClosedLoop verwendet jedes Mal das Feedback, was es in einem Zustand bekommt. So lernt der Agent die Strategie.
Im OpenLoop verwendet der Agent nur am Anfang das Feedback aus dem Zustand. Dann plant der Agent direkt eine Aktionssequenz.
Dieser Polidy Gradient hat eine Hohe Varianz
Lösungsansatz 1: Causality
Ersetzt die erwarteten Belohnungen mit den Tatsächlichen belohnungen (Erwartungswerte aus der Vergangenheit werden vernachlässigt)
Lösungsansatz 2: Baseline
Beim Baseline-Ansatz wird eine Baseline von der Summe der Belohnungen abgezogen, ohne den Erwartungswert zu verändern.
Ein Modell besteht aus der Übergangsfunktion und der Belohnungsfunktion und bestimmt somit das Verhalten/die Dynamik der Umgebung.
Robotik - durch das lernen der umgebung vorab / optimieren in einer simuliierten umgebung können risiken für schäden minimiert werden
Autonomes fahren- in einer simulierten welt erstmal trainieren und dann auf straßenverkehr übertragen
Was ist der unterschied zwischen global und Lokal im model based reinforcement learning
Beim globalen Ansatz “Learn how to act in any situation”
Beim lokalen Ansatz “find best action sequence fot current situation”
Was ist das Problem beim Model-Based Reinforcement Learning?
das modell hat in der regel einen bias, und ist nicht perfekt
Lösungen: Data aggregation, replanning, model uncertainty
Nenne 3 methoden für planning
(Local solutions)
Random Shooting Method und Cross entropy Method (CEM)
(MPC) Model predictive Control
Nenne 2 Beispiele für model based reinforcement learning
(global solutions)
Backpropagation through time
Dyna Style methods
Nenne Beispiele für Partial Observability
ist wenn das modell nicht alle relevanten informationen als zstand hat Pomdp
State space models
Dreamer
Was muss man über backpropagation through time wissen
idee: Den Policy-Gradienten durch das Modell rückwärts propagieren.
nennt man auch “pathwise policy gradient”
Probleme
parameter sesitivity
vanishing oder exploding gradients
Dyna Style Models was muss man wissen
Mische echte und model generierte erfahrungen und wende traditionelle modellfeie methoden an
Das modell hat dann größeren, augmentierten trainingsdatensatz
Beachte, der rollout horizont soll klein bleiben, damit sich eventuelle fehler nich akkumulieren
Metag Algo:
1. Führe eine Strategie (z.B. eine zufällige Strategie) aus, um Daten zu sammeln.
2. Lerne ein Modell, indem du die Vorhersagen des Modells mit den tatsächlichen Ergebnissen vergleichst und die Abweichungen minimierst.
3. Führe eine k-Schritt-Entwicklung mit dem Modell durch, beginnend von einem Zustand, der zufällig aus den gesammelten Daten ausgewählt wurde.
4. Aktualisiere die Strategie basierend auf den Erfahrungen, die vom Modell generiert wurden, und den realen Erfahrungen.
#was sind latent stat transition models oder auch state space models
Latente state transition models
• Auch bekannt als state space models
• Die Anfangsbeobachtung einbetten und dann im latenten lernen und planen
• Zukünftige Beobachtungen nach Bedarf rekonstruieren
Was ist Partially observable MDP (POMDP)
formelle beschreibung für ein partiell beobachtbares und sequenzielles entscheidungs problem
Am effizientesten: Model based
Weniger effizient: QLearning
Am wenigsten: REINFORCE
Wie kann ein Modell mit model based RL gelernt werden, wie wird das gelernte modell im anschluss verwendet werden
Ein Modell kann mit model-based Reinforcement Learning (RL) gelernt werden, indem ein dynamisches Modell der Umwelt trainiert wird, das die Übergangswahrscheinlichkeiten und Belohnungen basierend auf Zustands- und Aktionspaaren vorhersagt. Anschließend wird dieses gelernte Modell verwendet, um mögliche zukünftige Zustände und Belohnungen zu simulieren und auf dieser Basis eine optimale Strategie (Policy) zu finden. Das gelernte Modell wird dann verwendet, um in der realen Umwelt Entscheidungen zu treffen, indem es Vorhersagen über die Konsequenzen verschiedener Aktionen macht und die beste Aktion auswählt.
Nenne zwei gründe für modell bias und zwei lösungen
Fehlende Trainingsdaten
fehler wegen funktionsapproximation
Lösungen:
data aggregation
Replanning
Was ist die grundidee von Gradient Ascent
update die strategie direkt mit gradient ascent
Was macht der policy gradient
erhöht die wahrscheinlichkeit von trajektorien mit positiven belohnungen
Wie funktioniert der Reinforce Algorithm
Dieser Schätzt den Strategie gradienten (policy Gradient) mit monte carlo schätzungen
Was sind die probleme mit reinforce Algo?
Zu hohe varianz
wie kann ich die probleme der hohen varianz von reinforce lösen?
Causality und Baseline
Was ist Actor Critic?
mischung aus policy und value based RL
Actor wählt die aktionen und wird mit strategie gradienten (policy gradient) aktualisisert
Critic bewertet aktion und wird über eine strategiebewertungs methode aktualisiert
Was sind trust region methods ?
• Ersatz-Ziele, die nur mit dem “wahren” Ziel übereinstimmen, wenn die neue Policy in der “Vertrauensregion” um die alte Policy bleibt
• Trust Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO)
Was sind die vorteile von Policy based RL
Sie können leichter stochastische Strategien lernen, “ Smooth Updates”, und Sie können hochdimensional kontinuierliche Aktionsräume unterstützen.
wie funktioniert policy based RL
Policy wird durch ein neuronales Netz approximiert und mithilfe von Gradient Ascent wird die Zielfunktion maximiert.
wie funktioniert Actor Critic
Was sind nachteile von Actor critic
Zuletzt geändertvor einem Monat