Buffl

11 Reinforcement Learning

pz
von p Z.

SS23










a) Was ist das primäre Ziel von Reinforcement Learning?

  • Antwort: Das primäre Ziel von Reinforcement Learning ist es, eine Strategie (Policy) zu finden, die den erwarteten kumulativen Belohnungen über die Zeit maximiert.

  • Folien: Folie 27


b) Was ist die Hauptbedingung, die ein Prozess erfüllen muss, um als Markov-Entscheidungsprozess bezeichnet zu werden?

  • Antwort: Die Hauptbedingung für einen Markov-Entscheidungsprozess (MDP) ist die Markov-Eigenschaft, die besagt, dass die Zukunft unabhängig von der Vergangenheit ist, gegeben den gegenwärtigen Zustand.

  • Folien: Folie 16


c) Definieren Sie kurz den Begriff "modellfrei" im Kontext von Reinforcement Learning.


  • Antwort: Modellfreies RL bezieht sich auf Methoden, die nicht auf ein Modell der Umgebung angewiesen sind, um zu lernen. Das bedeutet, der Agent lernt direkt von den Erfahrungen, die durch Interaktion mit der Umgebung gesammelt werden, ohne explizites Wissen über die Zustandsübergänge oder Belohnungen.

  • Folien: Diese spezielle Information war nicht direkt auf den Folien, sondern ergänzt aus allgemeinem Wissen.


d) Warum werden Funktionsapproximatoren (wie z.B. neuronale Netze) in RL benötigt?


  • Antwort: Funktionsapproximatoren werden in RL benötigt, um die Wertfunktionen zu schätzen, wenn der Zustands- oder Aktionenraum zu groß ist, um jede Möglichkeit einzeln zu speichern oder zu berechnen. Ein Beispiel wäre das Spielen von Schach, wo die Anzahl der möglichen Zustände extrem hoch ist, und ein neuronales Netz verwendet werden kann, um die Wertfunktion zu approximieren.

  • Folien: Diese spezielle Information war nicht direkt auf den Folien, sondern ergänzt aus allgemeinem Wissen.


WS 22/23




a) Nennen Sie zwei Gründe, warum die Berechnung der Zustandswertfunktion für die optimale Policy rekursiv durchgeführt werden sollte, anstatt mit einer direkten Methode.

  • Antwort: Die rekursive Berechnung ermöglicht es, komplexe Probleme schrittweise zu lösen und die Berechnungen aufgrund der Bellman-Gleichungen zu vereinfachen. Zweitens können rekursive Methoden wie dynamische Programmierung und Temporal-Difference Learning effizient mit unvollständigen Informationen umgehen und konvergieren schrittweise zur optimalen Lösung.

  • Foliennummer: Diese Konzepte sind typischerweise Teil der Diskussion über dynamische Programmierung und Bellman-Gleichungen, die auf Folien im Abschnitt über dynamische Programmierung zu finden sind


b) Erläutern Sie, warum die Epsilon-Greedy-Policy für die Verbesserung der Policy in modellfreien RL-Ansätzen wichtig ist.

  • Antwort: Epsilon-Greedy-Policy ist eine Methode, um sowohl Exploration als auch Exploitation im Lernprozess zu gewährleisten. Ein kleiner Prozentsatz der Zeit (ε) wählt der Agent zufällig Aktionen, um neue Strategien zu entdecken. Die meiste Zeit jedoch (1-ε) wählt der Agent die beste bekannte Aktion, um das akkumulierte Wissen zu nutzen.

  • Foliennummer: Dieses Prinzip wird oft in Verbindung mit den Themen Policy-Verbesserung und Exploration vs. Exploitation diskutiert, die auf Folien über modellfreie RL-Methoden zu finden sind.


c) Begründen Sie, warum es sinnvoll ist, ein neuronales Netz zur Approximation der Zustandswertfunktion für komplexe Aufgaben, wie z.B. das autonome Fahren, zu verwenden.

  • Antwort: Neuronale Netze sind leistungsfähige Funktionsapproximatoren, die in der Lage sind, komplexe Zusammenhänge zu lernen, die in hochdimensionalen oder kontinuierlichen Zustandsräumen auftreten, wie sie beim autonomen Fahren vorkommen. Sie können helfen, die Zustandswertfunktion zu approximieren, wenn es nicht praktikabel ist, diese Werte für jeden möglichen Zustand direkt zu berechnen oder zu speichern.

  • Foliennummer: Diese spezifische Antwort ist eine Zusammenfassung von Konzepten, die üblicherweise in den Themenbereichen von Folien über neuronale Netze und Funktionsapproximation behandelt werden, welche in diesem Foliensatz nicht explizit enthalten sind.


WS 21/22







a) Was bedeutet es, wenn ein Ansatz modellfrei ist?

  • Antwort: Ein modellfreier Ansatz im Reinforcement Learning bedeutet, dass der Lernalgorithmus keine Kenntnisse über die Umgebungsdynamik oder ein Modell davon benötigt, sondern direkt aus den Interaktionen mit der Umgebung lernt.

  • Foliennummer: Informationen zum modellfreien Lernen finden sich auf Folien, die die Unterschiede zwischen modellbasierten und modellfreien Ansätzen erläutern.


b) Vorteil von Reinforcement Learning mit Funktionsapproximation

  • Antwort: Funktionsapproximation ermöglicht es dem Reinforcement Learning, komplexe Probleme mit großen oder kontinuierlichen Zustandsräumen zu handhaben, die mit tabellarischen Methoden nicht effizient bearbeitet werden können.

  • Foliennummer: Dies würde normalerweise auf Folien behandelt, die sich mit Funktionsapproximatoren, wie z.B. neuronalen Netzen, befassen.



c) Funktion eines Target Networks und welches Problem es löst

  • Antwort: Ein Target Network hilft, die Stabilität des Lernprozesses in Q-Learning-Algorithmen zu verbessern, indem es die Zielwerte für die Aktualisierung der Q-Funktion stabilisiert. Ohne ein Target Network können Aktualisierungen zu stark schwanken, was zu einem instabilen Lernprozess führt.

  • Foliennummer: Diese Informationen würden sich in Abschnitten über Deep Q-Learning und die Verwendung von Target Networks befinden.


d) Warum ist der REINFORCE Algorithmus ein On-Policy Algorithmus?

  • Antwort: Der REINFORCE Algorithmus ist ein On-Policy Algorithmus, weil er die Wertfunktion basierend auf der aktuellen Policy aktualisiert und verbessert, anstatt Wertfunktionen außerhalb der derzeit verwendeten Policy zu schätzen, wie es bei Off-Policy-Algorithmen der Fall ist.

  • Foliennummer: Diese Erklärung würde sich normalerweise auf Folien finden, die sich mit On-Policy und Off-Policy Methoden beschäftigen.



e) Vorteil und Nachteil von strategiebasierten Verfahren

  • Vorteil: Strategiebasierte Verfahren, wie z.B. Policy Gradient Methoden, können in hochdimensionalen oder kontinuierlichen Aktionenräumen eingesetzt werden, wo herkömmliche wertebasierte Methoden oft an ihre Grenzen stoßen.

  • Nachteil: Sie können zu höherer Varianz in den Schätzungen führen, was den Lernprozess verlangsamen und die Konvergenz erschweren kann.

  • Foliennummer: Diese Informationen sind typischerweise in Abschnitten über Policy Gradient Methoden und deren Eigenschaften enthalten.


SS20








a) Der wesentliche Unterschied zwischen Reinforcement Learning und überwachtem Lernen in Bezug auf die Fehlerberechnung liegt darin, dass Reinforcement Learning auf einem Belohnungssignal basiert, das die Qualität einer Aktion in einer gegebenen Situation angibt, während überwachtes Lernen auf einem festen Satz von Eingabe-Ausgabe-Beispielen mit bekannten Labels basiert.


b) Der Begriff "Zustand" bezieht sich auf eine vollständige und präzise Beschreibung der Situation, in der sich ein Agent befindet. Eine "Beobachtung" hingegen kann eine teilweise oder verrauschte Information über den Zustand sein. Ein Zustandsbeispiel könnte die genaue Position eines Roboters auf einer Karte sein, während eine Beobachtung ein Bild aus der Kamera des Roboters sein könnte, das nur begrenzte Informationen liefert.


c) "Bootstrapping" bezieht sich auf die Verwendung vorhandener Schätzungen zur Aktualisierung der Werte, und "Sampling" bezieht sich auf das Sammeln von Erfahrungen durch Interaktion mit der Umgebung. Policy Iteration und Value Iteration verwenden "Bootstrapping", während Monte Carlo Methoden auf "Sampling" basieren.



e) Um die Varianz bei dem REINFORCE Algorithmus zu reduzieren, kann eine "Baseline" verwendet werden. Diese dient als Referenzwert (oft ein Durchschnitt der Belohnungen) zur Normalisierung der Belohnungen und kann die Varianz der Schätzungen verringern. Die Verwendung einer konstanten "Baseline" ist zulässig, solange sie informativ genug ist, um die Varianz der Schätzungen effektiv zu reduzieren.


f) Der REINFORCE Algorithmus wird als "on-policy" bezeichnet, weil er die Bewertung und Verbesserung der Strategie (Policy) auf Basis der vom Agenten gesammelten Erfahrungen durchführt. Die Aktualisierung der Strategie ohne eine "Baseline" kann zu einer Verschlechterung führen, weil es die Varianz der Schätzungen erhöht, was zu ineffizientem Lernen führen kann.

Author

p Z.

Informationen

Zuletzt geändert