Was ist Reinforcement Learning?
Antwort: Eine Lernmethode, bei der ein Agent durch Interaktion mit seiner Umgebung und der Bewertung von Belohnungen lernt, optimale Entscheidungen zu treffen.
Folien: 5-6
Was sind die Hauptunterschiede zwischen Supervised, Unsupervised und Reinforcement Learning?
Antwort: Supervised Learning verwendet gelabelte Daten, Unsupervised Learning nutzt ungelabelte Daten zur Erkennung von Mustern, und Reinforcement Learning basiert auf dem Erlernen von Aktionen durch Belohnungen aus Interaktionen mit der Umgebung.
Folien: 3-5
Erkläre den Begriff Markov Decision Process (MDP).
Antwort: Ein mathematisches Modell zur Darstellung von Entscheidungsfindungen, in dem die Ergebnisse teilweise zufällig und teilweise unter der Kontrolle eines Entscheidungsträgers (Agenten) stehen.
Was versteht man unter der Markov-Eigenschaft?
Antwort: Die Zukunft ist unabhängig von der Vergangenheit, gegeben den gegenwärtigen Zustand.
Folien: 16
Wie wird eine Belohnung im Kontext von Reinforcement Learning definiert?
Antwort: Ein Skalarwert, der die Nützlichkeit einer Aktion zum Zeitpunkt der Ausführung anzeigt.
Erkläre den Begriff Rückkehr (Return) und die Bedeutung des Diskontierungsfaktors.
Antwort: Die Rückkehr ist die kumulierte summierte Belohnung, wobei der Diskontierungsfaktor zukünftige Belohnungen gewichtet.
Folien: 20-21
Was ist eine Politik (Policy) im Kontext von Reinforcement Learning?
Antwort: Eine Strategie, die für jeden Zustand eine Aktion (oder eine Verteilung von Aktionen) definiert.
Folien: 25
Beschreibe die State Value Funktion und Action Value Funktion.
Antwort: Die State Value Funktion bewertet, wie gut es ist, sich in einem bestimmten Zustand zu befinden, während die Action Value Funktion bewertet, wie gut es ist, eine bestimmte Aktion in einem Zustand auszuführen.
Folien: 29-30
Was sind die Bellman-Gleichungen?
Antwort: Rekursive Gleichungen, die den Zusammenhang zwischen dem Wert eines Zustands und den Werten der folgenden Zustände beschreiben.
Folien: 31
Erkläre das Konzept der optimalen Politik im Kontext von MDPs.
Antwort: Eine optimale Politik maximiert den erwarteten Return aus jedem Zustand.
Folien: 32
Was versteht man unter Greedy Policies?
Antwort: Strategien, die in jedem Schritt die Aktion wählen, die den unmittelbaren Nutzen maximiert.
Folien: 34
Wie funktioniert die dynamische Programmierung in Bezug auf Reinforcement Learning?
Antwort: Ein Ansatz zur Lösung von MDPs, der optimale Policies durch die iterative Berechnung von Wertfunktionen findet.
Folien: 40
Was ist Policy Evaluation?
Antwort: Ein Prozess zur Berechnung der Wertfunktion für eine gegebene Policy.
Folien: 41-42
Was ist Policy Improvement?
Antwort: Ein Prozess zur Verbesserung einer Policy, indem für jeden Zustand die beste Aktion basierend auf der aktuellen Wertfunktion gewählt wird.
Folien: 46
Erkläre den Unterschied zwischen Policy Iteration und Value Iteration.
Antwort: Policy Iteration besteht aus abwechselnder Policy Evaluation und Policy Improvement, während Value Iteration die Wertfunktion direkt aktualisiert, um die optimale Policy zu konvergieren.
**Wie wird der Diskontierungsfaktor in der Berechnung des Returns verwendet?
Antwort: Der Diskontierungsfaktor gewichtet zukünftige Belohnungen, um den gegenwärtigen Wert dieser Belohnungen zu bestimmen, wobei Belohnungen in der Zukunft weniger gewichtet werden als sofortige Belohnungen.
Was ist ein Modell im Kontext von Reinforcement Learning?
Antwort: Ein Modell beschreibt die Dynamik der Umgebung, d.h., es gibt an, wie die Umgebung auf die Aktionen des Agenten reagiert und welche Belohnungen resultieren.
Folien: 24
Wie wird die Trajektorie in Reinforcement Learning definiert?
Antwort: Eine Sequenz von Zuständen und Aktionen, die von der Anfangssituation bis zum Ende eines Episoden oder bis zu einem terminalen Zustand reicht.
Folien: 26
Was ist das Ziel im Reinforcement Learning?
Antwort: Das Ziel ist es, eine optimale Politik zu finden, die den erwarteten kumulativen Return über alle Zustände maximiert.
Folien: 27
Wie können Policy and Value Iteration mit Q-Werten angewendet werden?
Antwort: Diese Methoden können auch mit Action-Value-Funktionen (Q-Funktionen) angewendet werden, um die optimale Politik direkt in Bezug auf die Aktionen statt der Zustände zu evaluieren und zu verbessern.
Folien: 51
Summary
Frage: Was ist das Hauptziel eines Agenten im Reinforcement Learning?
Antwort: Das Hauptziel im Reinforcement Learning ist es, dass der Agent durch Interaktion mit der Umgebung die erwartete kumulative Belohnung maximiert.
Frage: Was beschreibt ein Markov Decision Process (MDP) im Kontext von RL?
Antwort: Ein MDP im RL-Kontext beschreibt ein Umfeld, in dem ein Agent Entscheidungen trifft, mit dem Ziel, seine Belohnungen über die Zeit zu maximieren.
Frage: Was verstehen wir unter Wertfunktionen in RL?
Antwort: Wertfunktionen in RL repräsentieren die erwarteten Rückkehrwerte, die ein Agent erhält, wenn er einer bestimmten Policy folgt.
age: Wie werden Wertfunktionen in RL definiert?
Antwort: Wertfunktionen werden rekursiv durch die Bellman-Gleichungen definiert, welche die Beziehung zwischen dem Wert eines Zustands und den Werten der darauffolgenden Zustände beschreiben.
Frage: Was sind die Optimierungsprinzipien in MDPs?
Antwort: Optimierungsprinzipien in MDPs beinhalten die Suche nach optimalen Wertfunktionen, die Anwendung der Bellman-Optimalitätsgleichungen und das Finden von optimalen Policies
Frage: Welches sind die zwei Schlüsselkomponenten in RL?
Antwort: Die zwei Schlüsselkomponenten in RL sind Policy Evaluation (Vorhersage) und Policy Improvement (Steuerung).
Frage: Wie funktioniert dynamische Programmierung in RL?
Antwort: Dynamische Programmierung berechnet in RL die optimale Wertfunktion und die optimale Policy iterativ, wenn das Modell bekannt ist, und umfasst Verfahren wie Policy Iteration und Value Iteration.
Altklausuren
SS23
a) Was ist das primäre Ziel von Reinforcement Learning?
Antwort: Das primäre Ziel von Reinforcement Learning ist es, eine Strategie (Policy) zu finden, die den erwarteten kumulativen Belohnungen über die Zeit maximiert.
Folien: Folie 27
b) Was ist die Hauptbedingung, die ein Prozess erfüllen muss, um als Markov-Entscheidungsprozess bezeichnet zu werden?
Antwort: Die Hauptbedingung für einen Markov-Entscheidungsprozess (MDP) ist die Markov-Eigenschaft, die besagt, dass die Zukunft unabhängig von der Vergangenheit ist, gegeben den gegenwärtigen Zustand.
Folien: Folie 16
c) Definieren Sie kurz den Begriff "modellfrei" im Kontext von Reinforcement Learning.
Antwort: Modellfreies RL bezieht sich auf Methoden, die nicht auf ein Modell der Umgebung angewiesen sind, um zu lernen. Das bedeutet, der Agent lernt direkt von den Erfahrungen, die durch Interaktion mit der Umgebung gesammelt werden, ohne explizites Wissen über die Zustandsübergänge oder Belohnungen.
Folien: Diese spezielle Information war nicht direkt auf den Folien, sondern ergänzt aus allgemeinem Wissen.
d) Warum werden Funktionsapproximatoren (wie z.B. neuronale Netze) in RL benötigt?
Antwort: Funktionsapproximatoren werden in RL benötigt, um die Wertfunktionen zu schätzen, wenn der Zustands- oder Aktionenraum zu groß ist, um jede Möglichkeit einzeln zu speichern oder zu berechnen. Ein Beispiel wäre das Spielen von Schach, wo die Anzahl der möglichen Zustände extrem hoch ist, und ein neuronales Netz verwendet werden kann, um die Wertfunktion zu approximieren.
WS 22/23
a) Nennen Sie zwei Gründe, warum die Berechnung der Zustandswertfunktion für die optimale Policy rekursiv durchgeführt werden sollte, anstatt mit einer direkten Methode.
Antwort: Die rekursive Berechnung ermöglicht es, komplexe Probleme schrittweise zu lösen und die Berechnungen aufgrund der Bellman-Gleichungen zu vereinfachen. Zweitens können rekursive Methoden wie dynamische Programmierung und Temporal-Difference Learning effizient mit unvollständigen Informationen umgehen und konvergieren schrittweise zur optimalen Lösung.
Foliennummer: Diese Konzepte sind typischerweise Teil der Diskussion über dynamische Programmierung und Bellman-Gleichungen, die auf Folien im Abschnitt über dynamische Programmierung zu finden sind
b) Erläutern Sie, warum die Epsilon-Greedy-Policy für die Verbesserung der Policy in modellfreien RL-Ansätzen wichtig ist.
Antwort: Epsilon-Greedy-Policy ist eine Methode, um sowohl Exploration als auch Exploitation im Lernprozess zu gewährleisten. Ein kleiner Prozentsatz der Zeit (ε) wählt der Agent zufällig Aktionen, um neue Strategien zu entdecken. Die meiste Zeit jedoch (1-ε) wählt der Agent die beste bekannte Aktion, um das akkumulierte Wissen zu nutzen.
Foliennummer: Dieses Prinzip wird oft in Verbindung mit den Themen Policy-Verbesserung und Exploration vs. Exploitation diskutiert, die auf Folien über modellfreie RL-Methoden zu finden sind.
c) Begründen Sie, warum es sinnvoll ist, ein neuronales Netz zur Approximation der Zustandswertfunktion für komplexe Aufgaben, wie z.B. das autonome Fahren, zu verwenden.
Antwort: Neuronale Netze sind leistungsfähige Funktionsapproximatoren, die in der Lage sind, komplexe Zusammenhänge zu lernen, die in hochdimensionalen oder kontinuierlichen Zustandsräumen auftreten, wie sie beim autonomen Fahren vorkommen. Sie können helfen, die Zustandswertfunktion zu approximieren, wenn es nicht praktikabel ist, diese Werte für jeden möglichen Zustand direkt zu berechnen oder zu speichern.
Foliennummer: Diese spezifische Antwort ist eine Zusammenfassung von Konzepten, die üblicherweise in den Themenbereichen von Folien über neuronale Netze und Funktionsapproximation behandelt werden, welche in diesem Foliensatz nicht explizit enthalten sind.
SS22
a) Das Modell, das die Problemstellung beim Reinforcement Learning formal darstellt, ist der Markov-Entscheidungsprozess (MDP). Die vier benötigten Bestandteile für die Modellierung eines MDP sind Zustände, Aktionen, Übergangswahrscheinlichkeiten (Modell der Umgebung) und Belohnungen.
b) Reinforcement Learning mit Funktionsapproximation, wie neuronale Netze, ermöglicht es, komplexe Funktionen zu lernen und zu generalisieren, die nicht explizit in tabellarischer Form dargestellt werden können. Dies ist besonders nützlich in Umgebungen mit großem Zustandsraum oder kontinuierlichen Zuständen und Aktionen.
c) Der wesentliche Unterschied zwischen Reinforcement Learning und überwachtem Lernen in Bezug auf die Fehlerberechnung ist, dass im überwachten Lernen der Fehler aus der Differenz zwischen Vorhersage und tatsächlichem Label berechnet wird, während im Reinforcement Learning der Fehler auf der Basis von Belohnungen und geschätzten zukünftigen Werten (oft über den TD-Fehler) berechnet wird.
e) Vorteil von strategiebasierten Verfahren ist, dass sie in der Lage sind, in komplexen und hochdimensionalen Handlungsräumen effektiv zu arbeiten, wo eine direkte Werteschätzung nicht machbar ist. Ein Nachteil ist, dass sie oft eine höhere Varianz in den Schätzungen haben, was den Lernprozess instabil machen kann.
WS 21/22
a) Was bedeutet es, wenn ein Ansatz modellfrei ist?
Antwort: Ein modellfreier Ansatz im Reinforcement Learning bedeutet, dass der Lernalgorithmus keine Kenntnisse über die Umgebungsdynamik oder ein Modell davon benötigt, sondern direkt aus den Interaktionen mit der Umgebung lernt.
Foliennummer: Informationen zum modellfreien Lernen finden sich auf Folien, die die Unterschiede zwischen modellbasierten und modellfreien Ansätzen erläutern.
b) Vorteil von Reinforcement Learning mit Funktionsapproximation
Antwort: Funktionsapproximation ermöglicht es dem Reinforcement Learning, komplexe Probleme mit großen oder kontinuierlichen Zustandsräumen zu handhaben, die mit tabellarischen Methoden nicht effizient bearbeitet werden können.
Foliennummer: Dies würde normalerweise auf Folien behandelt, die sich mit Funktionsapproximatoren, wie z.B. neuronalen Netzen, befassen.
c) Funktion eines Target Networks und welches Problem es löst
Antwort: Ein Target Network hilft, die Stabilität des Lernprozesses in Q-Learning-Algorithmen zu verbessern, indem es die Zielwerte für die Aktualisierung der Q-Funktion stabilisiert. Ohne ein Target Network können Aktualisierungen zu stark schwanken, was zu einem instabilen Lernprozess führt.
Foliennummer: Diese Informationen würden sich in Abschnitten über Deep Q-Learning und die Verwendung von Target Networks befinden.
d) Warum ist der REINFORCE Algorithmus ein On-Policy Algorithmus?
Antwort: Der REINFORCE Algorithmus ist ein On-Policy Algorithmus, weil er die Wertfunktion basierend auf der aktuellen Policy aktualisiert und verbessert, anstatt Wertfunktionen außerhalb der derzeit verwendeten Policy zu schätzen, wie es bei Off-Policy-Algorithmen der Fall ist.
Foliennummer: Diese Erklärung würde sich normalerweise auf Folien finden, die sich mit On-Policy und Off-Policy Methoden beschäftigen.
e) Vorteil und Nachteil von strategiebasierten Verfahren
Vorteil: Strategiebasierte Verfahren, wie z.B. Policy Gradient Methoden, können in hochdimensionalen oder kontinuierlichen Aktionenräumen eingesetzt werden, wo herkömmliche wertebasierte Methoden oft an ihre Grenzen stoßen.
Nachteil: Sie können zu höherer Varianz in den Schätzungen führen, was den Lernprozess verlangsamen und die Konvergenz erschweren kann.
Foliennummer: Diese Informationen sind typischerweise in Abschnitten über Policy Gradient Methoden und deren Eigenschaften enthalten.
SS20
a) Der wesentliche Unterschied zwischen Reinforcement Learning und überwachtem Lernen in Bezug auf die Fehlerberechnung liegt darin, dass Reinforcement Learning auf einem Belohnungssignal basiert, das die Qualität einer Aktion in einer gegebenen Situation angibt, während überwachtes Lernen auf einem festen Satz von Eingabe-Ausgabe-Beispielen mit bekannten Labels basiert.
b) Der Begriff "Zustand" bezieht sich auf eine vollständige und präzise Beschreibung der Situation, in der sich ein Agent befindet. Eine "Beobachtung" hingegen kann eine teilweise oder verrauschte Information über den Zustand sein. Ein Zustandsbeispiel könnte die genaue Position eines Roboters auf einer Karte sein, während eine Beobachtung ein Bild aus der Kamera des Roboters sein könnte, das nur begrenzte Informationen liefert.
c) "Bootstrapping" bezieht sich auf die Verwendung vorhandener Schätzungen zur Aktualisierung der Werte, und "Sampling" bezieht sich auf das Sammeln von Erfahrungen durch Interaktion mit der Umgebung. Policy Iteration und Value Iteration verwenden "Bootstrapping", während Monte Carlo Methoden auf "Sampling" basieren.
e) Um die Varianz bei dem REINFORCE Algorithmus zu reduzieren, kann eine "Baseline" verwendet werden. Diese dient als Referenzwert (oft ein Durchschnitt der Belohnungen) zur Normalisierung der Belohnungen und kann die Varianz der Schätzungen verringern. Die Verwendung einer konstanten "Baseline" ist zulässig, solange sie informativ genug ist, um die Varianz der Schätzungen effektiv zu reduzieren.
f) Der REINFORCE Algorithmus wird als "on-policy" bezeichnet, weil er die Bewertung und Verbesserung der Strategie (Policy) auf Basis der vom Agenten gesammelten Erfahrungen durchführt. Die Aktualisierung der Strategie ohne eine "Baseline" kann zu einer Verschlechterung führen, weil es die Varianz der Schätzungen erhöht, was zu ineffizientem Lernen führen kann.
WS 19/20
a) Das Ziel von Reinforcement Learning ist es, eine Strategie (Policy) zu finden, die den erwarteten kumulativen Belohnungen über die Zeit maximiert.
b) Das Entscheidungsmodell, das die Problemstellung beim Reinforcement Learning formal darstellt, ist der Markov-Entscheidungsprozess (MDP). Für die Modellierung eines MDP werden vier Bestandteile benötigt: Zustandsmenge (S), Aktionsmenge (A), Übergangswahrscheinlichkeiten (P) und Belohnungsfunktion (R).
c) Die Markov-Eigenschaft besagt, dass die Zukunft unabhängig von der Vergangenheit ist, wenn der aktuelle Zustand bekannt ist. Das heißt, der nächste Zustand hängt nur vom aktuellen Zustand und der ausgeführten Aktion ab, nicht von der Historie der vorherigen Zustände.
d) Ein wesentlicher Unterschied zwischen Schach und Poker in Bezug auf die Zustandsbeschreibung ist, dass Schach vollständige Information bietet (alle Spielteile sind sichtbar), während Poker unvollständige Information hat (Privatkarten der Spieler sind verborgen). Der Unterschied entsteht durch die versteckten Informationen und die daraus resultierenden Unsicherheiten in Spielen wie Poker
Zuletzt geändertvor einem Jahr