Was ist das Lernziel der Vorlesung?
Was ist das Grundprinzip von Reinforcement-Learning und wie unterscheidet es sich von überwachtem und unüberwachtem Lernen?
Grundprinzip:
Agent interagiert sequenziell mit einer Umgebung.
Aktionen basierend auf Beobachtungen zur Zielerreichung.
Abgrenzung:
Überwachtes Lernen: Mapping von Input zu gelabeltem Output.
Unüberwachtes Lernen: Mustererkennung in ungeregelten Daten.
Reinforcement-Learning: Strategie für Mapping von Zuständen zu Aktionen zur Zielerreichung.
Frage: Warum ist Reinforcement Learning (RL) besonders für Problemstellungen im industriellen Umfeld geeignet und welche Voraussetzungen sind dafür notwendig?
Antwort in Stichpunkten:
Gründe für RL im industriellen Einsatz:
Lösungen oft abhängig von Expertenwissen.
Unbekannte optimale Strategien.
Fehlende Datensätze aufgrund mangelnder Digitalisierung.
Voraussetzungen für RL:
Keine vorgegebenen Anweisungen.
Trial-and-error-Ansatz.
Interaktion mit gesamter Umgebung.
Nutzen von RL:
Finden von Lösungen für komplexe oder unstrukturierte Entscheidungsprobleme.
Frage: Was ist ein Markov'scher Entscheidungsprozess und wie funktioniert er im Kontext von Reinforcement Learning?
Definition: Modell für Entscheidungsfindung, abhängig von einer Sequenz von Aktionen.
Funktion:
Wahl einer Aktion at basierend auf aktuellem Zustand st.
Aktion führt zu neuem Zustand st+1.
Belohnung rt wird gegeben, korreliert mit Zielerreichung.
Markov-Bedingung: Zukünftiges Verhalten nur vom aktuellen Zustand und Aktion abhängig.
Frage: Was besagt die Markov-Annahme in Markov'schen Entscheidungsprozessen und wie wird sie im Kontext eines MEP angewendet?
Markov-Annahme:
Zustandsübergänge abhängig nur vom aktuellen Zustand ss, nicht von der Vorgeschichte.
Lösung eines MEP:
Strategie π∗:S→A, die für jeden Zustand eine Aktion bestimmt, um die Zielerreichung zu maximieren.
Frage: Was sind die Schlüsselkomponenten eines Markov'schen Entscheidungsprozesses und ihre Funktionen?
Agent: Führt Aktionen aus und erhält Belohnungen.
Umgebung: Interaktionsfeld des Agenten.
Belohnung (Reward): Feedback für Aktionen des Agenten.
Zustand (State): Aktueller Kontext von Umgebung und Agent.
Welches Ziel besteht in einem Agenten und seinen Aktionen?
Was ist das Ziel im RL?
Das Ziel eines Agenten besteht darin, ausgehend von einem Zustands eine Aktion a auszuwählen, sodassdie zukünftig zuerwartenden Belohnungen maximiert werden.
Ziel im RL: Maximierung der zukünftigen Belohnungen basierend auf Aktionen.
Frage: Was beschreiben die Wertefunktion und die Aktionswertefunktion im Kontext des Reinforcement-Learnings und wie tragen sie zur Strategiefindung bei?
Frage: Was ist die Bellman-Gleichung im Kontext von Reinforcement Learning und wie trägt sie zur Berechnung der Aktionswertefunktion bei?
Frage: Was sind die Herausforderungen der action value iteration beim Reinforcement Learning, und wie wird mit ihnen umgegangen?
Action value iteration erfordert keine Agenten-Interaktion, ist aber unrealistisch, da Umgebungsdynamik oft unbekannt.
Herausforderungen:
Unbekannte Umgebungsdynamik: Nicht klar, welche Aktion zu welchem Zustand führt.
Hohe Anzahl von Zuständen: Tabellarisches Lernen ist nicht umsetzbar.
Lösungsansätze:
Q-Learning: Agent lernt durch Interaktion, schätzt Q-Werte.
Deep Q-Learning (DQN): Neuronale Netze approximieren Q-Werte, verarbeiten hohe Zustands- und Aktionsräume.
Klausurfrage: Was versteht man unter Q-Learning und wie funktioniert die Aktualisierung der Q-Werte?
Q-Learning:
Agent lernt Q-Werte tabellarisch durch Interaktion mit Umgebung und dem Feedback durch die erhaltenen Belohnungen
Bei jeder Wahl einer Aktion des Agenten in einem Zustand wird Q-Wert angepasst
Durchführung mehrerer Episoden: Lernen der Aktionswerte und Ableiten der optimalen Strategie basierend auf anf.nglichen Trial-and-Error verhalten des Agenten
Episode: Simulationsdurchlauf, bis Agent das Ziel erreicht oder Abbruchkriterium erfüllt
Mehrere Episoden: einzelne Zustands-Aktionspaare werden häufig durchgeführt —> Q-Werte konvergieren
Klausurfrage: Erkläre "Exploitation" vs. "Exploration" in Reinforcement Learning und wie balanciert man beides?
Der Agent muss auch Aktionen durchführen, die vermeintlich schlechter als andere sind, um die Aktionswerte richtig schätzen zu können (Exploration)
Exploitation: Nutzung bestehenden Wissens für sofortige Belohnungen.
Exploration: Erforschung neuer Möglichkeiten zur Wissenserweiterung.
Balance: Strategien wie ε-greedy nutzen meistens Exploitation, erkunden aber mit kleiner Wahrscheinlichkeit (ε) neue Optionen. Ziel ist die optimale Langzeitbelohnung.
Erläutern Sie kurz das Prinzip von Deep Q-Learning und die Gewichtsanpassung über Huber-Loss.
Deep Q-Learning (DQN): NN approximieren die Aktionswerte bei gegebenem Zustand durch Interaktion mit Umgebung
Gewichtsanpassungen des NN über Huber-Loss
mit Fehler (rechter Term, Gleichung oben) 𝛿 wird Verlustfunktion (z.B.MSE) bestimmt), darüber werden die Gewichte angepasst
Nennen Sie zwei Herausforderungen und Lösungsansätze des Sim-to-Real-Transfers im Reinforcement Learning.
Reality Gap
Lernstabilität
Lösungen:
Adaptive Lernmethoden
Imitationslernen
Last changed9 months ago