Buffl

Summary

pz
von p Z.

Reinforcement Learning



  • Aber wir kennen das Model nicht und deswegen müssen wir erfahrungen sammel —> Aktionnen ausführen und anhand der Belohnungen entscheiden wie wir uns verbessern wollen —> Kreislauf

  • Model icht kennen —> Explorieren( ausprobieren)

  • Werte basierte RL: Q und V Funktion lernen und draus implizit die Stragie ableiten

    • Monte Carlo Methode: Erwartungswert durch Sampling und durchschnitt berechnen

    • TD-Learning: Bellmann Gleichung —> Recursiven Zusammenhang zwischen jetzigen und dem zukünfitgen Zeitpunkt —> können einen Lost (TD-Error) definieren —> das können wir optimieren.

      • 2 Ausprägungen: SARSA (neu Erfahrung generieren) und Q-learning (Erfahrung aus der Veregangen heit wieder verwenden —> ist effizienter)

      • n-step bootstr. —> beides kombinieren

  • Deep Q-Learning:

    • V Q learning algorithmus approximieren mit neuronalen netzen für die Q funktion —> statt Tabelle wir zustand und Aktion in neuronales Netz eingegeben und wird mit Gradient descent berechnen

      • 3 Probleme

        • catastr. forgetting: Zustände die nacheinander folgen, vergessen wir was wir gemacht haben

        • Target: WOhin wir optimieren verändert sich wenn wir parameter aktualisieren, was nicht gut ist da wir statische Ziele haben wollen und deshalb haben wir target network angeschaut

        • Overestimation: Effekt, dass wir die Auswahl der aktionen und Evaluationen beides mit einem Schätzer machen der nicht so genau ist —> selbstverstärkender effekt und das kann man aufbrechen durch zwei Q werde —> eins für selektion udn einen für evaluationen


Author

p Z.

Informationen

Zuletzt geändert