Was ist das Ziel von RL.
Learn a behavior that maximizes the reward in the long term.
Welches Modell beschreibt die Problemstellung von RL und nenne 4 Bestandteile.
Action
State: Complete Description of the state of the world
Observation: Partial Description of the state of the world
Reward: Scalar Feedback signal
Was besagt die Markov Bedingung?
The current state 𝑠𝑡 comprises all relevant information from the past
Zuletzt geändertvor 2 Monaten