强化学习P3马尔可夫决策过程P4Bellman方程

betball贝博app 强化学习 348 次浏览 没有评论

马尔可夫决策要求:

  • 能够检测到理想的状态
  • 可以多次尝试
  • 系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还与当前采取的动作有关。
  • Bellman方程:当前状态的价值和下一步的价值及当前的奖励(Reward)有关,价值函数分解为当前的奖励和下一步的价值两部分。

    发表评论

    邮箱地址不会被公开。

    Go