马尔可夫决策要求: 能够检测到理想的状态可以多次尝试系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还与当前采取的动作有关。 Bellman方程:当前状态的价值和下一步的价值及当前的奖励(Reward)有关,价值函数分解为当前的奖励和下一步的价值两部分。