EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ A2C
EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ A2C
从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论: A2C模型
演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法。这种方法中,演员是指策略函数,即学习一个策略以得到尽可能高的回报。评论员是指价值函数,它对当前策略的值函数进行估计,即评估演员的好坏。借助价值函数,演员-评论员算法可以进行单步参数更新,不需要等到回合结束才进行更新。在演员-评论员算法里面,最知名的算法就是异步优势演员-评论员算法。如果去掉异步,则为优势演员-评论员(advantage actor-critic)。这种算法在强化学习领域有着广泛的应用,特别是在需要快速适应环境变化的场景中。
评论已关闭