一句话概括Actor Critic 方法: 结合了Policy Gradient (Actor) 和Function Approximation (Critic) 的方法. Actor 基于概率选行为, Critic 基于Actor ...
確定! 回上一頁