每一个回合结束后,观察到的回报用来做策略评估,然后对每个经历的状态做策略提升。 完整的简化算法在下面,我们称作探索开端的蒙特卡洛算法(Monte Carlo ES,即Monte ...
確定! 回上一頁