我們可以使用如DP 及MC 所介紹的General Policy Iteration GPI 來進行迭代改進。 ... OpenAI Gym 的CartPole 是一個推車頂桿子的範例。
確定! 回上一頁