本章介紹並用Keras與OpenAI gym環境實做了四種方法:REINFORCE法、具基準的REINFORCE法、動作-評價法與優勢動作-評價法(A2C)。本章的範例說明了如何 ...
確定! 回上一頁