... 則是先給定最佳策略之後,再試著去找出獎勵函數。 用 Python 實作強化學習|使用 TensorFlow 與 OpenAI Gym 作者:Sudharsan Ravichandiran. Appendix A 參考答案 306.
確定! 回上一頁