之前提過的Epsilon Greddy是在action的space上加noise,但另一種更好的 ... 也就是在某一個state採取某一個action,將玩到遊戲結束的所有reward進行一個統計,這邊得到 ...
確定! 回上一頁