第三個重點是報酬的 clipping。這是將各步驟所得的報酬定義-1、0、1 其中之一的方法,如此一來,不管課題(學習對象)為何,都能以相同的超參數執行 DQN。第四個重點是計算 ...
確定! 回上一頁