上式的意思是: 我們調整的梯度,會增加positive reward的trajectory (state-action sequence) 的概率,而減小negative reward的trajectory的概率。
確定! 回上一頁