與Q learning 類似,使用Q 表紀錄狀態S 動作A 與獎勵R,與Q-learning 不同點在於只. 會依照當前的Q 最佳值進行下一步動作。 •Policy Gradient. 目標為使 ...
確定! 回上一頁