行動值函數(Action Value Function)是在狀態s時,採取特定行動(a)的報酬期望值。 ... 所謂的【動態規劃】(Dynamic Programming)的演算法,這種解法不僅可自我學習,也 ...
確定! 回上一頁