跟環境互動的agent與訓練的agent同一個的時候,即為On-policy,若否為Off-policy,更白話 ... 期望值會是一樣的,但如果sample的次數不夠多,就可能會得到非常大的差別 ...
確定! 回上一頁