时间差分法的状态值更新方式和incremental MC的的第二种更新方式很像,也是引进了学习率α,但还引进了衰减因子γ,将Gt 替换成了Rt+1 + γV(St+1)。 估计状态 ...
確定! 回上一頁