例えば、探索の促進や価値推定誤差に対する頑健性、性能の単調的向上保証などが可能です。一方、Mirror Descent Value Iteration (以下 MDVI)はKL擬 ...
確定! 回上一頁