然而,蒙地卡羅法是從完整的 episode 中,進行參數的更新,所以不需要拔靴法(bootstrap)進行抽樣;但 TD 法可以從不完整的 episode 中進行學習,亦即根據當前的資訊來估計下 ...
確定! 回上一頁