... 那我就跟你說,就是temporal-difference(TD) learning(後續皆簡寫為TD-learning)。 ... 想法上就是利用近似策略(approximate policy)與價值函數(value function)的 ...
確定! 回上一頁