从学习方式上说: Offline RL 结合了supervised learning的思路,从fixed数据集中学习摆脱了OnlineRL与环境交互的缺点,本质上说只要数据集好,基本 ...
確定! 回上一頁