什么意思呢,可以将内层理解为是一个RL过程,则IRL找的是可以最大化<利用该损失函数 ... 因此可以将IRL看成试图induce得到可以match专家的occupancy measure的policy。
確定! 回上一頁