答案是,它们对于vanilla SGD来说是一样的东西,但只要我们在公式中增加动量项,或者使用像Adam这样更复杂的一阶或二阶的optimizer,L2正则化(第一个等式)和权重衰减(第 ...
確定! 回上一頁