论文"Decoupled Weight Decay Regularization" 中提到,Adam 在使用时,L2 regularization 与weight decay 并不等价,并提出了AdamW,在神经网络需要 ...
確定! 回上一頁