Adamw 即Adam + weight decate ,效果与Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播, ...
確定! 回上一頁