使用Adam优化带L2正则的损失并不有效。如果引入L2正则项, ... AdamW. AdamW是在Adam+L2正则化的基础上进行改进的算法。 ... Adam+L2 VS AdamW.
確定! 回上一頁