因而,AdamW选择将L2正则项加在了Adam的 m 和 v 等参数被计算完之后、在与学习率lr相乘之前,所以这也表明了weight_decay和L2正则虽目的一致、公式一致,但用法还是 ...
確定! 回上一頁