AdamW 优化器出自DECOUPLED WEIGHT DECAY REGULARIZATION ,用来解决Adam 优化器中L2 正则化失效的问题。 其参数更新的计算公式如下:. \[\begin{split}\\t = t + 1\end{ ...
確定! 回上一頁