Ptt 大爆卦 | AdamW optimizer - 前往 https://arxiv.org/abs/1711.05101

你即將離開本站

並前往https://arxiv.org/abs/1711.05101

[1711.05101] Decoupled Weight Decay Regularization - arXiv

... (when rescaled by the learning rate), but as we demonstrate this is \emph{not} the case for adaptive gradient algorithms, such as Adam.

確定！回上一頁

查詢「AdamW optimizer」的人也找了：

AdamW weight decay

Adam weight decay

Fixing weight decay regularization in Adam

Adam optimizer learning rate