AdamW觀察到了一個小小的細節:在Adam這類自適學習率的optimizer下,加入L2 regularization不等價於weight decay。一般情況下,weight decay是對所有的 ...
確定! 回上一頁