AdamW 是由fast.ai 推广的一种具有 权重 衰减(而不是L2 正则化 )的Adam,在PyTorch 中以torch.optim.AdamW 实现。AdamW 似乎在误差和训练时间上都 ...
確定! 回上一頁