假設你今天使用multi-node training,PyTorch 的DDP 是synchronize gradients,所以如果你的model 裡面有batch norm layer,那要注意running mean/ ...
確定! 回上一頁