溢出错误(Grad Overflow / Underflow) 由于FP16的动态范围( [公式] ... 需要操作梯度的模块必须在optimizer的step里,不然AMP不能判断grad是否为Nan。 欢迎补充。
確定! 回上一頁