1、对于标准的Self Attention + Feedforward组合,应用l2归一化Attention之前需要缩小一下Attention的WV,WO的初始化方差,实验结果则是略差于常规的l1 ...
確定! 回上一頁