下一个Layer是Add \& Norm,这个意思是说:把multi-head的attention的layer的输入$I\in R (d,N)$ 和输出$O\in R (d,N)$ 进行相加以后,再做Layer ...
確定! 回上一頁