第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作。这个是什么意思啊?是指在预测第t个词的时候要把t+1到末尾的词遮住,只对 ...
確定! 回上一頁