单词向量矩阵用 X n × d X_{n\times d} 表示, n 是句子中单词个数,d 是表示向量的维度(论文中d=512)。每一个Encoder block 输出的矩阵维度与输入完全一致。 Transformer ...
確定! 回上一頁