而Transformer在Encoder和Decoder中使用multi head self-attention機制代替CNN。在對輸入序列進行對齊中使用的是padding mask和sequence mask。mask掩碼。
確定! 回上一頁