每个head 的点积运算都是一样的,因为我们将heads fold 到batch dimention。 这样我们就可以使用 torch.bmm() ,而keys, queries and values 可以看做是 ...
確定! 回上一頁