QK是 n x n 继而(QK)V 是 n x d 计算量最大的在于QK出 n x n 这步,固算Attention为O(n^2)复杂度. Linformer用两个 n x k 矩阵,将K 和V 映射为 k x d
確定! 回上一頁