其中ABfly模块主要是通过蝶式变换来实现,保留了attention模块的主干,并使用蝶式分解压缩了所有的线性层。ABfly块从三个蝶式线性层开始,生成Q, K和V矩阵后被输入到 ...
確定! 回上一頁