跟Longformer一样,Linformer也是为了解决Transformer中的Attention部分随着序列长度而有N^2复杂度的问题。 论文标题很exciting,但是实际做法却很简洁直接,就是 ...
確定! 回上一頁