计算量大
当input sequence 很长时,计算量特别大
- self-atttention 至少一个大模型的一部分
- 当input sequence 很长时,主要运算来自self - attention, 加快 self attention ,才能有明显的加快速度
变形
- local attention
只计算左右两个位置的 attention weight, 其他位置设为0
缺陷: 只看到某个小范围的咨询
那岂不是跟CNN一样
计算快,但是效果不一定好
2. stride attention
如看两个间隔一个, 或者看一个间隔一个
3. global attention
所有的 attention 变形一起上
直接估计在 atteontion matrix 里哪些位置数值大,哪些小,小的直接设为0
- 怎么快速预估attention weights?
(聚类,根据相似性)
是否需要所有的 attention matrix
选择有代表性的K
如何选择有代表性的K
CNN : 长sequence 变成 短 sequence
Linformer
Q K 维数需要一样,V不一定
转变计算顺序 矩阵相乘的顺序,计算量不一样
总结