主要参考资料
B站视频《【项目原作解读】RWKV Foundation侯皓文:新型RNN模型RWKV,结合Transformer的并行化训练优势和RNN的高效推理》
RWKV官网: https://www.rwkv.com/
RNN无法并行化,Transformer的二次复杂度,RWKV的改善。
RNN的局限是无法进行并行化训练,相较Transformer处于劣势。
继《Attention is all you need》横空出世后,针对Transformer的二次Attention,苹果提出AFT的线性Attention,RWKV受苹果启发,提出时间衰减向量的概念。
一个Embeding Input进入RWKV,首先会进入Time-mixing模块,会跟之前的文本信息进行一次融合。之后是channel-mixing模块,会对每个词的channel进行混合和非线性,增强非线性能力。
在LAMBADA测试集中,RWKV的劣势在参数量小的时候,与Transformer有一定的差距,因为Transformer可以将过去的数据集都拉出来重算一遍。
但是在7B时RWKV已经接近Tranformer,14B时已经不相上下。因此从模型角度RWKV更有优势。
PS:但是GPT-3已经是175B的数据量了。。。
GPT:无所谓,我有钱
再次重申,RWKV的优越性,时间复杂度更低。
数据量7B的RWKV至少需要CPU内存12GB 或者 显卡显存9GB。。。
RNN的特性,让RWKV在对前文的记忆很差,因此需要精心设计prompt。
(1)RWKV可以进一步提高效率(遗忘是不是更严重?)
(2)增加多模态,现在只是decoder