RWKV入门

发布时间:2024年01月14日

主要参考资料
B站视频《【项目原作解读】RWKV Foundation侯皓文:新型RNN模型RWKV,结合Transformer的并行化训练优势和RNN的高效推理》
RWKV官网: https://www.rwkv.com/

前言

RNN无法并行化,Transformer的二次复杂度,RWKV的改善。
请添加图片描述

RWKV由来

RNN的局限是无法进行并行化训练,相较Transformer处于劣势。
请添加图片描述

继《Attention is all you need》横空出世后,针对Transformer的二次Attention,苹果提出AFT的线性Attention,RWKV受苹果启发,提出时间衰减向量的概念。
请添加图片描述

模型架构

一个Embeding Input进入RWKV,首先会进入Time-mixing模块,会跟之前的文本信息进行一次融合。之后是channel-mixing模块,会对每个词的channel进行混合和非线性,增强非线性能力。
在这里插入图片描述

关键结果

在LAMBADA测试集中,RWKV的劣势在参数量小的时候,与Transformer有一定的差距,因为Transformer可以将过去的数据集都拉出来重算一遍。
但是在7B时RWKV已经接近Tranformer,14B时已经不相上下。因此从模型角度RWKV更有优势。
PS:但是GPT-3已经是175B的数据量了。。。
GPT:无所谓,我有钱
在这里插入图片描述

再次重申,RWKV的优越性,时间复杂度更低。
在这里插入图片描述

数据量7B的RWKV至少需要CPU内存12GB 或者 显卡显存9GB。。。
在这里插入图片描述

劣势

RNN的特性,让RWKV在对前文的记忆很差,因此需要精心设计prompt。
在这里插入图片描述

未来展望

(1)RWKV可以进一步提高效率(遗忘是不是更严重?)
(2)增加多模态,现在只是decoder
在这里插入图片描述

文章来源:https://blog.csdn.net/qq_40773212/article/details/135575538
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。