RWKV入门

发布时间：2024年01月14日

主要参考资料
B站视频《【项目原作解读】RWKV Foundation侯皓文：新型RNN模型RWKV，结合Transformer的并行化训练优势和RNN的高效推理》
RWKV官网: https://www.rwkv.com/

前言

RNN无法并行化，Transformer的二次复杂度，RWKV的改善。
请添加图片描述

RWKV由来

RNN的局限是无法进行并行化训练，相较Transformer处于劣势。
请添加图片描述

继《Attention is all you need》横空出世后，针对Transformer的二次Attention，苹果提出AFT的线性Attention，RWKV受苹果启发，提出时间衰减向量的概念。
请添加图片描述

模型架构

一个Embeding Input进入RWKV，首先会进入Time-mixing模块，会跟之前的文本信息进行一次融合。之后是channel-mixing模块，会对每个词的channel进行混合和非线性，增强非线性能力。
在这里插入图片描述

关键结果

在LAMBADA测试集中，RWKV的劣势在参数量小的时候，与Transformer有一定的差距，因为Transformer可以将过去的数据集都拉出来重算一遍。
但是在7B时RWKV已经接近Tranformer，14B时已经不相上下。因此从模型角度RWKV更有优势。
PS：但是GPT-3已经是175B的数据量了。。。
GPT：无所谓，我有钱
在这里插入图片描述

再次重申，RWKV的优越性，时间复杂度更低。
在这里插入图片描述

数据量7B的RWKV至少需要CPU内存12GB 或者显卡显存9GB。。。
在这里插入图片描述

劣势

RNN的特性，让RWKV在对前文的记忆很差，因此需要精心设计prompt。
在这里插入图片描述

未来展望

（1）RWKV可以进一步提高效率（遗忘是不是更严重？）
（2）增加多模态，现在只是decoder
在这里插入图片描述

文章来源:https://blog.csdn.net/qq_40773212/article/details/135575538
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！

RWKV入门

目录

前言

RWKV由来

模型架构

关键结果

劣势

未来展望