【优质书籍推荐】大模型微调的技巧和方法

发布时间：2024年01月05日

??大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

??今天给大家带来的文章是大模型微调的技巧和方法，希望能对同学们有所帮助。

文章目录

1. 定义
2. LoRA微调参数
3. 书籍推荐

1. 定义

??对于大语言模型而言，全量微调的代价是比较高的，需要数百GB的显存来训练具有几B参数的模型。为了解决资源不足的问题，大佬们提出了一种新的方法：低秩适应（Low-Rank Adaptation）。与微调OPT-175B相比，LoRA可以将可训练参数数量减少一万倍，并且GPU显存降低3倍以上。详细内容可参考论文《LoRA: Low-Rank Adaptation of Large Language Models》和HuggingFace PEFT博客文章《Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware》。

在这里插入图片描述

??LoRA是一种常用的高效微调的训练方法(PEFT)，旨在加快大型语言模型的训练过程，同时减少显存的使用。通过引入更新矩阵对现有权重进行操作，LoRA专注于训练新添加的权重。LoRA方法具有以下的几大优点：

保留预训练权重：LoRA保持先前训练权重的冻结状态，最小化了灾难性遗忘的风险。这确保了模型在适应新数据时保留其现有知识。
已训练权重的可移植性：与原始模型相比，LoRA中使用的秩分解矩阵参数明显较少。这个特点使得经过训练的LoRA权重可以轻松地转移到其他环境中，使它们非常易于移植。
与注意力层集成：通常将LoRA矩阵合并到原始模型的注意力层中。此外，自适应缩放参数允许控制模型对新培训数据调整程度。
显存效率：LoRA改进后具有更高效利用显存资源能力，在不到本机微调所需计算量3倍情况下运行微调任务成为可能。

??对于普通用户来说，依然很难满足1/3的显存需求。幸运的是，大佬们又发明了一种新的LoRA训练方法：量化低秩适应（QLoRA）。它利用bitsandbytes库对语言模型进行即时和近无损量化，并将其应用于LoRA训练过程中。这导致显存需求急剧下降，可以在2个3090卡上微调70B的模型。相比之下，要微调同等规模的模型通常需要超过16个A100-80GB GPU，对应的成本将非常巨大。详细内容可参考论文QLoRA: Efficient Finetuning of Quantized LLMs。

在这里插入图片描述

2. LoRA微调参数

??首先最关键的参数为：低秩矩阵对应的秩(rank)。为了减少显存，对权重矩阵应用了低秩分解。在LoRA论文中，建议rank设置不小于8（r = 8）。请记住，较高的rank会导致更好的结果，但需要更多的显存。数据集的数量和复杂度越高，所需的rank就越高。

??除此之外，另外需要设置的参数即为LoRA微调对应的网络层。最基本的训练对象是查询向量（例如q_proj）和值向量（例如v_proj）投影矩阵。不同模型对应的网络层如下所示：

Model	Model size	Default module
Baichuan	7B/13B	W_packbaichuan
Baichuan2	27B/13B	W_packbaichuan2
BLOOM	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value
BLOOMZ	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value
ChatGLM	36B	query_key_value
Falcon	7B/40B/180B	query_key_value
InternLM	7B/20B	q_proj,v_proj
LLaMA	7B/13B/33B/65B	q_proj,v_proj
LLaMA-2	7B/13B/70B	q_proj,v_proj
Mistral	7B	q_proj,v_proj
Mixtral	8x7B	q_proj,v_proj
Phi	1.5/21.3B/2.7B	Wqkv-Q
Qwen	1.8B/7B/14B/72B	c_attn
XVERSE	7B/13B/65B	q_proj,v_proj
Yi	6B/34B	q_proj,v_proj

3. 书籍推荐

??大模型是深度学习自然语言处理皇冠上的一颗明珠，也是当前AI和NLP研究与产业中最重要的方向之一。《实战AI大模型》系统介绍了大模型的理论和实践方法，非常值得深入学习。

3.1 《实战AI大模型》

??本书涉及内容包含基本概念和实践技巧，全方位解读AI大模型填补人工智能领域（特别是AI大模型)）理论与实践之间鸿沟的实用手册。

??本书是由人工智能领域资深专家尤洋老师倾力打造，获得了李开复、周鸿祎、颜水成三位大咖鼎力推荐，一经上市就登上了京东“计算机与互联网”图书排行榜Top1的宝座。
在这里插入图片描述
??本书涉及模型众多，具体包括Transformer、BERT、ALBERT、InstructGPT、GPT系列、ChatGPT、GPT 4和PaLM视觉模型等经典和最新的大模型。

3.2 粉丝福利

本次送书两本
活动时间：截止到2024-1-8 9:00
参与方式：关注博主、并在此文章下面点赞、收藏并任意评论。

3.3 自主购买

??小伙伴也可以访问链接进行自主购买哦~

??直达京东购买链接🔗：《实战AI大模型》

文章来源:https://blog.csdn.net/herosunly/article/details/135403508
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！