【AWS系列】使用 Amazon SageMaker 微调和部署 ChatGLM 模型

发布时间：2023年12月17日

前言

大语言模型是一种基于深度学习技术的人工智能模型，可以追溯到早期的语言模型和机器翻译系统。直到最近，随着深度学习技术的崛起，大型预训练语言模型才开始引起广泛的关注。

大语言模型使用大规模的文本数据集进行预训练，从而学习到丰富的语言知识和语境理解能力。通过预训练和微调的方式，大语言模型可以用于各种自然语言处理任务，例如文本生成、机器翻译、问答系统、对话系统等。它们在许多领域都展示出了令人印象深刻的性能，并成为推动人工智能技术发展的重要驱动力。

本篇文章主要介绍如何使用?Amazon?SageMaker?进行?ChatGLM?模型部署和微调的示例。

这个示例主要包括:

ChatGLM?总体介绍
ChatGLM?微调介绍
ChatGLM?环境设置
ChatGLM?微调训练
ChatGLM?部署测试

Amazon?SageMaker?更多信息，可以点击下面链接进行了解：Amazon?SageMaker

亚马逊云科技更多信息可以查看下方链接亚马逊云科技

一、ChatGLM?总体介绍

ChatGLM?模型是由清华大学开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化。该模型基于?General?Language?Model（GLM）架构，具有?62?亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署。

ChatGLM?具备以下特点：

充分的中英双语预训练：ChatGLM?在?1:1?比例的中英语料上训练了?1T?的?token?量，兼具双语能力。
优化的模型架构和大小：修正了二维?RoPE?位置编码实现。6B（62?亿）的参数大小，也使得研究者和个人开发者自己微调和部署?ChatGLM?成为可能。
较低的部署门槛：FP16?半精度下，ChatGLM?需要至少?13?GB?的显存进行推理，结合模型量化技术，这一需求可以进一步降低到?10GB（INT8）?和?6GB（INT4），使得?ChatGLM?可以部署在消费级显卡上。
更长的序列长度：ChatGLM?序列长度达?2048，支持更长对话和应用。

二、ChatGLM?微调介绍

模型微调主要分为?Full?Fine-Tune?和?PEFT?(Performance-Efficient?Fine-Tune)，前者模型全部参数都会进行更新，训练时间较长，训练资源较大；而后者会冻结大部分参数、微调训练网络结构，常见的方式是?LoRA?和?P-Tuning?v2。对于?ChatGLM?来说，选择?P-Tuning?v2?进行模型微调，其网络结构如下：在Transformers?的所有层均增加?Prompt/Prefix。

三、ChatGLM?环境设置

备注：项目中的示例代码均保存于代码仓库，地址如下：代码仓库

1.?升级?Python?SDK

pip?install?--upgrade?boto3
pip?install?--upgrade?sagemaker
pip?install?huggingface_hub

获取运行时资源

包括区域、角色、账号、S3?桶等

import?boto3
import?sagemaker
from?sagemaker?import?get_execution_role


sess?=?sagemaker.Session()
role?=?get_execution_role()
sagemaker_default_bucket?=?sess.default_bucket()


account?=?sess.boto_session.client("sts").get_caller_identity()["Account"]
region?=?sess.boto_session.region_name

四、ChatGLM?微调训练

4.1准备微调

1.克隆代码

rm?-rf?ChatGLM-6B
git?clone?https://github.com/THUDM/ChatGLM-6B.git
cd?ChatGLM-6B
git?checkout?163f94e160f08751545e3722730f1832d73b92d1

2.下载数据集

此处采用示例的广告数据集。根据输入实现广告语的输出，格式如下:

{
?"content":?"类型#上衣版型#宽松版型#显瘦图案#线条衣样式#衬衫衣袖型#泡泡袖衣款式#抽绳",
?"summary":?"这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}
#?下载?ADGEN?数据集
wget?-O?AdvertiseGen.tar.gz?https://cloud.tsinghua.edu.cn/f/b3f119a008264b1cabd1/?dl=1


#?解压数据集
tar?-xzvf?AdvertiseGen.tar.gz

3.下载?ChatGLM?原始模型

from?huggingface_hub?import?snapshot_download
from?pathlib?import?Path




local_cache_path?=?Path("./model")
local_cache_path.mkdir(exist_ok=True)


model_name?=?"THUDM/chatglm-6b"


#?Only?download?pytorch?checkpoint?files
allow_patterns?=?["*.json",?"*.pt",?"*.bin",?"*.model",?"*.py"]


model_download_path?=?snapshot_download(
????repo_id=model_name,
????cache_dir=local_cache_path,
????allow_patterns=allow_patterns,
)


#?Get?the?model?files?path
import?os
from?glob?import?glob


local_model_path?=?None


paths?=?os.walk(r'./model')
for?root,?dirs,?files?in?paths:
????for?file?in?files:
????????if?file?==?'config.json':
????????????#?print(os.path.join(root,?file))
????????????local_model_path?=?str(os.path.join(root,?file))[0:-11]
????????????print(local_model_path)
if?local_model_path?==?None:
????print("Model?download?may?failed,?please?check?prior?step!")

4.拷贝模型和数据到?S3

chmod?+x?./s5cmd
./s5cmd?sync?${local_model_path}?s3://${sagemaker_default_bucket}/llm/models/chatglm/original-6B/
./s5cmd?sync?./AdvertiseGen/?s3://${sagemaker_default_bucket}/llm/datasets/chatglm/AdvertiseGen/


rm?-rf?model
rm?-rf?AdvertiseGen
rm?-rf?AdvertiseGen.tar.gz

4.2模型微调

模型的微调使用?P-Tuning?v2，以实现成本和效果的平衡。模型微调更改的源代码较多，具体可以参考上述?git?仓库。

1.模型微调参数

模型微调设置的关键参数如下:

前缀词长度：128
学习率：2e-2，确保?loss?在训练过程中下降
batch?size：1
gradient?accumulation?step：16
训练步长：50，步长仅设置为?50?步，已经可以看出比较明显的微调结果

import?time
from?sagemaker.huggingface?import?HuggingFace




PRE_SEQ_LEN=128
LR=2e-2
BATCH_SIZE=1
GRADIENT_ACCUMULATION_STEPS=16
TRAIN_STEPS=50


job_name?=?f'huggingface-chatglm-finetune-ptuning-{time.strftime("%Y-%m-%d-%H-%M-%S",?time.localtime())}'


instance_type??=?"ml.g4dn.2xlarge"
instance_count?=?1


#?基础模型存放地址
model_name_or_path?=?'s3://{}/llm/models/chatglm/original-6B/'.format(sagemaker_default_bucket)


#?微调模型输出地址
output_dir?????????=?'/opt/ml/model/adgen-chatglm-6b-ft'
model_s3_path??????=?'s3://{}/llm/models/chatglm/finetune-ptuning-adgen/'.format(sagemaker_default_bucket)


#?模型环境变量设置
environment?=?{
????'PYTORCH_CUDA_ALLOC_CONF':?'max_split_size_mb:32',
????'TRAIN_DATASET'??????????:?'/opt/ml/input/data/AdvertiseGen/train.json',
????'TEST_DATASET'???????????:?'/opt/ml/input/data/AdvertiseGen/dev.json',
????'PROMPT_COLUMN'??????????:?'content',
????'RESPONSE_COLUMN'????????:?'summary',
????'MODEL_NAME_OR_PATH'?????:?model_name_or_path,
????'OUTPUT_DIR'?????????????:?output_dir,
????'MODEL_OUTPUT_S3_PATH'???:?model_s3_path,
????'TRAIN_STEPS'????????????:?'50'
}


inputs?=?{
???'AdvertiseGen':?f"s3://{sagemaker_default_bucket}/llm/datasets/chatglm/AdvertiseGen/"
}

2.开启模型微调

huggingface_estimator?=?HuggingFace(
????entry_point??????????=?'sm_ptune_train.py',
????source_dir???????????=?'./ChatGLM-6B/ptuning',
????instance_type????????=?instance_type,
????instance_count???????=?instance_count,
????base_job_name????????=?job_name,
????role?????????????????=?role,
????script_mode??????????=?True,
????transformers_version?=?'4.26',
????pytorch_version??????=?'1.13',
????py_version???????????=?'py39',
????environment??????????=?environment
)


huggingface_estimator.fit(inputs=inputs)

五、ChatGLM?部署测试

5.1模型部署

1.?准备?Dummy?模型

!touch?dummy
!tar?czvf?model.tar.gz?dummy
assets_dir?=?'s3://{0}/{1}/assets/'.format(sagemaker_default_bucket,?'chatglm')
model_data?=?'s3://{0}/{1}/assets/model.tar.gz'.format(sagemaker_default_bucket,?'chatglm')
!aws?s3?cp?model.tar.gz?$assets_dir
!rm?-f?dummy?model.tar.gz

2.?配置模型参数

from?sagemaker.pytorch.model?import?PyTorchModel


model_name??????????????????=?None
entry_point?????????????????=?'chatglm-inference-finetune.py'
framework_version???????????=?'1.13.1'
py_version??????????????????=?'py39'
base_model_name_or_path?????=?'s3://{}/llm/models/chatglm/original-6B/'.format(sagemaker_default_bucket)
finetune_model_name_or_path?=?'s3://{}/llm/models/chatglm/finetune-ptuning-adgen/adgen-chatglm-6b-ft/checkpoint-50/pytorch_model.bin'.format(sagemaker_default_bucket)


#?模型环境变量设置
model_environment??=?{
????'SAGEMAKER_MODEL_SERVER_TIMEOUT':?'600',
????'SAGEMAKER_MODEL_SERVER_WORKERS':?'1',
????'MODEL_NAME_OR_PATH'????????????:?base_model_name_or_path,
????'PRE_SEQ_LEN'???????????????????:?'128',
????'FINETUNE_MODEL_NAME_OR_PATH'???:?finetune_model_name_or_path,
}


model?=?PyTorchModel(
????name??????????????=?model_name,
????model_data????????=?model_data,
????entry_point???????=?entry_point,
????source_dir????????=?'./code',
????role??????????????=?role,
????framework_version?=?framework_version,?
????py_version????????=?py_version,
????env???????????????=?model_environment
)

3.?部署微调模型

from?sagemaker.serializers?import?JSONSerializer
from?sagemaker.deserializers?import?JSONDeserializer


endpoint_name?????????=?None
instance_type?????????=?'ml.g4dn.2xlarge'
instance_count????????=?1


predictor?=?model.deploy(
????endpoint_name??????????=?endpoint_name,
????instance_type??????????=?instance_type,?
????initial_instance_count?=?instance_count,
????serializer?????????????=?JSONSerializer(),
????deserializer???????????=?JSONDeserializer()
)

4.其中关键的模型加载

代码如下：加载原始的?ChatGLM?模型、同时加载?FineTune?的?PrefixEncoder?参数共同进行推理

import?torch
import?os


from?transformers?import?AutoConfig,?AutoModel,?AutoTokenizer


#?载入Tokenizer
tokenizer?=?AutoTokenizer.from_pretrained("THUDM/chatglm-6b",?trust_remote_code=True)


#?如果需要加载的是新?Checkpoint（只包含?PrefixEncoder?参数）：
config?=?AutoConfig.from_pretrained("THUDM/chatglm-6b",?trust_remote_code=True,?pre_seq_len=128)
model?=?AutoModel.from_pretrained("THUDM/chatglm-6b",?config=config,?trust_remote_code=True)
prefix_state_dict?=?torch.load(os.path.join(CHECKPOINT_PATH,?"pytorch_model.bin"))
new_prefix_state_dict?=?{}
for?k,?v?in?prefix_state_dict.items():
????if?k.startswith("transformer.prefix_encoder."):
????????new_prefix_state_dict[k[len("transformer.prefix_encoder."):]]?=?v
model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict)


model?=?model.quantize(4)
model.half().cuda()

5.2模型微调前后对比

1.?模型测试

?inputs?=?{
????"ask":?"类型#上衣\*材质#牛仔布\*颜色#白色\*风格#简约\*图案#刺绣\*衣样式#外套\*衣款式#破洞"


}


response?=?predictor.predict(inputs)
print(response["answer"])

对比原始?ChatGLM?模型，

对于相同的输入，输出更偏广告词，而不是单纯的语义提取

2.?清除资源

predictor.delete_endpoint()

六、总结

大语言模型方兴未艾，正在以各种方式改变和影响着整个世界。客户拥抱大语言模型，亚马逊云科技团队同样在深耕客户需求和大语言模型技术，可以在未来更好地协助客户实现需求、提升业务价值。

如果对大模型感兴趣，可以访问下面链接了解更多大模型信息

亚马逊云科技

文章来源:https://blog.csdn.net/weixin_36755535/article/details/134282416
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！