书生·浦语 LMDeploy 大模型量化部署原理
发布时间:2024年01月19日
大模型部署背景
模型部署
- 将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果
- 为了满足性能和效率的需求,常常需要对模型进行优化,如模型压缩和硬件加速
- 云端、边缘计算端、移动端部署
- 计算设备为CPU、GPU、NPU、TPU等
大模型的特点
- 内存开销巨大
- 参数量巨大
- 回归生成token,需要缓存Attention的k/v,带来巨大的内存消耗
- 动态shape,输入输出都是动态的
- 相对视觉模型,LLM结构简单
大模型部署的挑战
- 设备
- 推理
- 如何加速token的生成速度
- 如何解决动态shape,让推理可以不间断
- 如何有效管理和利用内存
- 服务
- 如何提升系统整体的吞吐量
- 对于个体用户,如何降低响应时间
大模型部署方案
- 技术点
- 模型并行
- 低比特量化
- Page Attention
- transformer 计算和访存优化
- Continuous Batch
- …
- 方案
- huggingface transformers
- 专门推理加速框架
- 云端
- imdeploy
- vllm
- tensorrt-llm
- deepspeed
- 移动端
LMDeploy简介
- 高效推理引擎,持续批量处理技巧,深度优化的低比特计算kernel,模型并行,高效的k/v缓存机制
- 完备易用的工具链,量化、推理、服务全流程,无缝对接OpenCompass评测推理精度,与OpenAI接口高度兼容
文章来源:https://blog.csdn.net/m0_49289284/article/details/135692284
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!