书生·浦语 LMDeploy 大模型量化部署原理

发布时间：2024年01月19日

文章目录

大模型部署背景
LMDeploy简介

大模型部署背景

模型部署

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果
为了满足性能和效率的需求，常常需要对模型进行优化，如模型压缩和硬件加速
云端、边缘计算端、移动端部署
计算设备为CPU、GPU、NPU、TPU等

大模型的特点

内存开销巨大
- 参数量巨大
- 回归生成token，需要缓存Attention的k/v，带来巨大的内存消耗
动态shape，输入输出都是动态的
相对视觉模型，LLM结构简单

大模型部署的挑战

设备
- 如何应对巨大的存储问题？低存储设备如何部署？
推理
- 如何加速token的生成速度
- 如何解决动态shape，让推理可以不间断
- 如何有效管理和利用内存
服务
- 如何提升系统整体的吞吐量
- 对于个体用户，如何降低响应时间

大模型部署方案

技术点
- 模型并行
- 低比特量化
- Page Attention
- transformer 计算和访存优化
- Continuous Batch
- …
方案
huggingface transformers
专门推理加速框架
- 云端
  - imdeploy
  - vllm
  - tensorrt-llm
  - deepspeed
- 移动端
  - llama.cpp
  - mlc-llm

LMDeploy简介

高效推理引擎，持续批量处理技巧，深度优化的低比特计算kernel，模型并行，高效的k/v缓存机制
完备易用的工具链，量化、推理、服务全流程，无缝对接OpenCompass评测推理精度，与OpenAI接口高度兼容

在这里插入图片描述

文章来源:https://blog.csdn.net/m0_49289284/article/details/135692284
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！