【书生·浦语】大模型实战营——LMDeploy 大模型量化部署实战

发布时间：2024年01月16日

大模型部署背景

? ? ? ? 大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程，使模型能够接收输入并返回预测结果。大模型的内存开销巨大，7B模型仅权重需要14G内存。另外大模型是自回归生成，需要缓存Attention的 k/v。

LMDeploy 简介

推理性能

核心功能-量化

? ? ? ? 量化可以大大降低显存，同时提升推理速度。LLM 是典型的访存密集型任务?

????????Weight Only 量化：

核心功能——推理引擎 TurboMind

? ? ? ? 主要包括四个部分：1. 持续批处理；2. 有状态的推理； 3. Blocked k/v cache； 4. 高性能 cuda kernel。

1. 持续批处理

2. 有状态的推理

3. Blocked K/V Cache

4. Cuda Kernel （算子融合可以有效减少访存次数）

核心功能-推理服务 api server

? ??

文章来源:https://blog.csdn.net/wudongliang971012/article/details/135595460
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！