【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记

发布时间:2024年01月22日

《(5)LMDeploy 大模型量化部署实践》

课程文档:《LMDeploy 的量化和部署》

1、大模型部署背景

在这里插入图片描述

1.1 模型部署

定义

  • 将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果
  • 为了满足性能和效率的需求,常常需要对模型进行优化,例如模型压缩和硬件加速

产品形态

  • 云端、边缘计算端、移动端

1.2 大模型特点

内存开销巨大

  • 庞大的参数量。7B模型仅权重就需要14+G显存
  • 采用自回归生成 token,需要缓存Attention的k/v,带来巨大的内存开销

在这里插入图片描述

1.3 大模型部署挑战

设备

  • 如何应对巨大的存储问题?低存储设备(消费级显卡、手机等)如何部署?

推理

  • 如何加速token的生成速度
  • 如何解决动态shape,让推理可以不间断
  • 如何有效管理和利用内存

2、LMDeploy简介

在这里插入图片描述LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
项目地址:https://github.com/InternLM/lmdeploy

1.1 接口

python & gRPC & RESTful

文章来源:https://blog.csdn.net/songyuc/article/details/135738212
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。