云端、边缘计算端、移动端
CPU、GPU、NPU、TPU等
LMDeploy 是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。 项目地址:https://github.com/InternLM/lmdeploy
为什么做weight only的量化?
参考教程: https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md