【大模型】LLM显存占用对比：Qwen-7B-Chat，Qwen-14B-Chat-Int8，chatglm3-6b

发布时间：2023年12月22日

【大模型】LLM显存占用对比：Qwen-7B-Chat，Qwen-14B-Chat-Int8，chatglm3-6b

显存占用对比：
总结
参考

显存占用对比：

显卡：NVIDIA GeForce RTX 4090
系统环境：ubuntu 22.04LTS

Qwen-14B-Chat-Int8
模型：qwen/Qwen-14B-Chat-Int8
GPU占用：
Qwen-7B-Chat
模型：qwen/Qwen-7B-Chat（bf16, fp16）
GPU占用：
chatglm3-6b
模型：ZhipuAI/chatglm3-6b（bf16, fp16）
GPU占用：

总结

总结下来就是能用fp16就用fp16，能用Int8就用Int8，能用int4就用int4。
量化对降低显存占用还是非常不错。

参考

文章来源:https://blog.csdn.net/zengNLP/article/details/135160073
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！