轻量化、推理引擎、服务
显存消耗变少了
大语言模型是典型的访存密集型任务,因为它是decoder-by-decoder
先把数据量化为INT4存起来,算的时候会反量化为FP16
AWQ算法:观察到模型在推理过程中,只有一小部分参数是重要的参数,这部分参数不量化,其他的参数量化,这样保留了显存,性能也不会下降多少
不用等到整个batch结束
https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md