本节介绍生成模型GLM系列模型的新成员——中英双语对话模型ChatGLM。
ChatGLM分为6B和130B(默认使用ChatGLM-6B)两种,主要区别在于其模型参数不同。ChatGLM是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于GLM(General Language Model)架构,如图16-3所示。
?
图16-3? ChatGLM架构
结合模型量化技术,使用ChatGLM-6B用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。表16-2展示了ChatGLM的硬件资源消耗。
接下来将以ChatGLM-6B为基础进行讲解,在讲解过程中,如果没有特意注明,默认使用ChatGLM-6B。更大的模型GLM-130B在使用上与ChatGLM-6B类似,只是在参数量、训练层数以及落地的训练任务方面有所区别,有条件的读者可以自行尝试。
16.2.1 ?ChatGLM简介及应用前景
ChatGLM基于GLM架构,针对中文问答和对话进行了优化。经过约1TB[T1]?[王2]?标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿个参数的ChatGLM-6B虽然规模不及千亿模型的ChatGLM-130B,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。具体来说,ChatGLM-6B具备以下特点。
因此,ChatGLM-6B在一定条件下具备较好的对话与问答能力。
在应用前景上,相对于宣传较多的ChatGPT,其实ChatGLM都适用。表面来看,ChatGPT无所不能,风光无限。但是对于绝大多数企业用户来说,和自身盈利方向有关的垂直领域才是最重要的。
在垂直领域,ChatGLM经过专项训练,可以做得非常好,甚至有网友想出了用收集ChatGPT不熟悉领域的内容,再由ChatGLM加载使用的策略。
比如智能客服,没几个人会在打客服电话的时候咨询相对论,而大型的ChatGPT的博学在单一领域就失去了绝对优势,如果把企业所在行业的问题训练好,那么就会是一个很好的人工智能应用。
比如将ChatGLM在语音方面的应用依托于大模型就很有想象力,有公司已经能很好地进行中外语言的文本转换了,和大模型结合后,很快就能生成专业的外文文档。
比如在人工智能投顾方面造诣颇深,接入大模型后进行私有语料库的训练,可以把自然语言轻松地转换成金融市场的底层数据库所能理解的复杂公式,小学文化水平理解这些复杂的炒股指标不再是梦想。
再比如工业机器人领域,初看起来和ChatGPT、ChatGLM没什么关联,但是机器人的操作本质上是代码驱动的,如果利用人工智能让机器直接理解自然语言,那么中间的调试过程将大大减少,工业机器人的迭代速度很可能呈指数级上升。
本文节选自《从零开始大模型开发与微调:基于PyTorch与ChatGLM》,获出版社和作者授权共享。