🍁 展望:关注我, AI 和 编程 学习之旅上,我与您一同成长!
今天上午,在北京举办 2024年度技术开放日 Zhipu DevDay,国内当前估值最高的AI大模型独角兽智谱AI发布了 新一代基座大模型GLM-4。
性能比上一代提升接近60%,整体评测结果进阶GPT-4,支持更长的上下文、更强的多模态、更快速的推理、更多的并发,大大降低推理成本,同时 GLM-4 也增强了其智能体(Agent)的能力。
我们一起看看哪些功能出现了明显提升!
在大规模多任务语言理解评测中,GLM-4的表现明显优于GPT-3.5,其平均得分已经达到了GPT-4的95%水平,在某些特定任务上甚至表现相当;
而在GSM8K数学评测数据集上,GLM-4的评分与GPT-4相比只有4.6%的差异;此外,在MATH数据集上,GLM-4的得分比GPT-3.5高出了15%,虽然相对于GPT-4稍逊9%。
在中英文混合评测中,GLM-4在Prompt级别和中文方面的表现均达到了GPT-4的88%。在指令跟随能力方面,GLM-4的表现达到了GPT-4 的90%,远超过 GPT-3.5。
智谱AI在中文对齐方面进行了全面的评估,包括公开的AlignBench和私有测试数据。在AlignBench上,GLM-4的总体得分超过了GPT-4 6月13日发布的版本,接近最新的GPT-4 Turbo版本。
在专业、中文理解和角色扮演等方面,甚至超过了最新的GPT-4,但在中文推理方面仍需进一步提升。
这一点挺让人惊喜:GLM-4 可以处理 128k 字的上下文,而且一次提示可以处理300页的文本。
此外,它的技术团队还成功解决了由于失焦而导致的精度下降问题,经过"大海捞针"测试,GLM-4模型几乎可以做到100%的召回精确度。
发布会上提交 GLM-4 支持 All Tools 模型,即与 ChatGPT 一样,可以根据提示词自动匹配调用对应的功能:
代码解释器:通过?动调? python 解释器,进?复杂计算(复杂?程、微积分等)。
代码解释器:完成?件处理、数据分析、图表绘制等复杂任务。?持处理 Excel、PDF、PPT 等格式的?件。
此外,发布会上也提及了网页搜索能力,GLM-4 明显优于 GPT-4.
还包含 网页浏览 与 AI绘画 相结合的 多模态处理任务:
以及 网页浏览 和 代码解释器 相结合的 多模态处理任务,:
根据?户提供的function描述,?动选择所需function并?成参数,以及根据function的返回值?成回复,技术朋友可以自行尝试:
在多模态方面,GLM-4 不仅增强了文生图和多模态理解的能力,还推出了全新的 CogView3,其效果超越了开源的SDXL模型,声称 几乎与OpenAI的DALL·E 3媲美 ?尊嘟假嘟?
CogView3在生成手部图像方面表现出色,其语义能力也有显著提升,能够准确地理解一些容易让机器产生误解的概念,比如“鱼眼镜头”。此外,它对颜色、场景和空间位置的理解也非常准确。
进入页面:https://chatglm.cn/main/alltoolsdetail 我们一起体验下 GLM-4.
让 ChatGLM 帮助我们利用张爱玲的口吻点评下《繁华》,并画一幅复古海报:
把4杯25度的水倒在一起是多少度, 我们看下几个国内优秀大模型之间的回答。
GLM-4 :
文心 4.0:
Kimi:
针对这个问题,三者不分上下。过关!
在公园的长椅上坐了三人,他们之间有两个兄长,两个弟弟,这是怎么回事?
GLM-4:
文心4.0:
Kimi:
Kimi 和 文心4.0 都挺好,但是 GLM-4 的回答有点无语,老是说爸爸是儿子的兄弟,我给过好几次机会了,可它一直这样回答。。。
小偷偷偷偷东西,这句话是什么意思?
GLM-4:
文心4.0:
Kimi:
中文理解能力都可以,文心4.0更加出众一些!👍🏻
测试下去年9月的网络热词: 哪李贵了。
GLM-4:
文心4.0:
Kimi:
文心4.0 和 Kimi 都很满意。GLM-4 自动调用的能力感觉有点欠缺,只有明确使用了 搜索 指令才得到了正确答案。
再来个更好玩的谐音笑话。 大家好, 我是一只螃蟹 我的钳子没了 我没钳了。
GLM-4:
文心4.0:
Kimi:
解释的都很不错。
GPT Store 刚刚发布,智谱清言又来搞事儿啦!不出所料,国内对标的能力果然很强,我们一起来体验下。
之前写过 GPTs 的万字教程,从入门、进阶、实践到防护,受到一众好评,对于 GPTs 感兴趣的可以移步:
进入链接: https://chatglm.cn/glms 开启你的第一个 GLMs。
1、输入智能体的核心功能。
2、点击“生成智能体配置” 后,自动生成智能体的结构,包含 名称、描述、配置信息、推荐问题。
此外也支持选择模型的调用能力,如 联网能力、AI绘画、代码能力。以及支持知识库文件的配置,界面风格都和 GPTs 差不多。
3、测试智能体
4、点击右上角的 发布, 进入发布后的界面。
5、进入智能体中心。还可以看见很多别人创建的智能体。
不过目前创建的智能体不能分享成链接。估计官方后续会优化。
整体简单体验下来。与 GPTs 相比,功能差距还是不小的,期待未来有所突破,具体如下:
缺点:
优点:
此外,听说未来也将推出创作者分成计划,这个对于国内用户会是一个利好!希望Action类似的功能也可以跟上步伐!
总的来说,还是挺期待未来可以有所突破的!!!
正如张鹏所言,和国外大模型相比,国内的大模型发展起步晚一些,加上高性能算力的限制和数据质量的差距等等,国内研发的大模型无论规模还是核心能力,与世界先进水平还存在一年左右的差距。
但是未来一年,我们将有希望看见国内大模型的崛起之路!