集简云与语聚AI新增Google Gemini、Gemini Vision两大模型，让对话能力再升级

发布时间：2023年12月24日

近日，人工智能又掀起一股热潮，Google最新推出的AI大模型Gemini备受瞩目。号称多模态任务处理能力首次超越人类的 AI 模型，不仅可以处理文本内容，还可以无缝丝滑地处理代码、音频、图像和视频等多种模态的信息。

随着Gemini pro版本的开放，为了让用户快速体验新模型的强大能力，我们已率先将新模型接入到集简云和语聚中：

Gemini pro
Gemini pro Vision：带视觉识别

您无需API Key、无需开发，即可快速将最新模型接入您的业务系统，为您的业务带来新的变化与突破。

功能亮点

? 原生多模态构建

区别于ChatGPT将语音模型Whisper与图像模型DallE单独训练，Gemini可以同时识别文本、图像、音频、视频和代码，拥有强大的交互能力。

? 最强编码能力

Gemini可以理解解释和生成世界上最流行的编程语言（如Python、Java、C++）的高质量代码，能够解决需要编程和复杂数学理论知识的问题。

? 最强推理能力

该模型能够理解和分析复杂的书面和视觉信息，这意味着它可以深入理解细微的信息并应对复杂的询问，它在解读数学和物理等高难度学科的逻辑推理方面表现尤为出色。

? 基准测试超过先进水平

在性能比拼上，在 32 项基准测试中，Gemini 有 30 项领先于 GPT-4，其中包括多任务语言理解基准测试等广泛的整体测试，也有生成 Python 代码能力的测试。

「集简云官网」软件集成可以如此简单?www.jijyun.cn/?utm_source=zhihu?编辑

Gemini Pro

Gemini是谷歌目前规模最大、能力最强的大模型，而Gemini Pro是 Gemini 模型的通用版本，是最均衡、适用于最多场景的模型，具有 160B 参数。它基于文本的功能比其 6 月份发布的上一代人工智能模型 PaLM 2 的输入成本低 4 倍，输出成本低 2 倍。

它能够在各种任务上扩展，如文本生成、翻译、编程等，支持32K的上下文窗口，并且支持全球180多个国家和地区的 38 种语言。有着强大的推理性能。

例如：从数十万份文件中提取见解，科学研究人员以往只能手动来处理，现在Gemini能够自动区分和过滤与研究领域相关的文献信息，并提取关键数据。

Gemini Pro Vision：带视觉识别

对比GPT-4 Turbo with Version，Gemini pro vision同样突破文本限制，具有图片识别能力，可以直接在聊天框中分析图像照片，提供详细分析以及识别功能。

效果示例

电商商品描述文案

回答编程问题

「集简云官网」软件集成可以如此简单?www.jijyun.cn/?utm_source=zhihu?编辑

如何在集简云/语聚中使用

如何在集简云流程中使用

1 Gemini pro和Gemini pro Vision模型可直接在Google PaLM（付费版）-创建对话动作中使用。

2?Google PaLM（付费版）版需要在集简云插件中心开通对应应用后，方可使用。

开通路径：集简云平台 - 插件中心 - 对应应用 - 开通，即可开通对应资源包。

如何在语聚AI中使用

您可以在语聚AI话助手中开通该模型，开通后点击配置，在模型选择中您可任意使用Gemini pro和Gemini pro Vision模型。

文章来源:https://blog.csdn.net/weixin_49220773/article/details/135156572
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！