苹果发布了一个Ferret（雪貂）多模态大模型，在一个无人问津的角落被一位博主捞起来

发布时间：2023年12月25日

苹果12月14日释放了一个名为Ferret的多模态大语言模型，有的翻译是雪貂，有的是法学硕士，要我说，还是叫雪貂吧，接地气亲民，将来犯蠢的时候出来发张雪貂的可爱表情包作公关就完事了，你个法学硕士到时候犯蠢怕不是要被暴躁老哥们都冲烂咯。该模型不仅可以准确识别图像并描述其内容，同时它还能够识别和定位图像中的各种元素，无论你用怎样的方式描述图像内容，Ferret都能准确地在图像中找到并识别出来。

Ferret有两个版本，分别是(7B, 13B)。为了增强Ferret模型的能力，苹果公司特别收集了一个名为GRIT的数据集，包含了1.1M个样本，这些样本包含了丰富的层次空间知识。

主要功能和特点：

多模态理解：?Ferret可以同时处理和理解图像和文本，能够在多种不同的模式之间建立联系。
空间指代理解：?Ferret能够识别和理解图像中特定区域的含义，即使这些区域的形状和大小各不相同。
理解复杂的文本描述：?Ferret能够理解各种类型的文本描述，无论这些描述是具体的还是抽象的。
开放词汇描述精准定位：根据文本描述，Ferret能够在提供的图像中准确地找到并标记出相应的物体或区域。
混合区域表示：?Ferret使用一种创新的表示方法来处理图像中的区域，结合了离散坐标和连续特征。
空间感知的视觉采样器：引入了一个空间感知的视觉采样器，能够根据区域的形状和稀疏性提取视觉特征。
多样的区域输入：?Ferret具有识别和理解图像中各种不同类型区域的能力，包括点、边界框和自由形状。
GRIT数据集：包含1.1M个样本，提供丰富的层次空间知识，包含95K难负样本，用于提高模型在处理困难情况下的鲁棒性和准确性。

主要表现：

Ferret-Bench评估：在指称描述、指称推理和对话中的定位等任务上，相比现有的最佳多模态大型语言模型，Ferret平均提高了20.4%。
改善对象幻觉：?Ferret能够减少在描述图像时的错误或虚构内容，改善了对象幻觉问题，提高了描述的准确性和可靠性。
空间信息和语义处理： Ferret在传统的指代和定位任务中表现优异，同时能够更准确地理解和处理图像中的空间信息和语义。

可能适用的应用场景：

由于其强大的图像和文本处理能力，Ferret适用于多种应用场景，包括图像搜索、自动图像标注、交互式媒体探索等。
通过其创新的方法和技术，Ferret为多模态语言模型在空间理解和定位方面提供了新的可能性，特别是在处理复杂的图像和文本交互时。

文章来源:https://blog.csdn.net/heehelcom/article/details/135206390
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！