苹果发布了一个Ferret(雪貂)多模态大模型,在一个无人问津的角落被一位博主捞起来

发布时间:2023年12月25日

苹果12月14日释放了一个名为Ferret的多模态大语言模型,有的翻译是雪貂,有的是法学硕士,要我说,还是叫雪貂吧,接地气亲民,将来犯蠢的时候出来发张雪貂的可爱表情包作公关就完事了,你个法学硕士到时候犯蠢怕不是要被暴躁老哥们都冲烂咯。该模型不仅可以准确识别图像并描述其内容,同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。

Ferret有两个版本,分别是(7B, 13B)。为了增强Ferret模型的能力,苹果公司特别收集了一个名为GRIT的数据集,包含了1.1M个样本,这些样本包含了丰富的层次空间知识。

主要功能和特点:

  1. 多模态理解:?Ferret可以同时处理和理解图像和文本,能够在多种不同的模式之间建立联系。
  2. 空间指代理解:?Ferret能够识别和理解图像中特定区域的含义,即使这些区域的形状和大小各不相同。
  3. 理解复杂的文本描述:?Ferret能够理解各种类型的文本描述,无论这些描述是具体的还是抽象的。
  4. 开放词汇描述精准定位:根据文本描述,Ferret能够在提供的图像中准确地找到并标记出相应的物体或区域。
  5. 混合区域表示:?Ferret使用一种创新的表示方法来处理图像中的区域,结合了离散坐标和连续特征。
  6. 空间感知的视觉采样器:引入了一个空间感知的视觉采样器,能够根据区域的形状和稀疏性提取视觉特征。
  7. 多样的区域输入:?Ferret具有识别和理解图像中各种不同类型区域的能力,包括点、边界框和自由形状。
  8. GRIT数据集:包含1.1M个样本,提供丰富的层次空间知识,包含95K难负样本,用于提高模型在处理困难情况下的鲁棒性和准确性。

主要表现:

  1. Ferret-Bench评估:在指称描述、指称推理和对话中的定位等任务上,相比现有的最佳多模态大型语言模型,Ferret平均提高了20.4%。
  2. 改善对象幻觉:?Ferret能够减少在描述图像时的错误或虚构内容,改善了对象幻觉问题,提高了描述的准确性和可靠性。
  3. 空间信息和语义处理: Ferret在传统的指代和定位任务中表现优异,同时能够更准确地理解和处理图像中的空间信息和语义。

可能适用的应用场景:

  • 由于其强大的图像和文本处理能力,Ferret适用于多种应用场景,包括图像搜索、自动图像标注、交互式媒体探索等。
  • 通过其创新的方法和技术,Ferret为多模态语言模型在空间理解和定位方面提供了新的可能性,特别是在处理复杂的图像和文本交互时。
文章来源:https://blog.csdn.net/heehelcom/article/details/135206390
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。