CVPR 2023: Cross-Domain Image Captioning with Discriminative Finetuning

发布时间:2024年01月22日

基于MECE原则,我们可以使用以下 6 个图像字幕研究分类标准:

1. 模型架构

  • 编码器-解码器模型:这些传统的序列到序列模型使用单独的神经网络来处理图像和生成字幕。编码器,通常是卷积神经网络(CNN),从图像中提取视觉特征。解码器,通常是循环神经网络(RNN)如 LSTM,然后逐字生成字幕,条件是编码后的图像特征。这是早期作品如 Show and Tell [44] 和 VGG+LSTM [12] 采用的基本架构。

  • 注意力机制模型:这些模型将注意力机制添加到编码器-解码器框架中。注意力机制允许解码器关注图像中与当前生成的单词相关的特定部分。这可以导致更准确和详细的字幕,尤其是对于复杂场景。示例包括 Show, Attend and Tell [46] 和 Bottom-up and Top-down Attention [3]。

  • Transformer 模型:这些模型完全用 Transformer 架构替换 RNN 解码器。Transformer 架构是一种强大的注意力机制,最初是为机器翻译开发的。Transformer 可以捕捉图像中的长距离依赖关系,生成流畅和语法正确的字幕。An Image is Worth 16x16 Words [13] 和 BLIP [23] 是这种近期趋势的例子。

2. 数据集重点

  • 通用图像字幕:这涉及在大型通用数据集上训练模型,如 COCO [24],其中包含数百万张具有多样化内容的图像。这

文章来源:https://blog.csdn.net/bookmashup/article/details/135755068
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。