【多模态】ALBEF

发布时间：2024年01月06日

ALBEF

论文信息

标题：Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

作者：Junnan Li（Salesforce Research）

期刊：NeurIPS 2021

发布时间与更新时间：2021.07.16 2021.10.07

主题：多模态、预训练、图像、文本、对比学习、知识蒸馏、动量模型

arXiv：https://arxiv.org/abs/2107.07651

代码：salesforce/ALBEF: Code for ALBEF: a new vision-language pre-training method (github.com)

概述

作者认为之前的模型存在三个问题：① 使用预训练好的目标检测器（object detector）对图像目标识别的结果作为图像的单模态特征，与来自文本编码器的文本特征的对齐程度很低，因为目标检测器没有与文本特征一同进行端到端的训练，用于捕获两个模态交互信息的模块无法很好地将来自两个独立语义空间的特征进行融合。另外，推理阶段的目标检测器需要接收高分辨率的图像，计算量较大，时间开销较大；② 直接使用来自视觉编码器和文本编码器的单模态特征对多模态交互信息进行建模是非常困难

文章来源:https://blog.csdn.net/weixin_46221946/article/details/135432092
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！