【没有哪个港口是永远的停留~论文理解】mask2former

发布时间：2024年01月03日

论文地址：http://arxiv.org/abs/2112.01527

项目地址：Mask2Former

Mask2Former在MaskFormer的基础上

增加了masked attention机制，
High-resolution features
另外还调整了decoder部分的self-attention和cross-attention的顺序，
还提出了使用importance sampling来加快训练速度。

masked attention? 的mask加在哪？

标准的self attention如下公式：

$X_l=softmax(Q_l*K_l^T)*V_l+X_{l-1}$

加了mask的自注意力：

$X_l=softmax(M_{l-1}+Q_l*K_l^T)*V_l+X_{l-1}$

?很容易理解:

$e^0=1\\ e^{-\infty }=0$

?具体在Head中的位置：标黄的位置

上图是根据代码和原论文中的图重新绘制的具体结构

文章来源:https://blog.csdn.net/magic_shuang/article/details/135369323
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！