基于深度学习的自动医学图像分割模型经常会出现领域偏移的问题,即在源领域训练的模型不能很好地泛化到其他未见领域。为此本文提出 DeSAM,通过解耦 image embedding 和 prompt token 来提高 SAM 的效果
原论文链接:DeSAM: Decoupling Segment Anything Model for Generalizable Medical Image Segmentation
基于深度学习的自动医学图像分割模型经常会出现领域偏移的问题,即在源领域训练的模型不能很好地泛化到其他未见领域
Segment Anything Model(SAM)在提高医学图像分割的跨域鲁棒性方面展现出了潜力。然而,与人工提示相比, SAM
及其微调模型在全自动模式下的表现要差得多。经过进一步调查,本文发现性能下降与提示不佳和掩膜分割的耦合效应有关
在全自动模式下,不可避免的不良提示(如遮罩外的点或明显大于遮罩的框)会严重误导遮罩的生成
深度模型对未知域外数据的泛化能力可能较差,这阻碍了模型在临床环境中的应用。为了缓解领域转移造成的性能下降,以往的尝试主要集中在无监督领域适应和多源领域泛化,这些方法却也存在以下局限性:
本文关键概念:
SAM
掩码解码器的交叉注意变换层中相互作用,使得最终输出的掩码高度依赖于提示将基于大型数据集的模型直接移植到医学图像分割中以提高泛化能力是一种很有吸引力的方法
Segment Anything Model(SAM
)在超过 10 亿个遮罩上进行了训练,在各种自然图像上实现了前所未有的泛化能力。
将 SAM
应用于医学图像分割有两种主要方法,这两种主要方法的局限性在于
adaption
或 visual prompt
技术训练图像编码器的方法可提高模型在特定领域的性能
直接通过 SAM
实现自动分割有两种方法
然而,即使经过完全微调,全自动 SAM
也往往会产生大量假阳性掩膜,性能远不能满足临床要求
本文将 SAM
的掩码解码器解耦为两个子任务
prompt-relevant IoU regression (PRIM)
IoU
分数并生成掩码嵌入prompt-invariant mask learning (PIMM)
在训练过程中冻结图像和提示编码器
虽然冻结了提示编码器,但在推理过程中还是用到了提示(分割一切模式)
PRIM
的结构与 SAM
的掩码解码器类似,包括一个交叉注意变换层和一个 IoU
预测头
Attention
& Cross Attention
Attention
Cross Attention
为了使提示和输出掩码脱钩,本文只舍弃了掩码预测头,从交叉注意变换层中提取掩码嵌入
采用了经典的编码器-解码器结构
squeeze and excitation residual blocks (SEResBlock)
并进行上采样操作SEResBlock
squeeze
: 包括全局平均池化,将输入特征的空间维度减少到单通道excitation
: 学习通道依赖关系并产生一组权重。然后,这些权重将用于对原始特征重新加权,从而使网络专注于最重要的通道SEResBlock
的示意图,给定一个输入
x
x
x,其特征通道数为
c
1
c_1
c1?,通过一系列卷积等一般变换后得到一个特征通道数为
c
2
c_2
c2? 的特征。与传统的 CNN
不一样的是,接下来通过三个操作来重标定前面得到的特征。
Squeeze
操作,顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配;它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野Excitation
操作,它是一个类似于循环神经网络中门的机制。通过参数
w
w
w 来为每个特征通道生成权重,其中参数
w
w
w 被学习用来显式地建模特征通道间的相关性Reweight
的操作,将 Excitation
的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定PRIM
的掩码嵌入和 PIMM
的瓶颈嵌入,以利用预训练权重并确保 PIMM
和 PIRM
在训练过程中的梯度流
在训练过程中,我们会加载 SAM 的预训练权重,冻结图像和提示编码器,并微调 PIMM
和 PRIM
中的层
于自动分割包括网格点模式和全框模式,本文采用了两种不同的策略来训练所提出的模型:
grid points mode
SAM
已经基本上具备了分辨前景和背景的能力whole box mode
本文提出了一种用于医学图像分割中的单源域泛化模型,DeSAM
。它将掩码生成与提示解耦,并利用 SAM
的预训练权重,从而降低了对 GPU 的要求。DeSAM
激励解码器从鲁棒的图像嵌入中学习与提示无关的特征,并且由于融合了多个尺度的图像嵌入,具有很强的抵抗看不见的分布变化的能力。本文在多站点数据集上验证了 DeSAM
的性能,表明所提出的方法优于其他最先进的方法