2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
code:https://github.com/Carlisle-Liu/OCENet
伪装对象检测,目标存在伪装性的分割
任意的不确定性捕获了观测中的噪声。对于伪装对象检测,由于伪装的前景和背景的外观相似,很难获得高精度的注释,尤其是对象边界周围的注释。我们认为,直接使用“嘈杂”的伪装图进行训练可能会导致模型的泛化能力较差。在本文中,我们引入了一种显式任意不确定性估计技术来表示由噪声标记引起的预测不确定性。具体而言,我们提出了一种置信度感知伪装目标检测(COD)框架,该框架使用动态监督来生成准确的伪装图和可靠的“任意不确定性”。与现有的根据点估计管道产生确定性预测的技术不同,我们的框架将任意不确定性形式化为模型输出和输入图像上的概率分布。我们声称,一旦经过训练,我们的置信度估计网络就可以在不依赖地面实况伪装图的情况下评估预测的像素精度。大量结果表明,该模型在解释伪装预测方面具有优越的性能。
数据集:使用COD10K训练集[13]训练我们的模型,并在四个伪装物体检测测试集上进行测试,包括CAMO[28]、CHAELEON[45]、COD10K测试数据集[13]和NC4K数据集[33]。
只以初始预测作为输出来训练伪装对象检测网络,并将其表示为“M1”
将整体注意力模块添加到“M1”中,得到“M2”
置信度估计网络的监督:与[ 20、39 ]类似,置信度估计模块生成监督的另一个选项是对预测赋值为0,对跟随对抗学习管道的真值图赋值为1。我们执行了这个实验2,并在表2中显示其结果为’ M3 '。
CODNet将模型预测(Dir yini和Dir yref)和图像x的级联作为输入,以产生单通道置信度图,以及最终预测的cref,通过从伪装目标检测网络fθ(x)和地面实况伪装图y的预测导出的动态不确定性监督来监督估计的置信图。
使用预测和基本事实之间的差异作为明确的监督来对任意不确定性进行建模。在我们的工作中,它代表了以输入图像为条件的预测的不确定性。
伪装物体检测在整个图像中具有不同的学习困难。沿着物体边界的像素比远离伪装物体的背景像素更难区分。此外,伪装前景包含具有不同伪装水平的部分,其中一些部分易于识别,例如眼睛、嘴巴等,而另一些部分难以区分,例如身体区域具有与背景相似的外观。我们打算通过在我们的CODNet中建模不确定性意识,在整个图像中建模这种不同的学习难度。具体而言,受[47]的启发,我们提出训练具有不确定性感知结构损失的伪装对象检测网络:
还没写完,先就这