目录
1.将交互到掩码和掩码传播解耦,允许更高的通用性和更好的性能。
2.传播模块采用一种新颖的top-k过滤策略读取时空存储器。
3.提出了一个新的差异感知模块,以学习如何正确地融合每次交互前后的掩码,并利用时空记忆与目标帧对齐。
4.本文提供了一个具有4.8M帧像素精确分割的大规模合成VOS数据集。
????????现有的VOS方法可以按用户输入的类型进行分类:
? ? ? ? 1.半监督方法需要对第一帧进行像素级注释。
????????半监督视频对象分割。 该任务旨在在视频中分割特 定对象,仅在第一帧中提供一个完全注释的掩码。 早期的方法通常在给定的框架上采用测试时的微调来提高模型的区分能力,但这种微调 往往太慢。最近,人们探索了各种方法,包括逐像素嵌入,掩码传播和跟踪,建立目标模型,以及记忆特征匹配。特别是,STM 从过去的帧中构建记忆库,并使用query-key-value注意力机制预 测掩码。该方法简单有效,可取得较好的效果。本文 提出将半监督VOS方法的技术进展转移到交互领域。 我们的时空记忆网络,受STM的启发,被用于我们 的传播骨干。
? ? ? ? 2.交互式VOS方法将用户交互(例如涂鸦或点击)作为输入,用户可以迭代地细化结果,直到满意。
????????交互式VOS (interactive VOS, iVOS)在视频编辑中有着广泛的应用典型的用户交互,如涂鸦或点击(每帧几 秒)比指定完整的注释(~每个实例79秒)要容易得多, 迭代或连续的细化方案允许用户更多地控制结果准确性与交互预算权衡。用户提供的提 示在iVOS中提供。交互可以用于分割对象或正确的先 前错误分类的区域。最近的大多数作 品都集中在涂鸦互动上,这是戴维斯挑战 所使用和提供的。最近的一种方法在交互式环 境中扩展了他们的嵌入网络,将点击作为用户输入。 由于模块化设计,所提出方法可以通过简单替换交 互-掩码组件推广到广泛的用户交互。
? ? ? ? 主要贡献:
? ? ? ? 1.在解耦交互-传播框架上进行了创新,并表明该方法是简单、有效和可推广的。
? ? ? ? 2.针对传播过程中基于注意力机制的内存读操作, 提出了一种轻量级top- k过滤方案。
? ? ? ? 3.本文提出一种新的差异感知融合模块,忠实地捕捉用户的意图,提高了iVOS的准确性,减少了用户交互的数量。
? ? ? ? 4.本文提供了一个480万帧的大规模合成VOS数据集。
????????MiVOS与其他相关工作的区别如图
?????????目前 大多数基于深度学习的iVOS方法都是基于深度特征 融合,将用户交互纳入分割任务中,其中设计了两个 相互连接的编码器网络,或将潦写的特征存 储为内存,在后面的分割过程中引用。这些 方法不可避免地将特定形式的用户输入与掩码传播过 程联系起来。这个特性使得训练变得困难,因为模型 需要同时适应理解交互和准确传播掩码。另外,一些 方法试图通过首先生成给定任何类型的交互的掩码, 然后双向传播该掩码来解耦交互和传播网络。 但这些方法无法达到最先进的性能。我们认为这是 由于传播网络不再获得原始用户交互而忽略了用户意 图。
????????为了克服上述问题,提出考虑交互轮前后掩码域的差异。
????????最初,用户选择并交互式注释一帧(例如,使用涂鸦 或单击)以生成掩码。该方法为视频序列中的每一帧生 成分割。之后,用户检查输出质量,如果需要,通过 进一步的交互纠正错误帧,开始新的一轮。我们将r表 示为当前交互轮。使用上标,r -th轮的用户交互帧索 引为t r , r -th轮的掩码结果为Mr ;使用下标,每个j -th帧 的掩码记为Mr j 。
? ? ? ? 1.MiNet概述
????????
????????由三个核心组件组成:交互 到掩码、掩码传播和差异感知融合。交互模块在即时 反馈回路中运行,允许用户在更耗时的传播过程之前 获得实时反馈并在单帧上取得满意的结果。在传播模 块中,校正后的掩码独立于Mr?1进行双向传播。最 后,通过融合模块将传播的掩码与Mr?1融合,该模块 旨在融合两个序列,同时避免可能的衰减或用户意图 的丢失。用户意图是通过所选掩码在用户交互前后的 差异来捕获的。这种差异被送入融合模块作为指导。
? ? ? ? 2.交互到掩码
????????这里可以使用各种交互式图像分割方法,只要它 们能从用户交互中计算出对象掩模。用户可以自由 使用他们最喜欢的分割工具,甚至为特定任务定制的 管道(例如,电影编辑的人工分割)。使用来自现有掩 码(Mr?1 t r )的信息的方法可能更省力,但这种属性是可 选的。 设计了一个潦草到掩码(S2M)网络,在DAVIS 基 准上评估所提出方法。我们的管道具有高度的通用 性,不受任何一种类型的交互网络的限制——我们还 采用了基于点击的交互、徒手绘图和一个允许微调 的本地控制模块。
????????S2M:S2M网 络 的 目 标 是 在 给 定 输 入 涂 鸦 的 情 况 下实时产生单图像分割。我们的设计有意采用标 准DeepLabV3+ 语义分割网络作为骨干。该网络 接受六通道输入:RGB图像、现有掩码和正负涂鸦映 射,并处理两种情况:初始交互(现有掩码为空)和纠正 交互(现有掩码包含错误)。与之前的方法不 同,我们在大量静态图像集合上用更简单的单轮方法 进行训练。通过所提出的解耦范式,能 够利用这些非视频大数据集。
????????对于每个输入图像,我们随机选择两种情况中的一 种(根据经验设置的概率为0.5),并合成相应的输入掩 模,该掩模要么设置为零,要么用随机膨胀/腐蚀从基 本事实中扰动。我们没有重用输出掩码来形成第二 个训练阶段以减少训练成本和复杂性。然后 在错误区域中使用细化或随机Bezier ′ 曲线等策略生 成相应的输入涂鸦。
????????本地控制:虽然最先进的交互式分割方法,如f-BRS,通常使用较大的感受野,以实现在很少的点击下快速分割,但当在分割过程的最后只需要局部精细 调整时,可能会损害全局结果。除了耳朵之外,全局形状是正确的。在我们的 解耦方法中,通过将交互算法限制在用户指定的区域 中,可以直接断言本地控制,如图所示。该区域的结 果可以毫不费力地缝合回主分割。
? ? ? ? 3.时间传播
????????给定一个对象掩码,传播模块跟踪对象并在后续帧 中产生相应的掩码。在STM 之后,我们将具有对象 掩码的过去帧考虑为记忆帧,用于使用基于注意力的内存读取操作预测当前(查询)帧的对象掩码。本文提出 了一种新的轻量级top- k操作,与STM集成,并表明它 在没有复杂的训练技巧的情况下提高了性能和速度。
????????内 存 读 取 与Top- k过 滤: 我 们 构 建 了 两 个 编 码 器 网络,记忆编码器和查询编码器。它们的网络骨干 从ResNet50 到阶段4 (res4)提取,步长为16。额外 的输入通道附加到记忆编码器的第一个卷积中, 该编码器接受对象掩码作为输入。在每个编码器 的末尾,使用两个单独的卷积来产生两个特征映 射:键k ∈ R C k×HW 和值v ∈ R C v×HW ,其中H和W是 步幅后的图像尺寸,C k和C v分别设置为128和512。
????????说明了我们的时空记忆读取操作。对于每个T内 存帧,我们计算键值特征并将输出连接为内存键kM ∈R C k×THW 和内存值vM ∈ R C v×THW 。从查询中计算 出的键k Q通过点积与kM匹配:
????????其中F ∈ R THW×HW 中的每个条目表示查询位置和内 存位置之间的相关性。之前的方法[7, 54]将沿着内存 维度应用softmax,并将结果概率分布作为vM的加权 和。对于这种softmax策略,我们有两个观察:1)对于每 个查询位置,大多数权重将落入一个小的内存位置集 合,其余的是噪声,2)这些噪声随着内存的大小而增 长,当序列很长时,性能会下降。 基于这些观察,我们建议过滤亲和性,这样只保 留top- k条目。这有效地消除了噪声,而不管序列长度 如何。由于softmax保留顺序,我们可以预先应用top-k过滤,以减少昂贵的exp呼叫的数量。在实践中,我 们新的top- k策略不仅增加了健壮性,而且克服了top-k的开销。图报告了top- k过滤带来的性能提升 和健壮性。请注意,KMN (STM的最近修改)使用 记忆对查询施加高斯局部性先验,而我们的top- k操作 使用查询过滤记忆。 总之,内存位置i与查询位置j的亲和度可以通过以 下方式计算:
????????
否则为0。Topk j (F)表示在F的j -th列中位于top- k的索 引集合。这些注意力权重用于计算vM的加权和。对于 查询位置j,功能mj从内存中读取:
????????读取特征将与v Q连接并传递给解码器以生成对象掩 码。从查询编码器到解码器的跳过连接(为清楚起见没 有显示)有助于创建更准确的掩码。解码器的输出是一 个stride 4掩码,它被双线性上采样到原始分辨率。当 有多个对象时,我们逐个处理每个对象,并使用软聚 合来组合掩码。 传播策略说明了我们的双向传播策略。给定一个用户交互的参考帧Mr t r,我们通过两 个(向前和向后)独立的传递将分割双向传播到其他帧。 假设每个交互的帧都有足够好的注释(在我们的解耦框 架下更容易满足),一旦到达先前交互的帧或序列的末尾,传播就停止。在STM之后,每5帧将被包含并 缓存在记忆库中。紧接在查询帧之前的帧也将作为临 时内存包含。在交互设置中,所有用户交互的帧都是 可信的,并被添加到记忆库中。
????????评价 传播模块可以在半监督VOS环境中被隔离以进 行评估(其中第一帧地面真实值分割被传播到整个视 频)。们对top- k过滤有效性的验证(我们 的新数据集BL30K将在4部分详细说明)。该算法对选 择k不是特别敏感,因为k = 20到100的性能相近。k = 50在所有的实验中。原则上,k的值应该与图像分辨 率成线性关系,这样滤波后的有效区域大致相同。 使用top- k滤波,我们的多对象传播在2080Ti上以11.2 FPS的速度运行。
????????4差异感知融合
????????如果传播以命中先前交互的帧t c结束,则t c和t r内 的帧可能存在冲突。因此,需要在当前传播的掩 码Mr ′和之前的掩码结果Mr?1之间进行融合。以前 的方法通常采用线性加权方案,该方案与所做的 修正无关,因此无法捕捉用户的意图。通常情况下, 用户的纠正会在t r和t c之间消失。 如图8所示,我们提出了一种新的可学习的融合模 块,可以在融合过程中记住用户的纠正。具体来说, 用户校正被捕获为帧t r上用户交互前后掩码的差异:
????????其中(·)+是max(·, 0)操作符。我们将正变化和负变化分 别计算为两个掩码D+和D?。要融合ti,这是t r和t c之间,这些掩码不能直接使用,因为它们没有与目标框 架对齐ti。关键的见解是,我们可以利用由我们的时空 记忆阅读器计算的Eq. (2)中的亲和力矩阵W进行 对应匹配。将交互后的帧t r作为内存,目标帧ti作为查 询。对齐的掩码由两个矩阵乘积计算:
????????其中D+和D?使用区域平均进行下采样以匹配W的图 像步幅,并将结果进行双线性上采样以达到原始分辨 率。此外,传统的线性系数也可以用来模拟传播过程 中可能的衰减:
????????请 注 意nr + nc = 1。 最 后 , 将 特 征 集(Iti , Mr ′ ti , Mr?1 ti , A+, A?, nr, nc)输 入 到 一 个 简 单 的五层残差网络中,该网络被sigmoid终止,输出最终 的融合掩码。我们的融合方法可以将用户的意图捕捉 为对齐的注意力图,这允许我们的算法将纠正传播到 中点以外。这种融合无法在以前的线性混合方法中实 现。
? ??
????????本文提出MiVOS,一种新的解耦方法,由三个模块 组成:交互-掩码、传播和差异感知融合。通过将交互 与传播解耦,MiVOS具有通用性,不受交互类型的限 制。另一方面,所提出的融合模块通过忠实地捕捉用 户的意图来协调交互和传播,并减轻了在解耦过程中 丢失的信息,从而使MiVOS既准确又高效。