文章信息:
发表于:ICME 2023(CCF B类会议)
原文链接:https://arxiv.org/abs/2303.05116
源代码:无
基于AutoEncoder的帧预测在无监督视频异常检测中发挥着重要作用。理想情况下,在正常数据上训练的模型可以产生更大的异常预测误差。然而,外观和运动信息之间的相关性没有得到充分利用,这使得模型缺乏对正常模式的理解。此外,由于深度AutoEncoder不可控制的可推广性,这些模型不能很好地工作。为了解决这些问题,
我们提出了一个多级记忆增强外观运动对应框架。通过外观-运动语义对齐和语义替换训练,探索外观和运动之间潜在的对应关系。
此外,我们还引入了一种内存引导抑制模块,该模块利用与正常原型特征的差异来抑制跳跃连接引起的重建容量,实现了正常数据的良好重建和异常数据的不良重建之间的折衷。
实验结果表明,我们的框架优于最先进的方法,在UCSD Ped2、中大大道和ShanghaiTech数据集上实现了99.6%、93.8%和76.3%的AUC。
本文共享如下:
如图1(a)所示,所提出的多级记忆增强外观运动对应框架由三部分组成:双流编码器、解码器和多尺度记忆引导抑制模块(MGSM)。我们将视频帧剪辑和相应的光流输入到双流编码器中。
外观自动编码器
E
φ
E_φ
Eφ?用于学习外观特征,运动自动编码器
E
θ
E_θ
Eθ?用于学习运动特征。
所提出的外观-运动语义对齐损失作用于瓶颈编码层的外观和运动特征,并且我们将运动特征而不是外观特征馈送到解码器
E
φ
E_φ
Eφ?中,以预测未来帧,其中建立了外观和运动信息之间的关系。同时,所提出的MGSM利用了多个编码层的多尺度下采样特征,在抑制异常数据的同时,加强了对正常数据的预测。以下小节详细介绍了所有组件。
如上图所示:外观编码器输入t个帧,用于预测第t+1帧,外观编码器
E
φ
E_φ
Eφ?得到的输出为
f
a
f_a
fa?,运动编码器输入对应的t张光流图,外观编码器
E
θ
E_θ
Eθ?得到的输出为
f
m
f_m
fm?。为了让外观和运动对其,作者最小化了
f
a
f_a
fa?和
f
m
f_m
fm?的余弦距离(目的应该是更好的结合外观和运动的信息),如公式(1)所示:
此外,为了对外观和运动信号具有共同行为语义的显式关系进行建模,作者将外观特征
f
a
f_a
fa?替换为运动特征
f
m
f_m
fm?到解码器
D
φ
D_φ
Dφ?中,以预测未来的帧。由于只有前景物体的运动信息在形式上,这将减轻复杂背景的副作用,也直接建立外观和运动之间的互补关系。
所提出的MGSM的体系结构如图1(b)所示。MGSM被训练来学习和压缩多个原型,这些原型存储整个训练集的正态性。我们用MGSM装备编码器E和解码器
D
φ
D_φ
Dφ?之间的所有跳跃连接。MGSM使用输入编码特征和存储的正常原型之间的相似性来计算抑制器,该抑制器抑制对应编码特征的表示。它避免了学习从输入到输出的身份映射,这将使正常和异常不可分割。
具体而言,给定连续的帧作为输入,编码器
E
φ
E_φ
Eφ?生成一组特征图{
f
1
f_1
f1?,
f
2
f_2
f2?,…,
f
L
?
1
f_{L?1}
fL?1?},其中L是下采样尺度的数量。对于每个大小为
H
i
×
W
i
×
C
i
H^i × W^i × C^i
Hi×Wi×Ci的特征图
f
i
f_i
fi?,我们将其展平为一个向量,并用作记忆库的查询
q
k
q^k
qk。对于记忆库,我们遵循[3]的方法进行实现。每个记忆库是一个可学习的矩阵
M
∈
R
N
×
D
M ∈ R^{N×D}
M∈RN×D,由包含固定维度D的N个记忆项组成,用于在训练期间记录原型正常模式。M的第j行向量是一个记忆项
m
j
∈
R
D
(
j
∈
1
,
2
,
.
.
.
,
N
)
m_j ∈ R^D(j ∈ {1, 2, ..., N})
mj?∈RD(j∈1,2,...,N)。类似于[3, 8],通过计算查询
q
k
q^k
qk与每个项
m
j
m_j
mj?之间的相似性,来解决记忆化的正常性,具体表现为计算基于这种相似性的注意权重w,如公式(2)所示:
基于注意权重
w
∈
R
1
×
N
w∈R^{1×N}
w∈R1×N,得到了一个抑制器λ。不是在以前的工作中对存储器项进行线性组合,而是通过跳过连接直接用于解码器的新特征
q
^
k
\widehat{q}^k
q
?k由公式(3)重新计算:
其中σ表示ReLU激活函数,max返回输入注意力权重w中的最大值,norm表示批量归一化。MGSM通过抑制编码特征的表示而不是重新生成它们来实现可控的重建能力,缓解了由于高度依赖于存储器大小而导致的不稳定的VAD性能。
像素损失:
图像梯度损失(其中i、j表示视频帧的空间索引):
外观运动对齐损失(理解为外观和运动的相似性,越小越好):
记忆模块的紧凑和分离损失:
最后总的损失函数如下:
其中,
λ
i
n
t
λ_{int}
λint?、
λ
g
d
λ_{gd}
λgd?、
λ
a
l
i
g
n
λ_{align}
λalign?、
λ
c
o
m
p
λ_{comp}
λcomp?和
λ
d
i
v
e
r
λ_{diver}
λdiver?是平衡超参数,W是模型的参数,
λ
m
o
d
e
l
λ_{model}
λmodel?是控制模型复杂性的正则化超参数。
在测试阶段,异常评分由两部分组成:
(1) 未来帧预测误差
S
p
=
∣
∣
I
^
?
I
∣
∣
2
2
S_p=||\widehat{I} - I||_2^2
Sp?=∣∣I
?I∣∣22?
(2) 外观与运动特征的不一致
然后,通过使用加权策略将这两部分融合,得到最终的异常分数,具体如下:
其中,
u
p
u_p
up?、
δ
p
δ_p
δp?、
u
f
u_f
uf?和
δ
f
δ_f
δf?表示所有正常训练样本的预测误差的均值和标准差,以及外观和运动特征之间的不一致性。
w
p
w_p
wp?和
w
f
w_f
wf?表示两个分数的权重。
作者的网络结构图如下:
实验结果(在3个常见的视频异常检测数据集中:):
在本文中,提出了一种用于视频异常检测的多级记忆增强外观运动对应框架。
通过所提出的外观-运动语义对齐丢失和预测的语义替换,显式地对外观和异常分数之间的相关性进行了建模。
同时,所提出的MGSM不仅实现了正常数据的良好重建和异常数据的较差重建之间的折衷,而且克服了复杂场景中性能下降的问题。
在三个基准数据集上的大量实验结果表明,方法比最先进的方法性能更好。