在本文中提到的“度量各向异性”(degree of anisotropy)是一个关键概念,用于描述医学图像中体素的空间分布特性。在医学成像领域,各向异性是指图像在不同方向上分辨率的不一致性。具体来说,在三维医学图像中,体素可能在垂直于切片的方向(通常是Z轴)上的尺寸与在切片内(即X轴和Y轴)的尺寸不同。这种不一致性导致图像在不同方向上的空间分辨率不同,即表现出各向异性。
Downsampling:卷积核大小和步幅都是
2
k
2^k
2k,其中
k
k
k是非负整数。沿着深度维度的卷积权重沿着通过求和池化(sum pooling)被减小到
2
max
?
{
k
?
D
A
,
0
}
2^{\max \{k-\mathrm{DA}, 0\}}
2max{k?DA,0}的大小,并且深度维度的步幅类似地被调整为
2
max
?
{
k
?
D
A
,
0
}
2^{\max \{k-\mathrm{DA}, 0\}}
2max{k?DA,0},输出特征图的间距乘以调整后的步幅。降采样可以使图像在不同方向上的分辨率更加一致。例如,如果一个图像在垂直方向(比如Z轴)上的分辨率远高于水平方向(X轴和Y轴),通过降采样,可以使这三个方向的分辨率更加均衡。
转置卷积核尺寸和步长:在上采样过程中,转置卷积(transposed convolution,有时也称为反卷积)被用来增加图像的尺寸。转置卷积核的尺寸和步长都被设置为
2
k
2^k
2k,转置卷积核在所有维度上的大小和移动步长是相等的,并且是2的
k
k
k次幂。
深度维度上的卷积核尺寸和步长调整:在深度维度上,转置卷积核的尺寸和步长被特别调整为
2
min
?
{
k
,
D
A
0
?
D
A
}
2^{\min \left\{k, \mathrm{DA}_{0}-\mathrm{DA}\right\}}
2min{k,DA0??DA}。这里,
D
A
0
DA_0
DA0? 是输入图像的各向异性度量(DA),而 DA 是当前层的各向异性度量。这样的调整考虑了输入图像和当前处理层在深度维度上的各向异性差异。
Max Pooling(最大值池化):最大值池化选择每个区域内的最大值作为输出。它非常有效于捕捉图像中的纹理和模式,是最常用的池化方法之一。
Average Pooling(平均值池化):平均值池化计算每个区域内值的平均值。它有助于平滑特征图,但可能会使特征图丢失一些重要信息。
Sum Pooling(求和池化):与平均值池化类似,但不是计算平均值,而是计算总和。这可以保留区域内的更多信息,但也可能导致特征值的范围变大。
Sum Pooling的应用场景: Sum pooling适用于那些需要保留特征图区域内尽可能多信息的场景。尽管在实际应用中不如最大值池化或平均值池化普遍,但在某些特定的应用中,如需要保留更多原始特征信息的任务,sum pooling可能会是一个更好的选择。此外,在处理那些特征值本身代表某种累积量(如总能量、总密度等)的数据时,sum pooling也可能特别有效。
先前研究的方法:在之前的研究中,先验分布正则化通过计算所有样本离散标记的代码本上的独热分布的平均值(称为
p
p
o
s
t
p_{post}
ppost?),并最小化
p
p
o
s
t
p_{post}
ppost? 与均匀分布
p
p
o
s
t
p_{post}
ppost?之间的KL散度(Kullback-Leibler divergence)来实现。
应用于软标记表示:这种技术可以轻松地泛化到软标记表示上,通过用一般类别分布替换一热分布来实现。
软标记表示下的构造性解释:
编码器输出的网格:假设编码器输出一个 D×H×W*的标记分布网格。
G
D
,
H
,
W
G_{D, H, W}
GD,H,W? 表示网格内所有单元格的离散坐标集。
随机变量定义:对于网格上的每个位置
s
∈
G
D
,
H
,
W
s \in G_{D, H, W}
s∈GD,H,W?,定义一个随机变量
I
s
I_s
Is? 表示在
s
s
s位置的代码本索引,及其分布
q
(
s
)
q(s)
q(s)。同时,定义另一个随机变量
S
S
S*,表示网格上的随机位置,其在
G
D
,
H
,
W
G_{D, H, W}
GD,H,W? 上均匀分布。
网格上标记分布的平均值:网格上所有标记分布的平均值正好是
I
s
I_s
Is?的分布。这意味着,通过考虑网格上每个位置的标记分布,可以得到整个网格的平均分布特性。
分布接近均匀分布的情况:
分布接近均匀分布时的直观解释:当
I
s
I_s
Is? 的分布接近均匀分布时,这意味着每个标记(token)在随机采样位置出现的概率几乎相同。这种情况有利于增加学习到的分布的多样性,因为它避免了对特定标记的过度偏好。
引入新的目标:为了防止所有分布都崩溃成均匀分布(即失去区分度),作者引入了一个新的目标,即最大化
E
[
D
K
L
[
q
(
S
)
∥
p
prior?
]
]
E\left[\mathrm{D}_{\mathrm{KL}}\left[q(S) \| p_{\text {prior }}\right]\right]
E[DKL?[q(S)∥pprior??]]。这里的
E
E
E 表示期望值,
D
K
L
D_{KL}
DKL? 表示Kullback-Leibler散度。
增加分布的锐度:通过最大化
q
(
S
)
q(S)
q(S)(模型预测的分布)与
p
p
r
i
o
r
p_{prior}
pprior?(先验分布,这里是均匀分布)之间的KL散度,可以增加学习到的分布的锐度。这意味着每个标记的分布将更加集中,而不是平坦和模糊。
扩展先验分布正则化的实现:
KL散度的表达:对于任何分布
p
p
p,
D
K
L
(
p
∥
p
prior?
)
\mathrm{D}_{\mathrm{KL}}\left(p \| p_{\text {prior }}\right)
DKL?(p∥pprior??)可以表达为
?
H
(
p
)
+
ln
?
∣
V
∣
-H(p)+\ln |V|
?H(p)+ln∣V∣,其中
H
(
p
)
H(p)
H(p) 是分布
p
p
p 的熵,定义为,
?
∑
i
=
1
∣
V
∣
p
i
ln
?
p
i
-\sum_{i=1}^{|V|} p_{i} \ln p_{i}
?∑i=1∣V∣?pi?lnpi?而
∣
V
∣
|V|
∣V∣是可能标记的数量。