由于我们后续的扩散模型(DM)被设计为使用我们学到的潜在空间 z = E(x) 的二维结构,我们可以使用相对不过度的压缩率并实现非常好的重建。这与先前的工作 VQGAN/DALL-E 形成对比,其依赖于学到的空间 z 的任意 1D 排序来自回归地建模其分布,从而忽略了 z 的许多固有结构。因此,我们的压缩模型更好地保留了 x 的细节(见下表)。
Latent Diffusion Models
扩散模型(DM):
DM 设计用于通过逐渐去噪一个正态分布变量来学习数据分布 p(x) 的概率模型,这对应于学习长度为 T 的固定马尔可夫链的反向过程。在图像合成方面,最成功的模型 DDPM 等基于对 p(x) 变分下界的一种重新加权变体,这反映了去噪得分匹配。这些模型可以解释为一个等权重的去噪自动编码器序列
?
(
x
t
,
t
)
;
t
=
1...
T
\epsilon(x_{t}, t); t = 1 . . . T
?(xt?,t);t=1...T ,这些自动编码器经过训练以预测其输入 xt 的去噪变体,其中 xt 是输入 x 的带噪声版本。相应的目标可以简化为:
L
DM
=
E
x
,
?
~
N
(
0
,
1
)
,
t
[
∥
?
?
?
θ
(
x
t
,
t
)
∥
2
2
]
\mathcal{L}_{\text{DM}} = \mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1),t}[\| \epsilon - \epsilon_{\theta}(x_t, t) \|_2^2]
LDM?=Ex,?~N(0,1),t?[∥???θ?(xt?,t)∥22?] 其中 t 均匀采样自 {1, . . . , T}。
潜在表示的生成建模(Generative Modeling of Latent Representations)
利用我们训练得到的感知压缩模型,其中包括
ε
\varepsilon
ε 和
D
D
D,我们现在可以访问一个高效、低维的潜在空间,其中高频、难以察觉的细节被抽象化了。与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以
(i)专注于数据的重要、语义
(ii)在一个更低维、计算效率更高的空间中进行训练。
训练目标表示为
L
LDM
:
=
E
E
(
x
)
,
?
~
N
(
0
,
1
)
,
t
[
∥
?
?
?
θ
(
z
t
,
t
)
∥
2
2
]
.
\mathcal{L}_{\text{LDM}} := \mathbb{E}_{E(x), \epsilon \sim \mathcal{N}(0,1),t}[\| \epsilon - \epsilon_{\theta}(z_t, t) \|_2^2].
LLDM?:=EE(x),?~N(0,1),t?[∥???θ?(zt?,t)∥22?].
我们模型的神经骨架
?
(
?
,
t
)
\epsilon (?, t)
?(?,t) 实现为一个时态条件(time-conditional) UNet。由于正向过程是固定的,在训练过程中可以有效地从
ε
\varepsilon
ε 获取
z
t
z_t
zt?,并且从
p
(
z
)
p(z)
p(z) 中解码的样本可以通过一次
D
D
D 的传递转换回图像空间。
Conditioning Mechanisms
类似于其他类型的生成模型 (CGAN),扩散模型原则上能够建模形式为
p
(
z
∣
y
)
p(z|y)
p(z∣y) 的条件分布。这可以通过使用条件去噪自动编码器
?
(
z
t
,
t
,
y
)
\epsilon (z_t, t, y)
?(zt?,t,y) 来实现,并为通过输入 y(如文本、语义地图或其他图像到图像翻译任务)控制合成。然而,在图像合成的背景下,将 DMs 的生成能力与超出类别标签或输入图像的模糊变体之外的其他类型的条件结合起来,迄今为止仍是一个未充分探讨的研究领域。我们通过在 DMs 的基础 UNet 骨干上增加交叉注意力机制将 DMs 转化为更灵活的条件图像生成器。
为了预处理来自各种模态的 y(例如语言提示),我们引入了一个领域特定的编码器
τ
θ
\tau_{\theta}
τθ?,将 y 投影到一个中间表示
τ
θ
(
y
)
∈
R
M
×
d
τ
\tau_{\theta}(y) ∈ \mathbb{R}^{M \times d_\tau}
τθ?(y)∈RM×dτ? ,然后通过以下的交叉注意力机制实现将
τ
θ
(
y
)
\tau_{\theta}(y)
τθ?(y) 映射到 UNet 的中间层:
A
t
t
e
n
t
i
o
n
(
Q
,
K
,
V
)
=
s
o
f
t
m
a
x
(
Q
K
T
d
)
?
V
Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d}})·V
Attention(Q,K,V)=softmax(d?QKT?)?V 其中
Q
=
W
Q
(
i
)
?
φ
i
(
z
t
)
Q = W^{(i)}_Q · \varphi_{i}(zt)
Q=WQ(i)??φi?(zt),
K
=
W
K
(
i
)
?
τ
θ
(
y
)
K = W^{(i)}_K · \tau_{\theta}(y)
K=WK(i)??τθ?(y),
V
=
W
V
(
i
)
?
τ
θ
(
y
)
V = W^{(i)}_V · \tau_{\theta}(y)
V=WV(i)??τθ?(y)。在这里,
φ
i
(
z
t
)
∈
R
N
×
d
i
\varphi_{i}(zt) \in \mathbb{R}^{N \times di}
φi?(zt)∈RN×di 代表 UNet 实现
?
θ
\epsilon_\theta
?θ? 的(flattened)中间表示,
W
V
(
i
)
∈
R
d
×
d
i
W^{(i)}_V \in \mathbb{R}^{d \times d_i}
WV(i)?∈Rd×di?,
W
Q
(
i
)
∈
R
d
×
d
τ
W^{(i)}_Q ∈ R^d×dτ
WQ(i)?∈Rd×dτ 和
W
K
(
i
)
∈
R
d
×
d
τ
W_K^{(i)} \in \mathbb{R}^{d \times d_\tau}
WK(i)?∈Rd×dτ? 是可学习的投影矩阵。见图 3 进行视觉描述。基于图像条件对,然后通过以下方式学习条件 LDM:
L
LDM
:
=
E
ε
(
x
)
,
y
,
?
~
N
(
0
,
1
)
,
t
[
∥
?
?
?
θ
(
z
t
,
t
,
τ
θ
(
y
)
)
∥
2
2
]
\mathcal{L}_{\text{LDM}} := \mathbb{E}_{\varepsilon(x), y, \epsilon \sim \mathcal{N}(0,1),t}[\| \epsilon - \epsilon_{\theta}(z_t, t, \tau_{\theta}(y)) \|_2^2]
LLDM?:=Eε(x),y,?~N(0,1),t?[∥???θ?(zt?,t,τθ?(y))∥22?] 其中
τ
θ
\tau_{\theta}
τθ? 和
?
θ
\epsilon_{\theta}
?θ? 通过上面的目标函数联合优化。这个条件机制是灵活的,因为
τ
θ
\tau_{\theta}
τθ? 可以用领域特定的模型进行初始化。
由潜在空间的方差引起的信噪比(即
V
a
r
(
z
)
/
σ
t
2
Var(z)/\sigma^2_t
Var(z)/σt2?)对卷积采样的结果有显著影响。例如,当直接在一个KL正则化模型的潜在空间中训练 LDM 时,这个比率非常高,以至于模型在反向去噪过程的早期分配了大量的语义细节。相反,当通过潜在变量的逐分量标准差对潜在空间进行重新缩放时,信噪比降低。我们在上图中说明了这对语义图像合成中卷积采样的影响。请注意,VQ 正则化空间的方差接近1,因此不需要重新缩放。