Diffusion Model 学习笔记

发布时间：2023年12月26日

论文链接：Denoising Diffusion Probabilistic Models。

Diffusion Model 分为两部分，前向扩散过程和后向生成过程，前向扩散过程从一张原始图像逐步加噪声变为一张纯噪声图像，后向生成过程则从随机噪声来逐步恢复出原图像。

贝叶斯公式角度

在这里插入图片描述

这里的符号 $\mathbf{X}_T$ 表示经过 $\mathbf{T}$ 步生成的纯噪声图像， $\mathbf{X}_0$ 表示原始图像， $\mathbf{Z}_t$ 表示 $t$ 时刻随机采样的高斯噪声。设我们有系数 $\alpha_t$ 和 $\beta_t$ ，其中满足关系 $\alpha_t+\beta_t=1$ ，生成过程可以表示为：
$\begin{align} \mathbf{X}_t&=\sqrt{\alpha_t}\mathbf{X}_{t-1}+\sqrt{1-\alpha_t}\mathbf{Z}_t\\ \mathbf{X}_{t-1}&=\sqrt{\alpha_{t-1}}\mathbf{X}_{t-2}+\sqrt{1-\alpha_{t-1}}\mathbf{Z}_{t-1}\\ ... \end{align}$ 将上面的两个公式联合求解消除 $\mathbf{X}_{t-1}$ ：
$\begin{align} \mathbf{X}_t&=\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}\mathbf{X}_{t-2}+\sqrt{1-\alpha_{t-1}}\mathbf{Z}_{t-1})+\sqrt{1-\alpha_t}\mathbf{Z}_t\\ &=\sqrt{\alpha_t\alpha_{t-1}}\mathbf{X}_{t-2}+\sqrt{\alpha_t(1-\alpha_{t-1})}\mathbf{Z}_{t-1}+\sqrt{1-\alpha_t}\mathbf{Z}_t \end{align}$ 其中都服从标准高斯分布，即：
$\begin{align} \mathbf{Z}&\sim\mathcal{N}(0,1)\\ \sqrt{\alpha_t(1-\alpha_{t-1})}\mathbf{Z}_{t-1}&\sim\mathcal{N}(0,\alpha_t(1-\alpha_{t-1}))\\ \sqrt{1-\alpha_t}\mathbf{Z}_t&\sim\mathcal{N}(0,1-\alpha_t)\\ \end{align}$ 根据高斯分布的相加性质，有：
$\sqrt{\alpha_t(1-\alpha_{t-1})}\mathbf{Z}_{t-1}+\sqrt{1-\alpha_t}\mathbf{Z}_t\sim\mathcal{N}(0,1-\alpha_t\alpha_{t-1})$ 由此可得：
$\mathbf{X}_t=\sqrt{\alpha_t\alpha_{t-1}}\mathbf{X}_{t-2}+\sqrt{(1-\alpha_t\alpha_{t-1})}\mathbf{\bar{Z}}_{t-1}$ 如果继续往下求解，我们可以得到：
$\mathbf{X}_t=\sqrt{\bar{\alpha}_t}\mathbf{X}_{0}+\sqrt{1-\bar{\alpha}_t}\mathbf{\bar{Z}_1}$ 其中符号
$\bar{\alpha}_t=\prod_{i=1}^{t} \alpha_i$ 由此可以看出，我们可以通过一步扩散能够生成任意时刻的噪声的图像，但我们的问题是如果从噪声图像恢复原始图像？能不能像上面一样一步生成，即求 $p(\mathbf{X}_0|\mathbf{X}_t)$ ，答案显然是否定的，降低难度，我们能不能一步一步从噪声图像恢复到原始图像？即求 $p(\mathbf{X}_{t-1}|\mathbf{X}_t)$ ，或许可以尝试一下，根据贝叶斯公式，有：
$p(\mathbf{X}_{t-1}|\mathbf{X}_t)=p(\mathbf{X}_{t}|\mathbf{X}_{t-1})\frac{p(\mathbf{X}_{t})}{p(\mathbf{X}_{t-1})}$ 等号右边第一项我们是知道的，但分式上下的概率我们是未知的，因此我们考虑引入参数 $\mathbf{X}_0$ ，则等式变为：
$p(\mathbf{X}_{t-1}|\mathbf{X}_t,\mathbf{X}_0)=p(\mathbf{X}_{t}|\mathbf{X}_{t-1},\mathbf{X}_0)\frac{p(\mathbf{X}_{t}|\mathbf{X}_0)}{p(\mathbf{X}_{t-1}|\mathbf{X}_0)}$ 这个式子便可以用到上面推导的结论。其中
$\begin{align} p(\mathbf{X}_{t}|\mathbf{X}_{t-1},\mathbf{X}_0)&=\sqrt{\alpha_t}\mathbf{X}_{t-1}+\sqrt{1-\alpha_t}\mathbf{Z}_t\sim\mathcal{N}(\sqrt{\alpha_t}\mathbf{X}_{t-1}, 1-\alpha_t)\\ p(\mathbf{X}_{t}|\mathbf{X}_0)&=\sqrt{\bar{\alpha}_t}\mathbf{X}_{0}+\sqrt{1-\bar{\alpha}_t}\mathbf{\bar{Z}}\sim\mathcal{N}(\sqrt{\bar{\alpha}_t}\mathbf{X}_{0}, 1-\bar{\alpha}_t)\\ p(\mathbf{X}_{t-1}|\mathbf{X}_0)&=\sqrt{\bar{\alpha}_{t-1}}\mathbf{X}_{0}+\sqrt{1-\bar{\alpha}_{t-1}}\mathbf{\bar{Z}}\sim\mathcal{N}(\sqrt{\bar{\alpha}_{t-1}}\mathbf{X}_{0}, 1-\bar{\alpha}_{t-1}) \end{align}$ 根据高斯分布的表达式，既有：
$\begin{align} p(\mathbf{X}_{t-1}|\mathbf{X}_t,\mathbf{X}_0)&\propto \mathbf{exp}\{-\frac{1}{2}\left(\frac{(\mathbf{X}_t-\sqrt{\alpha_t}\mathbf{X}_{t-1})^2}{1-\alpha_t}+\frac{(\mathbf{X}_{t}-\sqrt{\bar{\alpha}_{t}}\mathbf{X}_{0})^2}{1-\bar{\alpha}_{t}}-\frac{(\mathbf{X}_{t-1}-\sqrt{\bar{\alpha}_{t-1}}\mathbf{X}_{0})^2}{1-\bar{\alpha}_{t-1}}\right)\}\\ &\propto \mathbf{exp}\{-\frac{1}{2}\left(\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}\right)\mathbf{X}_{t-1}^2-\left(\frac{2\sqrt{\alpha_t}}{\beta_t}\mathbf{x}_t+\frac{2\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}\mathbf{X}_0 \right)\mathbf{X}_{t-1}+\mathbf{C}(\mathbf{X}_t,\mathbf{X}_0) \right)\} \end{align}$ 高斯分布的的指数项为：
$\mathbf{exp}\{-\frac{1}{2}\left( \frac{1}{\sigma_2}x^2-\frac{2\mu}{\sigma^2}x+\frac{\mu^2}{\sigma^2}\right)\}，$ 由此可以反解出对应的均值和方差，方差 $\sigma$ 中的参数都是已知的，但均值 $\mu$ 跟 $\mathbf{X}_0$ 和 $\mathbf{X}_t$ 有关系，但图 $\mathbf{X}_0$ 正是我们需要求解的，因此我们用一步扩散公式使用 $\mathbf{X}_t$ 代替 $\mathbf{X}_0$ ，反解得到：
$\begin{align} \sigma^2 &= \frac{1}{\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}}\\ \mu&=\frac{1}{\sqrt{\alpha_t}}(\mathbf{X}_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\mathbf{\bar{Z}}_t) \end{align}$
现在均值和方差中只有参数 $\bar{Z}_t$ 是未知的，因此我们需要用神经网络来进行预测。下面是算法伪代码：

在这里插入图片描述
仔细看伪代码，训练过程中学的是什么？学习的就是从原始图像 $\mathbf{X}_0$ 一步扩散得到第 $t$ 时刻加噪声图像所加的噪声 $\mathbf{\bar{Z}}_t$ 。

文章来源:https://blog.csdn.net/weixin_50232758/article/details/135214619
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！