?? 在贝叶斯体系中,推断(inference) 指的是 利用已知变量x的观测值推测未知变量z的后验分布,即我们在已经输入变量x后,如何获得未知变量z的分布p(z|x)[3].通俗一点讲一个完整的故事就是,如果没有任何信息,我们可能大概了解一个(latent)变量z的分布,这个分布可能方差比较大。变量x是可观察的,并含有z的一些信息。那么在观察到x后,关于z的分布(此时是后验分布p(z|x))会发生变化,比如方差变得更小了,如下图所示。
??利用贝叶斯公式:[4]
p
(
x
∣
z
)
p(x|z)
p(x∣z)与
p
(
z
)
p(z)
p(z)可以做出必要的假设符合某个分布。
p
(
x
)
p(x)
p(x)是已经观察到的,所以称为证据(evidence)。
变分推断的一般步骤:
??精确推断方法准确地计算
p
(
z
∣
x
)
p(z|x)
p(z∣x),该过程往往需要很大的计算开销,现实应用中近似推断更为常用。近似推断的方法往往分为两大类:
近似变分推断,就是要找到一个分布 q ? ( z ) q^*(z) q?(z)去近似后验分布 p ( z ∣ x ) p(z|x) p(z∣x):
?? 这样做下面的一步推导,其中
p
(
z
∣
x
)
p(z|x)
p(z∣x)是未知的(本质上,
p
(
x
)
p(x)
p(x)是未知的)。
这样做进一步的变化,把
p
(
z
∣
x
)
p(z|x)
p(z∣x)拆开。
关于ELBO(evidence lower bound,evidence下界):
[3]:变分推断(Variational Inference)初探 - 知乎 (zhihu.com)
[4]: 变分推断-1贝叶斯统计 详细推导 Variational Inference「机器学习」_哔哩哔哩_bilibili
[5]: 计算 KL距离 (相对熵)
https://zhuanlan.zhihu.com/p/507776434
https://zhuanlan.zhihu.com/p/340226815
https://zhuanlan.zhihu.com/p/57574493