LDA是什么
隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
对于语料库中的每篇文档,LDA 定义了如下生成过程(generative process):
LDA 认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征。
LDA既给出了以上文档的具体生成过程,同时也给出了模型参数估计的方法。
LDA背后的数学原理相当复杂,这里只做大概的介绍,详细推导可看文末参考资料。
LDA
LDA的相关内容可以做如下概括:
一个函数:gamma函数
gamma函数的表达式为: