LDA是什么

发布时间:2024年01月22日
  1. LDA是什么

    隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

    对于语料库中的每篇文档,LDA 定义了如下生成过程(generative process):

    1. 对每一篇文档,从主题分布中抽取一个主题;
    2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;
    3. 重复上述过程直至遍历文档中的每一个单词。

    LDA 认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征。

    LDA既给出了以上文档的具体生成过程,同时也给出了模型参数估计的方法。

    LDA背后的数学原理相当复杂,这里只做大概的介绍,详细推导可看文末参考资料。

  2. LDA

    LDA的相关内容可以做如下概括:

    • 一个函数:gamma函数

      gamma函数的表达式为:

文章来源:https://blog.csdn.net/Runnymmede/article/details/135648503
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。