传统的语言生成模型可以用于识别或生成字符串。如果每个自动机的节点都有一个生成不同此项概率分布,便可以得到一个语言模型。
一个最简单的语言模型等价于一个概率有穷自动机,仅有一个节点组成,只有一个生成不同词项的概率分布,以及停止的概率。从而我们就可以计算一个词序列出现的概率。
在ir中,对文档集中的每篇文档d构建其对应的语言模型Md,检索的目标是将文档按照其与查询相关的概率P(d|p)排序。
MLE
(Maximum Likelihood Estimation,最大似然估计)是一种常用的参数估计方法,用于从观测数据中推断出最有可能产生这些观测数据的模型参数。
步骤:
优点:
但是当一个query词项未出现时,整体结果均为0,所以要进行平衡smoothing以避免0值的出现,同时平滑也实现了词项权重计算的主要部分。
(平滑一般用加上某个项然后重新归一化)
方法分析:在一般的参照概率分布中,文档中未出现的查询项的概率在某种程度上接近但是不可能超过在整个文档集中偶然出现的概率,即如果tf=0,那么P(t|M)<=cft/T=P(T|Mc),其中cft是t在整个文档集的出现次数,T是所有文档集中词条的个数。用上界来近似。
函数公式:
将二者进行线性插值,将基于文档的多项式分布和基于全部文档集估计出的多项式分布结合??。
参数分析:
函数公式:
将从全部文档集中获得的语言模型看成贝叶斯更新过程的一个先验分布。
参数分析: