TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法,用于评估一个单词对于一篇文档在整个文集中的重要性。
TF(词频)表示一个词在文档中出现的频率,简单来说,它衡量了一个词在文档中的重要程度。
IDF(逆文档频率)表示一个词在整个文集中的普遍程度,它通过计算词在文集中出现的文档比例的倒数来衡量。IDF 的计算公式为 log(N / DF),其中 N 是文集中的文档总数,DF 是包含该词的文档数。IDF 的值越高,表示词的稀有程度越高,因此其重要性也越大。
TF-IDF 的计算方式是将 TF 与 IDF 相乘,得到一个词在文档中的重要性分数。
由于 IDF 的分母中包含了文档总数 N,所以 IDF 对单个单词的查询有影响。当一个词在越少的文档中出现时,其 IDF 值越大,其重要性也越高。
如果文档中只有一个单词,查询时idf不会有影响