信息检索速通知识点

发布时间：2024年01月14日

?仅仅是我自己能想到的对这个分类的一个记忆。欢迎指正

首先，最重要的一点，什么是信息检索？

信息检索是从大规模无规则的数据中（主要是文档）中查询用户所需要的信息的过程。

然后，信息检索有哪几种索引呢？

混合索引。

轮排索引。什么是轮排索引呢，轮排索引又叫轮盘索引，有一个非常重要的符号叫$,$是用来表示扩展词结束的符号。

倒排索引。倒排索引最为著名和重要了。

k-gram索引。

二元词索引。

位置信息索引。

信息检索有哪几种检索方式呢？

布尔检索。

排名检索。

容错式检索。

评判信息检索效果的度量方式有哪些呢？

MRR。

AP。

MAP。

GG@k。

DCG@k。

IDCG@k。

信息检索的一些入门级例子有哪些？

会写and ,or ,not ,andnot的检索的伪代码，会写程序。

哈希表的优缺点：

优点：

查找速度比树快O（1）

缺点：

不容易找到次要变体；

无法进行前缀搜索；

如果词汇持续增长，就需要定期进行昂贵的重哈希操作。

树的优缺点：

优点：

解决了前缀问题。

缺点：

平衡树效率慢：O（logM)

重新进行平衡树是非常昂贵的。

一些查询方式？

通配符查询：*

K-means算法的优缺点：

优点：

1.简单且适用于常规不相交簇。

2.收敛速度相对较快

3.相对高效且可扩展

缺点;

1.需要预先指定k值

2.可能会收敛到局部最优

3.对噪声和异常值可能敏感

4.不适合集群

聚类的种类：

K-means聚类：需要指定的K，提供的答案是随机的

层次聚类：不需要指定的K，提供的答案是确定的。

基于密度的聚类：

数据库扫描法：DBSCAN

数据库扫描法的步骤：

1.找出每个点邻域内的点，并找出邻域内超过minpts的核心点。

2.找出邻居图上核心点的联通分量，忽略所有非核心点。

3.如果簇是E(eps),将每个非核心点分给临近的簇，否则将其分配给噪声。

线性回归:

过拟合：可以拟合数据，但测试数据误差较大，可能方差较大

欠拟合:无法拟合数据

梯度下降的技巧：

1.调整学习率

2.随机梯度下降

3.特征缩放

可能不是那么重要的知识点：

深度学习的三个步骤：定义一个功能神经网络的集合，比较功能的优劣性、选择最佳功能。

数据挖掘的定义？

数据挖掘是从大量的数据中自动提取出有用的信息和模式的过程。

BSBI算法（磁盘寻道更少的排序）的基本思想：

1.收集每个块的信息，排序，写入磁盘。

2.将区块合并成一个长排序顺序。

idf计算：N是集合中文档的总数量，df是包含那个词语的文档数量

tf-idf计算：（随文档出现次数的增加而增加、随术语在集合中的稀缺性而增加）

使用哪种排名方式？

文章来源:https://blog.csdn.net/XUYH6904/article/details/135418629
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！