数据仓库与数据挖掘c1-c4基础知识

发布时间:2023年12月18日

chapter1 mooc

Test1

1.判断以下行为是否属于数据挖掘任务:监测患者的心率是否异常

来自 <数据仓库与数据挖掘_北京理工大学_中国大学MOOC(慕课)>

是的,监测患者的心率是否异常可以被认为是数据挖掘任务的一种。

数据挖掘是通过对大量数据进行分析,发现其中的模式、关联和趋势,并从中提取有用的信息和知识。在这种情况下,监测患者的心率是否异常涉及收集和记录患者的心率数据,然后对这些数据进行分析以识别异常模式或趋势。

来自 <https://poe.com/chat/2k540yisp8vwhcldfa3>

2.数据挖掘是从大量数据中挖掘重要、隐含的、以前未知、______的模式或知识。

来自 <https://poe.com/chat/2k540yisp8vwhcldfa3>

潜在有用的

3.数据仓库的角度可以将数据挖掘过程划分为数据清理、数据集成、数据选择与变换、数据挖掘及_______等阶段。

知识评估

4.买啤酒的人很大概率也会购买尿布——关联规则发现

5.

当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离——聚类

6.不属于数据挖掘任务——根据顾客的职业将顾客进行分组;提取声波的频率;预测掷骰子的结果

7.属于DM——根据顾客的购物记录预测顾客感兴趣;监测患者的心率是否异常

chapter2?

内容

2Data

五数概括

最大值、最小值、上四分位数Q1[第一个四分位数]、下四分位数Q3【第三个四分位数】、中位数

正常数据vs异常数据

Q125%)四分位差IQR=Q375%-
上下1.5倍IQR是正常数据,超过为异常数据

箱线图

max和min若在IQR上下1.5倍IQR内则是正常,若超过就标出上下1.5倍IQR

相似性和相异性

有序属性

有序数据->数值【排序】,然后把每一个属性值用它在序列中的排序代替

归一化

用距离计算相似性

相异性矩阵

标称属性

简单匹配法

不匹配/总属性个数

标称->二分【一个标称有m个属性,转换成m个二分属性】

二分属性

不是对称的二分属性?就是没有两者取值为0的情况?——jaccard系数?
比如二元属性,当考虑普通人的患癌情况时,健康时属性为0,患癌时为1,这样大部分情况下该属性都为0,因此我们一般只关注属性为1的情况,所以这个就是非对称的二元属性。
?


?

距离

性质

非负性

对称性

任意两边之和大于第三边

若一个距离满足这三个属性就称为度量标准

普遍方法

闵可夫斯基距离

L-r范式

特殊情况

h=1曼哈顿距离

各个属性差的和

h=2欧氏距离

h->∞

上确界距离——数据对象每个数据中差距最大的那个

对于文档相似度

余弦相似度

对于文档,用单词在文档中出现的频率来代表

混合属性

按各个属性分别计算,最后综合

文章来源:https://blog.csdn.net/m0_62153438/article/details/135048412
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。