多元正态分析(3):聚类分析

发布时间:2023年12月28日

3.1 简介

3.1.1 聚类分析概念

将分类对象(样本、指标)分成若干类,相似的归为一类

定量的指标之间相似性的度量:统计距离

统计距离包括:

注意:欧氏距离、绝对值距离、明考斯基距离、切比雪夫距离受量纲的影响!!使用前要将数据归一化。一维数据就不存在量纲问题了哦

3.2 系统聚类

3.2.1 最短距离法

(1)具体方法

以此类推最后的结果是:

(2)画出谱系图

最后决定类的个数与类,分两类比较合适,这时的阈值T应该等于1632(对标划分成一类的情况下,对应的最小值是1631.27,但是不能分成一类,所以阈值设为1632 比他稍微大一点就行!)

T=1632,等价于在图上距离为10的地方切一刀。

(3)缺点

最短距离法的主要缺点是:有链接聚合的趋势。因为类和类之间的距离为所有距离中的最小值,两者合并之后,他和其他类之间的距离减小,这样很容易形成一个比较大的类。所以最短距离法的聚类效果并不好,在实践中不提倡使用!

注意:最长距离法克服了链接聚合的缺点

3.2.2?最长距离法

3.2.3 K-均值聚类

(1)具体例题

(2)步骤

(3)特点

K均值对初始分组太铭感了

文章来源:https://blog.csdn.net/qq_64279967/article/details/135245829
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。