一网打尽目前常用的聚类方法,详细介绍了每一种聚类方法的基本概念、优点、缺点!!

发布时间:2023年12月19日

在这里插入图片描述

1. K-均值聚类(K-Means Clustering)

基本概念:将样本随机分配到k个中心点,计算每个样本到各个中心点的距离,将样本分配到距离最近的中心点形成一个新的簇,重新计算每个簇的中心点,重复此过程直至中心点位置不再改变。

优点:计算简单高效;易于实现。

缺点:需要预设簇数k,对异常值和属性范围敏感;无法处理非球形簇。


2. 层次聚类(Hierarchical Clustering)

基本概念:通过计算样本间的距离或相似度,采用自底向上或自顶向下的方式,逐步合并相似的样本点形成新的簇。

方法:单链聚类、完全链聚类、平均链聚类。

优点:无需预设簇数,结果以树状图清晰表达。

缺点:计算量大,对样本顺序敏感;无法修改早期错误决定。

3. DBSCAN聚类(DBSCAN Clustering)

基本概念:根据样本的局部密度来寻找高密度区域,将密度可达区域聚集为一个簇,低密度视为噪声。

优点:可以找到任意形状的簇,不需要预设簇数

缺点:选择核函数和参数对结果影响大,计算量大。

4. 谱聚类(Spectral Clustering)

基本概念:构建相似矩阵,提取其特征向量,将样本投影到低维空间进行聚类。

优点:可以处理非球形簇,不需要预设簇数。

缺点:对异常点敏感,计算量大。

5. 高斯混合模型(Gaussian Mixture Model, GMM)

基本概念:假设所有样本来自多个高斯分布,通过EM算法估计每个分布的模型参数,将样本分到概率最大的高斯分布中。

优点:可以找到任意形状和大小的簇。

缺点:需要预设组件数,对参数敏感。

6. DBA聚类(DBA Clustering)

基本概念:通过构建样本间的相似矩阵,采用分块聚类算法,迭代更新每个样本的簇分配直至收敛。

优点:效率高,可以处理大数据。

缺点:需要预设簇数,结果依赖于初始化。


总结

除了以下聚类,K-均值聚类(K-Means Clustering),层次聚类(Hierarchical Clustering),DBSCAN聚类(DBSCAN Clustering),谱聚类(Spectral Clustering),高斯混合模型(Gaussian Mixture Model, GMM),DBA聚类(DBA Clustering),后期我还会补充目前最新的不变信息聚类 Invariant Information Clustering(IIC)被提出 。IIC没有用传统聚类,而是对CNN稍作改动,用互信息最大化目标函数和双输入(two head)CNN的架构)。

文章来源:https://blog.csdn.net/qlkaicx/article/details/135065492
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。