基本概念
:将样本随机分配到k个中心点,计算每个样本到各个中心点的距离,将样本分配到距离最近的中心点形成一个新的簇,重新计算每个簇的中心点,重复此过程直至中心点位置不再改变。
优点
:计算简单高效;易于实现。
缺点
:需要预设簇数k,
对异常值和属性范围敏感;无法处理非球形簇。
基本概念:通过计算样本间的距离或相似度,采用自底向上或自顶向下的方式,逐步合并相似的样本点形成新的簇。
方法:单链聚类、完全链聚类、平均链聚类。
优点:无需预设簇数,结果以树状图清晰表达。
缺点:计算量大,对样本顺序敏感;无法修改早期错误决定。
基本概念
:根据样本的局部密度来寻找高密度区域,将密度可达区域聚集为一个簇,低密度视为噪声。
优点
:可以找到任意形状的簇,不需要预设簇数
。
缺点
:选择核函数和参数对结果影响大,计算量大。
基本概念
:构建相似矩阵,提取其特征向量,将样本投影到低维空间进行聚类。
优点
:可以处理非球形簇,不需要预设簇数。
缺点
:对异常点敏感,计算量大。
基本概念
:假设所有样本来自多个高斯分布,通过EM算法估计每个分布的模型参数,将样本分到概率最大的高斯分布中。
优点
:可以找到任意形状和大小的簇。
缺点
:需要预设组件数,对参数敏感。
基本概念
:通过构建样本间的相似矩阵,采用分块聚类算法,迭代更新每个样本的簇分配直至收敛。
优点
:效率高,可以处理大数据。
缺点
:需要预设簇数,结果依赖于初始化。
除了以下聚类,K-均值聚类(K-Means Clustering),层次聚类(Hierarchical Clustering),DBSCAN聚类(DBSCAN Clustering),谱聚类(Spectral Clustering),高斯混合模型(Gaussian Mixture Model, GMM),DBA聚类(DBA Clustering)
,后期我还会补充目前最新的不变信息聚类 Invariant Information Clustering(IIC
)被提出 。IIC没有用传统聚类,而是对CNN稍作改动,用互信息最大化目标函数和双输入(two head)CNN的架构)。