K-maens & DBSCAN
与分类、回归任务不同,聚类任务事先并不知道任何样本标签,通过数据之间的内在关系把样本划分为若干类别,使得同类别之间的相似度高,不同类别之间的样本相似度低。
K-means
基本思想
K-means算法的基本思想是,通过迭代寻找K个簇(Clusterd)的一种划分方案,使得聚类结果对应的损失函数最小。
其中,损失函数可以定义为各个样本距离所属簇中心点的误差平方和:
J
(
c
,
μ
)
=
∑
i
=
1
M
∣
∣
x
i
?
μ
c
i
∣
∣
2
J(c,\mu) = \sum_{i=1}^M|| x_i -\mu_{c_i} || ^2
J(c,μ)=i=1∑M?∣∣xi??μci??∣∣2
其中Xi代表第i个样本,Ci是Xi所属的簇,U代表簇对应的中心点,M是样本的总数
具体步骤
K-means的核心目标是将数据集划分为K个簇,并给出的每个簇的中心点。具体步骤分为四步: