将分类对象(样本、指标)分成若干类,相似的归为一类
定量的指标之间相似性的度量:统计距离
统计距离包括:
注意:欧氏距离、绝对值距离、明考斯基距离、切比雪夫距离受量纲的影响!!使用前要将数据归一化。一维数据就不存在量纲问题了哦
以此类推最后的结果是:
最后决定类的个数与类,分两类比较合适,这时的阈值T应该等于1632(对标划分成一类的情况下,对应的最小值是1631.27,但是不能分成一类,所以阈值设为1632 比他稍微大一点就行!)
T=1632,等价于在图上距离为10的地方切一刀。
最短距离法的主要缺点是:有链接聚合的趋势。因为类和类之间的距离为所有距离中的最小值,两者合并之后,他和其他类之间的距离减小,这样很容易形成一个比较大的类。所以最短距离法的聚类效果并不好,在实践中不提倡使用!
注意:最长距离法克服了链接聚合的缺点
K均值对初始分组太铭感了