然后我们再来看一下另一个评价聚类指标的系数,可以看到 兰德系数
上面RI= a+b/C2 ... 首先要知道这里的C,就是实际的类别,就是我们在业务上知道的类别数,然后K表示聚类以后的结果
当然当C==K 一样的时候,说明聚类效果是最好的对吧.
a表示在C中被划分为同一类,也就是,比如一组数据实际被分为了3类,那么a,就表示 在C这种实际划分为比如3类,中的 划分为同一簇的实例的数量, 也就是实际C这种划分,被划分为同一簇的数据的数量
比如一组数据,实际被划分为3类,这就是C,这种实际划分情况,那么3类就有3个簇,那么a就表示在 这3个簇,比如c,d,e 这3个簇 中,归属于c这一个簇的数据的数据量
同时 同时使用聚类算法 获取的K类 中对应的同一簇的 数据的数量 对
b表示在C中被划分为不同类别,在K中被划分为不同簇的实例的数据量 比如一个数据在C中被划分到了c簇,在K中被划分到了d簇对吧,这样的数据的数量
后面ARI是对兰德系数进行了一下改进,这个改进了以后的兰德系数,更有说服力
然后我们看一下如何实际使用
首先我们导入兰德系数
from sklearn.metrics import adjusted_rand_score 导入兰德系数
for k in range(2,7): 划分的数据的范围指定从2到7中找,最合理的分类个数
kmeans = KM