机器学习——KNN算法

发布时间：2023年12月25日

【说明】文章内容来自《机器学习——基于sklearn》，用于学习记录。若有争议联系删除。

1、简介

????????KNN（K-Nearest Neighbor, K 近邻）算法是最简单的分类算法之一，它也是最常用的分类算法之一。KNN算法是在1968年由Cover和Hart提出的，是一个有监督机器学习算法。KNN算法的原理是：确定某一个数据的分类时，计算相邻的K个数据的类别，根据这K个数据中多数样本的类别来判断某一个数据的类别。

1.1 算法实现

已知 $\omega _{1}$ 、 $\omega _{2}$ 、 $\omega _{3}$ 分别代表训练集中的3个类别，K值为5，预测 $X_{u}$ 属于那个类别：

步骤：

步骤1:算距离。
计算待分类样本 $X_{u}$ ?与已分类样本的距离。
步骤2:找邻居
圈定与待分类样本距离最近的5个已分类样本，作为待分类样本的近邻。
步骤3:做分类。
根据5个近邻中的多数样本所属的类别来决定待分类样本的类别，将 $X_{u}$ 的类别预测为 $\omega _{1}$ 。

1.2 算法优缺点

KNN 算法具有如下主要优点:

理论成熟,思想简单,可解决分类与回归问题.
准确性高,对异常值和噪声有较高的容忍度。

KNN 算法具有如下缺点:

由于该算法只计算最近的邻居样本，当样本数据分布不平衡时，会导致结果差距较大，因此，该算法往往引入权值方法(和该样本距离小的邻居样本权值大)来改进。
计算量较大,针对每一个待分类的文本，都要计算它到已知样本的距离，才能确定k个最近邻。常用的解决方法是事先去除对分类作用不大的样本点。

1.3 示例

import matplotlib.pyplot as plt
plt.plot([9,9.2,9.6,9.2,6.7,7,7.6],[9.0,9.2,9.2,9.2,7.1,7.4,7.5], 'yx')
plt.plot([7.2,7.3,7.2,7.3,7.2,7.3,7.3],[10.3,10.5,9.2,10.2,9.7,10.1,10.1], 'b.')
plt.plot([7],[9],'r^')
circle1 = plt.Circle((7,9),1.2,color = 'g')
plt.gcf().gca().add_artist(circle1)
plt.axis([6,11,6,11])
plt.ylabel('H/cm')
plt.xlabel('W/cm')
plt.legend(('Orange','lemon'), loc = 'upper right')
plt.show()

【运行结果及分析】

【结果分析】
????????已知两类物体分别为lemon（点）和orange（×），现对未知物体进行分类。取k值为3，计算
与未知物体最近的3个点，查找范围为椭圆形。由于椭圆形内有3个lemon，所以未知物体归为lemon。

2、三要素

KNN 算法的三要素是k值选择、距离度量和分类决策规则。

2.1 k 值选择

k值选择分为如下两种情况:

k值选择较小，就相当于用较小的训练领域进行预测，学习的近似误差较小,预测结果与近邻的实例点关系非常敏感，容易发生过拟合。
k值选择较大,近似误差就会增大，对于距离比较远的点就起不到预测作用，容易受样本不平衡的影响，可能造成欠拟合。

2.2 距离度量

????????特征对于距离度量的影响很大。样本特征要进行归一化处理。计算距离可以使用欧几里得距离或曼哈顿距离等。欧几里得距离的数学表达式如下:
$d(x,y) = \sqrt{\sum_{k=1}^{n}(x_{k}-y_{k})^{2}}$
曼哈顿距离的数学表达式如下:

$d(x,y) = \sqrt{\sum_{k=1}^{n}|x_{k}-y_{k}|}$

2.3 分类决策规则

????????KNN 算法的决策规则是多数表决法，即少数服从多数，由输人实例的k个近邻的训练实例中的多数类决定输入实例的类。这样的决策规则存在一个问题，假设已知A、B属于一类，C、D、E属于另一类，现将A作为实例输入KNN模型进行测试，值设为4，A、B的距离很小，而A与C.、、E距离很大，但是由于分类决策规则是多数表决法，所以最终将A判断为与C、D、E一类，与假设不符。由此可以看出，多数表决法不合理。解决这一问题的方法是对距离进行加权，在k个实例中，B对最终的决策会产生较大影响，应赋于较大权值；距离越远，影响力越小，权值也越小。

3、分类问题

3.1 分类问题简介

分类预测一般采用选择多数表决法，即训练集和预测的样本特征最近的K个样本。
Sklearn提供了KneighborsClassifier解决分类问题，如下所示：

KNeighborsClassifier( n_neighbors, weights, algorithm, leaf_size, p)

【参数说明】

n_neighbors:k值。
weights：指定权重类型。默认值weights = 'uniform'表示为每个近邻分配统一的权重；weights='distance'表示分配的权重与查询点的距离成反比。
algorithm：指定计算最近邻的算法，'auto'：自动决定最合适的算法；'ball_tree'：BallTree算法；'kd_tree'：KDTree算法；'brute'：暴力搜索。
leaf_size：指定BallTree/KDTree叶节点规模，会影响树的构建和查询速度
P:p= 1为曼哈顿距离；p=2为欧几里德距离。

3.2 示例1

from sklearn.datasets import make_blobs
centers = [[-2,2],[2,2],[0,4]]
x,y = make_blobs(n_samples = 60,centers = centers, random_state = 0, cluster_std = 0.60)
#画出数据
import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize = (6,4), dpi = 144)
c = np.array(centers)
#画出样本x[:,0]二维数组的第一维数据
plt.scatter(x[:,0],x[:,1], c = y, s = 100, cmap = 'cool')
#画出中心点
plt.scatter(c[:,0],c[:,1], s = 100, marker = '^', c = 'orange')
plt.savefig('knn_centers.png')
plt.show()
#训练模型
from sklearn.neighbors import KNeighborsClassifier
k = 5
clf = KNeighborsClassifier(n_neighbors = k)
clf.fit(x,y)
#进行预测
x_sample = np.array([[0,2]])
y_sample = clf.predict(x_sample)
neighbors = clf.kneighbors(x_sample, return_distance = False)
#画出示意图
plt.figure(figsize = (6,4), dpi = 144)
c = np.array(centers)
plt.scatter(x[:,0],x[:,1], c = y, s = 100, cmap = 'cool')
plt.scatter(c[:,0],c[:,1], s = 100, marker = '^', c = 'k')
plt.scatter(x_sample[0][0], x_sample[0][1], marker = 'x', s = 100, cmap = 'cool')

for i in neighbors[0]:
    #预测点与距离最近的5个样本连线
    plt.plot(x[i][0], x_sample[0][0], [x[i][1]], x_sample[0][1], 'k--', linewidth = 0.6)
plt.savefig('knn_predict.png')
plt.show()

【运行结果】

3.3 示例2

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
#生成样本数200，分类数为2的数据集
data = make_blobs(n_samples = 200, n_features = 2, centers = 2, cluster_std = 1.0, 
                  random_state = 8)
x, y = data
#s数据集可视化

clf = KNeighborsClassifier()
clf.fit(x,y)
#绘制图形
x_min, x_max = x[:,0].min() - 1, x[:,0].max() + 1
y_min, y_max = x[:,1].min() - 1, x[:,1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, .02), np.arange(y_min, y_max, .02))
z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
z = z.reshape(xx.shape)
plt.pcolormesh(xx, yy, z, cmap = plt.cm.Pastel1)
plt.scatter(x[:,0],x[:,1], s= 80, c = y, cmap = plt.cm.spring, edgecolors = 'k')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title('Classifier:knn')
plt.scatter(6.75, 4.82, marker = '*', c = 'red', s = 200)
res = clf.predict([[6.75, 4.82]])
plt.text(6.9, 4.5, 'classification flag: '+ str(res))
plt.show()

【运行结果】

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
data = make_blobs(n_samples = 500, n_features = 2, centers = 5, cluster_std = 1.0, random_state = 8)
x,y = data
clf = KNeighborsClassifier()
clf.fit(x,y)
#绘制图形
x_min, x_max = x[:,0].min() -1, x[:,0].max() + 1
y_min, y_max = x[:,1].min() -1, x[:,1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, .02), np.arange(y_min, y_max, .02))
z = clf.predict(np.c_[xx.ravel(), yy.ravel()])#将xx变成一维数组
z = z.reshape(xx.shape)
plt.pcolormesh(xx, yy, z, cmap = plt.cm.Pastel1)
plt.scatter(x[:,0],x[:,1], s= 80, c = y, cmap = plt.cm.spring, edgecolors = 'k')
plt.xlim(xx.min(), xx.max())#x轴y轴的数值显示范围,参数分别为最大值和最小值
plt.ylim(yy.min(), yy.max())
plt.title('Classifier:KNN')
plt.scatter(0, 5, marker = '*', c = 'red', s = 200)
res = clf.predict([[0,5]])
plt.text(0.2, 4.6, 'Classification flag: '+ str(res))
plt.text(3.75, -13, 'Model accuracy: {:.2f}'.format(clf.score(x,y)))
plt.show()

【运行结果】

文章来源:https://blog.csdn.net/qq_41566819/article/details/135197029
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！