k近邻算法(k-Nearest Neighbor, kNN) - 郑之杰的个人网站

k-Nearest Neighbor.

k近邻算法(k-Nearest Neighbor,kNN)是一种简单的分类方法。给定一个训练数据集，对于一个新的数据样本，在训练数据集中搜索与该样本最邻近的$k$个样本，并将这$k$个样本的结果通过分类决策得到最终的输出结果。该算法需要注意的事项如下：

$k$值的选择：$k$值过小会使得模型的近似误差(approximation error)较小而估计误差(estimation error)较大，容易过拟合，这意味着模型复杂度较高；$k$值过大会使得模型的近似误差较大而估计误差较小，这意味着模型复杂度较低；通常通过交叉验证选择$k$值。
距离度量：距离度量用于衡量样本点之间的距离，一般使用欧式距离，也可使用其他距离度量。
分类决策规则：kNN常使用多数表决规则(majority voting rule)，即邻域内出现最多的类别作为最终的输出类别。

kNN可以看作是对数据空间的一种划分。对于数据空间中的每一个数据样本，距离该样本比其他所有样本更近的空间位置被划分到同一个区域中，该区域的类别由该样本点决定。

kNN算法没有显式的训练过程，而是在训练阶段把样本保存起来，待接受到测试样本后在进行处理。这类方法称为懒惰学习(lazy learning)以区别于通常的急切学习(eager learning)。

kNN算法实现简单，训练复杂度$O(1)$；但测试复杂度$O(N)$；其测试时间远大于训练时间，且距离评估指标容易受图像背景、颜色分布等影响，分类准确率较低。

为了提高算法效率，在计算kNN中的样本距离时，引入矩阵计算(可以被GPU等硬件加速)。若$m$个特征维度为$d$的训练样本表示为矩阵$X \in \Bbb{R}^{m \times d}$；$n$个查询样本表示为矩阵$Y \in \Bbb{R}^{n \times d}$，样本间的L2距离表示为矩阵$L \in \Bbb{R}^{m \times n}$。则第$i$个训练样本和第$j$个查询样本之间的距离计算为：

\[l_{ij} = \sqrt{\sum_{k=1}^{d} (x_{ik}-y_{jk})^2} = \sqrt{\sum_{k=1}^{d} (x_{ik}^2+y_{jk}^2-2x_{ik}y_{jk})} = \sqrt{\sum_{k=1}^{d} x_{ik}^2+ \sum_{k=1}^{d} y_{jk}^2-2 \sum_{k=1}^{d} x_{ik}y_{jk}}\]

使用numpy将上述距离计算表示为矩阵运算：

L = np.sqrt(
    np.sum(X.pow(2), axis=1).reshape(-1,1)+
    np.sum(Y.pow(2), axis=1).reshape(1,-1)-
    2*np.dot(X,Y.T)
)

使用sklearn库实现kNN算法：

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 创建 KNN 分类器，采用 kd_tree 算法并使用并行计算
knn = KNeighborsClassifier(
    n_neighbors=5,       # Number of neighbors
    weights='uniform',   # Weight function {‘uniform’, ‘distance’}
    algorithm='auto',    # {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}
    leaf_size=30,        # Leaf size passed to BallTree or KDTree
    p=2,                 # Power parameter for the Minkowski metric
    metric='minkowski',  # Metric to use for distance computation
    metric_params=None,
    n_jobs=None          # -1 means using all processors
)

# 训练模型
knn.fit(X_train, y_train)

# 对测试集进行预测
predictions = knn.predict(X_test)

# 打印预测结果
print("Predictions:", predictions)

# 计算并打印准确率
accuracy = accuracy_score(y_test, predictions)
print("Accuracy:", accuracy)