理解 K-最近邻算法

目标

在本章中，我们将理解 K-最近邻（kNN）算法的基本概念。

原理

kNN 是可用于监督学习的最简单的分类算法之一。其主要思路是在特征空间中搜索最接近测试数据的匹配项。我们可以用下图来表示它

图像

在上图中，有两个家族，蓝色方块和红色三角形。我们将每个家族称之为类。他们的房子在我们称之为特征空间的城镇地图上显示出来。*（你可以把特征空间理解为一个投影了所有数据的空间。例如，想象一个二维坐标空间。每个元素有两个特征，x 和 y 坐标。你可以在你的二维坐标空间里表示这些元素，对不对？现在想象一下，如果有 3 个特征，你需要 3 维空间。如果有 N 个特征，你需要 N 维空间，对不对？这个 N 维空间就是它的特征空间。在我们的图像中，你可以把它当作一个有着两个特征的 2 维案例）*。

现在，一个新成员进入城镇并创建了一个新家，显示为绿色圆圈。他将被加入到 Blue/Red 家族中的一个。我们将该过程称为分类。那么，我们该怎么做？由于我们正在研究 kNN，那么让我们应用这个算法。

一种方法是检查谁是他最近的邻居，从图像来看，很明显是红色三角形家族。所以他也被加入到红色三角形家族。此方法简称为最近邻，因为分类仅取决于最近邻居。

但是，这有个问题。红色三角形可能是最近的，但如果有很多蓝色方块也和他很近，那会怎么样呢？那么，蓝色方块在该地区有着比红色三角形更强的影响力，因此，仅仅检查最近的一个邻居是不够的。取而代之，我们检查 k 个最近的邻居，然后，谁占大多数，新人就属于那个家族。在我们的图像中，让我们取 k=3，即 3 个最近的邻居。他有 2 个红色邻居和 1 个蓝色邻居（有两个蓝色邻居的距离是一样的，但因为 k=3，所有我们只取他们中的一个），因此，他再一次应该被加到红色家族。但是，如果我们取 k=7 又会如何？会发现，他有 5 个蓝色邻居和 2 个红色邻居。很好！！现在，他应该被加入到蓝色家族。我们可以看到，这些变化都取决于 k 的值。更有趣的是，如果 k=4 会怎么样？他将有 2 个红色邻居和 2 个蓝色邻居。一个平局！！！因此，k 最好取一个奇数。因为分类取决于 k 个最近的邻居，所有这种方法被称为 K-最近邻算法

再想想，在 kNN 中，我们考虑了 k 个邻居，这没问题，但是，每个邻居我们都给了相同的权重，这样对吗？这样公平吗？举例来说，就举 k=4 的例子吧，我们说这是一个平局，但是，仔细想想，2 个红色邻居比 2 个蓝色邻居离他更近，所以他更有资格加入到红色家族。那么我们怎么在数学上表示这一点呢？我们根据他们与新来者的距离给每个家庭一些权重。对于那些靠近他的家庭来说，获得更高的权重，而那些距离较远的家庭则获得较低的权重。然后，我们分别计算每个家族的总权重。谁的总权重高，新来者就加入那个家族。这就是修改后的 kNN

那么，讲到这里，什么是重要的呢？

你需要小镇上所有房子的信息，对不对？因为，我们必须检查新人到所有现有房屋的距离，以找到最近的邻居。如果有很多房屋和家族，那么将占用很多内存，计算上也将更费时间。
在训练和预处理上几乎不花时间

现在，让我们看看 OpenCV 中的 kNN。

OpenCV 中的 kNN

我们将在这里举一个简单的例子，有两个家族（类），就像上面一样。然后在下一章中，我们将举一个更好的例子。

所以在这里，我们将红色家族标记为Class-0（用 0 表示），将蓝色家族标记为Class-1（用 1 表示）。我们创建了 25 个家庭（25 个训练数据），并将他们标记为 Class-0 和 Class-1。我们在 Numpy 的随机数生成器的帮助下完成所有这些工作。

然后我们在 Matplotlib 的帮助下绘制它。红色家族显示为红色三角形，蓝色家族显示为蓝色方块。

import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt

# Feature set containing (x,y) values of 25 known/training data
trainData = np.random.randint(0,100,(25,2)).astype(np.float32)

# Labels each one either Red or Blue with numbers 0 and 1
responses = np.random.randint(0,2,(25,1)).astype(np.float32)

# Take Red families and plot them
red = trainData[responses.ravel()==0]
plt.scatter(red[:,0],red[:,1],80,'r','^')

# Take Blue families and plot them
blue = trainData[responses.ravel()==1]
plt.scatter(blue[:,0],blue[:,1],80,'b','s')

plt.show()

你将获得与我们的第一张图片类似的图片。由于你使用的是随机数生成器，因此每次运行代码时都会获得不同的图片。

接下来初始化 kNN 算法，并把训练数据和响应传递给它，以训练 kNN（构建一个搜索树）。

然后我们将引入一个新成员，并在 OpenCV 的 kNN 的帮助下将他归类到某个家族。在讲 kNN 之前，我们需要了解一些关于测试数据（新成员的数据）的知识。我们的数据应该是一个浮点数数组，其大小为 测试数据的个数 × 特征数。然后，我们找到了新成员的最近的邻居们。我们可以指定最近的邻居的数量。返回如下内容：
1.新成员的标签取决于我们之前所说的 kNN 理论。如果你想用最近邻算法，只要指定 k=1 就可以了，这里的 k 是邻居的个数。
2.k 个邻居的标签
3.从新成员到每个邻居的距离

接下来，让我们看看它是如何工作的。新成员被标记为绿色。

newcomer = np.random.randint(0,100,(1,2)).astype(np.float32)
plt.scatter(newcomer[:,0],newcomer[:,1],80,'g','o')

knn = cv.ml.KNearest_create()
knn.train(trainData, cv.ml.ROW_SAMPLE, responses)
ret, results, neighbours ,dist = knn.findNearest(newcomer, 3)

print( "result:  {}\n".format(results) )
print( "neighbours:  {}\n".format(neighbours) )
print( "distance:  {}\n".format(dist) )

plt.show()

我得到了如下结果：

result:  [[ 1.]]
neighbours:  [[ 1.  1.  1.]]
distance:  [[ 53.  58.  61.]]

这说明我们的新成员有 3 个邻居，全部来自蓝色家族。因此，他被贴上了蓝色家族的标签。下图更为明显：

图像

如果你的测试数据很多，你可以使用数组。对应的结果也是个数组。

# 10 new comers
newcomers = np.random.randint(0,100,(10,2)).astype(np.float32)
ret, results,neighbours,dist = knn.findNearest(newcomer, 3)
# The results also will contain 10 labels.

其他资源

1.NPTEL notes on Pattern Recognition, Chapter 11

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

8.1.1-tutorial_py_knn_understanding.md

8.1.1-tutorial_py_knn_understanding.md

理解 K-最近邻算法

目标

原理

OpenCV 中的 kNN

其他资源

练习

Files

8.1.1-tutorial_py_knn_understanding.md

Latest commit

History

8.1.1-tutorial_py_knn_understanding.md

File metadata and controls

理解 K-最近邻算法

目标

原理

OpenCV 中的 kNN

其他资源

练习