纯python实现机器学习之kNN算法示例

作者:swensun 时间:2021-05-02 22:57:17 

前面文章分别简单介绍了线性回归,逻辑回归,贝叶斯分类,并且用python简单实现。这篇文章介绍更简单的 knn, k-近邻算法(kNN,k-NearestNeighbor)。

k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似)。

原理

kNN算法的核心思想是用距离最近(多种衡量距离的方式)的k个样本数据来代表目标数据的分类。

具体讲,存在训练样本集, 每个样本都包含数据特征和所属分类值。

输入新的数据,将该数据和训练样本集汇中每一个样本比较,找到距离最近的k个,在k个数据中,出现次数做多的那个分类,即可作为新数据的分类。

纯python实现机器学习之kNN算法示例

如上图:

需要判断绿色是什么形状。当k等于3时,属于三角。当k等于5是,属于方形。

因此该方法具有一下特点:

  1. 监督学习:训练样本集中含有分类信息

  2. 算法简单, 易于理解实现

  3. 结果收到k值的影响,k一般不超过20.

  4. 计算量大,需要计算与样本集中每个样本的距离。

  5. 训练样本集不平衡导致结果不准确问题

接下来用oython 做个简单实现, 并且尝试用于约会网站配对。

python简单实现


def classify(inX, dataSet, labels, k):
 """
 定义knn算法分类器函数
 :param inX: 测试数据
 :param dataSet: 训练数据
 :param labels: 分类类别
 :param k: k值
 :return: 所属分类
 """

dataSetSize = dataSet.shape[0] #shape(m, n)m列n个特征
 diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
 sqDiffMat = diffMat ** 2
 sqDistances = sqDiffMat.sum(axis=1)
 distances = sqDistances ** 0.5 #欧式距离
 sortedDistIndicies = distances.argsort() #排序并返回index

classCount = {}
 for i in range(k):
   voteIlabel = labels[sortedDistIndicies[i]]
   classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 #default 0

sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True)
 return sortedClassCount[0][0]

算法的步骤上面有详细的介绍,上面的计算是矩阵运算,下面一个函数是代数运算,做个比较理解。


def classify_two(inX, dataSet, labels, k):
 m, n = dataSet.shape  # shape(m, n)m列n个特征
 # 计算测试数据到每个点的欧式距离
 distances = []
 for i in range(m):
   sum = 0
   for j in range(n):
     sum += (inX[j] - dataSet[i][j]) ** 2
   distances.append(sum ** 0.5)

sortDist = sorted(distances)

# k 个最近的值所属的类别
 classCount = {}
 for i in range(k):
   voteLabel = labels[ distances.index(sortDist[i])]
   classCount[voteLabel] = classCount.get(voteLabel, 0) + 1 # 0:map default
 sortedClass = sorted(classCount.items(), key=lambda d:d[1], reverse=True)
 return sortedClass[0][0]

有了上面的分类器,下面进行最简单的实验来预测一下:


def createDataSet():
 group = np.array([[1, 1.1], [1, 1], [0, 0], [0, 0.1]])
 labels = ['A', 'A', 'B', 'B']
 return group, labels

上面是一个简单的训练样本集。


if __name__ == '__main__':
 dataSet, labels = createDataSet()
 r = classify_two([0, 0.2], dataSet, labels, 3)
 print(r)

执行上述函数:可以看到输出B, [0 ,0.2]应该归入b类。

上面就是一个最简单的kNN分类器,下面有个例子。

kNN用于判断婚恋网站中人的受欢迎程度

训练样本集中部分数据如下:


40920 8.326976 0.953952 3
14488 7.153469 1.673904 2
26052 1.441871 0.805124 1
75136 13.147394 0.428964 1
38344 1.669788 0.134296 1

第一列表示每年获得的飞行常客里程数, 第二列表示玩视频游戏所耗时间百分比, 第三类表示每周消费的冰淇淋公升数。第四列表示分类结果,1, 2, 3 分别是 不喜欢,魅力一般,极具魅力。

将数据转换成numpy。


# 文本转换成numpy
def file2matrix(filepath="datingSet.csv"):
 dataSet = np.loadtxt(filepath)
 returnMat = dataSet[:, 0:-1]
 classlabelVector = dataSet[:, -1:]
 return returnMat, classlabelVector

首先对数据有个感知,知道是哪些特征影响分类,进行可视化数据分析。


# 2, 3列数据进行分析
def show_2_3_fig():
 data, cls = file2matrix()
 fig = plt.figure()
 ax = fig.add_subplot(111)
 ax.scatter(data[:, 1], data[: ,2], c=cls)
 plt.xlabel("playing game")
 plt.ylabel("Icm Cream")
 plt.show()

纯python实现机器学习之kNN算法示例

如上图可以看到并无明显的分类。

纯python实现机器学习之kNN算法示例

纯python实现机器学习之kNN算法示例

可以看到不同的人根据特征有明显的区分。因此可以使用kNN算法来进行分类和预测。

由于后面要用到距离比较,因此数据之前的影响较大, 比如飞机里程和冰淇淋数目之间的差距太大。因此需要对数据进行归一化处理。


# 数据归一化
def autoNorm(dataSet):
 minVal = dataSet.min(0)
 maxVal = dataSet.max(0)
 ranges = maxVal - minVal

normDataSet = np.zeros(dataSet.shape)
 m, n = dataSet.shape # 行, 特征
 normDataSet = dataSet - minVal
 normDataSet = normDataSet / ranges
 return normDataSet, ranges, minVal

衡量算法的准确性

knn算法可以用正确率或者错误率来衡量。错误率为0,表示分类很好。

因此可以将训练样本中的10%用于测试,90%用于训练。


# 定义测试算法的函数
def datingClassTest(h=0.1):
 hoRatio = h
 datingDataMat, datingLabels = file2matrix()
 normMat, ranges, minVals = autoNorm(datingDataMat)
 m, n = normMat.shape
 numTestVecs = int(m * hoRatio) #测试数据行数
 errorCount = 0 # 错误分类数

# 用前10%的数据做测试
 for i in range(numTestVecs):
   classifierResult = classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
   # print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i])))
   if classifierResult != datingLabels[i]:
     errorCount += 1
 print("the total error rate is: %f" % (errorCount / float(numTestVecs)))

调整不同的测试比例,对比结果。

使用knn进行预测。

有了训练样本和分类器,对新数据可以进行预测。模拟数据并进行预测如下:


# 简单进行预测
def classifypersion():
 resultList = ["none", 'not at all','in small doses','in large doses']
 # 模拟数据
 ffmiles = 15360
 playing_game = 8.545204
 ice_name = 1.340429

datingDataMat, datingLabels = file2matrix()
 normMat, ranges, minVals = autoNorm(datingDataMat)
 inArr = np.array([ffmiles, playing_game, ice_name])
 # 预测数据归一化
 inArr = (inArr - minVals) / ranges
 classifierResult = classify(inArr, normMat, datingLabels, 3)
 print(resultList[int(classifierResult)])

可以看到基本的得到所属的分类。

完成代码和数据请参考:

github:kNN

总结

  1. kNN

  2. 监督学习

  3. 数据可视化

  4. 数据归一化,不影响计算

来源:https://juejin.im/post/5a965f0f6fb9a063592c044b

标签:python,kNN
0
投稿

猜你喜欢

  • Windows下ORACLE 10g完全卸载的方法分析

    2012-07-11 16:09:26
  • webpack 打包压缩js和css的方法示例

    2023-07-02 05:18:32
  • jQuery页面滚动浮动层智能定位实例代码

    2024-04-22 22:22:16
  • python 切片和range()用法说明

    2021-12-12 07:40:52
  • Python PaddlePaddle机器学习之求解线性模型

    2023-04-19 08:35:14
  • Sub-Pixel Bug?!

    2010-03-24 18:09:00
  • python爬虫Scrapy框架:媒体管道原理学习分析

    2022-11-23 15:07:03
  • Python实现字符串反转的常用方法分析【4种方法】

    2022-01-05 04:08:08
  • MySQL内外连接的具体使用

    2024-01-17 13:52:49
  • Python采用socket模拟TCP通讯的实现方法

    2021-04-03 09:43:23
  • ASP经常用到的函数

    2009-07-06 13:00:00
  • JavaScript 限制文本框不可输入英文单双引号的方法

    2024-04-25 13:06:56
  • pandas 实现某一列分组,其他列合并成list

    2022-06-12 13:49:21
  • Mongodb基本操作与Python连接mongodb并进行基础操作的方法

    2023-10-14 23:55:51
  • 在ASP.NET 2.0中操作数据之二十七:创建自定义排序用户界面

    2023-06-25 21:01:05
  • python记录程序运行时间的三种方法

    2023-08-25 03:12:19
  • ASP中CACHE缓存技术

    2010-05-03 10:58:00
  • Python编程super应用场景及示例解析

    2023-06-10 03:00:46
  • Vue不能检测到Object/Array更新的情况的解决

    2024-05-09 15:14:32
  • 在 SQL Server数据库开发中的十大问题

    2009-01-20 14:56:00
  • asp之家 网络编程 m.aspxhome.com