Python代码实现KNN算法

作者:Troublemaker201407 时间:2023-05-07 10:45:36 

kNN算法是k-近邻算法的简称,主要用来进行分类实践,主要思路如下:

1.存在一个训练数据集,每个数据都有对应的标签,也就是说,我们知道样本集中每一数据和他对应的类别。
2.当输入一个新数据进行类别或标签判定时,将新数据的每个特征值与训练数据集中的每个数据进行比较,计算其到训练数据集中每个点的距离(下列代码实现使用的是欧式距离)。
3.然后提取k个与新数据最接近的训练数据点所对应的标签或类别。
4.出现次数最多的标签或类别,记为当前预测新数据的标签或类别。

欧式距离公式为:

distance= sqrt((xA0-XB0)^2+(xA1-XB1)^2+...+(xAn-XBn)^2)(若数据有n个特征项)

以下为代码实现:


#! /usr/bin/python
#coding=utf-8
from numpy import *
import operator
def createDataSet():
 group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])#训练数据样本集合
 labels = ['A','A','B','B']#训练数据对应的类别
 return group,labels
'''''
inX:用于分类的输入向量
dataSet:训练样本集合
labels:标签向量
k:k-近邻算法中的k
'''
def classify0(inX,dataSet,labels,k):
 dataSetSize = dataSet.shape[0] #获取数组的维度,也就是获取训练样本的行数(样本数),若获取列数,则为shape[1]
 diffMat = tile(inX,(dataSetSize,1)) - dataSet # tile 表示inX在重复dataSetSize行,重复1列。为输入向量与各个样本求取欧式距离做准备。
 sqDiddMat = diffMat**2 #diffMat是输入向量与我们训练样本每个点相减得到的,**2表示值的结果取平方。
 sqDistances = sqDiddMat.sum(axis=1)#默认为axis=0,axis=1以后就是将一个矩阵的每一行向量相加
 distances = sqDistances**0.5 #对结果进行开平方,得到输入向量与每个训练样本中点的欧式距离
 sorteDistIndicies = distances.argsort()#将距离结果按照从小到大排序获得索引值
 classcount={} #这是一个字典,key为类别,value为距离最小的前k个样本点里面为该类别的个数。
 for i in range(k):
   voteIlabel = labels[sorteDistIndicies[i]]#获取距离最小的前k个样本点对应的label值
   classcount[voteIlabel] = classcount.get(voteIlabel,0)+1 #如果之前的样本点label值与与现在的相同,则累计加1,否则,此次加1
 sorteClassCount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True) #针对calsscount获取对象的第1个域的值进行降序排序。也就是说根据类别的个数从大到小排序。
 return sorteClassCount[0][0] #返回排序的字典的第一个元素的key,即分类后的类别

createDataSet()
print classify0([0.9,0.9],group,labels,3)

结果为:A 

来源:http://blog.csdn.net/suhanjiao4897/article/details/78458587

标签:Python,KNN
0
投稿

猜你喜欢

  • python 教程实现 turtle海龟绘图

    2022-03-19 10:45:35
  • 浅谈MySQL中的子查询优化技巧

    2024-01-19 12:01:45
  • 对Python的Django框架中的项目进行单元测试的方法

    2021-02-23 03:17:04
  • 瀑布流布局代码一例

    2023-08-25 07:33:19
  • JavaScript获取一个范围内日期的方法

    2024-04-28 09:50:33
  • 基于Python批量生成指定尺寸缩略图代码实例

    2021-12-15 14:58:48
  • node.js支持多用户web终端实现及安全方案

    2024-05-05 09:22:10
  • python ddt实现数据驱动

    2021-11-11 02:37:08
  • Django文件存储 自己定制存储系统解析

    2023-09-17 13:06:25
  • python numpy数组复制使用实例解析

    2023-06-22 07:27:06
  • python字符串不可变数据类型

    2021-04-14 23:07:09
  • Windows中使用wxPython和py2exe开发Python的GUI程序的实例教程

    2021-07-07 08:52:17
  • 使用Python编程分析火爆全网的鱿鱼游戏豆瓣影评

    2023-10-11 00:35:26
  • python请求域名requests.(url = 地址)报错

    2021-12-18 06:28:36
  • Mysql分库分表之后主键处理的几种方法

    2024-01-20 21:00:09
  • tensorflow安装成功import tensorflow 出现问题

    2022-04-13 20:35:26
  • JavaScript利用多彩线条摆出心形效果的示例代码

    2024-04-16 10:29:49
  • Python3 queue队列模块详细介绍

    2023-10-03 05:10:51
  • python 实现二维数组的索引、删除、拼接操作

    2021-03-01 10:28:08
  • Python使用自带的ConfigParser模块读写ini配置文件

    2022-04-01 00:07:01
  • asp之家 网络编程 m.aspxhome.com