首页 ›存档› 技术 › 查看内容

Python数据挖掘实践KNN分类

2018-3-30 13:00 |来自: 互联网 355 0

摘要: 赵宏田，Python社区专栏作者博客：https://zhuanlan.zhihu.com/pythoncoder 1、最邻近算法 KNN方法的简单描述：KNN方法用于分类，其基本思想如下。我们已经有一些已知类型的数据，暂称其为训练集。当一个新数据（暂 ...

赵宏田，Python社区专栏作者

博客：https://zhuanlan.zhihu.com/pythoncoder

1、最邻近算法

KNN方法的简单描述：KNN方法用于分类，其基本思想如下。我们已经有一些已知类型的数据，暂称其为训练集。当一个新数据（暂称其为测试集）进入的时候，开始跟训练集数据中的每个数据点求距离，挑选与这个训练数据集中最近的K个点看这些点属于什么类型，用少数服从多数的方法将测试数据归类。

图示：这里我用一个常见到的图做介绍：1、有三类已知数据集（训练集），它们分别属于w1、w2、w3，这三类数据分别有自己的特征；2、有一个位置类别的数据（测试集）Xu；3、通过求Xu点到所有训练集数据的距离，取距离最近的n个点，查看这n个点所归属的类别，以少数服从多数的方式将Xu归类到已知训练集下

2、python实现最邻近算法案例

这里我构造了一个150*5的矩阵，分别代表三类数据。每行的前四个值代表数据的特征，第五个值代表数据的类别。如图：

这三类数据分别属于apple、banana、orange

第一步：加载数据。以split参数传来的参数为限，将小于split的随机数对应的数据划分到训练集，将大于split的随机数划分到测试集

  def loadDataset(self,filename, split, trainingSet, testSet): # 加载数据集 split以某个值为界限分类train和test
    with open(filename, 'r') as csvfile:
      lines = csv.reader(csvfile)  #读取所有的行
      dataset = list(lines)   #转化成列表
      for x in range(len(dataset)-1):
        for y in range(4):
          dataset[x][y] = float(dataset[x][y])
        if random.random()

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

收藏分享邀请

上一篇：Python基本操作的时间代价下一篇：Python爬虫实战（2）：爬取京东商品列表

Python数据挖掘实践KNN分类

1、最邻近算法

2、python实现最邻近算法案例

相关分类