赵宏田,Python社区专栏作者 博客:https://zhuanlan.zhihu.com/pythoncoder 1、最邻近算法KNN方法的简单描述:KNN方法用于分类,其基本思想如下。我们已经有一些已知类型的数据,暂称其为训练集。当一个新数据(暂称其为测试集)进入的时候,开始跟训练集数据中的每个数据点求距离,挑选与这个训练数据集中最近的K个点看这些点属于什么类型,用少数服从多数的方法将测试数据归类。 图示:这里我用一个常见到的图做介绍:1、有三类已知数据集(训练集),它们分别属于w1、w2、w3,这三类数据分别有自己的特征;2、有一个位置类别的数据(测试集)Xu;3、通过求Xu点到所有训练集数据的距离,取距离最近的n个点,查看这n个点所归属的类别,以少数服从多数的方式将Xu归类到已知训练集下 2、python实现最邻近算法案例这里我构造了一个150*5的矩阵,分别代表三类数据。每行的前四个值代表数据的特征,第五个值代表数据的类别。如图: 这三类数据分别属于apple、banana、orange 第一步:加载数据。以split参数传来的参数为限,将小于split的随机数对应的数据划分到训练集,将大于split的随机数划分到测试集 |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|