[数据挖掘新闻] K最邻近算法实例的去量纲 [推广有奖]

0关注
4粉丝

教授

35%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 29650 个
通用积分: 380.5350
学术水平: 1 点
热心指数: 1 点
信用等级: 0 点
经验: 7150 点
帖子: 670
精华: 0
在线时间: 37 小时
注册时间: 2022-8-30
最后登录: 2023-4-4

楼主

我是小趴菜 发表于 2022-10-27 11:31:34 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

通过欧式距离计算出点与点的远近，圆点代表待分类的点，方点与三角点代表训练数据中已经分好成两类的数据。可以看出，在指定的半径1中，三角点个数比方点个数多一个，K最邻近算法会将圆点分成三角点一类，在指定半径2中，方点比三角点多一个，所以K最邻近算法会将圆点分成方点一类。

K最近邻算法的使用会存在一些假设。首先假设在相同类型中的客户拥有同样的行为，其次假设需要判别的点会做与其邻居相同的事情。如果这些假设条件不满足的话，KNN的效果也会大打折扣的。

另外把K最近邻算法归入到基本的数据挖掘技术，是因为KNN本身并不是一个可以自行学习的算法，它只是机械的计算与周围邻居的距离，所以这个算法本身的效率比较低。比如最开始的数据集有100万条，对于一条待分类的数据，KNN会计算所有100条数据的距离，在进行排序，取前k个邻居，再进行类别判断。对于下一条待分类的数据也是如此计算。我们在对实例实施K最近邻的算法之前，首先要注意，我们需要对数据的量纲进行处理。K最近邻算法主要计算实例间的距离远近，如果实例中的变量单位不同或者量纲差别很大，会影响到距离计算的结果。如下图所示，Income的单位是万，而Age的单位是十，如果在单位量纲不变的情况下直接计算距离，由于这两个属性的量纲差距很大，Age这个单位量纲较小的属性在距离计算中的权重太小，甚至被忽略，这个情况显然不是我们所期望的。