回归的K最近邻算法实用介绍(带有Python代码)
介绍
在我遇到的所有机器学习算法中,KNN很容易成为最简单的学习方法。尽管它很简单,但是事实证明它在某些任务上非常有效(正如您将在本文中看到的那样)。
甚至更好?它可以用于分类和回归问题!但是,它广泛用于分类问题。我很少看到在任何回归任务上都实施KNN。我的目的是说明和强调当目标变量本质上是连续的时,KNN如何同样有效。
在本文中,我们将首先了解KNN算法背后的直觉,探讨计算点之间距离的不同方法,然后最后在Big Mart Sales数据集上以Python实现该算法。我们走吧!
目录
一个简单的例子,了解KNN背后的直觉
KNN算法如何工作?
点之间距离的计算方法
如何选择k因子?
处理数据集
额外资源
K最近邻居演示
通过此交互式演示,您可以探索K最近邻算法进行分类。
平面中的每个点都使用将使用K最近邻算法分配给它的类来着色。K最近邻算法导致平局的点被标记为白色。
您可以通过单击和拖动来移动点!
在这里尝试 。
本书适用于忙于处理各种数据的专业人员:工程师,BI分析师,统计学家,运筹学,人工智能和机器学习专业人员,经济学家,数据科学家,生物学家和定量研究人员(从初学者到高管)。在大约300页和28章中,它涵盖了许多新主题,为该主题提供了全新的视角,包括易于自动化或集成到黑匣子系统中的经验法则和配方,以及无模型的新数据,推动统计科学和预测分析的基础。该方法侧重于强大的技术;与传统的自上而下的方法相反,它是自下而上的(从应用程序到理论)。具有一年大学水平的统计学和概率知识的从业人员可以访问该材料。精巧的教学风格,
在不使用行话或奥术理论的情况下,用简单的英语讨论了新的想法,高级主题和最新研究。它统一了通常属于不同领域(机器学习,统计学,计算机科学,运筹学,动力系统,数论)的主题,以其他任何书籍都没有的方式扩展了读者的知识和兴趣。本书包含大量精简资料,传统出版物中通常包含1
各章按主题进行组织和分组:自然语言处理(NLP),重采样,时间序列,中心极限定理,统计测试,增强模型(集成方法),技巧和特殊主题,附录等。蓝色文本包含可单击的链接,以为读者提供其他参考。汇总计算的源代码和Excel电子表格也可以作为超链接访问,以方便复制和粘贴或复制。可从此链接访问最新版本 ,仅适用于DSC成员。
关于作者
文森特·格兰维尔(Vincent Granville)是一位初创的企业家,专利所有人,作者,投资者,数据科学家的先驱,在大型和大型公司(eBay,Microsoft,NBC,Wells Fargo,Visa,CNET)中有30年的公司经验,并且曾获得风险投资高管,具有强大的学术和研究背景,包括剑桥大学。
第1部分-机器学习基础知识和NLP
我们介绍一种称为“ 隐藏决策树”的简单集成技术(或增强算法),该技术将鲁棒回归与异常决策树结合使用,在事务评分中非常有用。然后,我们将描述其他原始的和相关的机器学习技术,这些技术可用于对大型数据集进行聚类,通过索引(自然语言处理或NLP技术)来构造非结构化数据,并使用Python代码甚至Excel实现来执行功能选择。
多用途,稳健,伪线性回归-第12页
一种简单的集成方法,包括案例研究(NLP)-第15页
Excel实施-第24页
快速功能选择-第31页
大数据快速无监督群集(NLP)-第36页
构建非结构化数据-第40页
第2部分-应用概率论与统计科学
我们讨论了传统的统计检验,以检测对随机性(零假设)的偏离,并将其应用于行为类似于随机过程的序列(观察值)。中心极限定理(CLT)被重新审视并推广到时间序列(单变量和多变量)和布朗运动中。我们讨论了随机变量和稳定分布的加权和如何与CLT相关联,然后探讨了混合模型-一种更好的框架来表示丰富的现象。应用程序很多,例如包括最佳分档。上一章总结了先前使用的许多统计检验。
测试随机性-第42页
中心极限定理-第48页
更多随机性检验-第55页
随机加权和与稳定分布-第63页
混合模型,最佳分档和深度学习-第73页
时间序列中的远距离相关-第87页
随机数理论和多元时间序列-第95页
统计测试:摘要-第101页
第三部分-统计科学的新基础
我们基于广义重采样,为适合现代机器学习问题的新型统计方法奠定了基础。应用范围很广,从优化交叉验证到计算置信区间,都无需使用经典的统计理论,p值或概率分布。但是,我们引入了一些新的基本定理,其中包括一个关于通用,无模型置信区间的渐近性质的定理。
机器学习的现代重采样技术-第107页
无模型,无假设置信区间-第121页
范围的分布:美丽的概率定理-第133页
第4部分-案例研究,业务应用
这些章节涉及现实生活中的业务应用程序。在第18章的特殊意义上,它具有一个非常原始的业务应用程序(游戏中),该应用程序根据前几章的内容进行了详细描述,并包含所有组件。然后,我们转向更传统的机器学习用例。重点是通过展示如何成功利用数据科学来解决问题,向数据科学经理和高管提供合理的业务建议。演示风格紧凑,侧重于策略而非技术。
植根于机器学习和深度数学的游戏平台-第136页
数字媒体:衰减调整后的排名-第148页
建立网站分类法-第153页
预测房屋价值-第158页
增长黑客-第161页
时间序列和增长建模-第169页
改善Facebook和Google算法-第179页
第5部分-其他主题
在这里,我们涵盖了很多主题,包括样本量问题,自动探索性数据分析,极端事件,离群值,检测聚类数量,p值,随机游走,尺度不变方法,特征选择,增长模型,可视化,密度估计,马尔可夫链,A / B测试,多项式回归,强相关和因果关系,随机几何形状,K最近邻,甚至是使用统计科学计算得出的有趣积分的精确值,仅举几例。
解决常见的机器学习挑战-第187页
耐离群值技术,聚类模拟,轮廓图-第214页
强相关度量-第225页
特殊主题-第229页
附录
再谈线性代数-第266页
随机过程和有组织的混乱-第272页
机器学习和数据科学速查表-第297页
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!