搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  MLiA_SourceCode.zip
资料下载链接地址: https://bbs.pinggu.org/a-2353063.html
附件大小:
33.31 MB   举报本内容
基于python讲解机器学习算法。
目录:
第一部分分类
第1章机器学习基础2
1.1 何谓机器学习3
1.1.1 传感器和海量数据4
1.1.2 机器学习非常重要5
1.2 关键术语5
1.3 机器学习的主要任务7
1.4 如何选择合适的算法8
1.5 开发机器学习应用程序的步骤9
1.6 Python语言的优势10
1.6.1 可执行伪代码10
1.6.2 Python比较流行10
1.6.3 Python语言的特色11
1.6.4 Python语言的缺点11
1.7 NumPy函数库基础12
1.8 本章小结13
第2章k-近邻算法 15
2.1 k-近邻算法概述15
2.1.1 准备:使用Python导入数据17
2.1.2 从文本文件中解析数据19
2.1.3 如何测试分类器20
2.2 示例:使用k-近邻算法改进约会网站的配对效果20
2.2.1 准备数据:从文本文件中解析数据21
2.2.2 分析数据:使用Matplotlib创建散点图23
2.2.3 准备数据:归一化数值25
2.2.4 测试算法:作为完整程序验证分类器26
2.2.5 使用算法:构建完整可用系统27
2.3 示例:手写识别系统28
2.3.1 准备数据:将图像转换为测试向量29
2.3.2 测试算法:使用k-近邻算法识别手写数字30
2.4 本章小结31
第3章决策树 32
3.1 决策树的构造33
3.1.1 信息增益35
3.1.2 划分数据集37
3.1.3 递归构建决策树39
3.2 在Python中使用Matplotlib注解绘制树形图42
3.2.1 Matplotlib注解43
3.2.2 构造注解树44
3.3 测试和存储分类器48
3.3.1 测试算法:使用决策树执行分类49
3.3.2 使用算法:决策树的存储50
3.4 示例:使用决策树预测隐形眼镜类型50
3.5 本章小结52
第4章基于概率论的分类方法:朴素贝叶斯 53
4.1 基于贝叶斯决策理论的分类方法53
4.2 条件概率55
4.3 使用条件概率来分类56
4.4 使用朴素贝叶斯进行文档分类57
4.5 使用Python进行文本分类58
4.5.1 准备数据:从文本中构建词向量58
4.5.2 训练算法:从词向量计算概率60
4.5.3 测试算法:根据现实情况修改分类器62
4.5.4 准备数据:文档词袋模型64
4.6 示例:使用朴素贝叶斯过滤垃圾邮件64
4.6.1 准备数据:切分文本65
4.6.2 测试算法:使用朴素贝叶斯进行交叉验证66
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向68
4.7.1 收集数据:导入RSS源68
4.7.2 分析数据:显示地域相关的用词71
4.8 本章小结72
第5章Logistic回归 73
5.1 基于Logistic回归和Sigmoid函数的分类74
5.2 基于最优化方法的最佳回归系数确定75
5.2.1 梯度上升法75
5.2.2 训练算法:使用梯度上升找到最佳参数77
5.2.3 分析数据:画出决策边界79
5.2.4 训练算法:随机梯度上升80
5.3 示例:从疝气病症预测病马的死亡率85
5.3.1 准备数据:处理数据中的缺失值85
5.3.2 测试算法:用Logistic回归进行分类86
5.4 本章小结88
第6章支持向量机89
6.1 基于最大间隔分隔数据89
6.2 寻找最大间隔91
6.2.1 分类器求解的优化问题92
6.2.2 SVM应用的一般框架93
6.3 SMO高效优化算法94
6.3.1 Platt的SMO算法94
6.3.2 应用简化版SMO算法处理小规模数据集94
6.4 利用完整Platt SMO算法加速优化99
6.5 在复杂数据上应用核函数105
6.5.1 利用核函数将数据映射到高维空间106
6.5.2 径向基核函数106
6.5.3 在测试中使用核函数108
6.6 示例:手写识别问题回顾111
6.7 本章小结113
第7章利用AdaBoost元算法提高分类
性能 115
7.1 基于数据集多重抽样的分类器115
7.1.1 bagging:基于数据随机重抽样的分类器构建方法116
7.1.2 boosting116
7.2 训练算法:基于错误提升分类器的性能117
7.3 基于单层决策树构建弱分类器118
7.4 完整AdaBoost算法的实现122
7.5 测试算法:基于AdaBoost的分类124
7.6 示例:在一个难数据集上应用AdaBoost125
7.7 非均衡分类问题127
7.7.1 其他分类性能度量指标:正确率、召回率及ROC曲线128
7.7.2 基于代价函数的分类器决策控制131
7.7.3 处理非均衡问题的数据抽样方法132
7.8 本章小结132
第二部分利用回归预测数值型数据
第8章预测数值型数据:回归 136
8.1 用线性回归找到最佳拟合直线136
8.2 局部加权线性回归141
8.3 示例:预测鲍鱼的年龄145
8.4 缩减系数来“理解”数据146
8.4.1 岭回归146
8.4.2 lasso148
8.4.3 前向逐步回归149
8.5 权衡偏差与方差152
8.6 示例:预测乐高玩具套装的价格153
8.6.1 收集数据:使用Google购物的API153
8.6.2 训练算法:建立模型155
8.7 本章小结158
第9章树回归159
9.1 复杂数据的局部性建模159
9.2 连续和离散型特征的树的构建160
9.3 将CART算法用于回归163
9.3.1 构建树163
9.3.2 运行代码165
9.4 树剪枝167
9.4.1 预剪枝167
9.4.2 后剪枝168
9.5 模型树170
9.6 示例:树回归与标准回归的比较173
9.7 使用Python的Tkinter库创建GUI176
9.7.1 用Tkinter创建GUI177
9.7.2 集成Matplotlib和Tkinter179
9.8 本章小结182
第三部分无监督学习
第10章利用K-均值聚类算法对未标注数据分组184

第11章使用Apriori算法进行关联分析200

第12章使用FP-growth算法来高效发现频繁项集223

第13章利用PCA来简化数据242

第14章利用SVD简化数据252

第15章大数据r与MapReduce270

附录A Python入门294
附录B 线性代数303
附录C 概率论复习309
附录D 资源312
索引313
版权声明316



    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2026-1-11 12:13