| 所在主题: | |
| 文件名: 实用机器学习.pdf | |
| 资料下载链接地址: https://bbs.pinggu.org/a-2365791.html | |
| 附件大小: | |
|
目录
第1章引论1 1.1什么是机器学习1 1.2机器学习算法的分类2 1.3实际应用3 1.3.1病人住院时间预测3 1.3.2信用分数估计4 1.3.3Netflix上的影片推荐4 1.3.4酒店推荐5 1.3.5讨论6 1.4本书概述7 1.4.1本书结构9 1.4.2阅读材料及其他资源10 第2章R语言12 2.1R的简单介绍12 2.2R的初步体验13 2.3基本语法14 2.3.1语句14 2.3.2函数17 2.4常用数据结构19 2.4.1向量19 2.4.2因子23 2.4.3矩阵24 2.4.4数据框26 2.4.5列表29 2.4.6下标系统33 2.5公式对象和apply函数34 2.6R软件包36 2.6.1软件包的安装37 2.6.2软件包的使用38 2.6.3软件包的开发38 2.7网络资源38 第3章数学基础39 3.1概率39 3.1.1基本概念39 3.1.2基本公式40 3.1.3常用分布42 3.1.4随机向量及其分布43 3.1.5随机变量的数字特征46 3.1.6随机向量的数字特征48 3.2统计49 3.2.1常用数据特征49 3.2.2参数估计52 3.3矩阵54 3.3.1基本概念54 3.3.2基本运算56 3.3.3特征值与特征向量57 3.3.4矩阵分解60 3.3.5主成分分析62 3.3.6R中矩阵的计算68 第4章数据探索和预处理74 4.1数据类型74 4.2数据探索75 4.2.1常用统计量76 4.2.2使用R实际探索数据76 4.3数据预处理82 4.3.1缺失值的处理82 4.3.2数据的标准化83 4.3.3删除已有变量85 4.3.4数据的变换86 4.3.5构建新的变量:哑变量86 4.3.6离群数据的处理88 4.4数据可视化89 4.4.1直方图89 4.4.2柱状图92 4.4.3茎叶图95 4.4.4箱线图96 4.4.5散点图100 第5章回归分析104 5.1回归分析的基本思想104 5.2线性回归和最小二乘法105 5.2.1最小二乘法的几何解释106 5.2.2线性回归和极大似然估计107 5.3岭回归和Lasso108 5.3.1岭回归108 5.3.2Lasso与稀疏解110 5.3.3Elastic Net114 5.4回归算法的评价和选取114 5.4.1均方差和均方根误差114 5.4.2可决系数114 5.4.3偏差-方差权衡115 5.5案例分析118 5.5.1数据导入和探索118 5.5.2数据预处理120 5.5.3将数据集分成训练集和测试集121 5.5.4建立一个简单的线性回归模型121 5.5.5建立岭回归和Lasso模型122 5.5.6选取合适的模型124 5.5.7构造新的变量126 5.6小结126 第6章分类算法127 6.1分类的基本思想127 6.2决策树130 6.2.1基本原理130 6.2.2决策树学习131 6.2.3过拟合和剪枝138 6.2.4实际使用139 6.2.5讨论148 6.3逻辑回归148 6.3.1sigmoid函数的性质148 6.3.2通过极大似然估计来估计参数149 6.3.3牛顿法151 6.3.4正则化项的引入153 6.3.5实际使用154 6.4支持向量机161 6.4.1基本思想:最大化分类间隔161 6.4.2最大分类间隔的数学表示163 6.4.3如何处理线性不可分的数据164 6.4.4Hinge损失函数166 6.4.5对偶问题168 6.4.6非线性支持向量机和核技巧170 6.4.7实际使用173 6.5损失函数和不同的分类算法175 6.5.1损失函数175 6.5.2正则化项178 6.6交叉检验和caret包180 6.6.1模型选择和交叉检验180 6.6.2在R中实现交叉检验以及caret包182 6.7分类算法的评价和比较192 6.7.1准确率193 6.7.2混淆矩阵193 6.7.3精确率、召回率和F1度量195 6.7.4ROC曲线和AUC196 6.7.5R中评价标准的计算199 6.8不平衡分类问题201 6.8.1使用不同的算法评价标准201 6.8.2样本权值201 6.8.3取样方法202 6.8.4代价敏感学习203 第7章推荐算法205 7.1推荐系统基础205 7.1.1常用符号208 7.1.2推荐算法的评价标准209 7.2基于内容的推荐算法210 7.3基于矩阵分解的算法211 7.3.1无矩阵分解的基准方法211 7.3.2基于奇异值分解的推荐算法212 7.3.3基于SVD推荐算法的变体216 7.4基于邻域的推荐算法222 7.4.1基于用户的邻域推荐算法223 7.4.2基于商品的邻域推荐算法225 7.4.3混合算法226 7.4.4相似度的计算227 7.5R中recommenderlab的实际 使用232 7.6推荐算法的评价和选取250 第8章排序学习253 8.1排序学习简介253 8.1.1解决排序问题的基本思路254 8.1.2构造特征255 8.1.3获取相关度分数256 8.1.4数学符号257 8.2排序算法的评价257 8.2.1MAP258 8.2.2DCG260 8.2.3NDCG261 8.2.4讨论261 8.3逐点方法262 8.3.1基于SVM的逐点排序方法263 8.3.2逐点方法讨论264 8.4逐对方法265 8.4.1Ranking SVM算法265 8.4.2IR-SVM算法266 8.4.3RankNet算法267 8.4.4LambdaRank算法271 8.4.5LambdaMART算法273 8.5逐列方法279 8.5.1SVMmap算法279 8.5.2讨论283 第9章集成学习284 9.1集成学习简介284 9.2bagging简介285 9.3随机森林289 9.3.1训练随机森林的基本流程289 9.3.2利用随机森林估计变量的 重要性290 9.3.3随机森林的实际使用291 9.4boosting简介300 9.4.1boosting和指数损失函数301 9.4.2AdaBoost算法302 9.4.3AdaBoost的实际使用306 9.4.4讨论311 9.5提升决策树和梯度提升算法311 9.5.1提升决策树和梯度提升算法的基本原理311 9.5.2如何避免过拟合315 9.5.3gbm包的实际使用318 9.5.4讨论327 9.6学习器的聚合及stacking328 9.6.1简单平均328 9.6.2加权平均329 9.6.3stacking的基本思想及应用329 9.7小结331 参考文献332 索引334 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明