| 所在主题: | |
| 文件名: 白话大数据与机器学习.pdf | |
| 资料下载链接地址: https://bbs.pinggu.org/a-2314572.html | |
| 附件大小: | |
![]() 内容简介 资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。 作者简介 高扬,金山软件西山居资深大数据架构师与大数据专家,有多年编程经验(多年日本和澳洲工作经验)和多年大数据架构设计与数据分析、处理经验,目前负责西山居的大数据产品市场战略与产品战略。专注于大数据系统架构以及变现研究。擅长数据挖掘、数据建模、关系型数据库应用以及大数据框架Hadoop、Spark、Cassandra、Prestodb等的应用。负责西山居紫霞系统——大数据日志处理系统的系统架构与设计工作。 卫峥,西山居软件架构师,多年的软件开发和架构经验,精通C/C++、Python、Golang、JavaScript等多门编程语言,近几年专注于数据处理、机器学算法的研究、应用与服务研发。曾在新浪网平台架构部负责音视频转码平台的架构和研发工作,为新浪微博,新浪微盘,秒拍等提供视频在线观看服务。51CTO讲师。 尹会生,西山居高级系统工程师。曾任新浪研发中心技术经理、北京尚观科技高级讲师。在新浪广告、微博广告、西山居大数据平台架构中担任关键角色。擅长企业集群解决方案和内核调优经验,并提供高性能和高可用性集群咨询服务。近4年专注于Hadoop集群、Spark集群在推荐系统和BI相关领域的解决方案。 万娟,星盘科技有限公司UI设计师平面,对VI设计、包装、海报设计等、商业插画、App交互、网页设计等有独到认识。多次参与智能家居和智能音箱等项目的UI设计。多次参加国际和国内艺术和工业设计比赛,并获奖。从小酷爱绘画,理想是开一个属于自己的画室。 目录 第1章大数据产业1 1.1大数据产业现状1 1.2对大数据产业的理解2 1.3大数据人才3 1.3.1供需失衡3 1.3.2人才方向3 1.3.3环节和工具5 1.3.4门槛障碍6 1.4小结8 第2章步入数据之门9 2.1什么是数据9 2.2什么是信息10 2.3什么是算法12 2.4统计、概率和数据挖掘13 2.5什么是商业智能13 2.6小结14 第3章排列组合与古典概型15 3.1排列组合的概念16 3.1.1公平的决断——扔硬币16 3.1.2非古典概型17 3.2排列组合的应用示例18 3.2.1双色球彩票18 3.2.2购车摇号20 3.2.3德州扑克21 3.3小结25 第4章统计与分布27 4.1加和值、平均值和标准差27 4.1.1加和值28 4.1.2平均值29 4.1.3标准差30 4.2加权均值32 4.2.1混合物定价32 4.2.2决策权衡34 4.3众数、中位数35 4.3.1众数36 4.3.2中位数37 4.4欧氏距离37 4.5曼哈顿距离39 4.6同比和环比41 4.7抽样43 4.8高斯分布45 4.9泊松分布49 4.10伯努利分布52 4.11小结54 第5章指标55 5.1什么是指标55 5.2指标化运营58 5.2.1指标的选择58 5.2.2指标体系的构建62 5.3小结63 第6章信息论64 6.1信息的定义64 6.2信息量65 6.2.1信息量的计算65 6.2.2信息量的理解66 6.3香农公式68 6.4熵70 6.4.1热力熵70 6.4.2信息熵72 6.5小结75 第7章多维向量空间76 7.1向量和维度76 7.1.1信息冗余77 7.1.2维度79 7.2矩阵和矩阵计算80 7.3数据立方体83 7.4上卷和下钻85 7.5小结86 第8章回归87 8.1线性回归87 8.2拟合88 8.3残差分析94 8.4过拟合99 8.5欠拟合100 8.6曲线拟合转化为线性拟合101 8.7小结104 第9章聚类105 9.1K-Means算法106 9.2有趣模式109 9.3孤立点110 9.4层次聚类110 9.5密度聚类113 9.6聚类评估116 9.6.1聚类趋势117 9.6.2簇数确定119 9.6.3测定聚类质量121 9.7小结124 第10章分类125 10.1朴素贝叶斯126 10.1.1天气的预测128 10.1.2疾病的预测130 10.1.3小结132 10.2决策树归纳133 10.2.1样本收集135 10.2.2信息增益136 10.2.3连续型变量137 10.3随机森林140 10.4隐马尔可夫模型141 10.4.1维特比算法144 10.4.2前向算法151 10.5支持向量机SVM154 10.5.1年龄和好坏154 10.5.2“下刀”不容易157 10.5.3距离有多远158 10.5.4N维度空间中的距离159 10.5.5超平面怎么画160 10.5.6分不开怎么办160 10.5.7示例163 10.5.8小结164 10.6遗传算法164 10.6.1进化过程164 10.6.2算法过程165 10.6.3背包问题165 10.6.4极大值问题173 10.7小结181 第11章关联分析183 11.1频繁模式和Apriori算法184 11.1.1频繁模式184 11.1.2支持度和置信度185 11.1.3经典的Apriori算法187 11.1.4求出所有频繁模式190 11.2关联分析与相关性分析192 11.3稀有模式和负模式193 11.4小结194 第12章用户画像195 12.1标签195 12.2画像的方法196 12.2.1结构化标签196 12.2.2非结构化标签198 12.3利用用户画像203 12.3.1割裂型用户画像203 12.3.2紧密型用户画像204 12.3.3到底“像不像”204 12.4小结205 第13章推荐算法206 13.1推荐思路206 13.1.1贝叶斯分类206 13.1.2利用搜索记录207 13.2User-basedCF209 13.3Item-basedCF211 13.4优化问题215 13.5小结217 第14章文本挖掘218 14.1文本挖掘的领域218 14.2文本分类219 14.2.1Rocchio算法220 14.2.2朴素贝叶斯算法223 14.2.3K-近邻算法225 14.2.4支持向量机SVM算法226 14.3小结227 第15章人工神经网络228 15.1人的神经网络228 15.1.1神经网络结构229 15.1.2结构模拟230 15.1.3训练与工作231 15.2FANN库简介233 15.3常见的神经网络235 15.4BP神经网络235 15.4.1结构和原理236 15.4.2训练过程237 15.4.3过程解释240 15.4.4示例240 15.5玻尔兹曼机244 15.5.1退火模型244 15.5.2玻尔兹曼机245 15.6卷积神经网络247 15.6.1卷积248 15.6.2图像识别249 15.7深度学习255 15.8小结256 第16章大数据框架简介257 16.1著名的大数据框架257 16.2Hadoop框架258 16.2.1MapReduce原理259 16.2.2安装Hadoop261 16.2.3经典的WordCount264 16.3Spark框架269 16.3.1安装Spark270 16.3.2使用Scala计算WordCount271 16.4分布式列存储框架272 16.5PrestoDB——神奇的CLI273 16.5.1Presto为什么那么快273 16.5.2安装Presto274 16.6小结277 第17章系统架构和调优278 17.1速度——资源的配置278 17.1.1思路一:逻辑层面的优化279 17.1.2思路二:容器层面的优化279 17.1.3思路三:存储结构层面的优化280 17.1.4思路四:环节层面的优化280 17.1.5资源不足281 17.2稳定——资源的可用282 17.2.1借助云服务282 17.2.2锁分散282 17.2.3排队283 17.2.4谨防“雪崩”283 17.3小结285 第18章数据解读与数据的价值286 18.1运营指标286 18.1.1互联网类型公司常用指标287 18.1.2注意事项288 18.2AB测试289 18.2.1网页测试290 18.2.2方案测试290 18.2.3灰度发布292 18.2.4注意事项293 18.3数据可视化295 18.3.1图表295 18.3.2表格299 18.4多维度——大数据的灵魂299 18.4.1多大算大299 18.4.2大数据网络300 18.4.3去中心化才能活跃301 18.4.4数据会过剩吗302 18.5数据变现的场景303 18.5.1数据价值的衡量的讨论303 18.5.2场景1:征信数据307 18.5.3场景2:宏观数据308 18.5.4场景3:画像数据309 18.6小结310 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明