| 所在主题: | |
| 文件名: 数据科学入门.zip | |
| 资料下载链接地址: https://bbs.pinggu.org/a-3288947.html | |
| 附件大小: | |
|
作者: [美] Joel Grus
出版社: 人民邮电出版社 原作名: Data Science from Scratch 译者: 高蓉 / 韩波 出版年: 2016-3 内容简介· · · · · · 数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。 作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。 通过阅读本书,你可以: 学到一堂Python速成课; 学习线性代数、统计和概率论的基本方法,了解它们是怎样应用在数据科学中的; 掌握如何收集、探索、清理、转换和操作数据; 深入理解机器学习的基础; 运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型; 探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。 作者简介· · · · · ·Joel Grus 是Google的一位软件工程师,曾于数家创业公司担任数据科学家。目前住在西雅图,专注于数据科学工作并乐此不疲。偶尔在joelgrus.com发表博客,长期活跃于Twitter @joelgrus。 目录· · · · · ·前言xiii 第1章导论1 1.1数据的威力1 1.2什么是数据科学1 1.3激励假设:DataSciencester2 1.3.1寻找关键联系人3 1.3.2你可能知道的数据科学家5 1.3.3工资与工作年限8 1.3.4付费账户10 1.3.5兴趣主题11 1.4展望12 第2章Python速成13 2.1基础内容13 2.1.1Python获取13 2.1.2Python之禅14 2.1.3空白形式14 2.1.4模块15 2.1.5算法16 2.1.6函数16 2.1.7字符串17 2.1.8异常18 2.1.9列表18 2.1.10元组19 2.1.11字典20 2.1.12集合22 2.1.13控制流23 2.1.14真和假24 2.2进阶内容25 2.2.1排序25 2.2.2列表解析25 2.2.3生成器和迭代器26 2.2.4随机性27 2.2.5正则表达式28 2.2.6面向对象的编程28 2.2.7函数式工具29 2.2.8枚举31 2.2.9压缩和参数拆分31 2.2.10args 和kwargs32 2.2.11欢迎来到DataSciencester33 2.3延伸学习33 第3章可视化数据34 3.1matplotlib34 3.2条形图36 3.3线图40 3.4散点图41 3.5延伸学习44 第4章线性代数45 4.1向量45 4.2矩阵49 4.3延伸学习51 第5章统计学53 5.1描述单个数据集53 5.1.1中心倾向55 5.1.2离散度56 5.2相关58 5.3辛普森悖论60 5.4相关系数其他注意事项61 5.5相关和因果62 5.6延伸学习63 第6章概率64 6.1不独立和独立64 6.2条件概率65 6.3贝叶斯定理66 6.4随机变量68 6.5连续分布68 6.6正态分布69 6.7中心极限定理72 6.8延伸学习74 第7章假设与推断75 7.1统计假设检验75 7.2案例:掷硬币75 7.3置信区间79 7.4P-hacking80 7.5案例:运行A/B测试81 7.6贝叶斯推断82 7.7延伸学习85 第8章梯度下降86 8.1梯度下降的思想86 8.2估算梯度87 8.3使用梯度90 8.4选择正确步长90 8.5综合91 8.6随机梯度下降法92 8.7延伸学习93 第9章获取数据94 9.1stdin和stdout94 9.2读取文件96 9.2.1文本文件基础96 9.2.2限制的文件97 9.3网络抓取99 9.3.1HTML 和解析方法99 9.3.2案例:关于数据的O'Reilly图书101 9.4使用API105 9.4.1JSON(和XML)105 9.4.2使用无验证的API106 9.4.3寻找API107 9.5案例:使用Twitter API108 9.6延伸学习111 第10章数据工作112 10.1探索你的数据112 10.1.1探索一维数据112 10.1.2二维数据114 10.1.3多维数据116 10.2清理与修改117 10.3数据处理119 10.4数据调整122 10.5降维123 10.6延伸学习129 第11章机器学习130 11.1建模130 11.2什么是机器学习131 11.3过拟合和欠拟合131 11.4正确性134 11.5偏倚- 方差权衡136 11.6特征提取和选择137 11.7延伸学习138 第12章k近邻法139 12.1模型139 12.2案例:最喜欢的编程语言141 12.3维数灾难146 12.4延伸学习151 第13章朴素贝叶斯算法152 13.1一个简易的垃圾邮件过滤器152 13.2一个复杂的垃圾邮件过滤器153 13.3算法的实现154 13.4测试模型156 13.5延伸学习158 第14章简单线性回归159 14.1模型159 14.2利用梯度下降法162 14.3最大似然估计162 14.4延伸学习163 第15章多重回归分析164 15.1模型164 15.2最小二乘模型的进一步假设165 15.3拟合模型166 15.4解释模型167 15.5拟合优度167 15.6题外话:Bootstrap168 15.7回归系数的标准误差169 15.8正则化170 15.9延伸学习172 第16章逻辑回归173 16.1问题173 16.2Logistic函数176 16.3应用模型178 16.4拟合优度179 16.5支持向量机180 16.6延伸学习184 第17章决策树185 17.1什么是决策树185 17.2熵187 17.3分割之熵189 17.4创建决策树190 17.5综合运用192 17.6随机森林194 17.7延伸学习195 第18章神经网络196 18.1感知器196 18.2前馈神经网络198 18.3反向传播201 18.4实例:战胜CAPTCHA202 18.5延伸学习206 第19章聚类分析208 19.1原理208 19.2模型209 19.3示例:聚会210 19.4选择聚类数目k213 19.5示例:对色彩进行聚类214 19.6自下而上的分层聚类216 19.7延伸学习221 第20章自然语言处理222 20.1词云222 20.2n-grams模型224 20.3语法227 20.4题外话:吉布斯采样229 20.5主题建模231 20.6延伸学习236 第21章网络分析237 21.1中介中心度237 21.2特征向量中心度242 21.2.1矩阵乘法242 21.2.2中心度244 21.3有向图与PageRank246 21.4延伸学习248 第22章推荐系统249 22.1手工甄筛250 22.2推荐流行事物250 22.3基于用户的协同过滤方法251 22.4基于物品的协同过滤算法254 22.5延伸学习256 第23章数据库与SQL257 23.1CREATE TABLE与INSERT257 23.2UPDATE259 23.3DELETE260 23.4SELECT260 23.5GROUP BY262 23.6ORDER BY264 23.7JOIN264 23.8子查询267 23.9索引267 23.10查询优化268 23.11NoSQL268 23.12延伸学习269 第24章MapReduce270 24.1案例:单词计数270 24.2为什么是MapReduce272 24.3更加一般化的MapReduce272 24.4案例:分析状态更新273 24.5案例:矩阵计算275 24.6题外话:组合器276 24.7延伸学习277 第25章数据科学前瞻278 25.1IPython278 25.2数学279 25.3不从零开始279 25.3.1NumPy279 25.3.2pandas280 25.3.3scikit-learn280 25.3.4可视化280 25.3.5R281 25.4寻找数据281 25.5从事数据科学281 25.5.1Hacker News282 25.5.2消防车282 25.5.3T 恤282 25.5.4你呢?283 作者简介284 关于封面284 "数据科学入门"试读 “数据!数据!!数据!!1他不耐烦地咆哮着,“我不能做无米之炊1 ——阿瑟• 柯南• 道尔 1.1数据的威力 生活中,数据无处不在。用户的每次点击,网站都会记录下来。你每时每刻的位置和速度,智能手机也会记录下来。“量化自我”生活方式的倡导者使用智能计步器记录心率、行动习惯、饮食习惯、睡眠方式。智能汽车记录驾驶习惯,智能家居设施记录生活习惯,智能购物 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明