在数据分析、挖掘方面,有哪些好书值得推荐(43本全)
入门读物:
1. 深入浅出数据分析,这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
2. 啤酒与尿布,通过案例来说事情,而且是最经典的例子。难易程度:非常易。 3. 数据之美,一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
4.谁说菜鸟不会数据分析,其实EXCEL在工作中还是大杀器,原因是易传承,好传播 5. "数据分析:企业的贤内助",读起来有乐趣,案例比较分许,适合初学者
中级篇:数据分析、挖掘与工具应用
1. SciPy and NumPy,这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
2. Python for Data Analysis,作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
3. Bad Data Handbook,很好玩的书,作者的角度很不同。
4.《New Internet:大数据挖掘》 —— 是MS的一位资深专家写的,从算法到工具,再到DM在日志分析、营销邮件、电商、移动等业务中的实际应用,内容有较全面的介绍,语言浅显易懂,作DM领域进门读物很不错。并且在每章节后都有提供本章提到的工具或数据来源,方便学习。
5.《数据挖掘与数据化运营实战:思路、方法、技巧与应用》—— 这是ALi的一位数据专家写的,从书名能看出这本偏运营实践,里面有很多电商方面的实践案例。当然也有几章节概述DM工具和算法,作为入门介绍。
6.《数据挖掘技术(第3版)——应用于市场营销、销售与客户关系管理》对做数据分析的从业人员也有帮助,不深
7. 集体智慧编程,学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
8.调查研究中的统计分析法,统计学肯定要了解,统计学书都可以的
9.SPSS统计分析精要与实例详解,SPSS的内容,我是从这本书开始看的,因为这本书每个方法都有案例,可以直接看案例明白理论的作用,再加上SPSS官方说明文档 基本上就够了
10.数据挖掘与数据化运营实战,ali的专家写的,看了这本书能理解很多方法的适用场景,适用场景和数据解读能力对于业务能力要求很高。
11.《SPSS多元统计分析方法及应用》,他涉及了除神经网络以外的几乎所有数据挖掘方法、模型
给出了十分具体、深入的数学推导、解释
非常详细具体的解释了数据模型的各种结果、参数的数学意义 并且几乎所有模型都给出了实际案例分析
详细的图解,让你可以形象的了解如何操作SPSS软件,每个选项、按钮的意义、会导致什么结果
如果你是市场人士,我推荐你看这本书,它能让你对数据挖掘的理解立体、扎实,有理论还有实践,并且详细到了具体细节、参数意义、输出数据结果的意义,还教给你如何操作软件
精进篇,稍微专业些的:
1. Introduction to Semi-Supervised Learning,半监督学习必读必看的书。 2. Learning to Rank for Information Retrieval,微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
3. Learning to Rank for Information Retrieval and Natural Language
Processing,李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
4. 推荐系统实践,这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
5. Graphical Models, Exponential Families, and Variational Inference,这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
6. Natural Language Processing with Python,NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!
7.Machine Learning in Action,用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了 机器学习实战 。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
8. Building Machine Learning Systems with Python,虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
9. 数据挖掘导论,最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
10. Machine Learning for Hackers,也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。
11.《Head First Data Analysis》链接:深入浅出数据分析
电子工业出版社的经典书目系列,从数据分析基本步骤开始、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧一一讲到。图比较多,适合入门。
12.《数据挖掘-市场营销、销售与客户关系管理领域应用》链接:数据挖掘技术 ,作者是Data Miners的创办人,有二十多年的营销和客户关系管理结合数据挖掘的经验。详细介绍了作为一个数据挖掘团队需要的知识体系,包括数据库、SAS使用、统计学、机器学习、数据可视化、如何访问用户收集需求、如何写论文与沟通等等。有条件的建议看英文原版。
13.《R in Action-Data Analysis and Graphics with R》链接:R语言实战 ,,R是属于GNU系统的一个自由、免费、源代码开放的软件,用于统计计算和统计制图。这本书从实用的统计研究角度逐例分析R在数据处理、模型构建、以及图形操作上的由浅入深的结合,堪称经典。
机器学习教材:
1. The Elements of Statistical Learning,这本书有对应的中文版:统计学习基础 。书中配有R包,非常赞!可以参照着代码学习算法。
2. 统计学习方法,李航老师的扛鼎之作,强烈推荐。难易程度:难。
3. Machine Learning,去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
4. Machine Learning,这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
5. Pattern Recognition And Machine Learning,经典中的经典。
6. Bayesian Reasoning and Machine Learning,看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
7. Probabilistic Graphical Models,鸿篇巨制
8. Convex Optimization,凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。
9.《Doing Data Science: Straight Talk from the Frontline》:Doing Data
Science ,作者之一Rachel Schutt本科在密歇根大学学习数学,同时拥有纽约大学数学硕士学位,以及斯坦福大学工程经济系统和运筹学双硕士学位,美国哥伦比亚大学统计学博士学位,而后在谷歌研究所担任统计学专家。Johnson研究实验室的高级科学家兼创始人之一,目前在哥伦比亚大学讲授“数据科学导论”(Introduction to Data Science)课程。她提出了数据科学家的概念即“计算机科学家、软件工程师和统计学家的混合体。”另一位作者Cathy O’Neil是哈佛大学数学博士,麻省理工学院数学系博士后,目前在华尔街的德劭基金(D.E.Shaw)做quant。(总之是两个大牛XD)本书前面几个章节大致介绍了数据分析法、一些机器学习算法、线性回归和逻辑回归、朴素贝叶斯等等。其中有一些内容需要一些数学基础才能吃透。 第六到十章节是本书的精华,详细介绍了如何利用金融及社交网络中的数据进行数据建模分析,值得反复回味。
10.《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science 本书适合刚入行的数据爱好者以及有两三年工作经验数据科学家,作者立志打造一个full-stack解决方案(包括开发框架、运行环境等,有了它无需再下载别的软件)来减少前期在数据准备上必须花费的大量时间。此外书中的一些例子放在了GitHub上,建议一边看书一边DIY。
11.《Fast Data Processing with Spark》:Fast Data Processing with Spark 目前市面上关于Spark的书籍不多,这本120多页的薄书可以当做预热。Spark同Hadoop一样是基于Mapreduce算法实现的分布式计算,不同的是任务的中间输出结果可以保存在内存中无需读写HDFS,所以更加适合需要进行反复迭代的机器学习算法实验。作者Holden Karau曾在亚马逊数据挖掘项目组,目前是一名在谷歌工作的软件研发工程师。
12.Pattern Recognition And Machine Learning这本书,绝对是经典中的经典,值得从事有关机器学习研究和应用的朋友们,好好研读
13.《数据仓库工具箱:维度建模的完全指南》《Microsoft数据仓库工具箱》《SQL Server 2008 分析服务从入门到精通》《SQL Server 2008 报表服务从入门到精通》
14.mining of massive data sets (jeffery ullman) , google一下可以在stanford的网站上下到,里面有一些很新很流行很专业的方法。看完可以对dataset的处理这一块有个基本的把握



雷达卡



京公网安备 11010802022788号







