介绍几本经典图书
1,Tom M Mitchell - Machine Learning
2、Introduction_to_Machine_Learning(Ethem_Alpaydin).pdf
3、Pattern Recognition and MachineLearning.pdf
4、MIT.Fundamentals.of.Machine.Learning.for.Predictive.Data.Analytics
5、Foundations_of_Machine_Learning.pdf
6、Learning from data.pdf
7、机器学习系统设计.Python.2014.pdf
8、数据挖掘:概念与技术(中文第三版).pdf
9、Machine Learning and Data Science - AnIntroduction to Statistical Learning Methods with R.pdf
《Mining of Massive Datasets》(《大数据》)
作 者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。这本书介绍了很多算法,也介绍了这些算法在数据规模比较大的时候的变形。但是限于篇幅,每种算法都没有展开讲的感觉,如果想深入了解需要查其他的资料,不过这样的话对算法进行了解也足够了。还有一点不足的地方就是本书原文和翻译都有许多错误,勘误表比 较长,读者要用心了。 《DataMining: Practical Machine Learning Tools and Techniques》(《数据挖掘:实用机器学习技术》)
作者IanH. Witten 、Eibe Frank是weka的作者、新西兰怀卡托大学教授。他们的《ManagingGigabytes》[4]也是信息检索方面的经典书籍。这本书最大的特点是对weka的使用进行了介绍,但是其理论部分太单薄,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习 的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。 《机器学习及其应用》
周志华、杨强主编。来源于“机器学习及其应用研讨会”的文集。该研讨会由复旦大学智能信息处理实验室发起,目前已举办了十届,国内的大牛如李航、项亮、王海峰、刘铁岩、余凯等都曾在该会议上做过讲座。这本书讲了很多机器学习前沿的具体的应用,需要有基础的才能看 懂。如果想了解机器学习研究趋势的可以浏览一下这本书。关注领域内的学术会议是发现研究趋势的方法嘛。 《ManagingGigabytes》(深入搜索引擎)
信息检索不错的书。 《ModernInformation Retrieval》
Ricardo Baeza-Yates et al. 1999。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。
企业级数据仓库当中,关于数据挖掘和数据分析方面有四本经典书籍,挺不错的:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
本书从机器学习角度 ...
这个活动很有意思,顶一个楼主吧!从2000年开始接触数据仓库,中间也对Hadoop,数据模型,SQL,R非常感兴趣,现在很热的互联网金融也非常有意思.数据挖掘技术融合了统计学、数据库和机器学习等学科,不算是新技术,但是非常前沿,个人觉得学一门技术要和行业靠拢,没有行业背景的技术如空中楼阁,最好能够熟悉使用一些主流的数据工具,像SAS,SPSS等等,分享一下 (1)我心中”EDW企业数据仓库“最好的图书/教材是:《业务建模与数据挖掘》、《SAS编程与数据挖掘商业案例》、《IBM Spss Statistics 19 Statistical Procedures Companion》等; (2)对我帮助最大的” EDW企业数据仓库“视频类/公开课类学习资源是 :
Coursera
1. Johns Hopkins University的Data Analysis 该课通过R语言讲授数据分析的技巧:
很好的一门课程,用R为工具讲了数据分析挖掘的一些算法和实例。
2. University of Washington的Computational Methods for Data Analysis 该课为课堂录像,通过MOOC的形式进行组织,讲师Nathan Kutz讲课生动、幽默,但是该课不足之处是课程不提供证书激励且几乎没有课程工作人员参与讨论,属于自助性质的课程。
3. University of Washington的Scientific Computing:科学计算是很多工程应用领域的基础课程,该课的讲师同样为Nathan Kutz,课程形式与上一门Computational Methods for Data Analysis基本一致。
4. University of Toronto的Statistics: Making Sense of Data:
就像这门课的标题“making sense”一样,这门课最好的地方就是让你对统计有”感觉”。虽然讲的比较简单,但是对于理解这些概念非常有用。 最后那个大胡子还自弹自唱一首他自创的有关这门课的歌,也很有意思。
5. University of Washington的Introduction to Data Science:
很好的一门课,尤其对于我这种初学者,老师讲的面很广,涉及了数据科学的很多方面。
不足之处是课程内容过多有些内容讲的很匆忙,比如数据可视化这个部分,大家普遍反馈讲的有点水,Graph那部分也有点水。
比较好玩的是,课程结束后Bill好像有些事情,拖了一段时间才给出分数,大家在课程论坛上各种吐槽,无比欢乐。
正如老师开始所讲的,这门课的目的只是让你成为advanced beginer,课程内容涵盖了数据库(SQL,NoSQL),MapReduce,基本的数值分析,机器学习,数据可视化。类似于另外一门课Web intelligence and big data,两者都应该算是入门型课程,学生想要深入学习的话可以选择其他专门的课程。
有人认为老师讲课枯燥,你总不能指望每个老师把数学课讲的有历史课那么有趣吧~。课程内容结构很好,讲的不好;作业很赞,对有一定基础的人不难,但入门的同学可能还是有困难。如果只是想粗浅了解课程各个topic的,跟着做作业就不错,想深入还需自学
6. Columbia University的Big Data in Education:该课讨论的是将数据分析的技巧运用于教育领域
Noah Iliinsky的数据可视化设计; (3)我看过关于“EDW企业数据仓库”最好的文献、论文是《Stanford - Mining of Massive Datasets.(海量数据集挖掘》 (4)我知道的关于“EDW企业数据仓库“最牛的牛人有:
1.牛新庄博士,研究方向为数据仓库和数据挖掘。是IBM官方资深培训讲师(培训DB2,AIX,MQ,WebSphere和CICS)。2002年获IBM 杰出软件专家奖,2006年获“首届中国杰出数据库工程师奖”
2.清华计算机系的唐杰,做数据挖掘,社会网络分析的,
企业级数据仓库当中,关于数据挖掘和数据分析方面有四本经典书籍,挺不错的:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
这几年实际做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:
(4) Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
国内目前有翻译版,这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。