数据挖掘(DM: Data Mining)的思想最初来源于统计学,属于数据分析,而不是计算机,不过现在分两块: 理论型(统计学),实践型(计算机); 而现在两个专业都有数据挖掘专业的研究生,都是从不同的方面入手. 计机的学生啃统计学原理,时序/多元分析等,概计之类的数据理统计知识; 统计学的兄弟啃计算机的数据库原理等...互相学习...
如果你从计算机方面入手,那可以看一些数据挖掘的书,而大部分以数据仓库(Data Warehouring)为主,一些比较计算机专业的东西,都是建在数据库上.而IT业发展迅速,数据库厂商就大炒BI(商业智能)概念,加上一些厂商都推自己的产品,互抄互炒... 而就业市场上都是一些BI实施的工作,做BI的公司帮客户整成(ETL)数据到数据仓库,之后套一些DM的算法,加上前端漂亮的显示... 再用SPSS,SAS来按主题(Subject)来计算等...
而统计学入手呢,就是系统的数据分析了,如果你之后看过计算机方面的数据仓库与数据挖掘的书的话,里面的一章就相当于统计学的一门课(如:时间序列分析), 计算机方面只把统计学精华方面溶过去~ 而统计学更注重的统计分析, 与其说以理论为基础, 不如说以模型和数据为基础, 模型与数学为基础....(不深入了)...
咱们相应的推荐书籍的页面有一些书,大家可以参考着看看:
应用统计学方面的:https://bbs.pinggu.org/z_books/list-31.html
计量经济学方面的:https://bbs.pinggu.org/z_books/list-59.html
最后说说市场吧,市场以利益为主~ 无论计算机还是统计学的应用的目的就是辅助业务发展. 而不同的行业有不同的做法, 但都离不开: 数据处理(收录) -> 数据统计与分析, 就目前的BI来说,分为: ETL->DW->OLAP/Data Mart -> DM; DM是最后一节, 挖之前要有模型, 大厂商都有很成熟的模型架构(如:银行用NCR的, 保险用IBM 的IIW); 系统模型之上的就是知识模型,之后就是用DM算法去找规则了(如:在CRM系统里找一批忠诚客户, 怎才算忠诚呢? 这就需定义了,像:30天内消费29次算不算忠诚? 这些都是一些理论,最后加上计算机技术,就可以很快很自动地生成报表给管理层人员了)
有一个长期以来困扰大多数学习者的问题,就是先理论还是先实践的问题。
象这样一个哲学问题是没有答案的。先理论的好处是明显的:可以打下坚实的理论基础,为将来的实践提供良好的指导。但缺点也很明显:学习过程缓慢,而且学的很多内容与实际应用联系不上。先实践的好处是:与实际应用接触紧密,可以有选择的学习与应用相关理论,学习过程比较快。缺点是:缺乏全面的系统学习,理论知识储备少,可能会成为进一步发展的瓶颈。
在数据挖掘领域,涉及到的知识包括:统计分析、人工智能、数据库、信息科学、信息可视化等等。让一个新人在短短2、3个月内完全掌握,那是不可能的。相反,如果把这些时间花在学习一个数据挖掘工具,并针对某些应用(例如,客户响应模型和交叉销售模型)去做分析,却是完全可能的。事实上,我在做客户响应模型分析的时候,对数据挖掘有了一些深刻的体会:1)理解客户的业务是很关键的;2)数据的准备和预处理很重要;3)使用的挖掘工具和算法也重要,但并非关键因素。总之,如果还让我再做一次选择的话,我的选择还是先实践,再学理论。
这个分析的结论是——要想成为一个数据挖掘项目的实施者,只需要掌握数据挖掘的基本原理,熟练掌握一个数据挖掘工具,对项目的业务了解就够了。 但要想成为一个数据挖掘领域的专家,除了具备实施者的能力外,还必须掌握数据挖掘的各种理论细节,具备给实施者上理论课的能力。
说多了,不知是否离题,反正让你理解多点吧. 不要单独学了一些DM的软件(SPSS/SAS)和理论. 有时间就从大体入手, 了解整体,知道什么来的,怎么用,最关键学了是否对自己有用,是否是自己的兴趣等. 之后深入某一个你有兴趣的环节,当然你可以全部精通,全才呀~ 呵呵


雷达卡




京公网安备 11010802022788号







