|
数据挖掘本身并不神秘,广义上说,从原始数据中提取信息的过程都是数据挖掘。但很多时候,人们谈论数据挖掘往往是指计算机学科里面的“机器学习”,主要是研究利用人工神经网络,KNN, SVM,决策树等模型和理论。 而更深层次,人们还研究了“学习”的本质,比如Valiant的 PAC理论等等。
对于绝大多数人来说,包括专业人士,使用软件是必须的,很少有人会从0开始编写自己的分析程序。目前来说,美国最主流的分析软件是R, SAS, SPSS, PYTHON等软件。 其中, R和python都是免费,虽然是免费,但是二者的性能与商业版的SAS和 SPSS不分上下,我个人更认为R 会最终将SAS和SPSS消灭掉, 到最后会出现软件免费使用,而软件商靠服务来盈利的情况。
但是,大家要牢记于心的是,没有任何软件能够替代分析人员,无论其宣称的人工智能程度有多高。 数据挖掘跟弹钢琴一样,基础是扎实的技术和理论知识,但是决一胜负的,却是操作系统和解读计算机报告的人。 这需要分析人员在大量训练和实践中积累起来的对数字的敏感和分析经验。
每一个人都可以轻易地用SAS, SPSS 得到一大堆数字,但是95%的人对于数字的解释是肤浅和似是而非的,这实际上是非常危险的。
大约在5年前,当时美东某常春藤名校的研究组,发表了一篇关于近红外(NIR)分析代谢物并预测某种疾病的论文,并受到风险投资在欧洲生产相关产品, 但是仅仅一年不到,该产品就彻底失败,产品根本无法分析客户样本。后来调查的结果,根源就在于他们的论文的数据分析人员经验不足,过度拟合了数据,其模型对于样本数据的精确度高达100%,但毫无实际利用价值。(简单来说,架设您的身高是180公分,我据此认为论坛每一个人的身高都是180公分,那么对于您这一个样本来说,我的预测是100%正确,但是对于实际的应用则毫无意义)
所以,我建议大家学习数据挖掘,切不可以为会使用软件就可以了,有机会还是认真看看数据挖掘的基础知识,比如Hastie的 elements of statistical learning,或者Bishop的machine learning都可以
|