楼主: 醒着@做梦
1504 2

[数据挖掘] 如何系统地学习数据挖掘? [推广有奖]

  • 0关注
  • 6粉丝

讲师

40%

还不是VIP/贵宾

-

威望
0
论坛币
2094 个
通用积分
0
学术水平
9 点
热心指数
9 点
信用等级
7 点
经验
5257 点
帖子
328
精华
0
在线时间
78 小时
注册时间
2014-12-26
最后登录
2015-6-25

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

2536-141024222005102.jpg

看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉知识跳跃比较大,那么数据挖掘系统的学习过程是怎么样?

磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:

  • 数据挖掘目前在中国的尚未流行开,犹如屠龙之技。

  • 数据初期的准备通常占整个数据挖掘项目工作量的70%左右。

  • 数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。

  • 数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)

  • 数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。

  • 数据挖掘项目通常需要重复一些毫无技术含量的工作。


           学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。


    一、目前国内的数据挖掘人员工作领域大致可分为三类。

    • 数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
    • 数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
    • 科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

    二、说说各工作领域需要掌握的技能。
    (1).数据分析师
    • 需要有深厚的数理统计基础,但是对程序开发能力不做要求。
    • 需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
    • 需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。
    • 经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
    (2).数据挖掘工程师
    • 需要理解主流机器学习算法的原理和应用。
    • 需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。
    • 需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
    • 经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
    (3).科学研究方向
    • 需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
    • 相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。
    • 可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
    • 需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
    • 可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
    • 可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。
    • 经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习数据挖掘 学习数据 数据挖掘 Intelligence Transactions 如何

沙发
vcdcinf 发表于 2014-12-26 18:02:53 |只看作者 |坛友微信交流群
好贴,感谢楼主!

使用道具

藤椅
醒着@做梦 发表于 2014-12-29 10:11:34 |只看作者 |坛友微信交流群
那个我看到了你给我发的私信,请问你现在是做什么的?为什么现在要转行做数据挖掘了呢?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 02:47