楼主: lxswanmeifz
1810 0

机器学习,数据挖掘在研究生阶段要学什么 [推广有奖]

  • 0关注
  • 1粉丝

本科生

20%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
483 点
帖子
43
精华
0
在线时间
0 小时
注册时间
2015-4-11
最后登录
2016-9-21

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

:机器学习,数据挖掘在研究生阶段大概要学些什么?能给一个梗概或者方向么?最好可以列出主要的课程或者相关资源,谢谢

:三个字:勤动手~~

其实机器学习和数据挖掘是两个相差的比较多的领域,机器学习比较偏向数学问题的推导, 所以在顶会上的很多paper更看重idea,不是很看重实验是否来源于真实数据(有一些实验数据会自己构造,比如Andrew Ng的谱聚类自己构造了一个图,图里面的点组成了四个英文字母NIPS,他证明他的谱聚类比之前的聚类方法好)来让我们感受一下这个飘逸的图
123.jpg



而数据挖掘说土点就是老子就是会抽feature~的领域,比如Kaggle上的入门题Titanic,我们都知道善良的美帝人民喜爱拯救小孩子(快!让小孩先走),所以年龄对于生还人员预测很重要,可是有些人的Age缺失了在给定的数据中。咱们这种土人只会给缺失的人扔个年龄平均数,然而那些有洞察力的人,认为他的姓名中暗示了年龄,Mrs与Miss,Mr与Master分别对应了年龄的某个区间,然后他们刁刁的可以用逻辑斯蒂回归模型就拿到很好的分数。

对于找工作解决实际问题而言~数据(代表着分布式系统领域)>特征(数据挖掘与自然语言处理与图像)>模型(机器学习)。这并不是说模型不重要,而是一定要对具体问题做模型的Adaptation,你直接把图像领域的CNN拍到自然领域处理领域可能效果还不如一些传统方法,然而你把模型改吧改吧改成了DCNN,你就超越了Baseline,所以一定要能看懂模型,然后结合你的具体问题,把问题给解决了!

所以,对于你的问题,大家推荐了那么多理论学习资料,我觉得肯定够了,我的忠告是不要沉迷于数学公式的推导,一定要理解他是如何运用数据的,比如SVM他的分类决策是根据和分类面最接近的那些点的支持向量决定的,贝叶斯的分类决策是根据大量先验知识决定的。所以在解决实际问题时候,贝叶斯会特别特别对先验和后验的同分布特别敏感,而SVM的鲁棒性会好很多。千万不要最后只知道SVM利用了拉格朗日乘子,对偶问题,极小极大与极大极小的转换做的分类器,而忽略了他怎么利用数据的特征~

最后想说的是:学好Python,掌握好开源的Tool。在工作解决实际问题的过程中,往往是这个逻辑:这个问题我们需要这个数据我们去crawl吧!!!(爬虫能力)-> 这些数据应该抽取ABCD这些特征(对数据的感觉)->这种数据特征的拟合用这个模型好!!!我记得这个开源Tool实现了(对开源机器学习模型的了解)-> 还是不work,我们写Rule吧(有多少人工就有多少智能的步骤)。当然最后一步十分重要,尤其对于自然语言处理问题



转自知乎「吴俣」回答

2016年,经管之家《机器学习》全国4月开课,详情请戳:http://www.peixun.net/view/558.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 机器学习 学什么 研究生 Adaptation 研究生 学什么

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 09:05