问:机器学习,数据挖掘在研究生阶段大概要学些什么?能给一个梗概或者方向么?最好可以列出主要的课程或者相关资源,谢谢
答:三个字:勤动手~~
其实机器学习和数据挖掘是两个相差的比较多的领域,机器学习比较偏向数学问题的推导, 所以在顶会上的很多paper更看重idea,不是很看重实验是否来源于真实数据(有一些实验数据会自己构造,比如Andrew Ng的谱聚类自己构造了一个图,图里面的点组成了四个英文字母NIPS,他证明他的谱聚类比之前的聚类方法好)来让我们感受一下这个飘逸的图
而数据挖掘说土点就是老子就是会抽feature~的领域,比如Kaggle上的入门题Titanic,我们都知道善良的美帝人民喜爱拯救小孩子(快!让小孩先走),所以年龄对于生还人员预测很重要,可是有些人的Age缺失了在给定的数据中。咱们这种土人只会给缺失的人扔个年龄平均数,然而那些有洞察力的人,认为他的姓名中暗示了年龄,Mrs与Miss,Mr与Master分别对应了年龄的某个区间,然后他们刁刁的可以用逻辑斯蒂回归模型就拿到很好的分数。
对于找工作解决实际问题而言~数据(代表着分布式系统领域)>特征(数据挖掘与自然语言处理与图像)>模型(机器学习)。这并不是说模型不重要,而是一定要对具体问题做模型的Adaptation,你直接把图像领域的CNN拍到自然领域处理领域可能效果还不如一些传统方法,然而你把模型改吧改吧改成了DCNN,你就超越了Baseline,所以一定要能看懂模型,然后结合你的具体问题,把问题给解决了!
所以,对于你的问题,大家推荐了那么多理论学习资料,我觉得肯定够了,我的忠告是不要沉迷于数学公式的推导,一定要理解他是如何运用数据的,比如SVM他的分类决策是根据和分类面最接近的那些点的支持向量决定的,贝叶斯的分类决策是根据大量先验知识决定的。所以在解决实际问题时候,贝叶斯会特别特别对先验和后验的同分布特别敏感,而SVM的鲁棒性会好很多。千万不要最后只知道SVM利用了拉格朗日乘子,对偶问题,极小极大与极大极小的转换做的分类器,而忽略了他怎么利用数据的特征~
最后想说的是:学好Python,掌握好开源的Tool。在工作解决实际问题的过程中,往往是这个逻辑:这个问题我们需要这个数据我们去crawl吧!!!(爬虫能力)-> 这些数据应该抽取ABCD这些特征(对数据的感觉)->这种数据特征的拟合用这个模型好!!!我记得这个开源Tool实现了(对开源机器学习模型的了解)-> 还是不work,我们写Rule吧(有多少人工就有多少智能的步骤)。当然最后一步十分重要,尤其对于自然语言处理问题
转自知乎「吴俣」回答
2016年,经管之家《机器学习》全国4月开课,详情请戳:http://www.peixun.net/view/558.html