数据挖掘有哪些发展方向?
数据挖掘一方面是做算法或者建模型,这方面要求对常见的机器学习模型:广义线性模型,最大熵模型,SVM,隐马尔可夫链等的方法公式推导要深入理解。以广义线性模型为例,要知道哪些问题适合哪个概率分布,理解模型的建立过程中如何降低模型复杂度或提高模型泛化能力等等。这要求扎实的数学功底。建议多阅读经典的英文原版书籍或者知名学者的课堂notes,比如PRML,The element of statistical learning.因为大部分中文书籍只是讲讲应用或者模型的推倒过于简单或讲解过于单一,不能让你加深对模型的理解。
另一方面,如果要走向工程方向,那么建议多去提高自己的代码能力,多去熟悉并应用常见的数据挖掘的框架,比如Spark,Hadoop,Mahout等等。这里推荐Stanfotd 的一个课:Mining of massive datasets。这个课有对应的教材,很适合入门祥读。当然工程实践也必不可少。