我对数据挖掘学习的看法
1,教材还是很重要的。写进教科书的都是非常基础、非常经典、非常有用的算法,你在paper上看到非常牛的算法,可能在现实工程里渣的一逼;教科书里面讲的东西,是作为基础中的基础,是继续阅读和研究的前提。
熟悉了经典算法之后,你会发现,很多(not all)paper里的东西,哎呀妈呀,全*****灌水炒冷饭。
2,数据挖掘,大数据,这些词还是相当宽泛的。不同的目标,需要掌握不同的知识。
归纳起来说,其实就四种:数据采集,数据挖掘,数据计算,数据存储。
数据采集:就是抓数据了,主要是写爬虫。
数据挖掘:涉及机器学习、推荐系统等等,从数据里挖出有用的信息。
数据计算:计算框架和平台,比如Hadoop,spark,vw等
数据存储:mysql、oracle、oceanbase以及nosql,以及分布式存储等。
我觉得我这个分类是独创的,是全面的,是有见识的。