我对这个问题其实没有什么特别的看法,只是在此回忆一些读研究生时我老板的话。
1、大二的时候实验室老板给上数据库的课,讲课时发表过一些关于大数据的看法,大概意思是:其实大数据并不是什么新鲜的玩意,很早就有了。只不过最近几年又有人冷饭热炒把它翻出来,也就是在炒作。炒作好了就可以向国家汇报,申请一些自然科学基金。
2、(这一段是实验室内部老板做的一个内部报告,只把最不重要的并且在其他场合也讲过的一些观点拿出来)大数据其实并没有一个特别明确的概念,多大的数据算大数据?现在并没有一个统一的标准。20年前,几百兆的数据看起来就很大;几年前我们觉得几GB的数据算大数据;现在我们觉得几TB的数据才能叫大数据。大数据的标准是在计算机计算能力发展的情况下不断变化的。(老板在报告里曾经给出过一个我觉得比较靠谱的定义,但是不知道有没有发表出来)
3、对于大数据是不是数据挖掘的延伸这个问题,我觉得两者并没有什么关系。大数据带来的问题是因为越来越多的数据产生出来而自然引发的一系列的在包括数据库系统、计算方法等基础问题上现有工具无法有效处理的问题;而数据挖掘则是在数据基础上进行知识发现然后产生价值的过程。大数据与数据挖掘并不存在明显的谁是谁的延伸的问题,也并没有多少相似的地方。
硬要说两者有何关系的话,可以这样理解:
大数据带来的挑战主要是现在技术基础无法满足需求。比如传统上我们觉得一个亚线性时间算法不错,可是拿到大数据上面,亚线性时间也不行了,这就是数据量的增长对于整个计算机科学界提出的挑战,你说你有一个O(log(n))的算法,那放到大数据身上也是不管用的(指的是不能分布计算的场景,能分布计算的话只要多搞几台机器(像MapReduce那样),分散开来变成“小数据”之后也就不叫大数据了)。由此给数据挖掘带来的问题就是很多数据挖掘算法即使在传统概念上的时间复杂度很低,现在也不能满足要求了。