大数据与数据挖掘的关系?这是我见过的最简洁的答案
简单粗暴地讲,大数据是海洋,大数据中的信息则是鱼,而“数据挖掘”就是捕鱼的网。如果把 “大数据” 狭义地理解为一类数据源,那么,“数据挖掘” 就是用来驾驭 “大数据” 的重要手段之一。
由于大数据是一类复杂的、不友好的数据源,用传统的方法往往难以驾驭,为了能够有效利用大数据,人们就逐渐发明出一套系统的方法工具,来对大数据进行收集、存储、抽取、转化、加载、清洗、分析、挖掘和应用,而 “数据挖掘 Data mining” 就是对各种挖掘工具方法的统称。
需要注意的是,大数据源通常不能直接进行数据挖掘,还需要耗费大量工作量进行预处理。当然,完成了数据挖掘还没有结束,还需要对挖掘结果进行业务应用,才能创造价值。就好比有一座铁矿山,得先从矿山中开采出品质达标的铁矿石(预处理过程,数据清洗、集成、变换和规约),才能送到炼钢厂冶炼为钢材(挖掘过程),最终钢材还要用到建筑工地上(应用过程)。