目前还没有一个公认的大数据定义,我偏向于Gartner 公司的定义,“大数据”是需 要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点可以用3V概括: Volume:数据量巨大; Velocity:分析处理速度快; Variety:种类和来源多样化。
Volum和Velocity要求算法能够在短时间内快速处理海量数据, 很多传统的统计学方法在此条件下就不使用了。Variety 要求分析方法不仅要处理传统数据,还要能处理文本、图形、语音等多种类型的信息。当然,最重要的还是针对具体问题,选择或者设计新的处理方法