大数据和数据仓库之间的关系_大数据
以下是关于大数据和数据仓库之间的关系,并不详细,所以小编在最下面附上了数据仓库的PDF帖子链接。希望对正在学习大数据和数据仓库同学有所帮助。
数据仓库与操作数据库
数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。
数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:
1)用户系统的面向性:客户与市场;
2)数据内容:当前与历史;
3)数据库设计:ER与面向主题
4)视图:当前与全景
5)访问模式:原子事务与只读操作
传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。
大数据的位置
数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。
1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题
2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。
3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。
链接: