【摘要】Hadoop生态系统在过去三年里激增,因为主要IT供应商们宣布一种对Hadoop的连接器, Hadoop之上的一种增强或他们自己的“企业级”的Hadoop分布。鉴于Hadoop的采用呈这样一种指数级增长及其生态系统正在深度和广度上扩大, 人们很自然要问Hadoop的提升是否会导致传统的数据仓库解决方案的消亡。 对这个问题的另一种提法是在一个更大的背景下看它: 大数据在多大程度上改变了传统数据分析的景观呢?
Hadoop生态系统在过去三年里激增,因为主要IT供应商们宣布一种对Hadoop的连接器, Hadoop之上的一种增强或他们自己的“企业级”的Hadoop分布。鉴于Hadoop的采用呈这样一种指数级增长及其生态系统正在深度和广度上扩大, 人们很自然要问Hadoop的提升是否会导致传统的数据仓库解决方案的消亡。
对这个问题的另一种提法是在一个更大的背景下看它: 大数据在多大程度上改变了传统数据分析的景观呢?
数据仓库是一组技术和软件,它能从运营系统中收集数据,将数据整合协调到一个集中的数据库, 然后进行分析, 可视化并在仪表盘上跟踪关键性能指标。
数据仓库和Hadoop的一个关键区别是数据仓库通常是在一个作为中央存储的关系数据库中执行。相比之下, Hadoop和Hadoop文件系统则跨越多个机器并处理大量的数据, 超过任何一个单独机器的能力。
此外, Hadoop生态系统包括一个数据仓库层/服务建立在Hadoop的核心之上。Hadoop之上的这些服务包括SQL(Presto), 类似SQL的(Hive) 和NoSQL(Hbase)类型的数据存储。相比之下, 在过去的十年里, 大型数据仓库转向使用自定义多处理器设备扩展到像Netezza (被IBM收购) 和Teradata的数据量。不幸的是, 那些设备对大多数小到中型企业非常昂贵。
这样的背景下,很自然的要问: Hadoop会终结数据仓库吗?
要回答这个问题,重要的是要把数据仓库的技术从安装中分离出来。Hadoop和NoSQL数据库的出现将挑战数据仓库设备和“传统”数据仓库实施单一数据库的维度。
可以在像Cloudera这样的Hadoop供应商中找到这样的证把,它将平台作为成一种“企业数据中心”计费,从本质上包括了传统数据管理解决方案的需要。类似的情绪在ReadWrite.com上最近发表的一篇文章中有所表达,它的题目是“为什么专有的大数据技术没有希望战胜Hadoop。”同样,最近《华尔街日报》的一篇文章描述了Hadoop是如何挑战Oracle 和 Teradata的。
而Hadoop或NoSQL系统仍在不断发展。许多大数据环境选择跨越NoSQL, SQL甚至NewSQL数据存储的混合方法。此外, 对MapReduce并行处理引擎的改变和潜在提高在像Apache火花项目中出现。因此, 尽管这个故事还远远没有结束, 可以肯定地说, 传统的单一服务器的关系数据库或数据库设备不会是大数据或数据仓库的未来。
另一方面, 数据仓库的技术包括提取转换与加载(ETL)、维度建模和商业智能将适应新的Hadoop / NoSQL环境。此外, 这些技术也将改变以支持更多的混合环境。关键原则似乎是并不是所有的数据都是平等的, 所以IT管理者应该选择最适合数据使用的存储和访问机制。混合环境中可能包括键值存储、关系数据库、图形存储,文件存储,柱状存储,XML数据库、元数据目录及其他。
正如你所看到的,这并不是一个简单的问题, 因此不要用简单的答案回答它。然而, 一般来说, 尽管大数据将改变数据仓库未来五年里的实施, 数据仓库的概念和实践不会过时。
这对于ZF对数据仓库的巨额投资意味着什么呢?
首先, 当现有数据仓库的能力达不到时, 数据仓库将迁移到一个基于Hadoop, 多机器或云解决方案中。第二, 不再是用以一盖全的方法, 企业将会考虑用混合存储的方法调整自己的大数据量。
来源:中国商业智能网