革命 – 这个词汇十分准确地描述了我们所处的这个数据分析的时代。企业一方面紧紧握住大量不同类型的数据,另一方面则无比急迫地渴求分析。供应商的回应是提供高分布式结构和新技术水平的存储处理能力。创业者还开拓了开源许可模式,这种模式并不新鲜,但正在越来越多地被接受,甚至被数据管理专家青睐。
Apache Hadoop,一家成立9年的开源数据处理平台,最早被Yahoo、Facebook这样的互联网巨头采用,它正在领导大数据革命。Cloudera 在2008年引入了对企业的商业支持,MapR和Hortonworks则分别在2009年和2011年步其后尘。在现有的数据管理平台上,IBM 和EMC子公司Pivotal都已经引进它们自己的Hadoop分布式系统。微软和Teradata 为Hortonworks平台提供软件补丁和一线的技术支持。Oracle 销售并支持Cloudera平台,而HP、SAP和其它参与者则表现得像中立国瑞士,与多个Hadoop软件提供商合作、共同工作。
当摩尔定律给我们提供更快、更便宜、更富内存的处理器时,存储分析则获得了动力。拥有Hana平台的SAP曾经是全球最大的存储分析者,但是微软和 Oracle现在做出姿态要为它们的旗舰数据库引进存储选项。聚焦于此的分析型数据库供应商(包括Actian、HP Vertica和Teradata)已经引入高数据读取率的技术,自带工具将特定数据导入内存来进行超快地分析。
带宽、存储、处理能力方面的进步也带动了实时流处理和流分析能力的改进,但这项技术还需要获得更广泛的采用。这儿的几个供应商处理着复杂的数据,但却游离 在金融贸易、国家情报之外,并且安全社区和部署也很少。仔细观察这个领域,尤其是作为新开源模式下在各个领域的突破性应用,包括广告发送、内容个性化、物 流和其它推动更广泛采用的领域。
本文包括了广义的数据管理供应商—IBM、Microsoft(微软)、Oracle、SAP,它们提供几乎所有东西,从数据集成软件和数据库管理系统到 商业智能和分析软件,再到存储、流处理和Hadoop系统。Teradata聚焦于数据管理上,并且跟Pivotal一样,它与分析市场领导者SAS有紧 密联系。
本文涉及的很多供应商都提供云服务,而1010data和亚马逊Web服务(AWS)则是把它们的整个业务都建构在云模式中。Amazon拥有 这两种产品的最广泛选择,对于那些运行大工作量并且存储大量数据在AWS平台上的企业来说,这是一个显而易见的选择。1010data拥有高可扩展性的数 据库服务,并且支持信息管理、商业智能,以及以私有云方式提供的分析服务。
业界仍然在争论Hadoop是否已经变得跟数据管理系统一样不可或缺了。当数据量和数据类型极多的时候,Hadoop证明了其可用性和成本优势。 Cloudera、Hortonworks和MapR 正在尽其所能将用于大规模存储的Hadoop和MapReduce 处理技术移植到数据分析的世界。
包括Actian、InfiniDB/Calpont、HP Vertica、Infobright和Kognitio在内的供应商都围绕数据库管理系统来讲它们的大数据故事,该系统完全聚焦于分析而不是交易处理。 德国的数据库管理系统供应商Exasol是这个模子里的另外一个参与者,但我们在本文中并没有涉及到它,因为它的客户基础几乎全部在欧洲大陆,仅在 2014年1月设立了美国和英国的办事处。
这个名单没有涵盖Alpine Data Labs、Revolution Analytics和 SAS这样的分析供应商。这些供应商一直需要与第三方数据库管理系统供应商和Hadoop分发商提供的平台相结合来完成工作,虽然SAS为SAS管理下的 存储数据网格和Hadoop环境提供更多支持,正在模糊这条线。我们还排除了NoSQL和NewSQL 数据库管理系统,它们非常(虽然不是完全)聚焦于大规模交易处理,而不是分析。我们计划在一份很快单独出版的报告中涵盖NoSQL和NewSQL。