日期:2014-11-21 作者:MATT ASAY 翻译:Eunice 来源:TechTarget中国
导读:我最近采访了Zoomdata CEO Justin Langseth,询问了他对于数据虚拟化和BI分析的看法。
关键词:大数据 商务智能 BI NoSQL
【TechTarget中国原创】BI(商务智能)的口号在上世纪90年代就响起了,吸引了大量的眼球和资金,很多用户都投入了大量的人力物力构建自己的BI系统,但经过二十年的发展,BI能给用户带来的价值仍然是有限的。像大数据一样,BI只是用户的一种工具,用来挖掘数据中的价值。
这就是卖点。但在卖点背后,用户除了要看到言过其实的部门,还要考虑到部署成本和技术难度。
像Tableau这样新一代的BI解决方案已经降低了传统BI的技术难度。不过,几乎所有新一代BI工具都主要应对的是传统关系型数据库中的结构化数据。但在今天所处的大数据时代,大部分的数据是非结构化或半结构化的。所以,传统BI没有解决的问题,新一代BI仍然没有解决。
到底什么时候BI产品才能面向大数据呢?
实际上有些公司已经开始这样的工作了,只是你可能还没有听过。美国公司Zoomdata就是其中之一。Zoomdata融合了Hadoop、MongoDB、Cassandra等大数据新兴技术的丰富的数据模型,能熟练应对非结构化数据。
另外,Zoomdata处理数据的方式是透明可见的,不像传统的技术把数据放到关系型数据库里,就像放进了一个黑匣子。
当然技术真正成熟可用还需要一定的时间,对网络带宽也有一定的要求。
换句话说,Zoomdata使用了一种对原数据源查询结果的流处理,将结果显示在草图中,处理的数据越多,草图呈现的信息就越多。用户能够即时地看到查询结果,并充分理解事件进展。
我最近采访了Zoomdata CEO Justin Langseth,询问了他对于数据虚拟化和BI分析的看法。
Justin Langseth, CEO of Zoomdata
开放数据库互联靠谱吗?
传统BI转向Hadoop和NoSQL这些主要用于处理半结构化和非结构化数据的系统具有怎样的意义?我了解到很多BI厂商在向客户推行ODBC(开放数据库互联)技术,这其实牺牲了很多丰富的现代数据技术。(ODBC是一种在应用程序和数据库之间连接数据的技术,但如果加入NoSQL数据库,采用这种技术就会失掉很多信息)。
Justin Langseth: BI转向善于处理半结构化和非结构化数据的Hadoop、NoSQL非常有意义。我成立的上一个公司Clarabridge就是完全关于非结构化数据的。在大数据时代的今天,大多数增长的数据都是半结构化(JSON、XML)、键值和多种格式的生数据。
BI工具能直接连接这些新的数据源是很重要的,如果能利用后面的集群的力量,而不是简单地提取数据,然后把数据传输到专有cube或传统关系型数据库,那就更好了。用户想要的是通过自己的API和新数据源相连,而不是通过哪些SQL访问层。
Hadoop+NoSQL
Zoomdata是如何消化NoSQL或Hadoop的数据的?你们的方法和传统分析厂商的方法有什么不同?
JL:我们可以支持Cassandra, HBase或其他NoSQL数据库,我在这里就举MongoDB的例子。通过MongoDB,我们在本地连接了MongoDB集成API,运用它执行分类、计算、集群和其他集群功能。我们还应用了针对MongoDB API的微查询引擎,可用于增量数据锐化。
之用几秒钟,我们就可以将视图转换为用户习惯看到的最终视图。这里用到了背后的MongoDB集群技术,不需要提取生数据,也不需要用SQL层翻译数据。
我们还可以将通过其他层进入MongoDB的实时数据可视化,或者可以可选择地接收实时数据到Zoomdata,最终放入MongoDB历史数据存储。
无论通过哪种方式,Zoomdata都在MongoDB上提供播放器一样的界面,可以在不同实时数据视图中间转换,可以重播,可以快进。我们也用同样的方式消化Cloudera Impala, Spark, Amazon Redshift, ElasticSearch, Solr等多种数据源的数据和流API。
让业务人员应用大数据
在您看来,组织要更好地利用新的非结构化和半结构化数据,面临的最大的挑战是什么呢?
JL:我们认为最大的挑战是如何让业务人员利用大数据,因为他们并不是数据科学家或BI专家,他们并不懂技术。
以前,BI行业也做出了种种尝试,让业务人员可以访问传统数据库数据。今天,更多的业务需求是数据驱动的,数据变得越来越大,越来越非结构化。
另一方面,人们越来越习惯苹果的用户体验,他们希望企业应用也能像iPhone上的应用一样简单易用。
因此,最大的挑战是如何提供漂亮的,简单的,但同时又很有力的用户界面和技术栈,允许普通用户去访问数据,可视化数据,进行数据协作,虽然数据往往以流的方式存储在后端,但前端用户还是能够高效低利用大数据。
如何着手大数据
假设企业并没有成熟的数据科学家,企业该如何开始大数据项目?
JL:对于没有强大IT能力的企业,可以考虑减少大数据后端,最好只有一个或几个。
比如Hadoop,业内已经在关注Spark,所以你就不要在犹豫选择Pig, Hive, HBase这样的Hadoop 1.0工具,直接选择Spark。
有一些数据准备工具可以在本地运行在Spark上,比如Trifacta和Paxata。所以对于想要开始部署下一代数据栈的企业,我建议选择单键值或文档型数据存储,比如MongoDB,或者单数据处理系统,比如Spark,企业可以直接跳过其他Hadoop技术。
要运行Spark,可以考虑Cloudera CDH这样的内部部署选项,或者Databricks这样的管理服务选项。之后可以选择Trifacta, Paxata和 Zoomdata这样的下一代数据工具,应用在下一代堆栈上。
经典案例分享
能分享一个客户的经典用例吗?我从不止一处听说你们的销售额很高,至少一千万美元,还有几个六到七位数的合同。
JL:我不能说具体的公司,我只能说我们客户最经典的用例是采用数据驱动的应用或数据驱动的服务。
我可以给你举三个例子。
我们有一个客户,有很多实时和历史手机位置数据存储在Cloudera Impala里。他们需要一种方式让他们的终端用户,都是没有技术背景的终端客户,能够看到并分析数据。
另一个客户是正在为整个时装行业构建应用程序,用于分析产品、颜色、价格和流行趋势。数据来自很多数据源,之后以数据流的形式存储在MongoDB。Zoomdata提供最前端的分析和仪表盘。
第三个客户有很多医疗数据存储在Cloudera Impala和Cloudera Search中,需要一种方式让药物研究人员能够搜索并了解历史上多年来疾病的类型和治疗方法。我们让搜索和分析可视化变得更容易,更快。
QQ群/微信: Excel商务智能PowerPivot