关于本站
人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!
获取电子版《CDA一级教材》
完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。
论文
- 毕业论文 | 写毕业论文
- 毕业论文 | 为毕业论文找思路
- 毕业论文 | 可以有时间好好写 ...
- 毕业论文 | 毕业论文如何选较 ...
- 毕业论文 | 毕业论文选题通过 ...
- 毕业论文 | 还有三人的毕业论 ...
- 毕业论文 | 毕业论文答辩过程 ...
- 毕业论文 | 本科毕业论文,wi ...
考研考博
- 考博 | 南大考博经济类资 ...
- 考博 | 考博英语10000词汇 ...
- 考博 | 如果复旦、南大这 ...
- 考博 | 有谁知道春招秋季 ...
- 考博 | 工作与考博?到底 ...
- 考博 | 考博应该如何选择 ...
- 考博 | 考博失败了
- 考博 | 考博考研英语作文 ...
TOP热门关键词
扫码加入金融交流群![]() |
随着社会的信息化发展,企业IT化的不断完善,业务的不断扩展,服务质量的不断提高,企业数据越来越庞大:如何从海量数据中快速获取自己需要的数据?如何能够完成越来越复杂的数据计算?在数据仓库和数据库中的数据以TB\GB级增长的时候,如何能够保证数据查询和计算的高效率和响应度?这些问题都给CIO带来了严峻的挑战。
针对上述的问题,包括Teradata、IBM、ORACLE、EMC、Apache基金会等众多的公司和机构,都提出了自己的解决方案。笔者在多年的BI实施过程中,对上述公司的解决方案,或多或少都有所涉及,在这里,仅按自己的理解,对这些方案进行归纳和总结,因为笔者的水平有限,观点难免有错误和片面之处,也希望读者给予指正。
笔者认为:当前数据计算所面临的问题,主要集中在三个方面:第一是数据存取和数据交换时的I/O瓶颈问题,第二是复杂计算模型的完备性问题,第三是数据计算本身的性能问题。
I/O瓶颈问题,主要表现在和硬盘的交互以及通过网络输入输出,一般来说使用高转速的硬盘以及增加网络带宽可以获得一定程度的缓解,大部分情况下不会成为瓶颈。数据量大到一定程度时可以使用数据库集群,不过数据库扩容成本很高,该方案不是一个很优的选择。
复杂计算模型的完备性问题,影响的主要是开发效率。程序员一般采取两种方式实现数据计算:第一是使用SQL/存储过程,众所周知,SQL是结构化查询语言的最小完备集。但是最小完备集并不是最好用的完备集,SQL的问题有很多:无序集合、集合化不彻底、没有对象引用等等。虽然在SQL 2003标准中增加了一些窗口函数,但是扩展的程度有限,易用性也有限。所以SQL虽然提供了完备的计算体系,可是开发效率太低。第二是编程实现或者使用第三方工具。目前市面上很少有第三方工具具备完备的计算体系,编程则遇到同样的问题:开发效率太低。
数据计算本身的性能问题则是一个最严重的问题。理论上,以存储过程或复杂SQL来实现计算逻辑是保证性能最好的做法,数据库有很多优化措施,且本身是c语言开发,可以让计算更快。但是优化总是有限的,数据量大到一定程度,性能终究是个瓶颈。
能有效解决性能问题的唯一办法就是并行计算。目前提供并行计算的产品有两大类,一类是以TD、GreenPlum为代表的MPP数据库产品,其优点是计算快,并行算法透明,缺点是数据库扩容成本太高,每增加一个并行节点则要增加不菲的费用,一般用户承受不起。
另一类以Hadoop为代表的分布式数据处理的软件框架,该方案把数据存储在分布式文件系统HDFS里。HDFS分布式文件系统很好地解决了IO问题,并具有很强的容错能力,是个很优秀的数据存储方案。但是Hadoop提供的并行框架MapReduce则不敢苟同了,该框架是为非结构化数据的搜索统计而设计的, 由于本身不提供算法,又没有现成的类库,导致程序员编写算法难度很高,工作量很大。同时由于MapReduce框架把任务拆分得过细,使得很简单的一个计算任务,需要编写数个Map 和Reduce方法来实现,开发和运行效率都很低。
因此笔者认为,理想的大数据计算模式,应该具备以下特征:
1、计算层独立于数据库和应用程序之外,既不受数据库难扩容的影响,也不受应用程序的限制。
2、计算层能够访问分布式文件系统(如HDFS等),便于在海量数据时避开IO瓶颈。
3、具有足够完备的计算体系,在编写算法时,有丰富的类库和方法支持,减轻开发工作量。
4、计算层提供并行框架,并行节点扩充容易,成本低廉。且数据块的拆分比较灵活,允许程序员根据实际情况随意指定。
5、计算层对外提供标准的数据访问接口, 如JDBC等
作者介绍:张淳,从2008年起一直从事BI领域数据计算和分析方面的咨询和项目实施工作。在电信、移动、金融、能源等领域处理海量结构化数据业务方面,具有丰富的咨询和项目实施经验。现在北京微视角软件技术有限公司担任资深产品支持顾问。
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
您可能感兴趣的文章
人气文章
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。



