关于本站
人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!
获取电子版《CDA一级教材》
完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。
论文
- 毕业论文 | 写毕业论文
- 毕业论文 | 为毕业论文找思路
- 毕业论文 | 可以有时间好好写 ...
- 毕业论文 | 毕业论文如何选较 ...
- 毕业论文 | 毕业论文选题通过 ...
- 毕业论文 | 还有三人的毕业论 ...
- 毕业论文 | 毕业论文答辩过程 ...
- 毕业论文 | 本科毕业论文,wi ...
考研考博
- 考博 | 南大考博经济类资 ...
- 考博 | 考博英语10000词汇 ...
- 考博 | 如果复旦、南大这 ...
- 考博 | 有谁知道春招秋季 ...
- 考博 | 工作与考博?到底 ...
- 考博 | 考博应该如何选择 ...
- 考博 | 考博失败了
- 考博 | 考博考研英语作文 ...
TOP热门关键词
扫码加入金融交流群![]() |
大数据能做什么
Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。
大数据和云是不是一回事?
这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个接口的后端是虚拟机技术,或者分布式存储技术,或者其他分布式计算技术等等。简而言之,云的概念就是我向你提供服务,而你不需要关心这种服务的架构或者技术实现有多么复杂。打个比方,就好象是,云之前的时代我们要用电,就需要自己造一个电厂发电,造机组,造变电站,然后再去用它。而云服务就好象是别人搭好了一个电厂,电线直接进你家,你要用,只需要插上插头,不需要关心电是怎么被制造出来的。电力的生产和电力设备的维护都由国家电网承担。联系到网络方面,就是,我们以前要自己买服务器,自己装系统,自己上架,自己做负载均衡,自己维护软硬件环境。有了云之后,这些都通过云服务商的虚拟机技术完成了。数据安全和网络安全都由云服务商提供,你也不需要专门请人维护一堆设备。
而说到大数据,这个可以是基于云的,也可以是不基于云的。大数据的处理技术与提供云服务的技术是不尽相同的,但是又有所交集。可以说,云服务是基础设施,是市政工程,而大数据是城市里的高楼大厦。大数据可以基于云,也可以不基于云。
从技术角度上说,国内的大多数云服务商,主要提供的是虚拟机服务,这是一种分的概念,把一台物理服务器拆成多个虚拟的小服务器,尽可能多的使用其物理资源,避免浪费。而大数据是合的思想,是把很多台服务器合并成一个虚拟的巨型服务器,通过分配计算资源使数据可以快速的为生产力服务。用一句中国的老话形容大数据和Hadoop就是:三个臭皮匠顶个诸葛亮。用合并起来的计算资源超越小型机或者中型机的计算能力。这里面当然也有云的概念存在着,就是说,你不需要关心数据的存储和计算到底是怎么完成的,你只需要用就可以了。
大数据技术是不是一定需要数据量大才可以,数据量不大就不需要用?
通常是这样认为的,但是并不绝对,计算维度大,计算过程复杂也都可以认为是大数据。换句话说,就是,如果你所需要的数据,在你所需要的时间内无法正常计算出来,你可能就需要用到大数据的技术了。
一方面,你的数据需要的存储量超过数据库或者数据仓库的能力范围,你可能需要大数据技术;另一方面,你的计算量超过传统的数据处理手段的时效性能力范围之外,你也可能需要大数据技术。而典型的计算能力的挑战就是来自于数据挖掘和多维度分析。可能数据量不大,但是算法和过程很复杂,也可能会需要大数据的技术。比如对用户做推荐,基于用户群的分类做精准的广告投放。或者在传统行业计算气象预报,计算地质数据做石油探测,矿产探测。又或者用在金融行业,通过对历史数据建立数学模型,对证券和期货贷款等做风险预估。之所以阿里巴巴对于中国的经济和进出口的预测比商务部和统计局更精准,除了他们有一群数学和统计专家外,大数据是完全不可或缺的技术手段。
大数据技术是不是就是那个什么憨杜普?
显然不是,大数据领域存在很多厂商和应用,有开源的,有收费的。比如一些非Hadoop大数据处理的公司和软件,EMC的Greenplum,Splunk公司的splunk等等。这些都不是基于Hadoop的,但是也有共同的缺陷,就是很贵。所以,大多数公司采用开源软件来完成大数据的业务处理。而开源领域做得最好的,应该就是hadoop了。所以现在hadoop基本成了大数据处理的代名词了。基于Hadoop衍生了很多家商业公司,因为Apache的许可协议并不拒绝商业。像国内比较知名的Cloudera,MapR,他们的商业产品都是基于Hadoop及其周边的生态软件。
大数据应该怎么推进公司业务的发展?
这是个关乎想象力的事情,有了大容量和大计算,至于怎么用,这只能自己想。原来数据怎么做现在还怎么做,不过除了啤酒与尿布,口香糖与避孕套之外,还有一个比较生动的案例大约是这样的:美国有一个公司,在各产粮区每隔一英里插一个传感器,收集空气湿度和土壤含氮量等数据。收集上来以后通过大数据的处理手段和算法,预测出该地区的收成可能会是什么情况,然后把预测报告卖给美国的农业保险公司。
Hadoop有什么优缺点?
Hadoop的优点是数据的容量和计算能力以及数据的备份安全性有了很大程度的提升,1.0最大可以支持到大约4000台服务器的并行存储和运算,而2.0大约可以支持6000台服务器。不过2.0现在还不是很完善,所以生产环境还是建议用1.0。我认为4000台集群的容量和计算能力足以匹敌IBM的大型机,从去年12月15号的中国银行大型机宕机事件来看。大型机就算安全性再有保障,也毕竟是单点。真出了故障,谁也不敢拍板切换到备份大型机上。Hadoop 1.0已经有了很多方案去解决单点问题,2.0自己就支持单点故障切换。或许未来继续发展,将全面超越大型机。事实上,IBM已经开始出自己的Hadoop发行版了。
至于缺点,就是Hadoop1.0还是存在单点问题,但是可以通过其他技术手段弥补做到热切换,只是要求维护人员的技术水平较高。另外一个缺点是计算的时间会比较长,还无法做到实时查询和快速决策响应。但是有很多其他的方案在弥补Hadoop的这个问题,像Apache出的跟Google Dremel竞争的Drill,Cloudera推出的Impala,和其他一些产品。而实时计算则有Twitter开源的Storm集群,设计理念跟Hadoop是一样的,但是可以对实时数据流进行计算,并即刻生成计算结果。做到随查随出。
在各个开源社区的支持下,在全世界程序员的共同努力下,大数据的处理能力也在高速的发展,程序员们正在用自己的智慧改造这个世界。
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
您可能感兴趣的文章
人气文章
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。



