【科普】Hadoop究竟能做什么？-经管之家官网！

经济学管理学金融学统计学

您当前的位置> 软件培训>>

【科普】Hadoop究竟能做什么？

发布：aongao | 分类：hadoop

关于本站

人大经济论坛-经管之家：分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

完整电子版已上线CDA网校，累计已有10万+在读~ 教材严格按考试大纲编写，适合CDA考生备考，也适合业务及数据分析岗位的从业者提升自我。

TOP热门关键词

专题页面精选

现在好像大家都在讲大数据云计算hadopp.那么hadoop究竟能做些什么呢?网上的资料大多是这么写的：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集 ...

扫码加入金融交流群

现在好像大家都在讲大数据云计算 hadopp .那么hadoop究竟能做些什么呢?

网上的资料大多是这么写的：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

看的人云里雾里,根本不知道在说什么。
其实说穿了. Hadoop就是一个分布式计算的解决方案而已。

设想一下这样的应用场景. 我有一个100M 的数据库备份的sql 文件.我现在想在不导入到数据库的情况下直接用grep操作通过正则过滤出我想要的内容。

例如：某个表中含有相同关键字的记录

那么有几种方式,一种是直接用linux的命令 grep 还有一种就是通过编程来读取文件,然后对每行数据进行正则匹配得到结果。好了现在是100M 的数据库备份.上述两种方法都可以轻松应对。

那么如果是1G , 1T 甚至 1PB 的数据呢 ,上面2种方法还能行得通吗？答案是不能.毕竟单台服务器的性能总有其上限.那么对于这种超大数据文件怎么得到我们想要的结果呢？

有种方法就是分布式计算, 分布式计算的核心就在于利用分布式算法把运行在单台机器上的程序扩展到多台机器上并行运行.从而使数据处理能力成倍增加.但是这种分布式计算一般对编程人员要求很高,而且对服务器也有要求.导致了成本变得非常高。

Haddop 就是为了解决这个问题诞生的.Haddop 可以很轻易的把很多linux的廉价pc 组成分布式结点,然后编程人员也不需要知道分布式算法之类,只需要根据mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果。

例如上述的例子： Hadoop 要做的事首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。

那么原本可能需要计算好几天,在有了足够多的结点之后就可以把时间缩小到几小时之内。

这也就是所谓的大数据云计算了.如果还是不懂的话再举个简单的例子：

比如1亿个1 相加得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1。

那么分布式的处理方式则变成我用 1万台计算机,每个计算机只需要计算 1万个 1 相加然后再有一台计算机把 1万台计算机得到的结果再相加从而得到最后的结果。

理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算大抵也就是这么回事了。

国内就是喜欢炒概念,不喜欢解决实际问题。

来源：百度空间-jiuxiaoyao

「经管之家」APP：经管人学习、答疑、交友，就上经管之家！
免流量费下载资料----在经管之家app可以下载论坛上的所有资源，并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库，各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里，你可以找到任何学科方向、有共同话题的朋友。
经管之家（原人大经济论坛），跨越高校的围墙，带你走进经管知识的新世界。
扫描下方二维码下载并注册APP

本文关键词：

本文论坛网址：https://bbs.pinggu.org/thread-3096573-1-1.html

上一篇 | 国企不是魔鬼，民企也不是天使

下一篇 | The Choice between Formal and Informal ...

hadoop 精彩帖子推荐更多

您可能感兴趣的文章

本站推荐的文章

人气文章

本文标题：【科普】Hadoop究竟能做什么？

本文链接网址：https://bbs.pinggu.org/jg/ruanjianpeixun_hadoop_3096573_1.html

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责；
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性，不作出任何保证或承若；
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。

【科普】Hadoop究竟能做什么？-经管之家官网！

hadoop