楼主: ada89k
1658 2

[问答] Hadoop是什么? [推广有奖]

  • 3关注
  • 72粉丝

院士

99%

还不是VIP/贵宾

-

威望
2
论坛币
613777 个
通用积分
16.9958
学术水平
123 点
热心指数
149 点
信用等级
82 点
经验
46289 点
帖子
1667
精华
3
在线时间
2443 小时
注册时间
2017-2-7
最后登录
2024-4-22

楼主
ada89k 在职认证  发表于 2017-2-22 16:57:31 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Hadoop是什么?


Hadoop的灵魂人物Doug Cutting希望Nutch(一款可以代替当时主流搜索产品的开源搜索引擎)项目能够通过一种低开销的方式构建网页中的大量算法,刚开始,Cutting遇到很多挑战和困难。幸运的是,Google公司发表了两篇论文:一篇论文是The Google File System,介绍如何实现分布式地存储海量数据;另一篇论文是Mapreduce:Simplified Data Processing on Large Clusters,介绍如何对分布式大规模数据进行处理。Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了。


由此观之,Hadoop是一种开源的适合大数据的分布式存储和处理平台。


Hadoop已归属The Apache Software Foudation 下的一个Project。我们看一下Apache软件组织是怎么介绍Hadoop?


The Apache Hadoop project develops open-source software for reliable,scalable,distributed computing.

Apache Hadoop 项目是开发一款可靠的、可扩展性的、分布式计算的开源软件。


The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines,each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

The project includes these modules:


. Hadoop common: The common utilities that support the other hadoop modules.


. Hadoop Distributed File System(HDFS): A distributed file system that provides high-throughput access to application data.


. Hadoop YARN: A framework for job scheduling and cluster resource management.


. Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.


上面这段文字涉及到这些关键信息:一是Hadoop是一个开源的框架;二是Hadoop能够进行大规模数据集地分布式处理;三是Hadoop能够用计算机集群存储海量数据;四是Hadoop可以从单一服务器扩展到成千上万的服务器,这些服务都能够提供本地化的存储和计算;五是Hadoop具有能够检测和处理应用层错误的能力;六是Hadoop包括Hadoop common/HDFS/Hadoop YARN/Hadoop MapReduce四个模块,每个模块负责各自的事务。


关于“Hadoop是什么?”这个Problem,我还想借用Chuck Lam先生在其书《Hadoop in Action》的描述。“Doug Cutting saw an opportunity and led the charge to develop an open source version of this MapReduce system called Hadoop””Hadoop, and large-scale distributed data processing in general, is rapidly becoming an important skill set for many programmers.”这些话告诉我们,Hadoop是由Doug Cutting 先生基于Google 的MapReduce system开发的一个开源版本,Hadoop 已成为许多程序员的一项重要技能,Hadoop通常适合于大规模分布式数据处理。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:hadoop是什么 Hadoop Had Availability distributed Hadoop 大数据

沙发
vodaka 发表于 2017-3-16 14:51:18 |只看作者 |坛友微信交流群
非常不过,官网的描述已经很清晰了

使用道具

藤椅
虎虎856 在职认证  发表于 2017-3-17 17:45:18 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 14:05