楼主: aongao
5882 0

【科普】Hadoop究竟能做什么? [推广有奖]

  • 5关注
  • 31粉丝

VIP

教授

52%

还不是VIP/贵宾

-

TA的文库  其他...

新能源&可持續發展

農業&经济

威望
1
论坛币
33743 个
通用积分
5631.2235
学术水平
153 点
热心指数
194 点
信用等级
114 点
经验
89598 点
帖子
626
精华
2
在线时间
1101 小时
注册时间
2014-1-20
最后登录
2022-4-13

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

现在好像大家都在讲 大数据 云计算 hadopp .那么hadoop究竟能做些什么呢?

u=1123752978,781035059&fm=21&gp=0.jpg

网上的资料大多是这么写的: 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。



看的人云里雾里,根本不知道在说什么。


其实说穿了. Hadoop就是一个分布式计算的解决方案而已。


设想一下这样的应用场景. 我有一个100M 的数据库备份的sql 文件.我现在想在不导入到数据库的情况下直接用grep操作通过正则过滤出我想要的内容。



例如:某个表中 含有相同关键字的记录


那么有几种方式,一种是直接用linux的命令 grep 还有一种就是通过编程来读取文件,然后对每行数据进行正则匹配得到结果。好了 现在是100M 的数据库备份.上述两种方法都可以轻松应对。


那么如果是1G , 1T 甚至 1PB 的数据呢 ,上面2种方法还能行得通吗? 答案是不能.毕竟单台服务器的性能总有其上限.那么对于这种 超大数据文件怎么得到我们想要的结果呢?



有种方法 就是分布式计算, 分布式计算的核心就在于 利用分布式算法 把运行在单台机器上的程序扩展到多台机器上并行运行.从而使数据处理能力成倍增加.但是这种分布式计算一般对编程人员要求很高,而且对服务器也有要求.导致了成本变得非常高。

d6a7c888007e602858100cba81ab81ca.png



Haddop 就是为了解决这个问题诞生的.Haddop 可以很轻易的把 很多linux的廉价pc 组成 分布式结点,然后编程人员也不需要知道分布式算法之类,只需要根据mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果。


例如上述的例子 : Hadoop 要做的事 首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果 通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。


那么原本可能需要计算好几天,在有了足够多的结点之后就可以把时间缩小到几小时之内。


8aa10518e7bbf319fab13fa273dc3be7.jpg

这也就是所谓的 大数据 云计算了.如果还是不懂的话再举个简单的例子:


比如  1亿个  1 相加 得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1。


那么分布式的处理方式则变成 我用 1万台 计算机,每个计算机只需要计算 1万个 1 相加 然后再有一台计算机把 1万台计算机得到的结果再相加从而得到最后的结果。



理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了。



国内就是喜欢炒概念,不喜欢解决实际问题。



来源:百度空间-jiuxiaoyao

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop Had 做什么 Requirements Requirement 做什么 数据库备份 streaming 云计算 解决方案

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 10:41