Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop DistributedFile System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop带有用Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。本课程的讲解是采用linux平台进行模拟讲解,完全基于真实场景进行模拟现实
因为还了解过一些SAS、SPSS相关的软件跟hadoop的区别,有这么一个百度知道:http://zhidao.baidu.com/link?url=IZgTYWNTQlR1dyMGBBjZmFLRnO2fjmxn8n2g5bUeyhy8fyBsNEExWwADNYUydxM-t-aJ2hqTmiHIuVkYcURGf0XjeqLSn9TcGLjhMUQ2bna
说的是SAS一般给金融行业使用,有内部用或者类似于业务外包的形式;hadoop说的更加厉害,可以用廉价的机器完成大规模数据计算,同时还能进行数据挖掘和统计分析。光看这个的话hadoop似乎前景更好,因为涉及面更广,而且可以数据挖掘的话应该晋升空间也更多。
于是乎我又去搜索了一下关于hadoop的培训班,找到了SAS、SPSS这些;刚好还有一个hadoop的培训班要开,看了下课程,觉得还行,这里有没有数据分析或者精通hadoop的大牛帮忙看看给点意见:http://cda.pinggu.org/bigdata-jy.html#part1
谢谢啦~