Hadoop 到底是啥?
大数据是个铺天盖地的词,而谈论大数据又不可避免地要提到Hadoop,遗憾的是今天大多数大数据鼓吹者,甚至专业人士其实并不能说清楚Hadoop到底是什么玩意,以及有何功用,而他们的管理层小白听众更是一头雾水。
众所周知,Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢?简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。
Hadoop被设计成一种非常“鲁棒”的系统,即使某台服务器甚至集群宕机了,运行其上的大数据分析应用也不会中断。此外Hadoop的效率也很高,因为它并不需要你在网络间来回捣腾数据。
以下是Apache的正式定义:
Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。Hadoop的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服务器集群提供高可用性的服务。
如果更深入地分析,我们发现Hadoop还有更加精彩的特性。首先,Hadoop几乎完全是模块化的,这意味着你们能用其他软件工具抽换掉Hadoop的模块。这使得Hadoop的架构异常灵活,同时又不牺牲其可靠性和高效率。
Hadoop分布式文件系统(HDFS)
如果提起Hadoop你的大脑一片空白,那么请牢记住这一点:Hadoop有两个主要部分:一个数据处理框架和一个分布式数据存储文件系统(HDFS)。
HDFS就像Hadoop系统的篮子,你把数据整整齐齐码放在里面等待数据分析大厨出手变成性感的大餐端到CEO的桌面上。当然,你可以在Hadoop进行数据分析,也可以见gHadoop中的数据“抽取转换加载”到其他的工具中进行分析。
数据处理框架和MapReduce
顾名思义,数据处理框架是处理数据的工具。具体来说Hadoop的数据处理框架是基于Jave的系统——MapReduce,你听到MapReduce的次数会比HDFS还要多,这是因为:
1.MapReduce是真正完成数据处理任务的工具
2.MapReduce往往会把它的用户逼疯
在常规意义上的关系型数据库中,数据通过SQL(结构化查询语言)被找到并分析,非关系型数据库也使用查询语句,只是不局限于SQL而已,于是有了一个新名词NoSQL。
有一点容易搞混的是,Hadoop并不是一个真正意义上的数据库:它能存储和抽取数据,但并没有查询语言介入。Hadoop更多是
一个数据仓库系统,所以需要MapReduce这样的系统来进行真正的数据处理。
MapRduce运行一系列任务,其中每项任务都是单独的Java应用,能够访问数据并抽取有用信息。使用MapReduce而不是查询语言让Hadoop数据分析的功能更加强大和灵活,但同时也导致技术复杂性大幅增加。
目前有很多工具能够让Hadoop更容易使用,例如Hive,可以将查询语句转换成MapReduce任务。但是MapReduce的复杂性和局限性(单任务批处理)使得Hadoop在更多情况下都被作为数据仓库使用而非数据分析工具。
Hadoop的另外一个独特之处是:所有的功能都是分布式的,而不是传统数据库的集中式系统。
经管之家(原人大经济论坛)推出CDA大数据分析师脱产就业班培训(http://cda.pinggu.org/bigdata-jy.html),以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门 知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配 置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。重点培养基于Hadoop架构的大数据分析思想及架构设计,通过演示实际的大数据 分析案例,使学员能在较短的时间内理解大数据分析的真实价值,掌握如何使用hadoop架构应用于大数据分析过程,使学员能有一个快速提升成为兼有理论和 实战的大数据分析师,从而更好地适应当前互联网经济背景下对大数据分析师需求的旺盛的就业形势。
北京现场&远程直播
时间 | 课程 | 大纲简介 |
第一阶段 | 系统基础篇 15天 | 1.开学典礼及大数据概述 1天 2.linux操作系统及 2天 3.unbuntu系统介绍 1天 4.JAVA基础 5天 5.python基础 4天 6.hadoop单机、伪分布、集群搭建 2天 |
第二阶段 | hadoop生态实战篇 15天 | 1.HDFS深入剖析 1天 2.MapReduce基础理论及高级编程实战 3天 3.Pig原理,部署与Pig Latin语言,应用案例 1天 4.Hive体系架构、安装与HiveQL及Hive应用案例 3天 5.Zookeeper与分布式系统开发 1天 6.HBase体系架构,集群部署,管理 2天 7.HBase数据模型,实战案例建模剖析 3天 8.strom入门及部署 1天 |
第三阶段 | 数据分析理论篇 15天 | 1.SPSS软件入门 1天 2.数据分析之统计基础(使用软件为SPSS) 4天 3.R软件操作入门 1天 4.数据挖掘之聚类(使用软件为R) 3天 5.数据挖掘之分类(使用软件为R) 4天 6.数据挖掘之关联规则(使用软件为R)2天 |
第四阶段 | 大数据分析案例篇 15天 | 1.大数据可视化技术及工具简介 1天 2.大数据背景下隐私保护及技术介绍 1天 3.大数据的分析方法--SMART模型介绍 1天 4.基于hadoop+Mahout的8个大数据分析案例实战 2天 5.Spark基础原理、集群安装并运行Spark 2天 6.Spark SQL 原理及数据整合应用 2天 7.Spark GraphX图计算方法应用 1天 8.Spark 推荐应用(ALS方法,FP-growth方法)2天 9.Spark 数据建模流程(logistics回归,决策树,朴素贝叶斯方法)3天 |
第五阶段 | 毕业篇 6天 | 1.毕业设计 5天 2.毕业典礼 1天 |
第一期八天班试听视频:http://www.tudou.com/programs/view/96FhjLBDp1o/
大数据环境配置干货:http://www.tudou.com/programs/view/CS3KvXCXRik/
大数据爱好者可加群:369063810(学习交流)备注姓名
【咨询方式】
(张老师)
座机:010-68456523
QQ:2881989712
手机:13718534278
邮箱:zhangwei@pinggu.org
(樊老师)
电话:010+68472707
手机:18611083334
QQ:2881989705