楼主: littlelianglian
13650 42

[Hadoop] Hadoop大数据分析师之论_大数据分析师 [推广有奖]

11
xncchen 发表于 2015-1-30 12:52:55 |只看作者 |坛友微信交流群
顶一个

使用道具

12
selfswim 在职认证  发表于 2015-1-30 13:01:59 |只看作者 |坛友微信交流群
还是挺复杂的

使用道具

13
wangjunkrc 发表于 2015-1-30 14:06:21 |只看作者 |坛友微信交流群
靠的是计算机容量大

使用道具

14
ZQZ520 在职认证  发表于 2015-1-30 14:33:47 |只看作者 |坛友微信交流群
课程大纲:

(一)基础理论部分
1.数据分析基础
(1)数据分析过程概述
(2)概率论与数据统计
(3)抽样估计与假设检验
(4)方差分析与回归分析
2.java基础
(1)JDK的安装配置,Java基本知识、数据类型以及基本语法
(2)Eclipse的编程入门
(3)面向对象的思想基本介绍,类、对象、接口、封装、继承
(4)Java的集合类——数组、Set、List、Map、Queue
(5)异常处理——Checked Exception、Unchecked Exception,如何通过异常信息捕获错误
(6)Java的垃圾回收机制以及多线程简介
(7)Java的文件操作、包的概念及如何打包
(8)数据库基础知识及SQL语法
(9)基于servlet技术的B/S应用开发及代码实现案例详解

3.linux基础
(1)linux的介绍
(2)Linux入门:选择合适的Linux发行版、如何安装Linux
(3)linux操作系统命令及使用命令编辑文件
(4)Linux下SSH命令使用方法详解

(二)hadoop理论课程
1.hadoop安装配置及运行机制解析
本节是大数据分析的环境搭建课程,属于操作型课程,主要讲述如何在linux单机上面安装hadoop的伪分布模式,在linux集群上面安装hadoop集群。对于不熟悉linux的同学,课程中会简单的讲解常用的linux命令。这两种是必须要掌握的。通过讲师手把手、面对面的交流,教会学员自己搭建一个真实的hadoop环境,在此环境下运行hadoop自带的小程序。主要内容包括:
(1)从google的三篇大数据论文说起
(2)Hadoop 概念、版本、历史
(3)Hadoop 伪分布及集群的详细安装步骤
(4)三个hadoop自带的小例子带你进入hadoop的世界
(5)使用如何通过命令行和浏览器观察hadoop的运行过程
(6)介绍hadoop的安全模式
(7)如何查看日志信息

2.Hadoop分布式文件系统深入剖析
本节将对hadoop架构的分布式文件系统HADFS进行深入的分析,hdfs是所有hadoop系统的基础,它是hadoop的核心内容之一。主要的内容包括:
(1)深度分析google的Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
(2)HDFS的概念及设计
(3)Hdfs体系结构及运行机制详述
(4)NameNode、DataNode、SecondaryNameNode的作用及运行机制
(5)block 的划分原理、存储方式和配置文件
(6)hdfs的备份机制和文件管理机制
(7)HDFS文件系统的常用命令
(8)使用命令及JAVA语句操作hdfs中的文件
(9)rpc机制简介及HADFS中的rpc通信

3.MapReduce理论及实战
(1)深度分析google的MapReduce编程模型
(2)hadoop中的MapReduce工作原理
(3)通过演示单词计数程序,详细讲述mapreduce运行过程中类的调用过程
(4)详细讲述如何覆盖 Mapper 功能、如何覆盖 Reducer 功能。
(5)MapReduce job的生命周期中job提交、task分发和task执行
(6)MapReduce中block 的调度及作业分配机制
(7)讲解hadoop的计数器、排序、分组等算法
(8)通过一个小的应用,详细介绍如何在eclipse中编写MapReduce程序,打包成可在hadoop上运行的jar,并在集群上运行
(9)详细讲解运行结果的分析

4.hadoop生态环境介绍
(1)Hbase简介,包括HBase的基础概念 、数据模型、存储模型及hbase的伪分布和集群的安装
(2)ZooKeeper简介,包括ZooKeeper的安装、运行及示例
(3)Pig简介,包括Pig的安装、运行及示例
(4)Hive简介,包括Hive的安装、运行及示例
(5)sqoop简介,包括Sqoop介绍、命令、原理及流程
(6)nosql简介,包括nosql的概念、种类及发展趋势

(三)大数据分析思想、工具及实战案例
1.大数据分析思想介绍
(1)大数据分析的前世今生
(2)几种典型的大数据架构分析
(3)大数据分析过程描述
(4)大数据时代的数据分析思想的变革

2.Mahout,大数据分析的急先锋
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一个开源项目,它通过和hadoop配合,实现在推荐、分类等领域中的大数据分析。
(1)Mahout的下载、安装与部署
(2)UCI经典数据集介绍
(3)使用经典数据集测试和运行Mahout实现的算法
(4)主要算法包括:kmeans算法、canopy算法、dirichlet 算法和meanshift算法

3.RHadoop,R语言从小数据分析到大数据分析的化丽转身
(1)R语言简介
(2)安装并运行RHadoop
(3)RHadoop的逻辑结构
(4)Rhadoop实战案例—word cout
(5)与hadoop word count 函数比较分析

4.三个真实的大数据分析案例
(1)人大经济论坛日志分析,介绍日志分析的相关知识,以及人大经济论坛现在的日志管理现状,设计并实现适合人大经济论坛的基于hadoop架构的大数据日志分析系统,手动编写日志分析MapReduce程序,并在集群环境下运行自已的jar文件,实现从零起步到hadoop架构,直到实际的大数据分析真实案例的飞跃。
(2)基于旅游点评网站的文本挖掘,介绍文本挖掘的相关知识,使用网页爬虫抓取旅游点评网站的实际数据,实现数据的清洗和预处理,制定定时更新机制,并尝试使用手动编程实现MapReduce程序,在hdfs上运行和处理采集的数据,真正参与基于实际项目的大数据分析过程。
(4)基于Mahout的人大经济论坛主题推荐,介绍推荐系统和汉字主题推荐涉及的文本挖掘等相关知识,以及人大经济论坛主题推荐的项目背景,项目的需求分析以及基于hadoop+Mahout算法模型和系统架构设计解析,并同时使用手动编写MapReduce代码和利用Mahout提供的主题推荐算法两种方法解决人大经济论坛的主题推荐。

已有 1 人评分论坛币 热心指数 收起 理由
littlelianglian + 10 + 1 good job

总评分: 论坛币 + 10  热心指数 + 1   查看全部评分

使用道具

15
张冬阳 发表于 2015-1-30 14:51:22 |只看作者 |坛友微信交流群
大数据物联网,这些概念被人们提过了好长时间。距离爆发式的增长还有多久?

使用道具

16
littlelianglian 发表于 2015-1-30 15:22:20 |只看作者 |坛友微信交流群
张冬阳 发表于 2015-1-30 14:51
大数据物联网,这些概念被人们提过了好长时间。距离爆发式的增长还有多久?
根据数据显示(以搜索引擎关键词搜索量为准),大数据这个关键词的搜索量已经走向下坡,在15年,不是概念的提及,跟多的是将这个概念变成自己的技术。所以15年来说,各大企业需要的不是空想主义者,而是能实干出大数据技术的人。

使用道具

17
sunqing19870819 学生认证  发表于 2015-1-30 16:28:29 |只看作者 |坛友微信交流群
支持一下!!!

使用道具

18
wuzubin123 发表于 2015-1-30 22:02:02 |只看作者 |坛友微信交流群
谢谢分享

使用道具

19
zhangyingjie 发表于 2015-1-30 22:45:45 |只看作者 |坛友微信交流群
顶一下!

使用道具

20
bobsn 发表于 2015-1-31 03:40:12 |只看作者 |坛友微信交流群
dddddddddddddddddddddddddddd

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 11:45