【你将会学到】
1、数据仓库诞生背景与概念介绍
2、常用数据仓库工具介绍
3、分布式数据仓库工具介绍
4、数据库的创建删除
5、表的创建删除
6、分区表管理表
7、数据的导入导出
8、Hive的查询:select from 语句、groupby语句、where语句、join语句
9、Hive 窗口函数、视图
10、Hbase原理讲解、安装部署
11、Hbase的使用:Python API、Hbase和其他组件集成
【课程内容】
第一章 Hive基础
1-1 Hive入门:数据仓库诞生背景与概念介绍、常用数据仓库工具介绍、分布式数据仓库工具介绍、
1-2 Hive入门:数据仓库诞生背景与概念介绍、常用数据仓库工具介绍、分布式数据仓库工具介绍、
1-3 Hive入门:数据仓库诞生背景与概念介绍、常用数据仓库工具介绍、分布式数据仓库工具介绍、
1-4 Hive入门:数据仓库诞生背景与概念介绍、常用数据仓库工具介绍、分布式数据仓库工具介绍、
1-5 Hive入门:数据仓库诞生背景与概念介绍、常用数据仓库工具介绍、分布式数据仓库工具介绍、
2-1 Hive中的数据定义 DDL:数据库的创建删除、表的创建删除、分区表管理表,数据的导入导出
2-2 Hive中的数据定义 DDL:数据库的创建删除、表的创建删除、分区表管理表,数据的导入导出
2-3 Hive中的数据定义 DDL:数据库的创建删除、表的创建删除、分区表管理表,数据的导入导出
2-4 Hive中的数据定义 DDL:数据库的创建删除、表的创建删除、分区表管理表,数据的导入导出
2-5 Hive中的数据定义 DDL:数据库的创建删除、表的创建删除、分区表管理表,数据的导入导出
3-1 Hive的查询:select from 语句、groupby语句、where语句
3-2 Hive的查询:select from 语句、groupby语句、where语句
3-3 Hive的查询:select from 语句、groupby语句、where语句
3-4 Hive的查询:select from 语句、groupby语句、where语句
3-5 Hive的查询:select from 语句、groupby语句、where语句
3-6 Hive的查询:select from 语句、groupby语句、where语句
4-1 Hive 窗口函数、视图
4-2 Hive 窗口函数、视图
4-3 Hive 窗口函数、视图
4-4 Hive 窗口函数、视图
第二章 Hbase基础
1-1 Hbase原理讲解、安装部署
1-2 Hbase原理讲解、安装部署
1-3 Hbase原理讲解、安装部署
1-4 Hbase原理讲解、安装部署
1-5 Hbase原理讲解、安装部署
1-6 Hbase原理讲解、安装部署
2-1 Hbase的使用:Python API、Hbase和其他组件集成
2-2 Hbase的使用:Python API、Hbase和其他组件集成
2-3 Hbase的使用:Python API、Hbase和其他组件集成
2-4 Hbase的使用:Python API、Hbase和其他组件集成
2-5 Hbase的使用:Python API、Hbase和其他组件集成
2-6 Hbase的使用:Python API、Hbase和其他组件集成
2-7 Hbase的使用:Python API、Hbase和其他组件集成
【授课形式】
线上录播
【课程说明】
HBase实际上是一个在HDFS上开发的面向列的分布式的开源非关系型分布式数据库(NoSQL)。它典型的可靠性强、性能稳定、面向列、可伸缩、可实现实时读写的特点,使其成为存储非结构化、半结构化松散数据的不二之选。Hbase以Hadoop HDFS为其文件存储刺痛,利用Hadoop MapReduce来处理Hbase中的海量数据,并利用Zookeeper作为其协同服务工具。可以实现数据的高速读写、自动分片、自动故障转移等。Hbase还可以通过预先分区、Rowkey优化、减少列族数量、缓存策略、设置存储生命周期、硬盘配置、分配合适的内存给RegionServer服务、批量写入、请求多线程、设置Reigon、Zookeeper客户端同时访问并发连接等多方式进行优化,从而提高Hbase的工作效率和稳定性。是目前使用最多的Nosql数据库工具。
HIVE是Hadoop的一个数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,将SQL语句转化为MapReduce任务进行运作。HIVE不仅提供了一个熟悉SQL的用户所熟悉的编程模型,还消除了大量的通用代码,甚至是那些有时不得不使用Java编写的令人棘手的代码,学员通过本课程的学习可以使用HIVE进行数据仓库的统计分析。
Hive是建立在Hadoop上的数据仓库基础架构,他提供了一系列可以进行数据提取转化加载(ETL)的工具,它定义了简单的类似于SQL的HQL语言作为操作语言,不但可以运用SQL语句进行数据查询,还可以调用MapReduce的mapper和reducer来处理内建mapper和reducer无法完成的复杂分析工作。使用Hive的命令接口,就像使用关系型数据库Mysql一样简单,其中大部分的查询语句的及其类似的,区别在于:Hive是服务于分布式集群架构的数据库,而关系型数据库是服务于本地文件的数据库;Hive的计算模型是基于MapReducer的,而关系型数据库是基于自己设计的计算模型;Hive是为海量数据挖掘而设计的,实时性较差,但关系型数据库可以更好的处理实时数据;Hive继承了Hadoop优良特性,很容易拓展自己的存储和计算能力,而这方面关系型数据则弱的多。
基于以上内容,相信大家就了解为什么要将Hive作为重要的内容进行讲解,其主要原因还是:基于大数据平台架构的大数据处理方式,需要有更适配的数据仓库作为支持,去解决关系型数据库处理海量数据面临的一些列问题。学员完成该阶段学习,将能够对大数据很多领域的应用有很深刻的认识,从而不断的提升自身竞争力,成为市场抢手的大数据人才。
CDA大数据分析将Hbase和Hive作为重点课程内容设置,从Hbase入门开始,逐步到Hbase安装部署、Hbase核心原理讲解、Hbase Shell基本操作、Hbase其他组件的介绍,帮助学员系统化的掌握Hbase的工作原理及运用。
【要求】
有一个稳定的运行环境
有一定的逻辑思维
有一定的分析能力和的洞察力
【本课程包括】
6天的线上录播课程
进入课程:《分布式数据仓库Hbase与hive》
DA内容精选