CDA大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce、Hive和Hbase等理论知识和基于Spark平台的大数据分析和机器学习应用,详细演示Hadoop三种模式的安装配置,以案例的形式,讲解基于PySpark技术的回归、分类和聚类分析等大数据分析场景和案例。课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,从零开始学习hadoop搭建,掌握Spark。讲解案例包括但不限于金融大数据分析、气象大数据分析、Web海量日志大数据分析、智慧高速大数据分析等。
学习目标
- 掌握使用Hadoop架构应用于大数据分析
- 掌握使用大数据分析之数据库理论和工具Mysql、Hbase、Hive和Sqoop
- 掌握使用Spark-SQL进行交互式数据查询
- 掌握使用Spark-Streaming流式计算框架
- 掌握使用Spark-MLlib进行机器学习
- 掌握使用Spark-GraphX进行图计算
- 掌握使用Pyspark进行大数据分析和机器学习
- 掌握企业真实的大数据分析场景案例
学习对象和基础
岗位职责
- 应用机器学习等技术对海量数据建模及分析,包括但不限于数据挖掘、数据分析等。
- 根据需求学习前沿机器学习算法,并完善已有算法的研发,以提高模型实战效果。
- 全流程参与产品设计与研发,实时监测模型实战效果,持续提升产品价值。
- 完成上级领导安排的其他工作。
岗位要求
- 本岗位要求本科或以上学历,自于对思维能力要求较高的理工类专业,例如数学,统计,计量经济学,计算机,金融工程,理论物理等,具备扎实的数学与统计基础,熟练掌握微积分、线代代数,概率论,数理统计等学科的理论和应用。
- 对于机器学习算法有深入的了解,熟练运用SQL、R、Python等工具。
- 具有突出的分析问题和解决问题的能力,较强的自我驱动力,学习能力及沟通协调能力。
- 对于未知领域有强烈的好奇心,敢于尝试新鲜事物,在过往的学习及工作经历中表现出卓著的创造力。具备批判性思维,了解模型的假设与限制,实践中的优缺点,缺失/异常数据的处理等,不局限于使用现成的软件包。
目标人群
- 对大数据分析感兴趣的计算机数学等理工科背景的学生
- 对大数据感兴趣从事数据开发、数据管理、数据治理等人员
- 有意向转行大数据分析岗位的数据分析师
- 有意向从事大数据相关职业的java工程师
课程内容
第1章预习课程
- 大数据分析基础
- Linux&Ubuntu操作系统基础
第2章大数据前沿应用与开源框架Hadoop
- 大数据时代前沿与技术
- Hadoop生态系统和技术栈
- Hadoop单机环境搭建
- Hadoop伪分布式集群搭建
- Hadoop完全分布式集群搭建
- 安装和使用Ubuntu系统
- HDFS分布式文件系统介绍
- HFDS进行文件读写操作
- MapReduce编程概念、框架和流程
- Hadoop & Yarn知识介绍
第3章分布式数据仓库技术-Hbase/Hive
- Hbase简介与架构
- Hbase集群模式安装
- Hbase Shell详解
- Hive基础知识
- Hive技术架构
- Hive DDL与DML语言介绍
第4章关系型数据库技术-Mysql理论及实战
- 数据库的概念与技术、创建数据库
- 数据表操作、数据类型与约束条件
- 数据表插入数据与导入外部数据方法
- 检查与修改数据表
- SQL常用函数介绍
- SQL单表查询与多表查询
- 查询操作符与子查询
- SQL实战:使用SQL语句处理及查询电商业务数据
第5章分布式计算引擎-Spark入门
- Scala语法知识介绍
- Scala函数
- Scala对象操作
- Spark简介
- Spark运行架构
- RDD的创建和操作
- Spark SQL简介
- 临时表和SQL查询
第6章分布式计算引擎-Spark进阶
- 日志采集系统Flume和分布式消息队列Kafka入门
- 流式计算框架Spark Streaming基本原理及使用方法
- 流式计算框架Structured Streaming基本原理及使用方法
- Spark GraphX入门及基本使用方法
- 分布式算法库Spark MlLib入门介绍
- Spark ML与Spark MLLib
- 机器学习工作流
- 机器学习项目-房价预测
第7章大数据可视化
- 绘图思想的基本原理
- Python数据可视化包-Matplotlib介绍
- 使用Matplotlib进行基本的图形绘制
- 使用Python数据处理包Pandas做可视化
- Python数据可视化包-Seaborn介绍与图形绘制
- Python数据可视化包-Pyecharts介绍与图形绘制
- 数据可视化技巧与方法
第8章大数据与Python结合-Pyspark机器学习
- Spark数据结构及编程语言接口
- PySpark开发环境搭建
- PySpark编程入门:Spark基本数据结构
- PySpark编程入门:PySpark常用语句
- Spark与分布式数据库和分布式数据仓库的集成方法
- 采用PySpark读取分布式数据库中数据
- PySpark数据清洗案例
- 数据挖掘和机器学习的基本思想与方法论
- 机器学习部分算法串讲:有监督、无监督、半监督
- 机器学习实战项目介绍
第9章大数据企业项目案例实做
- 大数据交通案例
进入课程:《大数据分析师》