楼主: CDA网校
445 0

[其他] 大数据分析师 [推广有奖]

管理员

大师

64%

还不是VIP/贵宾

-

威望
3
论坛币
34193 个
通用积分
3108.4541
学术水平
260 点
热心指数
268 点
信用等级
235 点
经验
195637 点
帖子
5162
精华
19
在线时间
3720 小时
注册时间
2019-9-13
最后登录
2024-5-31

初级热心勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
课程简介
CDA大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce、Hive和Hbase等理论知识和基于Spark平台的大数据分析和机器学习应用,详细演示Hadoop三种模式的安装配置,以案例的形式,讲解基于PySpark技术的回归、分类和聚类分析等大数据分析场景和案例。课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,从零开始学习hadoop搭建,掌握Spark。讲解案例包括但不限于金融大数据分析、气象大数据分析、Web海量日志大数据分析、智慧高速大数据分析等。

学习目标
  • 掌握使用Hadoop架构应用于大数据分析
  • 掌握使用大数据分析之数据库理论和工具Mysql、Hbase、Hive和Sqoop
  • 掌握使用Spark-SQL进行交互式数据查询
  • 掌握使用Spark-Streaming流式计算框架
  • 掌握使用Spark-MLlib进行机器学习
  • 掌握使用Spark-GraphX进行图计算
  • 掌握使用Pyspark进行大数据分析和机器学习
  • 掌握企业真实的大数据分析场景案例


学习对象和基础
  • 大数据业务工作迟迟得不到进展人士
  • 针对数据分析、数据挖掘岗位转型、提拔涨薪、技能优化等的职场白领
  • 未来准备从事大数据相关工作的计算机专业大学生人群
  • 需要有统计学基础和编程基础最佳(Java或Python)


岗位职责
  • 应用机器学习等技术对海量数据建模及分析,包括但不限于数据挖掘、数据分析等。
  • 根据需求学习前沿机器学习算法,并完善已有算法的研发,以提高模型实战效果。
  • 全流程参与产品设计与研发,实时监测模型实战效果,持续提升产品价值。
  • 完成上级领导安排的其他工作。


岗位要求
  • 本岗位要求本科或以上学历,自于对思维能力要求较高的理工类专业,例如数学,统计,计量经济学,计算机,金融工程,理论物理等,具备扎实的数学与统计基础,熟练掌握微积分、线代代数,概率论,数理统计等学科的理论和应用。
  • 对于机器学习算法有深入的了解,熟练运用SQL、R、Python等工具。
  • 具有突出的分析问题和解决问题的能力,较强的自我驱动力,学习能力及沟通协调能力。
  • 对于未知领域有强烈的好奇心,敢于尝试新鲜事物,在过往的学习及工作经历中表现出卓著的创造力。具备批判性思维,了解模型的假设与限制,实践中的优缺点,缺失/异常数据的处理等,不局限于使用现成的软件包。


目标人群
  • 对大数据分析感兴趣的计算机数学等理工科背景的学生
  • 对大数据感兴趣从事数据开发、数据管理、数据治理等人员
  • 有意向转行大数据分析岗位的数据分析师
  • 有意向从事大数据相关职业的java工程师


课程内容
第1章预习课程
  • 大数据分析基础
  • Linux&Ubuntu操作系统基础

第2章大数据前沿应用与开源框架Hadoop
  • 大数据时代前沿与技术
  • Hadoop生态系统和技术栈
  • Hadoop单机环境搭建
  • Hadoop伪分布式集群搭建
  • Hadoop完全分布式集群搭建
  • 安装和使用Ubuntu系统
  • HDFS分布式文件系统介绍
  • HFDS进行文件读写操作
  • MapReduce编程概念、框架和流程
  • Hadoop & Yarn知识介绍

第3章分布式数据仓库技术-Hbase/Hive
  • Hbase简介与架构
  • Hbase集群模式安装
  • Hbase Shell详解
  • Hive基础知识
  • Hive技术架构
  • Hive DDL与DML语言介绍

第4章关系型数据库技术-Mysql理论及实战
  • 数据库的概念与技术、创建数据库
  • 数据表操作、数据类型与约束条件
  • 数据表插入数据与导入外部数据方法
  • 检查与修改数据表
  • SQL常用函数介绍
  • SQL单表查询与多表查询
  • 查询操作符与子查询
  • SQL实战:使用SQL语句处理及查询电商业务数据

第5章分布式计算引擎-Spark入门
  • Scala语法知识介绍
  • Scala函数
  • Scala对象操作
  • Spark简介
  • Spark运行架构
  • RDD的创建和操作
  • Spark SQL简介
  • 临时表和SQL查询

第6章分布式计算引擎-Spark进阶
  • 日志采集系统Flume和分布式消息队列Kafka入门
  • 流式计算框架Spark Streaming基本原理及使用方法
  • 流式计算框架Structured Streaming基本原理及使用方法
  • Spark GraphX入门及基本使用方法
  • 分布式算法库Spark MlLib入门介绍
  • Spark ML与Spark MLLib
  • 机器学习工作流
  • 机器学习项目-房价预测

第7章大数据可视化
  • 绘图思想的基本原理
  • Python数据可视化包-Matplotlib介绍
  • 使用Matplotlib进行基本的图形绘制
  • 使用Python数据处理包Pandas做可视化
  • Python数据可视化包-Seaborn介绍与图形绘制
  • Python数据可视化包-Pyecharts介绍与图形绘制
  • 数据可视化技巧与方法

第8章大数据与Python结合-Pyspark机器学习
  • Spark数据结构及编程语言接口
  • PySpark开发环境搭建
  • PySpark编程入门:Spark基本数据结构
  • PySpark编程入门:PySpark常用语句
  • Spark与分布式数据库和分布式数据仓库的集成方法
  • 采用PySpark读取分布式数据库中数据
  • PySpark数据清洗案例
  • 数据挖掘和机器学习的基本思想与方法论
  • 机器学习部分算法串讲:有监督、无监督、半监督
  • 机器学习实战项目介绍

第9章大数据企业项目案例实做
  • 大数据交通案例
DA内容精选
进入课程:《大数据分析师》


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据分析师 数据分析师 大数据分析 数据分析 大数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-31 18:44