培训时间:上海:2018年1月8日—11日(统计4天);2018年1月22日—3月15日(R语言23天)
北京:2018年1月22日—25日(统计4天);2018年2月5日(R语言23天)
培训费用:现场:9600元;
远程:7680元。
培训地点:上海市闵行区虹桥镇古北路1838号创新园区3号楼4层
北京市海淀区厂洼街3号丹龙大厦B座三楼
学习方式:现场学习+同步现场直播学习+现场(在线)答疑 +录播学习
课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00
(现场班)
(直播班)
CDA讲师团介绍
CDA数据分析讲师徐老师
上师大数学系讲师,计算数学专业博士学位。
1996年9月~2000年7月,上海大学数学系,本科。
2000年9月~2002年7月,上海大学数学系,计算数学专业硕士研究生。
2002年9月~2005年7月,上海大学数学系,计算数学专业博士研究生。
2005年12月~至今,上海师范大学数学系讲师,主要承担《C++程序设计》、《SAS与数据挖掘》和《高等数学》等课程的教学任务。
CDA数据分析讲师Michael Liu老师
中国精算师,北美准精算师,金融数据分析师,中级经济师,研究生毕业于中央财经大学,拥有期货、证券、银行类资格证书以及广泛的金融保险行业从业经验,同经管之家相识多年,擅长于数据分析,有长期的SAS、SPSS、EXCEL实战经验和授课经历,为人和善,始终相信能帮助和影响他人变得更好才是人生的意义所在。
CDA数据分析讲师熊巍老师
统计学专业博士,加州大学伯克利分校统计学院高级访问学者,对外经济贸易大学大数据与风险管理中心成员、中国人民大学应用统计研究中心成员、具有丰富的统计学及数学教学经验,人大经济论坛讲师,研究方向为数据挖掘、机器学习、稳健高维降维、应用统计模型等,在国外SCI及国内核心外期刊上发表论文二十余篇并参与完成多项著作。
目前致力于大数据、超高维数据在交叉学科的前沿领域研究,主持并参与了包括国家自然科学基金项目在内的多项国家级课题及北京市自然科学基金、社会哲学规划项目等重大省部级课题,其中在研的有自己主持的教育部人文科学项目“基因与环境的交互效应对复杂疾病的影响及稳健地识别分析与应用”、以及参与的“大数据的统计学基础理论与分析技术创新研究”、“大数据下Leverage重要性抽样的稳健改进”等大数据项目。在学校承担多项课程,精通各种软件,正在编写《实用数据挖掘讲义》及《商务应用统计案例》。
CDA数据分析讲师傅老师
CDA数据分析讲师傅老师 数学系博士,研究领域:金融数学,曾担任咨询公司数据分析顾问,互联网金融公司风控模型顾问。
CDA数据分析讲师白老师
毕业与上海交通大学理学院,获得博士学位,主要研究领域包括概率论、数理统计、经济最优化、风险管理及衍生品定价等方面,有着多年的授课经验,发表了SCI及核心期刊论文多篇,多次指导学生参加全国数学建模竞赛并获得国家级奖及省级奖。
CDA数据分析讲师杨磊磊老师
博宇通达大数据部数据分析师,首都经济贸易大学应用统计专业大数据方向硕士,智慧交通大数据项目,电力大数据项目
CDA数据分析讲师郭照蕊老师
上海师范大学商学院副教授,硕士生导师。2013年7月毕业于上海财经大学,获管理学(会计学)博士学位;同年进入上海师范大学商学院任教。
2013年9月-2015年9月期间,在上海交通大学上海郭照蕊,高级金融学院从事金融工程博士后研究工作。在攻读博士之前,曾在广东海洋大学经济管理学院任教。
近几年,先后在包括《管理世界》、《审计研究》、《Review of Pacific Basin Financial Markets and Policies》等在内的各类国内外学术期刊上发表论文十余篇,多篇论文被人大复印资料全文转载。
2012年6月,获得2011年度潘序伦中青年会计、审计优秀论文奖;
2013年1月,获得教育部首批研究生国家奖学金;
2014年12月,获首届金融管理年会论文一等奖;
2015年9月,获中国博士后制度建立30周年纪念活动暨全国博士后学术论坛优秀论文奖(两篇);
2016年1月,获第二十二届中振科研基金优秀科研成果奖。
课程大纲
【第一部分】统计(4天24课时) | |||
统计基础 | 第一节 | 描述性统计 | 集中趋势 离散测度 |
第二节 | 统计量及其抽样分布 | 统计量 分布 样本均值的分布与中心极限定理 样本比例的抽样分布 两个样本均值之差的抽样分布 关于样本方差的分布 | |
第三节 | 参数估计 | 参数估计 一个总体参数的区间估计 两个总体参数的区间估计 估计量的求法 样本量的确定 | |
第四节 | 假设检验 | 假设检验、个样本t检验 配对样本的t检验、两独立样本t检验 | |
第五节 | 分类数据分析 | 分类数据与卡方统计量 拟合优度检验 列联分析、独立性检验 列联分析相关测量 线性回归 | |
第六节 | 矩阵运算 | 行列式 矩阵及其运算 矩阵的初等变换与线性方程组 向量组的线性相关性 相似矩阵 线性空间与线性变化 | |
【第二部分】R基础编程+统计分析(6天36课时) | |||
R编程基础 | 第一节 | R基本知识 | 准备、数据对象 运算、读写 |
第二节 | R基本语句结构及循环 | 语句结构、创建 循环函数 | |
第三节 | R数据清洗 | 时间、数据清洗 数据清洗 | |
第四节 | 文本对象处理 | 文本对象处理 正则表达式 | |
第五节 | R画图 | 基本绘图,图像格式 ggplot2 目前好用的扩展 | |
第六节 | R统计分析 | 参数估计 假设检验 | |
【第三部分】R数据挖掘(12天72课时) | |||
R数据挖掘 | 线性回归,逻辑回归,梯度下降,聚类,关联规则,主成分因子分析 | ||
关联规则,决策树,神经网络,贝叶斯,支持向量机,随机森林 | |||
【第四部分】数据分析应用案例(5天30课时) | |||
数据挖掘案例 | 如何在保险行业中使用决策树并展示其成果 | ||
如何在零售行业中应用Logistic回归和线性回归估计客户生命价值 | |||
如何利用客户分群实现保险行业中潜在客户的精准定位(K-means) | |||
基于关联规则和协同过滤算法的商品个性化推荐 |
课程简介
1、本课程从最基础的统计理论(描述性统计、区间估计、假设检验等),到基本的统计分析(T检验、方差分析等),最后到商业常用的模型(回归、因子分析、时间序列)。以深入浅出的方法,带大家逐步了解统计
2、本课程R编程基础主要了解R语言的基本概念以及基本编程语句,编程基础主要侧重R包的管理,R的数据结构以及R基本的函数和语句和R可视化,3天R统计主要有R语言的统计应用(统计推断、线性回归、主成分分析),学员利用几个公司的实际例子来更好的理解R的统计应用。
3、本课程数据挖掘基础理论与具体操作为主要内容,讲述数据挖掘的各主要步骤、算法和应用,并通过对实际案例的分析,帮助学生更加深入地理解常用的数据挖掘模型。本课程的要求学生能够使用R语言数据挖掘平台,通过对学生在获取数据、清理数据、分析数据和知识发现等不同环节的训练,帮助学生掌握在应用场景下独立使用数据挖掘理论与方法解决现实问题的能力。
4、《R语言与数据挖掘》课程的研究对象主要是各种主流的数据挖掘模型,主要有7个方面的内容,分别是决策树模型、聚类模型、支持向量机、贝叶斯网络、关联分析、文本分析。学生通过数据挖掘方面的学习,不仅可以掌握数据挖掘的相关理论和模型,而且可以通过不同案例的实务操作,掌握运用不同模型运用的技巧,为从事数据量化分析的工作提供必要的准备。
5、本阶段是以实际案例为主,数据分析应用案例都是现在应用最广泛的、最流行的案例。 这些案例分别来自医药,电商,互联网,金融,零售等行业经典的案例,也包含现在非常流行的算法(决策树,逻辑回归,线性回归,时间序列等),应用面非常广泛,这些案例通俗易懂,逻辑性强,讲解循序渐进,非常适合各行各业没有经验或者经验较少的学员。
课程重点
1、集中趋势的度量、离散程度的度量、偏态与峰态的度量、统计量的概念、几个分布的概念、正态分布导出的几个概念(卡方分布、t分布、F分布)、样本均值的分布与中心极限定理、样本比例的抽样分布、两个样本均值之差的抽样分布、样本方差的分布、参数估计的一般问题(最大似然估计)、一个总体参数的区间估计、两个总体参数的区间估计、样本量的确定、假设检验(2类错误)、一个总体参数的检验、两个总体参数的检验、分类数据分析
2、R的优点、R的对象、R读写数据、R子集、R去除缺失值、R向量运算构造(常见的基本运算函数、创建随机数、随机抽样)、R中的日期和时间、字符处理函数、分析性图标的基本原则、探索性图表、R绘图系统(基础绘图系统、Lattice绘图系统、ggplot2系统)、控制结构、函数创建和参数、循环函数、常见数据清理。
3、线性回归、最小二乘估计、评价线性回归的准确性、R2统计量、线性回归的共线性问题。
4、信用风险模型的业务理解、账龄分析、申请信用评级解释变量准备、初始信用违约预测之拒绝推断、KNN算法、决策树在变量选择的运用、变量筛选与数据清洗、连续变量分箱WOE转换、模型评估、生成评分卡、模型监测、分类模型建模流程:将所有的解释变量转化为连续变量。
5、分类变量的压缩、连续变量的压缩、水平变量编码转换、基于目标变量的转换-WOE、主成分分析、变量聚类。
6、层次聚类的思路、k-means聚类的思路和使用条件、预先处理变量、变量标准化、k-means聚类过程、轮廓系数、变量转换、用户画像的构建。
7、贝叶斯算法的优点、先验概率和后验概率、贝叶斯法则、连续变量的处理。
8、SVM原理、函数间隔与几何间隔、SVM线性问题、SVM非线性问题、核函数、松弛变量。
9、人工神经网络、感知器、多层感知器、BP神经网络原理。
10、决策树建模思路、Quinlan系列决策树建模原理、CART建模原理、模型修剪、模型评估、随机森林与组合算法、信息增益计算、ID3的缺点、比较多个变量的优先级、CART决策树原理、基尼系数、决策树建树原理、决策树方法总结、剪枝、CART的决策树修剪方法。
11、信用风险模型、分类变量的相关关系、逻辑回归、模型评估、因果关系建模与取数逻辑、估计方法、列联分析的原假设与备选假设、卡方检验、优势比、Logit回归与线性回归、Logit变换、logisitic回归模型评估、模型评估原则、样本内评估、评估指标汇总、ROC曲线、Lorenz曲线、累积提升度、K-S统计量、逻辑回归估计方法、极大似然估计。
12、决策树的应用(对未知数据进行分类,可以对未知数据进行预测),决策树输出变量的类型(分类树输出的是分类或离散变量、回归树输出的是连续变量)、决策树的工作流程、决策树的优缺点、决策树常用算法(C4.5、CART)、分裂准则(信息增益、基尼系数、最小方差)、决策树的停止条件、决策树的应用基础、数据变量预处理、剪枝、调参、决策树结果结合商业背景、决策树进阶的商业应用。
13、通用建模流程、逻辑回归的数理原理、逻辑回归模型实际应用、两阶段模型。
14、时间序列常用模型、ARIMA模型的优点、时间序列特征、白噪声序列、自回归模型(ACF、PACF、自回归阶数)、移动平均模型(序列相关性、ACF、PACF)、AMRA模型(ACF、PACF)、三个模型的比较、ARIMA模型、预测的评价指标、Box-Jenkins建模流程。
15、网站分析基础、主要分析工具(GA)、网站分析术语、Google Analytics工具分析流程、网站分析的基本流程、网站转化及漏斗分析。
课程目标
1、统计理论中了解一些常用的统计术语,能运用数据分析常用的一些统计方法(相关分析,列联分析,主成分分析,因子分析等)
2、熟练掌握R语言的基本语法,常用函数的用法,能运用R语言的可视化、R数据清洗、R文本处理等功能处理一些简单的数据,最后能使用R处理一些常用的统计模型(统计推断,线性回归,主成分分析)。
3、R数据挖掘需要掌握逻辑回归,聚类,关联规则,文本分析,决策树和贝叶斯等模型,神经网络和SVM有所了解就可以
4、深入的了解各种算法(决策树,logistic回归,线性回归,时间序列等)在行业中的引用,掌握数据分析在行业中的应用流程,遇到问题能够及时找到问题所在,根据自己以后的工作内容和方向针对性的对案例进行更加深入的学习。
报名福利(优惠)
1、现场班老学员可以享受9折优惠;
2、同一机构3人以上报名,9折优惠;
3、同一机构6人以上报名,8折优惠;
4、提前一个月报名优惠500元,可以贷款
5、参加此课程后,可以补差价参加就业班
6、赠送本课程视频;
7、专业老师在线答疑;
8、精致课程练习题供学员课后操作更易于学员理解与掌握所受知识,提高实战能力;
9、报名成功后发送老师课程讲义供学员提前预习;
10、免费参加CDA数据分析研究院俱乐部活动。
11、赠送经管之家(原人大经济论坛)论坛币1000
(前三项优惠不叠加)
报名流程
1:点击“立即报名”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:网上订单缴费;
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。
咨询方式
龚加勇
电话:010-53605625
手机:17773656856
Q Q: 1281241407
邮 箱:gongjiayong@pinggu.org