一、开课时间
时间:2017年12月11日-2018年1月1日(十五天)
二、课程定价
费用:600元/天 (赠送录制视频)
三、学习方式
1、上课方式:同步现场直播学习+录播学习+在线答疑 +1万次反复观看
2、课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00
3、直播课程,开课即学
4、在线反复观看,1万次反复观看
四、报名福利(优惠)
1、现场班老学员可以享受9折优惠;
2、同一机构3人以上报名,9折优惠;
3、同一机构6人以上报名,8折优惠;
4、赠送R语言课程视频;
5、专业老师在线答疑;
6、精致课程练习题供学员课后操作更易于学员理解与掌握所受知识,提高实战能力;
7、报名成功后发送老师课程讲义供学员提前预习;
8、提供就业培训、就业指导、就业面试题;
9、免费参加CDA数据分析研究院俱乐部活动。
10、赠送经管之家(原人大经济论坛)论坛币1000
(前三项优惠不叠加)
五、讲师介绍
CDA数据分析讲师杨磊磊老师
博宇通达大数据部数据分析师,首都经济贸易大学应用统计专业大数据方向硕士,智慧交通大数据项目,电力大数据项目
CDA数据分析讲师熊巍老师
统计学专业博士,加州大学伯克利分校统计学院高级访问学者,对外经济贸易大学大数据与风险管理中心成员、中国人民大学应用统计研究中心成员、具有丰富的统计学及数学教学经验,人大经济论坛讲师,研究方向为数据挖掘、机器学习、稳健高维降维、应用统计模型等,在国外SCI及国内核心外期刊上发表论文二十余篇并参与完成多项著作。
目前致力于大数据、超高维数据在交叉学科的前沿领域研究,主持并参与了包括国家自然科学基金项目在内的多项国家级课题及北京市自然科学基金、社会哲学规划项目等重大省部级课题,其中在研的有自己主持的教育部人文科学项目“基因与环境的交互效应对复杂疾病的影响及稳健地识别分析与应用”、以及参与的“大数据的统计学基础理论与分析技术创新研究”、“大数据下Leverage重要性抽样的稳健改进”等大数据项目。在学校承担多项课程,精通各种软件,正在编写《实用数据挖掘讲义》及《商务应用统计案例》。
CDA数据分析讲师傅毅老师
上海师范大学商学院,副教授,同济大学数学系博士,研究领域:金融数学,曾担任咨询公司数据分析顾问,互联网金融公司风控模型顾问
CDA数据分析讲师白云芬老师
毕业与上海交通大学理学院,获得博士学位,主要研究领域包括概率论、数理统计、经济最优化、风险管理及衍生品定价等方面,有着多年的授课经验,发表了SCI及核心期刊论文多篇,多次指导学生参加全国数学建模竞赛并获得国家级奖及省级奖。
CDA数据分析讲师郭照蕊老师
上海师范大学商学院副教授,硕士生导师。2013年7月毕业于上海财经大学,获管理学(会计学)博士学位;同年进入上海师范大学商学院任教。
2013年9月-2015年9月期间,在上海交通大学上海郭照蕊,高级金融学院从事金融工程博士后研究工作。在攻读博士之前,曾在广东海洋大学经济管理学院任教。
近几年,先后在包括《管理世界》、《审计研究》、《Review of Pacific Basin Financial Markets and Policies》等在内的各类国内外学术期刊上发表论文十余篇,多篇论文被人大复印资料全文转载。
2012年6月,获得2011年度潘序伦中青年会计、审计优秀论文奖;
2013年1月,获得教育部首批研究生国家奖学金;
2014年12月,获首届金融管理年会论文一等奖;
2015年9月,获中国博士后制度建立30周年纪念活动暨全国博士后学术论坛优秀论文奖(两篇);
2016年1月,获第二十二届中振科研基金优秀科研成果奖。
六、课程简介
R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。在高校以及统计分析领域非常受欢迎。
R编程基础主要了解R语言的基本概念以及基本编程语句,编程基础主要侧重R包的管理,R的数据结构以及R基本的函数和语句和R可视化,R统计主要有R语言的统计应用(统计推断、线性回归、主成分分析),学员利用几个公司的实际例子来更好的理解R的统计应用。
R数据挖掘基础理论与具体操作为主要内容,讲述数据挖掘的各主要步骤、算法和应用,并通过对实际案例的分析,帮助学生更加深入地理解常用的数据挖掘模型。本课程的要求学生能够使用R语言数据挖掘平台,通过对学生在获取数据、清理数据、分析数据和知识发现等不同环节的训练,帮助学生掌握在应用场景下独立使用数据挖掘理论与方法解决现实问题的能力。《R语言与数据挖掘》课程的研究对象主要是各种主流的数据挖掘模型,主要有7个方面的内容,分别是决策树模型、聚类模型、支持向量机、贝叶斯网络、关联分析、文本分析
七、课程大纲
第一章:R编程基础
第一节:R基本知识
1、准备
(1)介绍
(2)帮助
(3)如何提问
(4)安装
(5)设置工作路径
2、数据对象
(1)数据类型
(2)取子集
3、矩阵运算
4、读取写出数据(从各种文件,txt,json,xml,excel,mysql等)
第二节:R基本语句结构及循环
1、语句结构
(1)控制结构(顺序、条件、循环))
2、创建
(1)创建随机数
(2)常见分布
(3)创建函数
3、循环函数(常用循环函数lapply、tapply、split、mapply、apply等等)
第三节:R数据清洗
1、日期时间对象及处理
2、数据清洗
(1)数据总结
(2)创建新变量
3、数据清洗(规整数据(长型, reshape,plyr,dplyr包))
第四节:文本对象处理
1、文本对象处理
2、正则表达式
第五节:R画图
1、基本绘图,图像格式(pdf、png、jpeg)
2、ggplot2
3、目前好用的扩展,github,echarts,shiny,slidify
第六节:R统计分析
1、统计推断
2、线性回归
3、主成分分析
第二章:R数据挖掘
1、逻辑回归,聚类,关联规则,文本分析
2、决策树,神经网络,贝叶斯,SVM
八、课程重点
1、R的优点、R的对象、R读写数据、R子集、R去除缺失值、R向量运算构造(常见的基本运算函数、创建随机数、随机抽样)、R中的日期和时间、字符处理函数、分析性图标的基本原则、探索性图表、R绘图系统(基础绘图系统、Lattice绘图系统、ggplot2系统)、控制结构、函数创建和参数、循环函数、常见数据清理。
2、线性回归、最小二乘估计、评价线性回归的准确性、R2统计量、线性回归的共线性问题。
3、信用风险模型的业务理解、账龄分析、申请信用评级解释变量准备、初始信用违约预测之拒绝推断、KNN算法、决策树在变量选择的运用、变量筛选与数据清洗、连续变量分箱WOE转换、模型评估、生成评分卡、模型监测、分类模型建模流程:将所有的解释变量转化为连续变量。
4、分类变量的压缩、连续变量的压缩、水平变量编码转换、基于目标变量的转换-WOE、主成分分析、变量聚类。
5、层次聚类的思路、k-means聚类的思路和使用条件、预先处理变量、变量标准化、k-means聚类过程、轮廓系数、变量转换、用户画像的构建。
6、贝叶斯算法的优点、先验概率和后验概率、贝叶斯法则、连续变量的处理。
7、SVM原理、函数间隔与几何间隔、SVM线性问题、SVM非线性问题、核函数、松弛变量。
8、人工神经网络、感知器、多层感知器、BP神经网络原理。
9、决策树建模思路、Quinlan系列决策树建模原理、CART建模原理、模型修剪、模型评估、随机森林与组合算法、信息增益计算、ID3的缺点、比较多个变量的优先级、CART决策树原理、基尼系数、决策树建树原理、决策树方法总结、剪枝、CART的决策树修剪方法。
10、信用风险模型、分类变量的相关关系、逻辑回归、模型评估、因果关系建模与取数逻辑、估计方法、列联分析的原假设与备选假设、卡方检验、优势比、Logit回归与线性回归、Logit变换、logisitic回归模型评估、模型评估原则、样本内评估、评估指标汇总、ROC曲线、Lorenz曲线、累积提升度、K-S统计量、逻辑回归估计方法、极大似然估计。
九、课程目标
1、熟练掌握R语言的基本语法,常用函数的用法,能运用R语言的可视化、R数据清洗、R文本处理等功能处理一些简单的数据,最后能使用R处理一些常用的统计模型(统计推断,线性回归,主成分分析)。
2、R数据挖掘需要掌握逻辑回归,聚类,关联规则,文本分析,决策树和贝叶斯等模型,神经网络和SVM有所了解就可以。
十、报名流程及咨询
1. 提交报名信息:http://www.peixun.net/main.php?mod=buy&cid=1067
2. 给予反馈,确认报名信息
3. 交费
开户行:北京农商银行四季青支行万寿寺分理处
户名:北京国富如荷网络科技有限公司
卡号:0404 1001 0300 0003 092
支付宝:guofuruhe@126.com
户名:北京国富如荷网络科技有限公司
4. 邮递发票
咨询方式
龚加勇
电话:010-53605625
手机:17773656856
Q Q: 1281241407