我该选择先学习哪种编程语言。
不仅仅是编程语言,像SPSS、Modeler、WEKA等软件系统也是同样的情况。有越来越多的工具和编程语言,很难知道该选择哪一种。
事实是,你的时间有限。学习一门新的编程语言相当于一项巨大的投资,因此在选择语言时需要有战略性。
实际上这个问题没有标准答案,也没有万能的语言可以完成所有的工作,当你入门在入门选择语言时,你需要一种在这些领域都具有重要功能的语言。同时你需要执行这些任务的工具,以及在你所选语言中来学习这些技能的资源。
如上所述,你更多地需要关注流程和技术,而不是语法。
你需要学习如何解决问题。
你需要学习如何在数据中找到真知灼见。
为此,你需要掌握数据科学的3个核心技能领域:数据处理,数据可视化和机器学习。在R语言中掌握这些技能将比任何其他语言都容易。
一、数据处理
根据数据挖掘标准处理流程KDD,数据挖掘流程大致分为三个部分,即数据前处理、数据挖掘、报告展现。其中数据科学中80%的工作都是数据处理。俗话说“Garbage In,Garbage Out”。通常情况下,你需要花费大量时间来整理你的数据使。R语言中有一些很棒的数据管理工具。
R语言中的dplyr包使数据处理变得容易,这可以大大简化数据处理的工作流程。
二、数据可视化
ggplot2是最佳的数据可视化工具之一。ggplot2的好处是,在学习语法的同时,还学习如何思考数据可视化。所有的统计可视化都有很深层的结构。存在构建数据可视化的高度结构化框架,ggplot2基于该框架。
此外,当将ggplot2和dplyr组合在一起时,从数据中得出相关见解几乎毫不费力。
Echarts是有百度开发的一款免费、强大的图表生成和可视化库,其可以方便得对数据进行展示、交互、定制。使用echartR函数可以很方便的实现图形绘制。
(示例1-通过颜色映射销量)
三、统计分析
这个就不用多说了,R语言是由新西兰奥克兰大学的Ross Ihaka 和 Robert Gentleman发明。这两位都是统计学出身,因此,R一开始就是为统计分析服务最合适的语言。
四、机器学习
最后,还有机器学习。虽然我认为大多数数据科学初学者不应该急于学习机器学习(首先掌握数据探索更为重要),机器学习是一项重要的技能。当数据探索不再带来洞察力时,你则需要更强大的工具。
R语言提供了目前几乎所有主流的机器学习算法包,如神经网络、决策树、支持向量机、KNN算法、贝叶斯分类、组合算法等等。
CDA数据分析研究院结合市场需求开设R语言数据分析和数据挖掘两个专题课程,从零开始,由浅入深,包括初级语法及统计入门、中级建模方法进阶、高级案例应用三个阶段。如果你对R语言有兴趣,欢迎过来学习。
R语言最近开课: (CDA LEVEL I R 数据分析)
一、课程信息
北京 & 远程:2017年8月12日~9月03日(周末8天)
授课安排:现场班6900元,远程班4900元
(1) 授课方式:面授直播两种形式,中文多媒体互动式授课方式
(2) 授课时间:上午9:00-12:00,下午13:30-16:30,16:30-17:00(答疑)
(3) 学习期限:现场与视频结合,长期学习加练习答疑。
二、报名流程
1.在线填写报名信息
官网端:
(北京&远程)
微信端:
2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
三、课程大纲
第一阶段:数据分析概念与R编程
1.商业数据分析的本质
2.R介绍、R与RStudio安装
3.R语言编程与数据整合
4.R基本数据类型
5.R基本数据结构
6.R程序控制
7.函数与包
8.数据合并与规整
第二阶段:数理统计与SQL数据库
1.R语言编程与数据整合
2.SQL及关系型数据库基本概念
3.SQL语言与R SQL实现
4.描述性统计分析和特征选取
5.描述统计与探索数据分析
6.APPLY函数族
7.R基础绘图包
a.案例:畅销品分析
b.案例:产品销售情况指标分析
第三阶段:数理统计与数据可视化
1.描述性统计分析和特征选取
2.GGplot2绘图介绍
3.使用SQL进行数据汇总
4.统计推断基础
5.假设检验与单样本T检验
6.两样本T检验
7.方差分析
a.案例:产品销售情况指标展现
b.案例:房价影响因素分析
第四阶段:统计推断与精益管理
1.统计推断基础
2.相关分析、卡方检验
3.简单线性回归
4.精益化管理
5.Dashboard 设计与应用
6.特设分析(Ad Hoc Analysis)
7.对比测试(A/B testing)
a.案例:基于宏观经济指标的产品产量预测模型
b.案例:注册方式对客户转化率的影响
第五阶段:市场分析方法与模式识别模型
1.市场调研与数据采集方法
2.连续变量间关系探索与压缩
3.聚类分析(客户分群)
4.对应分析与多维尺度
a.案例:信贷综合打分
b.案例:各地经济发展数据分析
第六阶段:客户分析方法与分类模型
1.线性回归介绍
2.线性回归诊断
3.分类变量分析
a.案例:信用卡客户价值预测
b.案例:电信客户流失预测
第七阶段:时间序列与综合案例
1.时间序列的定义
2.指数平滑法
3.时间序列模型ARIMA方法
4.信用卡产能预测案例
5.营销效果评估
6.某品牌香烟市场调研案例
7.业务数据分析师课程总结
a.案例:人口数据预测
b.案例:航空公司客运量预测
如果你有R语言统计分析和业务分析的基础,对R数据挖掘和模型的知识有兴趣,也欢迎报名参加R数据挖掘的课程:
https://www.cda.cn/kecheng/31.html
1级2级连报更有8折优惠!
四、课程讲师
常国珍
CDA数据分析师讲师/北京大学商学博士
曾就职于亚信科技商业运营咨询部(BOC)、方正国际金融事业部、德勤管理咨询信息技术系统咨询部,多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集市与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。
瞿辉
美库尔公司分析经理/中国科学技术大学统计学硕士毕业
多年数据分析和挖掘的工作经历,精通SAS和R,对各种机器学习算法和统计模型都有深入研究,负责过保险、医药、零售以及电商等多个行业的数据分析项目,在客户画像、用户分群、精确营销、销售预测、营销组合优化等领域有丰富经验。
五、课程优惠
1. 全日制在读学生8折优惠(需提供学生证件证明);
2. 参加过论坛其他现场班老学员9折优惠;
3. 三人及以上9折优惠,五人及以上8折优惠;
4. 同时报名参加LEVELⅠ和LEVEL Ⅱ享受8折优惠。
联系我们
电话:010-68411404
手机:18511302788(王老师)QQ:2881989710
邮箱:wangzhenda@pinggu.org
—— Join Learn!
免费试听:
R语言数据分析基础:https://www.cda.cn/gkk/1.html
数据科学与R语言编程入门:https://www.cda.cn/gkk/21.html
汽车金融信用违约预测模型-R语言:https://www.cda.cn/gkk/19.html