R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程。
R软件是R语言的实现环境,是一套完整的数据处理、计算和制图软件系统,其功能包括数据存储和处理系统、数组运算工具、完整连贯的统计分析工具、优秀的统计制图功能、简便而强大的编程语言、可操纵数据的输入和输出、可实现分支和循环以及用户可自定义功能。
R软件提供了有弹性的、互动的环境来分析、可视及展示数据。它提供了若干统计程序包,以及一些集成的统计工具和各种数学计算、统计计算的函数,用户只需根据统计模型,指定相应的数据库及相关参数,便可灵活机动地进行数据分析等工作,甚至创造出符合需要的新的统计计算方法。
R语言的很多优秀特性并不为R语言社区以外的人所熟知:
1. R的标记语言可以制作可重复生成的Word和Powerpoint文档
R语言中的rmarkdown包可以制作可重复生成的Word文档和Powerpoint幻灯片,而这只需要改变一行YAML的代码。
2. 组建和运行一个可交互的网络应用只需要几行代码
几行R代码就可以生成一个可交互的网络应用。比方说如果使用R语言的flexdashboard包, 你只需要36行代码,就可以生成一个可交互的动态报表,来探索你的BMI指数与全国健康营养检查样本结果的关联。
3. 几行甚至一行R代码就可以支持网络应用的运行
另外一个很酷的功能是,通过rsconnect包,R语言还可以仅用一两行代码就支持网络应用的运行。这些应用既可以通过自己的服务器来支持,也可以用shinyapps.io这种云服务器。
4. 通过使用R语言的dplyr/dbplyr,几乎各种数据库都可以连接
使用dbplyr包,用R语言连接各种数据库,无论是本地的还是远程的,都非常方便。这个功能使R语言用户可以不用担心底层的数据库,而独立地从主流数据库中抽取数据。R语言的bigrquery包还可以直接利用BigQuery和其他大规模数据存储。
5. 本地或多个不同的数据存储,在R语言里可以利用相同的dblyr语法来操作
当你学会如何利用dplyr来转换数据,本地和远程的数据库、数据存储都可以利用相同的代码来操作。这个功能简化了也统一化了操作多个数据库和数据语言的过程。
6. 你可以用Keras和Tensorflow训练深度学习模型
使用keras包或TensorFlow接口,你可以利用R语言来学习预训练或者开发全新的深度学习模型。
7. R语言可以编写和支持应用程序接口(API)
Plumbr包可以把R函数直接转换成网络应用接口(API),并能很方便的集成到下游应用中去。如果你还安装有RstuodioConnect,这些函数可以像网络应用一样轻松地被部署。
8. 你可以使用R语言来生成电子游戏的界面
不仅是网络应用,R语言甚至可以生成电子游戏的界面。nessy 包可以帮助你生成并部署NES风格的Shiny应用。
9. 你可以直接通过R语言调用Spark集群来分析数据
你想用大规模数据训练又大又复杂的机器学习模型么?R语言的sparklyr包帮助你在单机或者大型的Spark集群上直接完成这项任务。
10. 你可以在R语言中以交互的方式学习R
R语言的swirl包可以用来生成可交互的R语言学习教程。
7月22-26日“R数据挖掘与机器学习”集中短训现场班
通过案例掌握R初高级_每讲均配有案例帮助迅速掌握应用
讲师介绍:
方匡南现为厦门大学经济学院统计系教授、博士生导师、耶鲁大学博士后,厦门大学数据挖掘研究中心副主任,国际统计学会会士,两岸关系和平发展协同创新中心研究员、全国工业统计学会理事、厦门统计学会常务理事。
主要究方向为数据挖掘、机器学习、应用统计、大数据风险管理及健康医疗大数据。
曾先后发表论文70多篇,其中在 JMVA、Nature子刊 Scientific Reports、CSDA、Annals of Operation Research、Biometrical Journal等国际权威期刊发表30多篇,在《管理科学学报》、《经济研究》、《统计研究》、《数量经济技术经济研究》等国内权威期刊发表40多篇。先后主持了国家自然科学基金面上项目、青年项目、国家社科基金重大项目子课题、国家统计局重大项目等学术纵向课题10多项。
有较丰富的数据挖掘实践经验,先后承担了华为、南方电网、华星光电、建行等30多项企业和政府数据挖掘项目,项目内容涉及互联网金融的大数据征信、智能制造中的数据挖掘、舆情分析与文本挖掘、深度学习与图像处理、景气指数预测预警等。
学员对象:
金融、医疗、通讯、咨询、电子商务等领域的数据分析人员、数据挖掘工程师、数据科学家;
高校硕士生、博士生、青年教师等。
开课信息:
时间:
初级:2019年7月22-24日(三天)
高级:2019年7月24-26日(三天)
全程:2019年7月22-26日 (五天)
地点:北京市海淀区厂洼街3号丹龙大厦附近
费用:
初级:3300元/ 2800元(本科及硕士在读优惠价)
高级:3600元/ 3100元(本科及硕士在读优惠价)
全程:6000元/ 5400元(本科及硕士在读优惠价)
(食宿自理)
安排:上午9:00-12:00;下午2:00-5:00;答疑
培训目的和特色:
1. 让学员快速入门并熟练掌握R语言,掌握如何利用R丰富的网上资料和帮助系统,学会基本的编程方法。
2. 以实际案例引入,深入浅出地讲解如何使用R语言进行数据挖掘和机器学习,让学员不仅掌握R语言的使用,更重要的是学会数据挖掘和机器学习的思想、原理和方法。
3. 学完本课程后,使学员基本上可以使用R语言进行实际的数据挖掘工作。尤其学会使用R语言对批量处理的实务数据分析,大大提高工作效率。
培训内容目录:
【初级班】
专题名称 | 授课内容 |
第1讲(3小时) R语言入门 | 目标:掌握R语言的基本用法 1.R语言介绍 2.编辑软件Rstudio使用 3.R程序包的载入与使用 4.数据对象及运算(向量、矩阵、数组、列表与数据框处理) |
第2讲(3小时) 数据读写 R基本编程 | 目标:掌握用R编写函数和数据的读写 1. R数据读入与读出 (读入txt、xls、SPSS、SAS、stata以及数据库文件) 2.R 函数编写 3.R的条件与循环函数 4.高效编程技巧介绍 |
第3讲(3小时) 数据预处理 探索性分析 | 目标:掌握数据预处理与探索性分析 1.数据预处理 2.缺失值处理 3.随机数生成 4.常用统计方法的蒙特卡洛模拟 5.随机抽样 6.单变量数据分析与作图 7.双变量数据分析与作图 8.多变量数据分析与作图 案例1:统计作图在调查数据中的应用 案例2:统计作图在临床医学中的应用 |
第4讲(3小时) 数据挖掘与机器学习入门 线性回归 | 目标:数据挖掘与机器学习入门 1.何为数据挖掘与机器学习 2.数据挖掘与机器学习的主要研究内容 3.有监督学习与无监督学习区别 4.一元线性回归 5.多元线性回归 6.逐步回归 案例1:广告营销计划案例 案例2:信用卡债务预测案例 案例3:房价预测案例 |
第5讲(3小时) 线性分类方法 | 目标:掌握经典线性分类方法及其应用 1.Logistic模型 2.LDA判别分类 3.QDA判别分类 案例1:信用卡违约预测案例 案例2:股价涨跌方向预测案例 |
第6讲(3小时) 重抽样方法 互动交流讨论 | 目标:掌握经典重抽样方法 1.验证集方法 2.交叉验证 3.Bootstrap方法 案例1:量化投资资产配置案例 案例2:汽车每加仑汽油里程数预测案例 互动交流讨论 |
【高级班】
专题名称 | 授课内容 |
第1讲 线性分类方法 | 目标:掌握经典线性分类方法及其应用 1.Logistic模型 2.LDA判别分类 3.QDA判别分类 案例1:信用卡违约预测案例 案例2:股价涨跌方向预测案例 |
第2讲(3小时) 重抽样方法 | 目标:掌握经典重抽样方法 1.验证集方法 2.交叉验证 3.Bootstrap方法 案例1:量化投资资产配置案例 案例2:汽车每加仑汽油里程数预测案例 |
第3讲(3小时) 决策树 组合预测 | 课程目标:掌握决策树和组合预测方法及其实际应用。 1.CART决策树 2.Bagging 3.随机森林 4.Boosting算法 案例1:棒球运动员薪水预测案例 案例2:心脏病预测案例 案例3:信用卡违约预测案例 |
第4讲(3小时) 支持向量机 | 课程目标:掌握支持向量机分类方法 1.间隔分类器 2.支持向量分类器 3.支持向量机 案例1:基因表达数据案例 案例2:股票涨跌方向预测 |
第5讲(3小时) 变量选择与高维数据 | 目标:掌握数据挖掘中高维数据分析方法及其实际应用 1.LASSO 2.SCAD 3.MCP 4.Group LASSO 案例1:基因筛选 案例2: 股票选股 |
第6讲(3小时) 无监督学习 主成分分析 主成分回归 聚类分析 | 目标:掌握无监督学习方法及其应用。 1.主成分分析 2.主成分回归 3.Kmeans聚类分析 4.系统聚类分析 案例1:广告支出主成分分析 案例2:犯罪率主成分分析 案例3:学生考试成绩主成分分析 案例4:客户细分聚类案例 |
往期京沪现场班:
优惠:
现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;
以上优惠不叠加。
报名流程:
1:点击“初级班/高级班/全程班报名”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:网上订单缴费(需要刷卡或对公转账的请报名后与我们联系);
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。
联系方式:
魏老师
QQ:1143703950
Mail:vip@pinggu.org
Tel:010-68478566