楼主: Mirror..
1706 4

[软件应用] 【知识速递】R语言学习路线和常用数据挖掘包 [推广有奖]

院士

21%

还不是VIP/贵宾

-

威望
1
论坛币
67318 个
通用积分
10.1197
学术水平
502 点
热心指数
518 点
信用等级
460 点
经验
42826 点
帖子
2409
精华
2
在线时间
716 小时
注册时间
2014-11-10
最后登录
2019-4-21

初级学术勋章 初级热心勋章 中级学术勋章

楼主
Mirror.. 在职认证  发表于 2014-12-29 16:20:03 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的 学习方式,最好的方式是——看书。目前,市面上介绍R语言的书籍很多,中文英文都有。那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把 自己练就成某个方面的高手呢?相信这是很多人心中的疑问。有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser 少走些弯路。

本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。

1、初级入门

《R语言实战》,这是高涛、肖楠等翻译的一本书详细全面介绍了入门、图形、统计、回归、方差、功效分析、广义线性模型、主成分、因子分析、缺失值处理等。 除此之外,还可以去读刘思喆的《153分钟学会R》。这本书收集了R初学者提问频率最高的153个问题。为什么叫153分钟呢?因为最初作者写了153个 问题,阅读一个问题花费1分钟时间,全局下来也就是153分钟了

2、高级入门

读了上述书籍之后,你就可以去高级入门阶段了。这时候要读的书有两本很经典的。《Statistics with R》和《The R book》。之所 以说这两本书高级,是因为这两本书已经不再限于R基础了,而是结合了数据分析的各种常见方法来写就的,比较系统的介绍了R在线性回归、方差分析、多元统 计、R绘图、时间序列分析、数据挖掘等各方面的内容,看完之后你会发现,哇,原来R能做的事情这么多,而且做起来是那么简洁。读到这里已经差不多了,剩下 的估计就是你要专门攻读的某个方面内容了。下面大致说一说。

3、绘图与可视化

亚里斯多德说,“较其他感觉而言,人类更喜欢观看”。因此,绘图和可视化得到很多人的关注和重视。那么,如何学习R画图和数据可视化呢?再简单些,如何画直方图?如何往直方图上添加密度曲线呢?我想读完下面这几本书你就大致会明白了。

首先,画图入门可以读《R Graphics》,个人认为这本是比较经典的,全面介绍了R中绘图系统。该书对应的有一个网站,google之就可以了。更 深入的可以读《Lattice:Multivariate Data Visualization with R》。上面这些都是比较普通的。当然,有比 较文艺和优雅的——ggplot2系统,看《ggplot2:Elegant Graphics for Data Analysis》。还有数据挖掘方 面的书:《Data Mining with Rattle and R》,主要是用Rattle软件,个人比较喜欢Rattle!当然,Rattle不 是最好的,Rweka也很棒!再有就是交互图形的书了,著名的交互系统是ggobi,这个我已经喜欢两年多了,关于ggobi的书有 《Interactive and Dynamic Graphics for Data Analysis With R and GGobi》,不 过,也只是适宜入门,更多更全面的还是去ggobi的主页吧,上面有各种资料以及包的更新信息!

4、计量经济学

关于计量经济学,首先推荐一本很薄的小册子:《Econometrics In R》,做入门用。然后,是 《Applied Econometrics with R》,该书对应的R包是AER,可以安装之后配合使用,效果甚佳。计量经济学中很大一部分是关于 时间序列分析的,这一块内容在下面的地方说。

5、时间序列分析

时间序列书籍的书籍分两类,一种是比较普适的书籍,典型的代表是: 《Time Series Analysis and Its Applications :with R examples》。该书介绍了各种时间序列 分析的经典方法及实现各种经典方法的R代码,该书有中文版。如果不想买的话,建议去作者主页直接下载,英文版其实读起来很简单。时间序列分析中有一大块儿 是关于金融时间序列分析的。这方面比较流行的书有两本《Analysis of financial time series》,这本书的最初是用的S- plus代码,不过新版已经以R代码为主了。这本书适合有时间序列分析基础和金融基础的人来看,因为书中关于时间序列分析的理论以及各种金融知识讲解的不 是特别清楚,将极值理论计算VaR的部分就比较难看懂。另外一个比较有意思的是Rmetrics推出的《TimeSeriesFAQ》,这本书是金融时间 序列入门的东西,讲的很基础,但是很难懂。对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。经济领域的时间序列有一种特殊的情况 叫协整,很多人很关注这方面的理论,关心这个的可以看 《Analysis of Integrated and Cointegrated Time Series with R》。最后,比较高级的一本书 是关于小波分析的,看《Wavelet Methods in Statistics with R》。附加一点,关于时间序列聚类的书籍目前比较少见, 是一个处女地,有志之士可以开垦之!

6、金融

金融的领域很广泛,如果是大金融的话,保险也要被纳入此间。用R做金融更多地需要掌握的是金融知识,只会数据分析技术意义寥寥。我觉得这些书对于懂金融、 不同数据分析技术的人比较有用,只懂数据分析技术而不动金融知识的人看起来肯定如雾里看花,甚至有人会觉得金融分析比较低级。这方面比较经典的书籍有: 《Advanced Topics in Analysis of Economic and Financial Data Using R》以及 《Modelling Financial Time Series With S-plus》。金融产品定价之类的常常要用到随机微分方程,有一本叫 《Simulation Inference Stochastic Differential Equations:with R examples》 的书是关于这方面的内容的,有实例,内容还算详实!此外,是风险度量与管理类。比较经典的有 《Simulation Techniques in Financial Risk Management》、 《Modern Actuarial Risk Theory Using R》和 《Quantitative Risk Management:Concepts, Techniques and Tools》。投资组合分析类和期权 定价类可以分别看《Portfolio Optimization with R》和 《Option Pricing and Estimation of Financial Models with R》。

7、数据挖掘

现在相关的书籍已经比较多了,可见<R语言经典书籍推荐>一文中推荐的几本书。

8、附注

很多书都已经有电子版。可以在一些群或新浪爱问csdn等里面去找。


与数据挖掘有关或者有帮助的R包和函数的集合

1、聚类

常用的包: fpc、cluster、pvclust、mclust

基于划分的方法:kmeans、pam、pamk、clara

基于层次的方法:hclust、pvclust、agnes、diana

基于模型的方法:mclust

基于密度的方法:dbscan

基于画图的方法:plotcluster、plot.hclust

基于验证的方法:cluster.stats

2、分类

常用的包:

rpart、party、randomForest、rpartOrdinal、tree、marginTree、maptre、survival

决策树:rpart、ctree

随机森林:cforest、randomForest

回归、 Logistic回归、 Poisson回归:glm、predict、residuals

生存分析:survfit, survdiff, coxph

3、关联规则与频繁项集

常用的包:

arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

DRM:回归和分类数据的重复关联模型

APRIORI算法,广度RST算法:apriori、drm

ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat

4、序列模式

常用的包: arulesSequences

SPADE算法: cSPADE

5、时间序列

常用的包:timsac

时间序列构建函数: ts

成分分解:decomp、decompose、stl、tsr

6、统计

常用的包: Base R、nlme

方差分析:aov、anova

密度分析:density

假设检验:t.test、prop.test、anova、aov

线性混合模型:lme

主成分分析和因子分析:princomp

7、图表

条形图:barplot

饼图:pie

散点图:dotchart

直方图:hist

密度图:densityplot

蜡烛图, 箱形图 boxplot

QQ (quantile-quantile) 图:qqnorm、qqplot、qqline

Bi-variate plot:coplot

树:rpart

Parallel coordinates:parallel、 paracoor、parcoord

热图, contour:contour、filled.contour

其他图:stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot,assocplot, mosaicplot

保存的图表格式:pdf、postscript、win.metafile、jpeg、bmp、png

8、数据操作

缺失值:na.omit

变量标准化:scale

变量转置:t

抽样:sample

堆栈:stack、unstack

其他:aggregate、merge、reshape

9、与数据挖掘软件Weka做接口

RWeka:通过这个接口,可以在R中使用Weka的所有算法。
来源:CSDN博客  作者:胡琦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言学习 数据挖掘 R语言 语言学 econometrics 知识

只想做一个勤勤恳恳的搬运工
沙发
cat.. 发表于 2014-12-29 18:19:38 |只看作者 |坛友微信交流群
{:0_251:}

使用道具

藤椅
Mirror.. 在职认证  发表于 2014-12-30 08:28:45 |只看作者 |坛友微信交流群
cat.. 发表于 2014-12-29 18:19
表情挺酷

使用道具

板凳
不再徘徊 发表于 2014-12-30 16:08:00 |只看作者 |坛友微信交流群
现在r刚入门,感觉楼主给出的方向很有参考价值,谢。

使用道具

报纸
请叫我大王 发表于 2014-12-30 16:44:23 |只看作者 |坛友微信交流群
R感觉学习起来好难。谢谢LZ贡献

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 16:38