首先来个disclaimer:我认识R只有两年,2015开始因为一个regression modelling project 被导师逼学R或Octave或Matlab,python与C++我都不上手,因此选了看起来最容易的R 。事实证明我的判断是对的啊。(我是在国外求学,所以进入大学之前有机会做student attachment。)
与javascript或ruby相比,R不是个coding language,所以网上那些codeacademy/ coursera 没什么用。(除了coursera上有个machine learning by prof andrew ng 的还蛮不错)。我从网上下载一些ebook:
1)最有用的肯定是 max kuhn的 applied predictive modelling 2013。当然这是给新手的,所以除了code也会给很多讲解。比如说怎么做pca,为啥要做pca,怎么看context来调整pca。就是基本的processing of large datasets才开始 analysis。而且(好像是chapter 12或13)会有real life example 来解释怎么选models,performance metric等等。太有用了。就好像是有人来讲解jmlr的papers吧。最重要的是它会介绍好多好多有用的R libraries (好像称为 package)。regression models应有尽有:什么mars,svm,neural network,forests 甚至classification models 也有,去看看吧。
2)julian faraway 的 practical regression and anova using R 也不错。只是需要有一点数学基础。我还读了gilbert strang的intro to linear algebra 和一些mathematical statistics 书才了解这本书的一些内容。但是这还蛮基本的。如果你的R不错就可以不用看了。
3)doing bayesian data analysis。mining of massive datasets。pattern recognition and machine learning。这三本书不是针对R的,但我觉得如果你想真正成为一个R的高手就该对ml/ big data/ stats 有一定的认识。在大学念political science的朋友都得学R,何况我们这些用R来工作的人。这说明我们的R程度不能停留在怎么从csv中索取mean median mode或反复用着同样的black scholes model。我们需要非常熟悉每一个功能与models的利与弊,要在什么样的情况下来个cost benefit analysis。
4) 唯一有用的网站就是R的官方网站吧,就是 .ch 的那个,什么奇怪的function它都有解释和例子。还有就是jmlr journal有好多免费的maxhine learning research papers,可以练一练自己的R。还有Kaggle可以下载很多 datasets,也可以当作比赛赚钱。最后差点忘了这个!quantstart 上有很多怎么成为quant trader的资料。但是是英国人写的。所以很多课程,大学之类都仅限于英国 (通常美国人写的financial tech trading 比较国际化)。当然不是排斥英国人。这是个非常好的网站。想要转型成data scientist的人也可以参考。
好了先写到这儿吧。或许我还年轻,这些东西对写了几十年R code 的前辈们没什么卵用。不过我一路走来碰了许多障碍,希望新人可以根据我的一些介绍,更容易地走下去。话说回来我还很用心地学c++和python呢!我觉得只要掌握这三种language就好了。javascript ruby ada visual basic haskell 就让那些cs研究生去学吧~~~大家,共勉。


雷达卡



京公网安备 11010802022788号







