大家使用R时会普遍发现,基本版R处理大数据集的能力是有点虚的。当然,这里我们所指的大数据集是10~100GB的数据。我个人在一段时间内也是这样认为的。当然,有像Revolution Analytic这样的公司,将分布式计算与R紧密的结合在一起,使得在大数据集的计算上上升到了一个新的高度。但是如今,我发现在真正意义上的大数据集问题上,R几乎是唯一的统计语言。所谓真正意义的大数据是指向Google,Bing这样的规模。在这样的搜索中,数据集的大小通常是以TB,PB来衡量的。这些公司有自己的Map/Reduce架构的系统,结合其软件工程师的智慧,将R语言嵌入相应的系统,成为统计模型及函数的执行语言。据个人所知,R是唯一一个在这样大规模系统下使用的统计语言。当然,这样的可用性,与R的开源性质是分不开的。本身优质的设计和开源的性质,使得R可以再计算层面上融入无限量的智慧,将统计计算推向极致。
所以,为R撒花吧。