人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R的运行效率问题

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: xmvivian

3424 1

R的运行效率问题 [推广有奖]

0关注
0粉丝

大专生

95%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 1 点
信用等级: 0 点
经验: 498 点
帖子: 42
精华: 0
在线时间: 91 小时
注册时间: 2008-2-21
最后登录: 2022-5-11

楼主

xmvivian 发表于 2008-5-7 11:45:00 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

菜鸟一个

如果用R处理几万或者几十万个观测值，OLS或者2SLS或者probit，速率怎么样？是不是要很长时间？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Probit 2SLS 观测值十万个 OLS 运行效率

相关帖子

使用道具举报

沙发

DM小菜鸟 发表于 2014-12-24 16:06:56 |只看作者 |坛友微信交流群

R会把所有的对象读存入虚拟内存中。对我们大多数用户来说，这种设计可以提高与R相互的速度，但是当分析大数据集时，这种设计会降低程序运行速度有时还会产生跟内存相关的错误。

内存限制主要取决于R的build版（32位还是64位），而在32位的windows下，取决于操作系统的版本。以cannot allocate vectoe of size开头的出错信息表示无法分配充足的连续内存，而以cannot allocate vector of length开头的出错信息表示超越了地址限制（address limit）。在处理大数据集时，应尽量使用64位版的R。对于各种build版，向量中的元素个数最大为2147483647。

在处理大数据集时有三方面应该考虑：（a）提高程序的效率，保证执行速度；（b）把数据储存在外部，以解决内存限制问题；（c）使用专门的统计方法来有效处理大数据量的问题。

有几种包可以实现在内存之外存储数据。解决之道是把数据保存在外部数据库或者硬盘里的二进制文件中，然后在需要的时候部分地读取。下表描述了几种有用的包：

QQ截图20141224161238.jpg

上面的包可以帮助克服R的内存限制。除此以外，当需要在有限时间内分析大数据集时，使用专门方法也是必须的。一些有用的方法将在下面介绍。

R提供了几种分析大数据集的包：

biglm 和 speedglm 包可以针对大数据集有效地拟合线性和广义线性模型。在处理大规模数据集时，这两个包提供了类似[size=0.8em]lm()和[size=0.8em]glm()的功能。
由 bigmemory 包可产生大规模矩阵，一些包可以提供分析这些大规模矩阵的函数。bigannalytics 包提供了k-means聚类、行统计量（column statistics）和一个对[size=0.8em]biglm()的封装。bigtabulate 包提供了[size=0.8em]table()、[size=0.8em]split()和[size=0.8em]tapply()的功能，bigalgebra 包提供了高等线性代数的函数。
biglars 包提供了最小角回归（least-angle regression）、lasso以及针对大数据集的逐步回归，数据集因太大而不能读入到内存中，这时候要配合 ff 包使用。
Brobdingnag 包可以用来处理大数字（大于2^1024）