楼主: EchoEstelle
1380 4

[统计软件] R运行的效率怎么样? [推广有奖]

  • 0关注
  • 31粉丝

已卖:174份资源

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

楼主
EchoEstelle 发表于 2014-8-7 00:15:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
比如,在不同型号的机器上的能处理的数据量,对不同复杂度问题给出运算结果的速率,
可以调用、输出不同类型数据、文件的效率,R语言本身的复杂程度于它给出结果的效率
都是怎么样的?

就我自己玩Sudoku的经验,有些特别难的,几乎需要记住所有格拥有、残缺的信息,才能
将格填出来,但是,只要记住了,填的过程会非常快,一气呵成,这里是在用大脑类比电
脑了,如果内存很足的运算的速度会很快,但就我自己的经验做进行内存的过程本身会花费
比较多的时间,估计在很复杂数据的处理里面也是一样的,存储和计算本身都各自需要蛮多
时间。那么,我会提出这样一个问题,怎么针对问题,合理分配存储和计算以达到速度
上的最快?这应该是个有价值的问题。
----------------------------------------------------------------------------------------------------------------
在R里面就专门有个处理比较复杂数据的pbdPROF包。

这个包里面包括一些profiling MPI的文件和剖析、分析和作图的工具。
MPI的意思就是Message Passing Interface,根据维基上的解释感觉这个就是实现了Paxos的结果。

文档里面专门介绍了一下benchPlot,我知道相关的一样东西是Benchmark,是抽象的一种分析工具,是将某样东西拿出来
和该领域内最好的东西去比较分析的一种工具。benchplot也是这样的意思吗?实际上,该软件包中的benchplot就是画一
重的或者多重的benchmark的。这感觉就是你能轻易而举的获得那个最高标准的数据,是别的公司的,可是这怎么可能,
我了解到的情况是,除非专门做第三方研究的,他们可以累积到很多不同客户的数据,数据是作为资产被保护的啊,除非
大家都承认说这个数据我是可以给任何人看的,也或许这里所benchmark的也就是大家都同意分享给别人的数据,比如上
市公司的财报,任何一个投资者、潜在的投资者都是可以看的。

文档中介绍的第三部分是,Example dataset,会是因为各种数据集很不相同吗?那里的直接描述翻译过来直接是,给出
测试(和打包实证?)的分析结果例子。我估计数据太多啦?没必要给出全部的,给出例子就够啦?再深究啦。。

这里面介绍到了五种类型,感觉是R中定义的五种文件格式,Classes,Methods,Package,data,utility。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:怎么样 benchmark Profiling interface package 所有格 电脑 信息 型号

已有 1 人评分经验 学术水平 热心指数 收起 理由
yangyuzhou + 60 + 1 + 1 鼓励积极发帖讨论

总评分: 经验 + 60  学术水平 + 1  热心指数 + 1   查看全部评分

我非我见我释我是我非我

沙发
URSIMON 发表于 2014-8-7 00:44:26
最近也开始关注学习这方面的东西,源于用笔记本(美版Y510P,8G内存)处理了一个将近70万条consumer review sentiment的text-mining job,足足26个小时!!!最后计算机都瘫了,做完就开始重装系统。。。。作为一个学习者不敢评价R如何如何,觉得肯定是有什么更好的办法自己不知道而已
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
yangyuzhou + 12 + 1 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 12  学术水平 + 1  热心指数 + 1   查看全部评分

藤椅
EchoEstelle 发表于 2014-8-7 00:47:29
URSIMON 发表于 2014-8-7 00:44
最近也开始关注学习这方面的东西,源于用笔记本(美版Y510P,8G内存)处理了一个将近70万条consumer review ...
可以找一些朋友把大家的电脑都用hadoop连起来,把别人的计算资源都用过来,我自己不懂啦,我估摸着很多大公司就是这么使的。
已有 1 人评分论坛币 热心指数 收起 理由
yangyuzhou + 12 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 12  热心指数 + 1   查看全部评分

板凳
yangyuzhou 发表于 2014-8-7 09:25:09
计算效率应该只跟算法的复杂度相关吧

报纸
Alfred_G 学生认证  发表于 2014-8-7 12:47:35
yangyuzhou 发表于 2014-8-7 09:25
计算效率应该只跟算法的复杂度相关吧
非常赞同~有一次跑分类变量的多元logistic模型,一个下午都没跑出来。第一是数据量大,第二是分类变量太多,迭代次数太多;第三就是计算量庞杂。
我计算机硬件其实还说得过去:i7的处理器,还有些固态。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 21:41