请选择 进入手机版 | 继续访问电脑版
楼主: complicated
6310 2

[问答] arules里transactions类型数据转换效率的问题 [推广有奖]

  • 3关注
  • 18粉丝

副教授

65%

还不是VIP/贵宾

-

威望
0
论坛币
6483 个
通用积分
3860.1146
学术水平
88 点
热心指数
86 点
信用等级
58 点
经验
21958 点
帖子
506
精华
0
在线时间
1423 小时
注册时间
2007-6-16
最后登录
2023-1-8

complicated 在职认证  发表于 2015-12-22 17:23:16 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教板上各位大神,我想用arules包里的apriori做关联规则挖掘,原始数据结构如下

‘data.frame’:        3750293 obs. of 2 variables:   
$ itemname: Factor w/ 72 levels “AAA”,”BBB”,..: 13 53 50 26 48 35 46 13 53 26 …   

$ id : num 1 1 1 1 1 1 2 2 2 2 …


用as(split( datatran[,”itemname”], seqgame[,”id”]), “transactions”)转换成apriori可用的对象
三百万行的数据用时已经超过12个小时了还没转换成功,请问这是不是正常现象?
如果是,有没有效率更高的方式呢?多谢多谢!





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Transactions Transaction Actions Action arules levels

密码被盗??
wangfs111222 发表于 2015-12-22 23:34:57 |显示全部楼层 |坛友微信交流群
先测试一下split占了多少时间吧。


不过,R原始函数确实不适合大数据。

数据多了建议优化、或者并行计算。
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
complicated + 5 + 4 + 4 + 4 热心帮助其他会员

总评分: 论坛币 + 5  学术水平 + 4  热心指数 + 4  信用等级 + 4   查看全部评分

使用道具

complicated 在职认证  发表于 2015-12-24 09:44:23 |显示全部楼层 |坛友微信交流群
wangfs111222 发表于 2015-12-22 23:34
先测试一下split占了多少时间吧。
感谢指点!
并行化或者优化都不太懂,用了个笨办法:
把数据写到硬盘里,再用read.transaction读进来就很快了
KUSO吧。。。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 00:27