10405 13

[问答] R做svm预测和随机森林分类好慢啊! [推广有奖]

  • 8关注
  • 1粉丝

博士生

78%

还不是VIP/贵宾

-

威望
0
论坛币
436 个
通用积分
0.0602
学术水平
5 点
热心指数
5 点
信用等级
0 点
经验
4549 点
帖子
164
精华
0
在线时间
407 小时
注册时间
2015-11-3
最后登录
2020-2-8

楼主
露露的家园2012 发表于 2017-12-12 08:46:23 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
R软件拿随机森林做一下变量筛选,数据15万,运行了一天都没出来,我不敢相信,我觉得有可能是哪里有问题,谁能帮我解答一下,谢谢!代码如下:

library(caret)
library(randomForest)
control <- rfeControl(functions=rfFuncs, method="cv")
rfe.train <- rfe(asyc[1:150000,1:10], asyc[1:150000,11], sizes=1:10, rfeControl=control)


R软件那20万数据做svm做预测,也是运行12小时也没有运行出结果,我觉得太不可思议了,谁能帮我找找问题!我觉得数据量并不是很大啊!
代码如下:
#采用svm进行预测
library(e1071)
traindata<-asyc[1:150000,c(1,2,4,5,6,8,9,10,11)]
svmfit<-svm(traindata[,9]~.,data=traindata,kernel="radial",type='eps-regression')
predict_svm<-predict(svmfit,data=asyc)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
雾锁山城 在职认证  发表于 2017-12-12 09:20:05
变量选择的时候时先不要参数调优以及交叉验证,并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使用formula时  一般不使用 df[,ncol]~.,要么传入公式要么传入 X 和 y

藤椅
露露的家园2012 发表于 2017-12-12 09:33:00
雾锁山城 发表于 2017-12-12 09:20
变量选择的时候时先不要参数调优以及交叉验证,并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使 ...
ntree指的是什么,能详细说一下嘛

板凳
露露的家园2012 发表于 2017-12-12 09:55:34
雾锁山城 发表于 2017-12-12 09:20
变量选择的时候时先不要参数调优以及交叉验证,并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使 ...
我刚刚重新尝试一下,将df[,ncol]~.,换成了:
svmfit<-svm(traindata[,9]~traindata[,1]+traindata[,2]+traindata[,3]+traindata[,4]+traindata[,5]+traindata[,6]+traindata[,7]+traindata[,8],data=traindata,kernel="radial")
仍然很慢

报纸
露露的家园2012 发表于 2017-12-12 09:55:35
雾锁山城 发表于 2017-12-12 09:20
变量选择的时候时先不要参数调优以及交叉验证,并且在变量选择的时候随机森林的 ntrees可以设置的小点。
使 ...
我刚刚重新尝试一下,将df[,ncol]~.,换成了:
svmfit<-svm(traindata[,9]~traindata[,1]+traindata[,2]+traindata[,3]+traindata[,4]+traindata[,5]+traindata[,6]+traindata[,7]+traindata[,8],data=traindata,kernel="radial")
仍然很慢

地板
ryoeng 在职认证  发表于 2017-12-12 11:42:26 来自手机
提示: 作者被禁止或删除 内容自动屏蔽

7
jameschin007 发表于 2017-12-12 13:30:05
随机森林和SVM就是很耗资源。  建议做变量筛选。

8
露露的家园2012 发表于 2017-12-12 14:38:44
jameschin007 发表于 2017-12-12 13:30
随机森林和SVM就是很耗资源。  建议做变量筛选。
svm预测是做完变量筛选以后做的模型,而随机森林是为了做变量筛选的

9
jameschin007 发表于 2017-12-12 15:36:28
露露的家园2012 发表于 2017-12-12 14:38
svm预测是做完变量筛选以后做的模型,而随机森林是为了做变量筛选的
服务器内存多少,CPU啥情况。

SVM吃CPU, RF吃内存。 换Python或java weka 快很多

10
雾锁山城 在职认证  发表于 2017-12-12 15:40:53
露露的家园2012 发表于 2017-12-12 09:55
我刚刚重新尝试一下,将df[,ncol]~.,换成了:
svmfit
randomForest(x, y=NULL,  xtest=NULL, ytest=NULL, ntree=500) ntree改为 50之类的,因为变量选择的时候可以接受模型有点欠拟合;
formula写成 y~x1+x2+x3 之类,因为貌似有时 df[,1]~df[,2]+df[,3]是会出现问题;
变量选择的时候也是可以考虑对样本进行抽样(资源不足的情况下)

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-9 06:32