楼主: wqf_cufe
1808 3

[问答] 随即森林regression时需要对数据进行交叉检验吗? [推广有奖]

  • 4关注
  • 16粉丝

已卖:4081份资源

教授

89%

还不是VIP/贵宾

-

威望
0
论坛币
4287 个
通用积分
6.6200
学术水平
10 点
热心指数
17 点
信用等级
13 点
经验
565 点
帖子
730
精华
0
在线时间
2236 小时
注册时间
2009-5-26
最后登录
2021-12-29

楼主
wqf_cufe 发表于 2014-11-11 06:26:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我想研究的是股票收益率受什么因素的影响,变量分别为所属板块,发行价,市盈率,流通盘等。

我的数据里面有58只股票,我想问的是我可以自行选择哪些作为training data,哪些作为testing data吗?好像数据挖掘的书里说是不可以的,因为这样无法保证数据的稳定性。

请问各位大神,如何用R实现交叉验证以便找出分类训练集和测试集的办法呢?

但是如果是按照交叉验证的办法来建模,那么我还有一些待测试的股票数据又怎么来进行预测呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:regression regressio regress REG ESS 森林

沙发
hubifeng? 学生认证  发表于 2014-11-11 19:46:49
交叉验证是为了让结果更加可靠,想不想做当然看你自己了
数据量比较大,就抽取20%数据作为测试集,当然也可以用所有数据去训练
R的实现方法,参考:
https://github.com/wehrley/wehrl ... aster/SOUPTONUTS.md
其他,参考:
https://bbs.pinggu.org/thread-3236834-1-1.html

藤椅
lww1993 发表于 2014-11-12 17:25:50
交叉验证办法通常会把数据集分为5份,取4份作为训练集,1份作为测试集,共作5次,把误差平均起来作为衡量标准。用以下代码可以将一组数据随机分为5份。
n<-length(dataset)  
index1<-1:n  
index2<-rep(1:5,ceiling(n/5))[1:n]  
index2<-sample(index2,n)  
这个主要是为了检验你的模型的可靠性。只有你的预测准确度很高的时候,你才可以用你的模型去做相应的预测。否则,你的预测是没有说服力的。

你也可以用leave one out cross validation方法做相应的预测。也就是说你只用n-1个变量做模型,用一个量来检验其预测效果。

只要你的预测准确度足够高,你可以用你的所有现成数据做预测模型。做相应的预测。

板凳
lww1993 发表于 2014-11-12 17:27:21
http://f.dataguru.cn/thread-268074-1-1.html这是一篇文献。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-24 07:01