楼主: 恙日
5194 9

[问题] 随机森林方法 做城市客运量回归 提高精度 [推广有奖]

  • 1关注
  • 1粉丝

初中生

66%

还不是VIP/贵宾

-

威望
0
论坛币
7 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
106 点
帖子
16
精华
0
在线时间
10 小时
注册时间
2014-6-18
最后登录
2014-7-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Call:
randomForest(formula = keyunliang ~ ., data = bjdata, importance = TRUE)
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 3

          Mean of squared residuals: 14369293
                    % Var explained: 96.07
得到这个结果  我感觉好像是过拟合了
数据 23组数据 每组数据10个参数

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机森林 高精度 客运量 randomForest importance 森林

沙发
恙日 发表于 2014-6-22 17:13:47 |只看作者 |坛友微信交流群
求大神指点我这个 方法的问题以及该如何改正一些~

使用道具

藤椅
恙日 发表于 2014-6-22 20:14:45 |只看作者 |坛友微信交流群
对训练数据进行【-1,1】归一化后 结果
Call:
randomForest(formula = keyunliang ~ ., data = bjdata, ntree = 500,      mtry = 2, importance = TRUE)
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 2

          Mean of squared residuals: 1.420348e-13
                    % Var explained: 96.81

残差平方和大的原因是因为我的输入数据 都是好几万的那种 甚至有上亿的 所以残差平方和归一化前很大
不过归一化前后 varImpPlot(reg.rf)这个函数 的输出结果不同 不知道 该如何取舍  
我感觉我这90%的解释率 有点太高了 可能是过拟合了~

使用道具

板凳
恙日 发表于 2014-6-24 08:49:28 |只看作者 |坛友微信交流群
求大神分析指点

使用道具

报纸
hvgdfx 发表于 2014-6-28 11:51:41 |只看作者 |坛友微信交流群
不懂啊

使用道具

地板
luckystt 发表于 2015-10-23 16:12:04 |只看作者 |坛友微信交流群
恙日 发表于 2014-6-22 20:14
对训练数据进行【-1,1】归一化后 结果
Call:
randomForest(formula = keyunliang ~ ., data = bjdata,  ...
你好,你的数据的出来了吗?能让我看一下你最后的程序还有你使用的数据吗?目前学习状态,还不太懂。

使用道具

7
jameschin007 发表于 2016-11-1 11:23:18 |只看作者 |坛友微信交流群
偶然看到的老帖子了。估计你也不回回复了。给其他看到的人,说几句。
1.如果只有23条数据, 不适合用随机森林。 原因很简单。 随机性要靠大样本来维护。
即使对一个维度, 也至少要40个样本才算大样本。你有10个维度,只有23条数据。
那么首先你应该降维。
2.你选择500棵树, 10个维度,23条数据, 总共就230个数据项。根本没有任何必要选500棵树。
这么点数据量,80棵足够了。 多了也是重复。 最后一点,根本就不应该选择随机森林。
3. 建议选择Lasso回归,帮助你降维同时给出线性模型。效果可能更好。不过做一个随机森林。有一点帮助就是你可以看参数的重要性。 有助于选择feature selection。
已有 1 人评分经验 学术水平 收起 理由
金哥123 + 20 + 2 精彩帖子

总评分: 经验 + 20  学术水平 + 2   查看全部评分

使用道具

8
sasa1111111 发表于 2017-3-22 15:49:13 |只看作者 |坛友微信交流群
jameschin007 发表于 2016-11-1 11:23
偶然看到的老帖子了。估计你也不回回复了。给其他看到的人,说几句。
1.如果只有23条数据, 不适合用随机森 ...
您好,我想请问一下, % Var explained这个指数到底应该如何去理解呢?我做出来的结果是50%左右。调整参数对结果的影响甚微,那是否意味着对于我的数据集这已经是最优的随机森林模型呢?
>

使用道具

9
sasa1111111 发表于 2017-3-22 15:49:14 |只看作者 |坛友微信交流群
jameschin007 发表于 2016-11-1 11:23
偶然看到的老帖子了。估计你也不回回复了。给其他看到的人,说几句。
1.如果只有23条数据, 不适合用随机森 ...
您好,我想请问一下, % Var explained这个指数到底应该如何去理解呢?我做出来的结果是50%左右。调整参数对结果的影响甚微,那是否意味着对于我的数据集这已经是最优的随机森林模型呢?
>

使用道具

10
ydc129 发表于 2017-3-31 10:10:11 |只看作者 |坛友微信交流群
thanks

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 21:32