楼主: rockfido
4450 16

[原创博文] 实际建模的时候,变量过千,到底该怎么选择? [推广有奖]

  • 0关注
  • 0粉丝

已卖:1754份资源

博士生

32%

还不是VIP/贵宾

-

威望
0
论坛币
2715 个
通用积分
0.0341
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
4441 点
帖子
201
精华
0
在线时间
202 小时
注册时间
2008-8-29
最后登录
2024-11-1

楼主
rockfido 在职认证  发表于 2010-6-23 22:51:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
没有遇到过这样的实际问题。但是很想知道,实际工作中,到底是怎么操作的。

能想到的就是做STEPWISE,去除HIGHLY CORRELATED VARIABLES,通过PCA来集合VARIABLE,去掉贡献不多,但是花费很高的变量。

请问还有啥方法么?

另外,这个变量本来就是加越多,R2越大,到底该如何取舍呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Correlated Variables correlate Variable stepwise 如何

回帖推荐

BraveMadMan 发表于8楼  查看完整内容

楼主大概需要换个工作了 :) 当然只看ADJ-R2。要不然我只需要增加足够的自变量(包括chicken shit。见下边的笑话),我的模型的R2就会接近于1。 一般来讲,计量模型是由理论决定的,这包括用什么样的模型和用什么样的变量。比如你要研究什么决定一个人的收入水平,要从经济理论中寻找相关的变量,比如教育水平,肤色等,而不是想当然的找一些变量来凑数。如果理论建议的变量不显著,你要进一步寻找这个不显著是由什么造成的 ...

本帖被以下文库推荐

沙发
crackman 发表于 2010-6-23 22:58:36
呵呵
降维处理

藤椅
BraveMadMan 发表于 2010-6-23 23:05:40
这个变量本来就是加越多,R2越大
一般人不关心R2,而只关心adj-R2。后者并不随变量的增多而增加。

另外,你的模型中的变量是由理论决定的。
Don't get lost in technical details. What is the big picture?

板凳
rockfido 在职认证  发表于 2010-6-23 23:10:01
2# crackman

请问你说的降维,是指做PCA么?或者还有其他什么常用的方法么?

报纸
rockfido 在职认证  发表于 2010-6-23 23:12:47
3# BraveMadMan

我也觉得应该用ADJ-R2更合理。不过我的工作中,以前的RESULT里面,似乎大家都只看R2。

BTW,模型的理论是什么意思呢?

其实我做模型的时候,还有一个疑问,就是有些变量,总是不SIGNIFICANT,但是实际的经验告诉我们,他们就是很重要的,请问在这种情况下,该不该KEEP他们呢?

另外,变量是不是SIGNIFICANT,还跟加入的其他变量有关。比如只有变量A的时候,他是SIGNIFICANT的,但是假如了变量B,他就不SIGNIFICANT了。。。。但实际用途中,变量A和B是比较重要的,这种情况下,该不该KEEP变量A呢?

地板
爱萌 发表于 2010-6-23 23:29:45
其实,你的问题根本没有描述清楚,在实际中有分类等等,可是你好象表达的是做回归哦。这样数据做回归概率是0,因为这么多变量,每个变量对应2个样本这样也就好多,实际中不可能出现。你说的情况到目前为止,我见到就是microarray data,这种变量就是GENE的个数,最后你会发现其实样本就10个左右,这个时候pls用的最多
最恨对我说谎或欺骗我的人

7
rockfido 在职认证  发表于 2010-6-24 00:07:16
6# 爱萌

对的,我没表达清楚,我就是指的是建立回归模型。

可是银行做CREDIT,做RISK的经常是几百上千的变量啊?

8
BraveMadMan 发表于 2010-6-24 02:47:30
rockfido 发表于 2010-6-23 23:12
3# BraveMadMan

我也觉得应该用ADJ-R2更合理。不过我的工作中,以前的RESULT里面,似乎大家都只看R2。
楼主大概需要换个工作了 :) 当然只看ADJ-R2。要不然我只需要增加足够的自变量(包括chicken shit。见下边的笑话),我的模型的R2就会接近于1。
BTW,模型的理论是什么意思呢?

其实我做模型的时候,还有一个疑问,就是有些变量,总是不SIGNIFICANT,但是实际的经验告诉我们,他们就是很重要的,请问在这种情况下,该不该KEEP他们呢?

另外,变量是不是SIGNIFICANT,还跟加入的其他变量有关。比如只有变量A的时候,他是SIGNIFICANT的,但是假如了变量B,他就不SIGNIFICANT了。。。。但实际用途中,变量A和B是比较重要的,这种情况下,该不该KEEP变量A呢?
一般来讲,计量模型是由理论决定的,这包括用什么样的模型和用什么样的变量。比如你要研究什么决定一个人的收入水平,要从经济理论中寻找相关的变量,比如教育水平,肤色等,而不是想当然的找一些变量来凑数。如果理论建议的变量不显著,你要进一步寻找这个不显著是由什么造成的,找到一个合理的解释。其中一个原因是你找到的变量并不是理论上说建议的那个。

很多变量在回归分析都可能是统计显著的,但不代表他们之间有什么实际联系。讲一个听来的笑话。有人在某学术会议,讲一片文章,说某某变量显著什么的,所以这个变量很重要。下边有人问,你为什么不把chicken shit也放进去回归一下,也可能是显著的。这个笑话是说,计量模型是要由理论来指导的,而不是简单的陈述统计上的结果。

如果A和B是统计相关的话(highly correlated),加入B变量后,A会变得不显著是因为B的加入会导致A变量的sampling variance变大,从而统计不显著。计量上称为multicollinearity。
已有 1 人评分经验 论坛币 收起 理由
bakoll + 3 + 3 精彩帖子

总评分: 经验 + 3  论坛币 + 3   查看全部评分

Don't get lost in technical details. What is the big picture?

9
rockfido 在职认证  发表于 2010-6-24 13:20:56
8# BraveMadMan 非常谢谢你的回答。

不过MODEL中,虽然R2是会随着变量的增多而增大,但是加入一个变量,就是要多花一定的成本吧。

另外,MULTICOLINEARITY我其实也有疑问。。。我有一个例子,确实变量间相关比较大,但是VIF值最大也就是在5左右。但是我还是先用PCA进行了分析,然后再用LOADING MATRIX进行回归。可惜试了几次,出来的MODEL,用做VALIDATION DATA SET中,出来的结果,还不如不用PCA,直接回归的好。请问,这种情况下,我们该怎么办呢??RIDGE REGRESSION么?

10
wyq1987 发表于 2010-6-24 13:27:37
建议你看下广义线性模型的书,里面说得很全面

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 14:47