楼主: 声辐射体
10169 15

[问答] 变量太多且大于样本量如何选择变量 [推广有奖]

  • 0关注
  • 0粉丝

高中生

45%

还不是VIP/贵宾

-

威望
0
论坛币
780 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
145 点
帖子
6
精华
0
在线时间
54 小时
注册时间
2016-3-4
最后登录
2018-1-22

楼主
声辐射体 发表于 2016-12-12 12:12:53 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据有600多个自变量,其中有多分类变量、二分类变量和连续性变量,因变量为多分类变量,一百多条数据,怎么从600多个自变量中选择合适的变量达到降维的目的?试过主成分法,但是显示错误:'princomp'只能在单位比变量多的情况下使用?想请教各位还有什么方法可以使用?谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:样本量 princomp 多个自变量 二分类变量 分类变量 模型 因变量 自变量 如何

沙发
愚弱厚木 发表于 2016-12-12 16:50:39
利用逻辑回归逐步回归。

藤椅
声辐射体 发表于 2016-12-12 18:11:29
愚弱厚木 发表于 2016-12-12 16:50
利用逻辑回归逐步回归。
逐步回归的过程非常慢 有没有其他合适的方法呢

板凳
jgchen1966 发表于 2016-12-12 18:23:00
J Am Stat Assoc. 2011 June ; 106(494): 544–557. doi:10.1198/jasa.2011.tm09779
   Nonparametric Independence Screening in Sparse Ultra-High  Dimensional Additive Models

Jianqing Fan, Yang Feng, and Rui Song

A variable screening procedure via correlation learning was proposed in Fan and Lv (2008) to
reduce dimensionality in sparse ultra-high dimensional models. Even when the true model is
linear, the marginal regression can be highly nonlinear. To address this issue, we further extend
the correlation learning to marginal nonparametric learning. Our nonparametric independence
screening is called NIS, a specific member of the sure independence screening. Several closely
related variable screening procedures are proposed. Under general nonparametric models, it is
shown that under some mild technical conditions, the proposed independence screening methods
enjoy a sure screening property. The extent to which the dimensionality can be reduced by
independence screening is also explicitly quantified. As a methodological extension, a data-driven
thresholding and an iterative nonparametric independence screening (INIS) are also proposed to
enhance the finite sample performance for fitting sparse additive models. The simulation results
and a real data analysis demonstrate that the proposed procedure works well with moderate sample
size and large dimension and performs better than competing methods.

报纸
声辐射体 发表于 2016-12-12 19:15:53
jgchen1966 发表于 2016-12-12 18:23
J Am Stat Assoc. 2011 June ; 106(494): 544–557. doi:10.1198/jasa.2011.tm09779
   Nonparametric Ind ...
请问在R里面应该怎么实现呢  我是想先删除一部分变量 再利用随机森林进行预测

地板
jgchen1966 发表于 2016-12-12 20:17:03
声辐射体 发表于 2016-12-12 19:15
请问在R里面应该怎么实现呢  我是想先删除一部分变量 再利用随机森林进行预测
Package ‘SIS’

Title Sure Independence Screening
Author Jianqing Fan, Yang Feng, Diego Franco Saldana, Richard Samworth, Yichao Wu

Description Variable selection techniques are essential tools for model selection and estimation
in high-dimensional statistical models. Through this publicly available package, we provide
a unified environment to carry out variable selection using iterative sure independence
screening (SIS) and all of its variants in generalized linear models and the Cox proportional
hazards model.

7
jgchen1966 发表于 2016-12-12 20:20:09
jgchen1966 发表于 2016-12-12 20:17
Package ‘SIS’

Title Sure Independence Screening
注意,此法,要读作者的一系列的论文,否则可能会误用!!

  R 中关于选变量的方法,很多!!

8
愚弱厚木 发表于 2016-12-13 22:36:36
声辐射体 发表于 2016-12-12 18:11
逐步回归的过程非常慢 有没有其他合适的方法呢
前面我看同学建模的适合很多处理变量用了特征工程,这个或许你可以看看。

9
愚弱厚木 发表于 2016-12-13 22:36:41
声辐射体 发表于 2016-12-12 18:11
逐步回归的过程非常慢 有没有其他合适的方法呢
前面我看同学建模的适合很多处理变量用了特征工程,这个或许你可以看看。

10
愚弱厚木 发表于 2016-12-13 22:36:43
声辐射体 发表于 2016-12-12 18:11
逐步回归的过程非常慢 有没有其他合适的方法呢
前面我看同学建模的适合很多处理变量用了特征工程,这个或许你可以看看。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-16 11:42