楼主: 旧城少世
5823 2

[问答] sas中进行logistic回归时数据的一些预处理问题 [推广有奖]

  • 3关注
  • 0粉丝

硕士生

31%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
359 点
帖子
41
精华
0
在线时间
254 小时
注册时间
2014-12-3
最后登录
2017-11-22

50论坛币
1、sas中用logsitic做回归预测时,当数值型自变量的个数超过100个时,直接上来先让每个自变量对因变量进行逻辑回归,对于不显著的一些变量进行淘汰,之后再进行剩余变量的探索和处理等的话,会不会因为某些自变量存在缺失值或者异常值得情况,使得本来不显著的变量处理之后变得显著了?

2、如果对于剩余的数值型变量进行探索时,都需要做哪些工作? 是不是每个数值型自变量都要求服从正态分布?

3、对于数值型自变量。如果取值仅仅是一些离散的数值,例如1、2、3等时,可不可以直接当做自变量放在模型中?

4、对于字符型变量,当他作为分类变量出现在class语句以后,model后面的自变量还需不需要该字符型变量?

最近学逻辑回归,感觉有好多困惑?还望大神们不吝指教,感激不尽!!!

关键词:logistic回归 logistic ogistic logisti logist sas logistic回归 数据预处理
沙发
925181455 发表于 2018-5-9 11:03:49 |只看作者 |坛友微信交流群
第一个问题,对于自变量的处理,比如缺失值等等。主要根据实际情况来,缺失值如果是因为数据采集过程的随机缺失,就可以用插值法填补。但如果是确实没有数据,那么要么将缺失值当成一个分类,要么就当成0,确实没有这个数据么。然后我一般是数据缺失超过50%就不用了。
第二个问题,对于量纲大,偏度,峰度大的变量,进行Ln转化。对于其他的变量,也要考察是不是极端值特别极端,小于一分位数的值,用一分位数减去三倍四分卫间距代替。
第三个问题,离散变量是可以当作逻辑回归的自变量的。当然最好按照目标连续化。
第四个问题,不需要。

使用道具

藤椅
xwan288 发表于 2018-5-10 00:45:09 |只看作者 |坛友微信交流群
第一,会不会因为某些自变量存在缺失值或者异常值得情况,使得本来不显著的变量处理之后变得显著了  - 理论上存在一定可能性 但实际分析前应清洗过数据 才可以探讨显著与否
自变量处理主要涉及到异常值处理和缺失值处理,要根据实际的数据情况来判断异常情况和缺失值的填补方法

第三,如果取值的种类不多的话,建议将其作为因子型变量,即独热编码,进行回归

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 17:21