楼主: ajiao4310
8859 12

[问答] 求问无量纲化处理后的逻辑回归建模问题!ps,大神,我又来提问了!! [推广有奖]

  • 0关注
  • 1粉丝

已卖:24份资源

硕士生

66%

还不是VIP/贵宾

-

威望
0
论坛币
29 个
通用积分
6.8336
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
5166 点
帖子
92
精华
0
在线时间
114 小时
注册时间
2013-10-14
最后登录
2023-6-7

楼主
ajiao4310 发表于 2015-8-5 03:15:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
现在我想对数据进行无量纲化处理后,建立一个多项逻辑回归模型~但是现在有几个问题一直不能确定,希望大家能帮忙解答疑惑~多谢了!
1. 逻辑回归模型中的自变量可以存在负数吧?因为我12个变量中只有一个变量有负数,需不需要人为改为正数,方便后面可能进行的对数分析?
2. 含有负数的自变量该选择哪种无量纲化处理方法较好?同一个模型中的不同变量能使用不同的无量纲化处理方法吗?

3. 因为是通过无量纲化的数据来建立的逻辑回归模型,那么这个模型在具体使用过程中,比如预测未来某件事情发生,是否要求未来输入的自变量也必须经过同一个无量纲化公式来进行处理后,再代入模型分析?也就是说未来输入的自变量数据和建模使用的自变量数据都要与同一个参数进行加减乘除呢?



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:无量纲化 逻辑回归 无量纲 逻辑回归模型 回归模型 自变量 模型

沙发
xddlovejiao1314 学生认证  发表于 2015-8-5 08:32:53
    几个问题归根结底就是讨论变量的无量纲化问题,在做这个之前可以想想为什么要对自变量做无量纲化处理呢?不会平白无故做一件事吧,要做这事总有一定的道理。我个人建议,如果原始数据分布都是符合独立同分布(分布为正态分布或者近似正态分布),同方差的,没必要对原始数据进行量纲化处理。直接以原始数据纳入模型即可。如果你想比较标准化后的回归系数,设置输出标准化后的回归系数比较即可。不过在Logistic回归分析中,由于此模型是个概率模型,所以更多的是看回归系数B的方向和EXP(B)的大小,结合这二者来解释模型的。所以更没多大必要对原始数据进行量纲化了。不过原始数据进行量纲化并不意味着不对原始数据做预处理,消除极端异常值和多重共线性。我记得在另外两个帖子里会了你关于极端异常值和多重共线性的处理。
      再回到你的问题,即使你要对原始数据进行量纲化处理。不同的量纲化方法得到的结果不一样,可能对结果没有太大的影响(我也不确定),但总归还是前后统一都用一种量纲化的方法为好的。同理,如果你通过数据构建了一个概率预测模型,要带人后来的数据对其进行预测,前后统一就好。即前面量纲化了数据,后面再带人新的数据时也用同样的量纲化方法处理,前面没处理,后面也不用处理的。
     祝好运。
      
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
ajiao4310 + 1 + 1 + 1 + 1 精彩帖子
admin_kefu + 20 + 1 + 1 热心帮助其他会员

总评分: 论坛币 + 21  学术水平 + 2  热心指数 + 2  信用等级 + 1   查看全部评分

藤椅
ajiao4310 发表于 2015-8-5 09:27:47
xddlovejiao1314 发表于 2015-8-5 08:32
几个问题归根结底就是讨论变量的无量纲化问题,在做这个之前可以想想为什么要对自变量做无量纲化处理呢 ...
好的,谢谢大神~~
我想进行无量纲化处理的原因,是因为有些变量测量值可达十万的级别,但是坡度和高度这两个变量都不超过一百,所以纳入回归方程中就会使得有些系数变得很奇怪,出现0.00000000几的数字,所以才想标准化,使得回归系数量纲统一一些,不会那么难看~~
还有一点没弄清楚,如果回归方程是进行无量纲处理后得到的,那么带入新数据时是使用以前老的数据参数(比如平均值那些)来进行无量纲化,还是说根据新数据分布情况重新计算参数,然后再无量纲化呢?

板凳
xddlovejiao1314 学生认证  发表于 2015-8-5 09:34:34
ajiao4310 发表于 2015-8-5 09:27
好的,谢谢大神~~
我想进行无量纲化处理的原因,是因为有些变量测量值可达十万的级别,但 ...
     你有些变量测量值得到十万级别,你可以将这些变量的单位改为万啊,然后不就下来了,还做量纲化干嘛啊。你说是不~如果你要做,直接用描述性统计分析里面有个勾选对话框,求得Z分数就好额,所有的指标都量纲化了。
     得到回归模型后,带入新的数据,要和老的数据一起做量纲化吧,然后再带入预测。
     

报纸
ajiao4310 发表于 2015-8-5 09:41:45
xddlovejiao1314 发表于 2015-8-5 09:34
你有些变量测量值得到十万级别,你可以将这些变量的单位改为万啊,然后不就下来了,还做量纲化干嘛啊 ...
感觉换单位也会有问题的~ 因为数据从0到几十万都有很多分布(我样本数量都有十几万),如果取万,那么又会出现很多0.000几的变量值了~~
还有无量纲化方法,我看了比较多的文献说最好选用均值化,这样可以保留变量变异信息?

地板
xddlovejiao1314 学生认证  发表于 2015-8-5 09:46:50
ajiao4310 发表于 2015-8-5 09:41
感觉换单位也会有问题的~ 因为数据从0到几十万都有很多分布(我样本数量都有十几万),如果取万,那么又 ...
看样子其实就是在数据的首尾两端存在很多的极端异常值了,你按照我上两个帖子建议的方法处理下就好额。

7
ajiao4310 发表于 2015-8-5 09:51:47
xddlovejiao1314 发表于 2015-8-5 09:46
看样子其实就是在数据的首尾两端存在很多的极端异常值了,你按照我上两个帖子建议的方法处理下就好额。
从箱图来看好像还比较正常,基本没有异常点~~可能因为我研究范围比较大(整个城市)吧~我现在就是犹豫使用z值(标准化)还是均值化的无量纲化方法来处理~~

8
xddlovejiao1314 学生认证  发表于 2015-8-5 09:58:47
ajiao4310 发表于 2015-8-5 09:51
从箱图来看好像还比较正常,基本没有异常点~~可能因为我研究范围比较大(整个城市)吧~我现在就是犹豫 ...
都做做,然后看看哪个结果更理想呗。

9
ajiao4310 发表于 2015-8-5 10:18:17
xddlovejiao1314 发表于 2015-8-5 09:58
都做做,然后看看哪个结果更理想呗。
好的,
趁这个机会,再问个与这个问题无关的问题~~现在准备尝试你文章中提到的缩尾处理,请问stata中的winsorize命令有自动识别异常值的功能吗?还是说要通过箱图那些手段人为挑选出异常变量后,再来用这个命令处理??

10
xddlovejiao1314 学生认证  发表于 2015-8-5 10:38:09
ajiao4310 发表于 2015-8-5 10:18
好的,
趁这个机会,再问个与这个问题无关的问题~~现在准备尝试你文章中提到的缩尾处理,请问st ...
stata的缩尾处理命令是以分位点来卡的,如做95分位数后的缩尾,那么95分位数后的数值都会变成第95分位数对应的值的。同理,对5分位数下的缩尾也是这个效果。我个人不是太建议使用缩尾处理数据,这抹杀了样本的异质性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-4 09:07