楼主: ajiao4310
5848 21

[问答] 求帮忙指点评价多项逻辑分析的结果 [推广有奖]

11
xddlovejiao1314 学生认证  发表于 2015-7-15 18:55:48
didamunaoke 发表于 2015-7-15 18:46
解释的好详细 学习了
相互交流学习。

12
ajiao4310 发表于 2015-7-16 08:51:03
xddlovejiao1314 发表于 2015-7-15 09:10
第一个问题:不明白自变量明明是连续性的变量,楼主为什么要把它处理为类别变量,这背后有什么文献/理论上的 ...
不好意思,又来打扰你了~~~我想请教下对于跨度较大的连续变量该选取何种方法进行预处理,比如距离公园的远近可以从0到1000都有分布~~
而且在搜集资料的过程中,有些数据本身经过别人加工变成了递增的等级变量,比如坡度0-25为1,25-50为2等等,这样的数据可以直接选入协变量中使用吗??还是说,要像你建议的那样处理为哑变量? 我看有些文献里说为等级变量时,如果每个等级的作用相同,可按计量资料处理,不知道正确与否?

13
xddlovejiao1314 学生认证  发表于 2015-7-16 08:57:21
ajiao4310 发表于 2015-7-16 08:51
不好意思,又来打扰你了~~~我想请教下对于跨度较大的连续变量该选取何种方法进行预处理,比如距离公园 ...
第一个问题:连续性变量跨度比较大,其实就是表明数据的方差大,波动性强,如果直接纳入模型,可能使得模型结果不稳健(存在异方差),建议楼主做连续性变量的描述性统计分析,做箱图,看看连续性变量趋势,是否为正偏态分布数据,如果是,可以取对数消除此类变量的波动性(异方差),然后纳入模型。https://bbs.pinggu.org/thread-3648798-1-1.html,看我写的这个帖子,辅助诊断是否存在极端异常值。

14
xddlovejiao1314 学生认证  发表于 2015-7-16 08:57:24
ajiao4310 发表于 2015-7-16 08:51
不好意思,又来打扰你了~~~我想请教下对于跨度较大的连续变量该选取何种方法进行预处理,比如距离公园 ...
第一个问题:连续性变量跨度比较大,其实就是表明数据的方差大,波动性强,如果直接纳入模型,可能使得模型结果不稳健(存在异方差),建议楼主做连续性变量的描述性统计分析,做箱图,看看连续性变量趋势,是否为正偏态分布数据,如果是,可以取对数消除此类变量的波动性(异方差),然后纳入模型。https://bbs.pinggu.org/thread-3648798-1-1.html,看我写的这个帖子,辅助诊断是否存在极端异常值。

15
xddlovejiao1314 学生认证  发表于 2015-7-16 09:00:37
ajiao4310 发表于 2015-7-16 08:51
不好意思,又来打扰你了~~~我想请教下对于跨度较大的连续变量该选取何种方法进行预处理,比如距离公园 ...
第二个问题,类别变量纳入模型均处理为虚拟变量的形式。不要直接纳入模型。举个简单例子说明,就比如说你说的坡度,0-25为1,25-50为2,50-75为3,表明上看似,组与组差距是相等的(都相差25),但实际是不一样的,如有3个个体,一个1度,一个49度,一个60度,如果简要划分,分别在1,2,3组。你能简单说这3个坡度相差等级是一样的吗。不能吧。所以处理为虚拟变量,设置一组参照组。然后用虚拟变量和处理后的连续变量去构建模型。祝好运。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
ajiao4310 + 1 + 1 + 1 分析的有道理
admin_kefu + 35 热心帮助其他会员

总评分: 论坛币 + 35  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

16
ajiao4310 发表于 2015-7-16 09:30:33
xddlovejiao1314 发表于 2015-7-16 08:57
第一个问题:连续性变量跨度比较大,其实就是表明数据的方差大,波动性强,如果直接纳入模型,可能使得模 ...
真的真的非常感谢你的热心帮助~~~既然不能当面道谢,就只能通过帖子评分来表达感激之情了~~~

17
ajiao4310 发表于 2015-7-28 15:03:57 来自手机
xddlovejiao1314 发表于 2015-7-16 09:00
第二个问题,类别变量纳入模型均处理为虚拟变量的形式。不要直接纳入模型。举个简单例子说明,就比如说你 ...
大神,大神!又来麻烦你了,上次我说到回归分析中我的自变量变化范围很广,从零到几万都有,你怀疑数据有异常值,建议我取对数处理,如果不是异常分布的话,还需要取对数吗?因为我研究的区域很广,距离测量值确实会出现这么大的变化~
还有,就是如果数据中正负值都有,可以直接取对数吗?还是说要做什么正向化处理,比如人为把数据修改为从1开始计数以后再取对数呢?
跪谢大神指点~

18
xddlovejiao1314 学生认证  发表于 2015-7-28 15:21:25
ajiao4310 发表于 2015-7-28 15:03
大神,大神!又来麻烦你了,上次我说到回归分析中我的自变量变化范围很广,从零到几万都有,你怀疑数据有 ...
如果有负值,你找到最小的那个负值,即绝对值最大的那个负值(比如是a)。然后对该变量取对数时就这样:ln(x+a的绝对值+1),这样全部的数据都为正了。祝好运。

19
ajiao4310 发表于 2015-8-1 05:41:26
xddlovejiao1314 发表于 2015-7-28 15:21
如果有负值,你找到最小的那个负值,即绝对值最大的那个负值(比如是a)。然后对该变量取对数时就这样:l ...
大神,按照你的指点和你在帖子里描述的方法,我在建模之前先用spss对自变量数据进行了描述性分析/直方图分析/箱图分析,然后又对其进行了对数处理,再接着做了第二次的描述性分析/直方图分析/箱图分析~~结果都放在了附件文档里了,求大神帮忙指点分析一下这几个变量分析结果~

我的问题主要是:
1.怎样判断哪些数据合格,可以直接用于建模分析了?没有异常值就可以了吗?
2.取对数前后的变量分析结果有时候会有冲突,比如有的箱图本来没有异常值,对数后反而出现了异常值,该怎么判断呢?
3.怎么处理异常值较多的变量数据,你在文章里建议说取对数后删除异常值,可是如果变量个数不多,删除会不会有影响?因为自变量种类比较多,每个变量删除一点点,累积起来也是挺多的,我有的变量只有一两百个数据,有点担心~~

4.我看到很多文章里建议对数据进行标准化处理,取对数后还有这个必要吗?还是说取对数之前就要进行?

我知道我提的问题很多也很初级,但设计专业实在很少接触这个统计知识,所以只能麻烦大神了~~ 变量分析结果.doc (630.5 KB)

20
xddlovejiao1314 学生认证  发表于 2015-8-3 12:49:46
ajiao4310 发表于 2015-8-1 05:41
大神,按照你的指点和你在帖子里描述的方法,我在建模之前先用spss对自变量数据进行了描述性分析/直方图分 ...
第1个问题,数据趋势大致符合正太分布就可,剔除极端异常值后的变量可用于建模了。我看了下你的数据,偏态分布都不是太明显的,基本可直接纳入模型做回归。
第2个问题,箱图这些只是为了辅助判断变量是否存在极端异常值,其异常值标准好像是设定的均值+-1.5倍标准差,各个学科不一样,要求不一样,比如你想把这个标准放松一点,变成均值+-3倍标准差,那可能就没有问题了。所以除非异常值特别极端,一般还是不用太在意的,有个容忍区间范围。
第3个问题的回答见第2个问题。处理极端异常值的方法比较多,一是删除数据;二是取对数,缩减数据变化趋势(如原始数据的10与10000的差距远远大于ln(10)与ln(10000)的差距)。
第4个问题,标准化方法有很多种,常用的是z标准化,即(原始值-均值)/标准差,标准化的目的其实就是为了消除量纲,减少数据的波动性(即方差),你取对数也达到了减少数据波动性的效果的,所以取对数后可以不用再对数据进行标准化了。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
ajiao4310 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 06:02