请选择 进入手机版 | 继续访问电脑版
楼主: SAS新手
2444 13

如何建立回归方程??替换缺失值!!! [推广有奖]

  • 0关注
  • 0粉丝

高中生

62%

还不是VIP/贵宾

-

威望
0
论坛币
9 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
134 点
帖子
24
精华
0
在线时间
28 小时
注册时间
2013-11-5
最后登录
2013-12-31

SAS新手 发表于 2013-12-5 21:00:38 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位大侠,现在有如下数组,A1与B1、C1、D1、E1是一样的属性,同样 A2,A3也是如此的;
现在需要把各个字段中连续出现0值的总数小于3个的用介于连续0上面和下面数之间的随机值替代,但是如果超过3个连续值,就要用回归模型计算,
比如最后一列,连续有7个,这时候要选取E3中不是0的其他数字与A3、B3、C3、D3先建立相关行,选出相关行最高的3个组,在选出的3组相关性最高的数组后,如果这三组中有也有0的,则这些0值的地方不能参与后面的回归模型的建立 ,然后用这3组建立回归模型,用回归模型算出来E3的值
A1 A2 A3 B1 B2 B3 C1 C2 C3 D1 D2 D3 E1 E2 E3
1    3   4  5    7   4   3   7    0   3   4    0   3   5   1
2    0   0  6    0   2   7   4    1   0   8    6   3   7   2
3    4   0  3    0   7   8   2    2   0   7    5   3   8   0
3    4   0  5    0   4   5   4    3   0   8    6   3   0   0
2    0   8  3    0   0   3   5    0   0   6    1   3   9   0
2    8   9  8    5   6   3   4    0   9   4    2   8   4   0
1    3   4  5    7   4   3   7    0   3   4    0   3   5   0
2    0   0  6    2   0   7   4    1   0   8    6   3   7   0
3    4   0  3   4    0   8   2    2   0   7    5   3   8   0
3    4   0  5   7    0   5   4    3   0   8    6   3   0   5
2    0   8  3   0    0   3   5    0   0   6    1   3   9   2
2    8   9  8   5    6   3   4    0   9   4    2   8   4   4
有大侠可以出个主意的吗?
或者能把连续出现0值部分的数据上面50个和下面50个所有字段都选出了另存一个表,然后对该表处理(对这个表内的数据进行相关性对比和建立回归方程,这一步我会做,但是不知道怎么能选出数据呢?)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:如何建立 回归方程 缺失值 回归模型 各位大侠 如何

本帖被以下文库推荐

描述还是没看懂啊。。。
书山有路勤为径,学海无涯苦作舟

使用道具

gssdzc 在职认证  发表于 2013-12-5 21:18:32 |显示全部楼层 |坛友微信交流群
be careful, be slower

使用道具

SAS新手 发表于 2013-12-6 09:59:55 |显示全部楼层 |坛友微信交流群
gssdzc 发表于 2013-12-5 21:18
be careful, be slower
主要问题就是这个数组中各列的0值如何用替换。
如:A3列中有3个连续的0值,这样的0值可以用4和8直接的随机数值替换,但是在E3列中,有7个连续的0值,这时候的0值需要用A3 B3 C3 D4 E3中的每个不为0的数值建立回归方程即:E3=A3*X1+B3*X2+C3*X3+D3*X4,之后用这个回归方程算出来E3中的0值。这样说是不是清楚点?

使用道具

jingju11 发表于 2013-12-7 23:01:17 |显示全部楼层 |坛友微信交流群
SAS新手 发表于 2013-12-6 09:59
主要问题就是这个数组中各列的0值如何用替换。
如:A3列中有3个连续的0值,这样的0值可以用4和8直接的随 ...
(1)什么是用4和8的随机数替换?
(2)在做多零的回归替换时,(1)里已经替换的当作零还是非零?
京剧

使用道具

SAS新手 发表于 2013-12-9 09:57:39 |显示全部楼层 |坛友微信交流群
jingju11 发表于 2013-12-7 23:01
(1)什么是用4和8的随机数替换?
(2)在做多零的回归替换时,(1)里已经替换的当作零还是非零?
京剧
A3列的连续3个0 用A3列出现连续3个0的第一个0值上面的4和最后一个0的下面的8值直接的随机数替换。做回归时候如果是0,则要当作非0.

使用道具

jingju11 发表于 2013-12-11 11:26:48 |显示全部楼层 |坛友微信交流群
我还是觉得其中有矛盾的地方。除非你的缺失具备某些特征,比如monotone pattern,否则你所描述的方法不足以补齐所有的缺失值。京剧
for example, y = x1 +x2 only if x1 and x2 are both non-missing, y can be predicted.

使用道具

jingju11 发表于 2013-12-11 11:32:09 |显示全部楼层 |坛友微信交流群
如果是0,则要当作非0
what does it mean?
...在选出的3组相关性最高的数组后,如果这三组中有也有0的,则这些0值的地方不能参与后面的回归模型的建立 ,然后用这3组建立回归模型,用回归模型算出来E3的值

使用道具

jingju11 发表于 2013-12-11 11:35:59 |显示全部楼层 |坛友微信交流群
Anyway, this is a good question. But you need to figure out all the details in the algorithm. I spent hours on it but at the end I had to abandon it due to some contradictions in your way.

JingJu

使用道具

SAS新手 发表于 2013-12-12 14:14:43 |显示全部楼层 |坛友微信交流群
jingju11 发表于 2013-12-11 11:35
Anyway, this is a good question. But you need to figure out all the details in the algorithm. I spen ...
谢谢你的关注。这个数据的样本数量有点少,像你上面回复的当X1 X2同时不为0时候,才能做回归,我的样本数量很多,所以这个不影响回归模型的计算。主要是想知道方法如何写出来?我把数据修改为一下:
A1 A2 A3 B1 B2 B3 C1 C2 C3 D1 D2 D3 E1 E2 E3
1    3   4  5    7   4   3   7    2   3   4    0   3   5   1
2    0   3  6    0   2   7   4    1   0   8    6   3   7   2
3    4   5  3    0   7   8   2    2   0   7    5   3   8   0
3    4   9  5    0   4   5   4    3   0   8    6   3   0   0
2    0   8  3    0   5   3   5    3   0   6    1   3   9   0
2    8   9  8    5   6   3   4    5   9   4    2   8   4   0
1    3   4  5    7   4   3   7    8   3   4    0   3   5   0
2    0   6  6    2   5   7   4    1   7   8    6   3   7   0
3    4   4  3   4    2   8   2    2   6   7    5   3   8   0
3    4   6  5   7    6   5   4    3   0   8    6   3   0   5
2    0   8  3   0    7   3   5    9   0   6    1   3   9   2
2    8   9  8   5    6   3   4    0   9   4    2   8   4   4
问题就是,如何判断E3的连续0值个数超过了3,之后判断E3与A1 B1 C1 D1的相关性最高的2个(比如是A1 B1),则建立模型E3=M+A1*X1+B1*X2。然后用这个模型计算E3的0值。不知道这么说,你能明白吗?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 18:13