楼主: xingzhe1204
3446 13

[其他] 数据缺失的处理方法? [推广有奖]

  • 2关注
  • 1粉丝

小学生

博士生

80%

还不是VIP/贵宾

-

威望
0
论坛币
1801 个
通用积分
2.8010
学术水平
3 点
热心指数
4 点
信用等级
0 点
经验
4860 点
帖子
231
精华
0
在线时间
239 小时
注册时间
2005-12-12
最后登录
2024-4-16

楼主
xingzhe1204 在职认证  企业认证  发表于 2016-8-26 16:27:04 |只看作者 |坛友微信交流群|倒序 |AI写论文
10论坛币

关于数据缺失问题,我的综合评价指标体系包括 三个二级指标A、B、C,其中,A指标有4个三级指标A1、A2、A3、A4,存在两种缺失情况:

第一,山东省2001-2014年的A2指标都缺失数据,因为统计年鉴没有提供。我的计划:采用沿海省份历年均值替代。

第二,河北省2005-2014年的A1、A2、A3指标都缺失数据,原因同上。计划:采用中部省份历年均值替代。


问题:如上处理方法可否?可有更好的处理方法?


最佳答案

jxjajgb 查看完整内容

1、是否还有其他获取途径,年鉴上没有,能否调研或引用其它学者的调研成果; 2、如果实在无法获取,是否省下面的各市数据,如果有,可以取各市的平均值代替; 3、如以上均无,可用周边省市平均值代替(样本数至少应是3个以上)。
关键词:处理方法 数据缺失 评价指标体系 缺失数据 指标体系 河北省 山东省 计划 统计

回帖推荐

小鑫小鑫 发表于12楼  查看完整内容

线性插值

wanghonglian22 发表于11楼  查看完整内容

可否找到替代指标?

ccfchiang 发表于13楼  查看完整内容

Drop observations of missing values to see if your analysis will change without those observations.

jxjajgb 发表于14楼  查看完整内容

1、是否还有其他获取途径,年鉴上没有,能否调研或引用其它学者的调研成果; 2、如果实在无法获取,是否省下面的各市数据,如果有,可以取各市的平均值代替; 3、如以上均无,可用周边省市平均值代替(样本数至少应是3个以上)。

liyichao123 发表于8楼  查看完整内容

山东省和河北省可以看成是指标体系下的观测实现。如果某个样本的数据缺失严重,应该考虑删去该样本。在这里,河北省的数据缺失比较严重,建议删去不用。山东省有一个三级指标存在数据缺失,可以考虑用同年份各个省市的数据的均值代替。如果效果还不好,建议也把山东的样本也删去。毕竟用估计的数据做推断,得到的结果不可靠。
执子之手,与之偕老~
沙发
jxjajgb 发表于 2016-8-26 16:27:05 |只看作者 |坛友微信交流群
1、是否还有其他获取途径,年鉴上没有,能否调研或引用其它学者的调研成果;
2、如果实在无法获取,是否省下面的各市数据,如果有,可以取各市的平均值代替;
3、如以上均无,可用周边省市平均值代替(样本数至少应是3个以上)。
已有 1 人评分论坛币 收起 理由
admin_kefu + 20 热心帮助其他会员

总评分: 论坛币 + 20   查看全部评分

使用道具

藤椅
xingzhe1204 在职认证  企业认证  发表于 2016-8-26 17:13:14 |只看作者 |坛友微信交流群
SPSS的 EM 估计法

使用道具

板凳
xingzhe1204 在职认证  企业认证  发表于 2016-8-26 21:26:18 |只看作者 |坛友微信交流群
最好采用均值法

使用道具

报纸
Listen_melody 发表于 2016-8-27 10:20:03 |只看作者 |坛友微信交流群
插值法也是比较常用的,语句是impute,missing值与一些基础变量之间形成一定的线性关系。
具体可以 help impute看一下。
这里是针对stata说的。

使用道具

地板
xingzhe1204 在职认证  企业认证  发表于 2016-8-27 10:27:34 |只看作者 |坛友微信交流群
Listen_melody 发表于 2016-8-27 10:20
插值法也是比较常用的,语句是impute,missing值与一些基础变量之间形成一定的线性关系。
具体可以 help i ...
SPSS尼?

使用道具

7
Listen_melody 发表于 2016-8-27 10:56:33 |只看作者 |坛友微信交流群
xingzhe1204 发表于 2016-8-27 10:27
SPSS尼?
spss我就不知道了 还没研究过那个。

使用道具

8
xingzhe1204 在职认证  企业认证  发表于 2016-8-27 12:00:56 |只看作者 |坛友微信交流群
采用每年的均值法,结果发现,有严重高估滴,是不是采用每个省份的时间序列 回归拟合比较好?

使用道具

9
liyichao123 发表于 2016-8-28 16:35:54 |只看作者 |坛友微信交流群
山东省和河北省可以看成是指标体系下的观测实现。如果某个样本的数据缺失严重,应该考虑删去该样本。在这里,河北省的数据缺失比较严重,建议删去不用。山东省有一个三级指标存在数据缺失,可以考虑用同年份各个省市的数据的均值代替。如果效果还不好,建议也把山东的样本也删去。毕竟用估计的数据做推断,得到的结果不可靠。

使用道具

10
xingzhe1204 在职认证  企业认证  发表于 2016-8-29 09:37:10 |只看作者 |坛友微信交流群
liyichao123 发表于 2016-8-28 16:35
山东省和河北省可以看成是指标体系下的观测实现。如果某个样本的数据缺失严重,应该考虑删去该样本。在这里 ...
靠谱,点赞哈

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 02:04