楼主: zwf0000
11130 18

[其他] 请问因子分析有一个指标数据缺失很多怎么办? [推广有奖]

  • 0关注
  • 3粉丝

博士生

23%

还不是VIP/贵宾

-

威望
0
论坛币
473 个
通用积分
1.4200
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
19430 点
帖子
121
精华
0
在线时间
262 小时
注册时间
2010-12-19
最后登录
2022-5-20

10论坛币
如题。在因子分析中有一个指标从现实意义来讲非常重要,但是由于数据缺失,差了很多(310个数就只有100多个)。遇到这样的情况怎么办?是就把这个指标删了还是就这么空着?还是有其他办法?

最佳答案

betty_leng 查看完整内容

对于建模中的变量分析需要考虑以下几点: 1. 先分析缺失原因,如果缺失也代表一种情况,那可以group在同一组。 2. 如果缺失的原因很多,又不能等同,则考虑该变量的重要性,如果不重要就删除。 3. 如果该变量很重要,缺失值有属于正常,那就用boots strap或CV 4. 如果该变量重要,但缺失值属于不正常,那看看是否有其他相关性较强的变量 不知道是否回答了你的问题。
关键词:因子分析 数据缺失 怎么办
沙发
betty_leng 在职认证  发表于 2016-2-14 16:52:28 |只看作者 |坛友微信交流群
对于建模中的变量分析需要考虑以下几点:
1. 先分析缺失原因,如果缺失也代表一种情况,那可以group在同一组。
2. 如果缺失的原因很多,又不能等同,则考虑该变量的重要性,如果不重要就删除。
3. 如果该变量很重要,缺失值有属于正常,那就用boots strap或CV
4. 如果该变量重要,但缺失值属于不正常,那看看是否有其他相关性较强的变量

不知道是否回答了你的问题。
已有 3 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
giresse + 60 热心帮助其他会员
zwf0000 + 5 + 1 + 1 + 1 分析的有道理
admin_kefu + 20 热心帮助其他会员

总评分: 经验 + 60  论坛币 + 25  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

藤椅
dorisdaidai 发表于 2016-2-15 10:05:30 |只看作者 |坛友微信交流群
是很关键的指标吗?一般缺失的数据需要删减或补全后才能使用,删减就不用说了,地球人都明白,补全能不能用要看是什么问题,如果是可以补全的问题可以用平均值替代的方法,或者差分,线性回归等方法补全数据(具体名字可能不太对,但大意就是用回归之类的方法),具体这些方法的实现你随便找本别太差的统计书应该都有,如果找不到我可以给你发个电子版的,还有,你用的什么软件?如果是spss的话好像有一个功能就是补全数据,应该在data里面吧,你找找,stata有没有软件包我就不清楚了
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
zwf0000 + 5 + 1 + 1 + 1 好的意见建议
admin_kefu + 20 热心帮助其他会员

总评分: 论坛币 + 25  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

板凳
zwf0000 发表于 2016-2-15 17:40:57 |只看作者 |坛友微信交流群
dorisdaidai 发表于 2016-2-15 10:05
是很关键的指标吗?一般缺失的数据需要删减或补全后才能使用,删减就不用说了,地球人都明白,补全能不能用 ...
您好我就是用SPSS,主要是想做一个关于健康的分析,结果看了很多文献都说期望寿命这个指标巨重要,但是我看国家统计局只有1990年、2000年、2010年三个年份有数据,我要分析的是2005-2014年的情况,通过看一些报道啥的补充了一点,但是10年31个省就是310个数据,我现在所有补充加起来也就110个。现在处于十分纠结的地步,删掉觉得有问题,不删掉补充又觉得会影响很大

使用道具

报纸
dorisdaidai 发表于 2016-2-16 09:22:18 |只看作者 |坛友微信交流群
你的数据集是一个省为一个样本吗?还是以个人为一个样本?是想做追踪数据吗?

使用道具

地板
zwf0000 发表于 2016-2-16 09:30:45 来自手机 |只看作者 |坛友微信交流群
dorisdaidai 发表于 2016-2-16 09:22
你的数据集是一个省为一个样本吗?还是以个人为一个样本?是想做追踪数据吗?
是一个省一个省的,共31个省的10年的面板数据

使用道具

7
dorisdaidai 发表于 2016-2-16 13:56:23 |只看作者 |坛友微信交流群
zwf0000 发表于 2016-2-16 09:30
是一个省一个省的,共31个省的10年的面板数据
这样啊,嗯那3年的好像是有点少。
我想了下觉得有3种方法,你看下可不可行
1.你看下别的论文是如何处理的,他们的样本量都是多少,你那个110多应该不是31个省份都全的,就是有的年份有的省份是没有的,感觉这样也不太好。主要是先看看前人怎么做的,能不能借鉴。
2.可以做一下KMO检验,看看能不能因子分析。(http://wenku.baidu.com/link?url= ... 9KR8bosVQBSgfYRu8Ji
3.如果实在想保留的话,你看能不能线性补全数据,你不是知道3年的数据吗,分省份,用三年数据回归下,得到中间年份的预测值,或者不回归,两个年份之间分别做一个线性补全,不过我不确定这个可不可行,会不会影响后面的回归结果。
4.还有一种是,你看能不能找到各省份每个年份的分年龄死亡率,如果可以找到分年龄死亡率,其实可以自己计算平均预期寿命, 不用每年都有,两年一次,三年一次,我觉得都行吧

我没太做过样本这么少的,可能会有考虑不周的地方,我要是有说错的请指正哈
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
zwf0000 + 5 + 1 + 1 + 1 鼓励积极发帖讨论

总评分: 论坛币 + 5  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

8
yuxinli2018 发表于 2016-2-16 16:41:01 |只看作者 |坛友微信交流群
去均值替代

使用道具

9
zwf0000 发表于 2016-2-16 17:13:27 来自手机 |只看作者 |坛友微信交流群
yuxinli2018 发表于 2016-2-16 16:41
去均值替代
您好,请问什么叫做去均值代替

使用道具

10
dorisdaidai 发表于 2016-2-16 17:36:01 |只看作者 |坛友微信交流群
线性补全好像可以,但我不确定,最保险的是找到各省的分年龄死亡率,可以计算平均预期寿命,但这个数据估计也不好找

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-30 16:23