人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › S-plus处理缺失值

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: flei

1264 1

[实际应用] S-plus处理缺失值 [推广有奖]

0关注
0粉丝

高中生

47%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 231 点
帖子: 22
精华: 0
在线时间: 36 小时
注册时间: 2010-4-19
最后登录: 2015-7-21

楼主

flei 发表于 2011-9-6 16:02:25 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

有没有用S-plus处理Panel data 缺失值的啊？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：处理缺失值 PLUS Plu 缺失值 panel data

相关帖子

• CDA数据分析师认证考试

使用道具举报

沙发

DM小菜鸟 发表于 2014-12-19 14:06:30 |只看作者 |坛友微信交流群

这个主要看你要用什么样的处理方法和思路——
几种单一的填补方法
①均值填补（mean imputation） 均值填补是用样本中有观测值的均值代替缺失值，可分为非条件均值填补和条件均值填补。非条件均值填补是指对所有的缺失值，用所有观测值的均值进行填补，因此所有填补值都是相同的。条件均值填补是利用辅助信息，对总体进行分层，使各层中的各单元尽可能相似，然后在每层中用该层有响应单位的均值填补该层中的缺失值。分层均值填补比非条件均值填补的填补效果好。但是均值填补通常改变了变量的变异程度，低估填补变量的方差。因此一般情况下均值填补比较适合简单的描述性研究，不适应于较复杂的需要方差估计的分析。

②演绎填补（deducive imputation） 演绎填补法是通过可以搜集到的复杂资料，依据逻辑和常规，对缺失数据进行推断，找出填补值。用公式表示就是Z i = f（X i ），其中z i 为第i 个缺失数据的填补值，X i 是辅助变量，f（* ）是根据缺失数据的目标变量y 与辅助变量 X 之间的逻辑运算关系构造的函数。该方法操作简单，在有高质量的辅助信息下，可以提供准确或近乎准确的填补值，但其效率很大程度上依赖于辅助资料是否充分。

③回归填补（regression imputation） 回归填补是由单元的缺失项对观测项的回归，用预测值代替缺失值。通常由观测变量及缺失变量都有观测的单元进行回归计算。填补中还可以给填补值增加一个随机成分，这种方法称为随机回归填补。它是用回归填补值加上一个随机项，预测出一个缺失值的替代值，该随机项反映所预测的值的不确定性影响。随机回归填补法能够较好的利用数据提供的信息，解决因预测变量高度相关引起的共线性问题。

使用道具举报