楼主: 日久i
1167 3

[统计软件] 缺失值插补数据 [推广有奖]

  • 2关注
  • 2粉丝

本科生

25%

还不是VIP/贵宾

-

威望
0
论坛币
10057 个
通用积分
10.8653
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1187 点
帖子
24
精华
0
在线时间
138 小时
注册时间
2016-4-7
最后登录
2023-5-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请问一下,面板数据缺失应该用什么方法插补啊,数据缺失了插补数据的时候能用不同的方法插补吗,比如首尾用一种,中间缺失的用一种?恳请大佬们解答!
感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:缺失值 数据缺失 面板数据 什么方法 插补数据 缺失值

沙发
sigtem 在职认证  发表于 2021-10-24 07:31:34 |只看作者 |坛友微信交流群
在同一组数据里最好不要用不同的补充缺失值方法,要前后一致,否则会造成结果偏差比较大

使用道具

藤椅
zhangkai325 发表于 2021-7-31 21:17:07 |只看作者 |坛友微信交流群
①目前处理缺失值的主流方法有删除元组(即存在遗漏信息属性值的对象)和补齐数据两种方法,补齐数据的方法包括插值法、均值替换法、热卡填充法、回归替换法和多重替代法等。A.不采用删除元组的方法是由于这种方法适用于调查对象包含多个属性值的情形,当被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下时比较有效,但是这种方法是以减少历史数据为代价换取数据的完备,会造成有效资源的浪费,同时也丢弃了大量隐藏在这些对象中的信息,在本文中由于包含信息相对而言并不多,删除少量对象足以影响到信息的客观性和结果的正确性,因此不采用删除元组;B.不采用均值替换法是由于这种方法建立在完全随机缺失(MCAR)的假设之上的,会产生有偏估计,造成变量的方差和标准差变小;C.不采用热卡填充法是由于在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时;D.不采用回归替换法是由于第一,该方法虽然是无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重,第二,必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的;E.不采用多重替代法是由于这种方法虽然能够反映出由于数据缺失而导致的不确定性,产生更加有效的统计推断,但由于计算过程过于复杂,且适用于样本量较大的数据分析,并不适用于本文中的数据缺失情形。
②插值法。目前插值法的主要方法包括泰勒插值法、拉格朗日插值和牛顿插值法等。泰勒插值法需要保证在余项中满足n阶可导的条件,这个条件过于苛刻,泰勒插值法并不常用;拉格朗日插值法由于每增加一个新节点都要重新进行计算,并不具有承袭性,同时在插值区间内插值的精度远远大于区间外的精度,即区间外拉格朗日插值是不准确的,因此拉格朗日插值法也不适用;
本文采用插值法中的牛顿插值法,同时由于数据是按照年份分布的离散型等距样本,因此采用牛顿前向等距节点插值公式。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 13:54