楼主: 单名一个苗
8776 5

[一般统计问题] 众多的缺失值应该怎么处理? [推广有奖]

  • 3关注
  • 5粉丝

已卖:1261份资源

博士生

8%

还不是VIP/贵宾

-

威望
0
论坛币
23157 个
通用积分
82.0087
学术水平
14 点
热心指数
18 点
信用等级
13 点
经验
6119 点
帖子
232
精华
0
在线时间
88 小时
注册时间
2013-11-24
最后登录
2016-3-25

楼主
单名一个苗 发表于 2015-3-16 14:55:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

QQ截图20150316144716.png
   好多变量都存在很多的缺失值,对于这些缺失值应该怎么处理?在拿到一个原始的数据库的时候,按步骤应该是先进行数据库清洗,那什么是数据库清洗呢?应该做哪些工作?接触数据分析不久,菜鸟级别的,求指教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:怎么处理 缺失值 数据分析 数据库 求指教 数据分析 数据库 数据处理 数据管理与分析

沙发
Alfred_G 学生认证  发表于 2015-3-16 19:34:06
缺失值一般由几种原因造成:抽样误差,覆盖误差(没有抽到样本群体),无应答误差(受访者没有回答问题),调整误差(数据录入,调整权重等造成)。
分清了误差造成的原因在分别去处理。如果是没有回答或者回答有误,那么可以根据前后的题目更改过来;如果本身就缺失,可以进行插补。实在不行,就删掉,样本总量大概48000,删掉之后剩下40000多,其实也还好,样本量可以接受
已有 2 人评分经验 论坛币 学术水平 热心指数 收起 理由
SpencerMeng + 10 + 1 + 1 精彩帖子
hustchen2012 + 10 + 10 + 1 + 1 热心帮助其他会员

总评分: 经验 + 10  论坛币 + 20  学术水平 + 2  热心指数 + 2   查看全部评分

藤椅
端正 发表于 2015-3-16 21:53:50
现代统计有专门处理缺失值的方法,常见的有完全方法,借补和逆概率加权的方法等等,可以查看文献和专著

板凳
单名一个苗 发表于 2015-3-17 09:18:45
端正 发表于 2015-3-16 21:53
现代统计有专门处理缺失值的方法,常见的有完全方法,借补和逆概率加权的方法等等,可以查看文献和专著
谢谢~能推荐几篇好的文献或者书吗

报纸
单名一个苗 发表于 2015-3-17 09:19:53
Alfred_G 发表于 2015-3-16 19:34
缺失值一般由几种原因造成:抽样误差,覆盖误差(没有抽到样本群体),无应答误差(受访者没有回答问题), ...
噢,,,非常感谢

地板
端正 发表于 2015-3-17 15:19:44
单名一个苗 发表于 2015-3-17 09:18
谢谢~能推荐几篇好的文献或者书吗
期刊库搜缺失数据,就有很多,英文文献可以参看主页 http://sitemaker.umich.edu/rlittle/missing_data

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-5 13:24