离群值和缺漏值貌似要么删了要么都可以用均值代替,可是谁先谁后呢?
先用均值替补缺漏值的话,离群值会对均值有影响;先处理离群值的话,那些缺漏值太多的个体(面板里的城市、公司)似乎应该先删去,so,数据处理孰先孰后?
还有一个问题,用均值代替缺漏值合不合理?因为个体差异实在太大,比如几个大城市的数据肯定抬高了均值,这样的均值放在小城市的缺漏值里肯定不合适吧,这种情况怎么处理呢?
|
楼主: luue
|
9290
9
[面板数据求助] 请问拿到一份数据是先处理离群值还是先处理缺漏值? |
|
已卖:480份资源 博士生 4%
-
|
回帖推荐xddlovejiao1314 发表于2楼 查看完整内容 我仔细的想了想,如果我遇到和楼主一样的问题,会怎么处理。
既然是面板数据(有N有T),那么样本量是N*T,如果样本量比较大,我就先把缺漏值给处理了(删掉缺漏值样本),再处理离群值;如果样本量不大,则我先对缺漏值进行处理,然后再处理离群值。这时,在处理缺漏值时,我不用总体均值填充,因为就像楼主说的如果这样填充会受极端异常值影响,会把均值拉升。这时,我用样本中位数去填充缺漏值,或者是面板数据,我用缺漏 ...
| ||
|
|
| ||
| ||
加好友,备注jltj京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


