楼主: mooncrystal
4665 11

[数据管理求助] 根据缺失值数量,筛选变量 [推广有奖]

  • 0关注
  • 2粉丝

讲师

98%

还不是VIP/贵宾

-

威望
0
论坛币
16158 个
通用积分
1.7962
学术水平
12 点
热心指数
10 点
信用等级
6 点
经验
7907 点
帖子
282
精华
0
在线时间
977 小时
注册时间
2011-4-3
最后登录
2022-10-21

楼主
mooncrystal 发表于 2017-2-19 21:57:05 |AI写论文
50论坛币
求问,
有很多很多变量,但是有一部分缺失值严重,要剔除这一部分缺失值很多的变量,
求问如何写stata命令剔除缺失值在1000以上的变量?(或者说,保留有2000个以上非缺失样本的变量)
谢谢!

最佳答案

hplcdadong 查看完整内容

ssc install nmissing, replace quietly nmissing, min(1000) drop `r(varlist)'
关键词:缺失值 stata命令 Stata tata 如何写 如何 样本

沙发
hplcdadong 发表于 2017-2-19 21:57:06
ssc install nmissing, replace
quietly nmissing, min(1000)
drop `r(varlist)'

藤椅
夏目贵志 发表于 2017-2-20 05:26:16
这个只能自己试,看看多严格的删才能保留2000个以上。一般来说试个四五次就知道了。很快的。

板凳
黃河泉 在职认证  发表于 2017-2-20 09:02:15
可先 search tabmiss(然后安装),试试
  1. . sysuse auto
  2. (1978 Automobile Data)

  3. . tabmiss
  4.     Variable |     Obs       Missings   Feq.Missings    NonMiss   Feq.NonMiss
  5. -------------+---------------------------------------------------------------
  6.         make |      74           0            0             74          100
  7.        price |      74           0            0             74          100
  8.          mpg |      74           0            0             74          100
  9.        rep78 |      74           5        6.757             69        93.24
  10.     headroom |      74           0            0             74          100
  11.        trunk |      74           0            0             74          100
  12.       weight |      74           0            0             74          100
  13.       length |      74           0            0             74          100
  14.         turn |      74           0            0             74          100
  15. displacement |      74           0            0             74          100
  16.   gear_ratio |      74           0            0             74          100
  17.      foreign |      74           0            0             74          100
复制代码
即可发现你所需之变量!

报纸
黃河泉 在职认证  发表于 2017-2-20 09:09:23
或 ssc install mdesc,然后
  1. . mdesc

  2.     Variable    |     Missing          Total     Percent Missing
  3. ----------------+-----------------------------------------------
  4.            make |           0             74           0.00
  5.           price |           0             74           0.00
  6.             mpg |           0             74           0.00
  7.           rep78 |           5             74           6.76
  8.        headroom |           0             74           0.00
  9.           trunk |           0             74           0.00
  10.          weight |           0             74           0.00
  11.          length |           0             74           0.00
  12.            turn |           0             74           0.00
  13.    displacement |           0             74           0.00
  14.      gear_ratio |           0             74           0.00
  15.         foreign |           0             74           0.00
  16. ----------------+-----------------------------------------------
复制代码

地板
mooncrystal 发表于 2017-2-20 13:03:27
hplcdadong 发表于 2017-2-19 21:57
ssc install nmissing, replace
quietly nmissing, min(1000)
drop `r(varlist)'
谢谢!

7
zqz要加油鸭 发表于 2020-2-19 23:21:43
黃河泉 发表于 2017-2-20 09:09
或 ssc install mdesc,然后
黄老师您好,请问stata面板数据能否按照企业id来统计某一变量的缺失值?我现在的情况是,企业财务数据和企业研发数据合并后,由于研发数据存在较多的缺失值,在2007-2017年间,有些企业的研发数据全部缺失,有些企业研发数据只是缺失部分年份,我想将11年研发数据全部缺失的数据删除,该如何操作?我试图手工删除,但由于样本量较大,这样的效率太低了。请问黄老师有没有什么更高效的方式呢?

8
黃河泉 在职认证  发表于 2020-2-20 07:50:33
zqz要加油鸭 发表于 2020-2-19 23:21
黄老师您好,请问stata面板数据能否按照企业id来统计某一变量的缺失值?我现在的情况是,企业财务数据和企 ...
https://bbs.pinggu.org/thread-5048204-1-1.html

9
zqz要加油鸭 发表于 2020-2-20 11:33:57
黃河泉 发表于 2020-2-20 07:50
https://bbs.pinggu.org/thread-5048204-1-1.html
* Example generated by -dataex-. To install: ssc install dataex
clear
input long id int year double(资产总计 研发投入金额) byte(year1 year2)
968 2007 3.813e+09         . . 11
968 2008 4.815e+09         . . 11
968 2009 5.218e+09         . . 11
968 2010 6.672e+09         . . 11
968 2011 7.620e+09         . . 11
968 2012 9.454e+09         . . 11
968 2013 1.171e+10         . . 11
968 2014 1.543e+10         . . 11
968 2015 1.250e+10         . . 11
968 2016 6.226e+09         . . 11
968 2017 7.353e+09         . . 11
969 2007 3.555e+09         . . 11
969 2008 4.103e+09         . . 11
969 2009 4.856e+09  28049691 7 11
969 2010 5.398e+09         . . 11
969 2011 6.922e+09         . . 11
969 2012 7.612e+09  58431500 7 11
969 2013 7.498e+09 1.377e+08 7 11
969 2014 7.733e+09 1.315e+08 7 11
969 2015 8.327e+09  72989164 7 11
969 2016 9.895e+09 1.462e+08 7 11
969 2017 1.002e+10 1.777e+08 7 11
end

10
zqz要加油鸭 发表于 2020-2-20 11:34:01
黃河泉 发表于 2020-2-20 07:50
https://bbs.pinggu.org/thread-5048204-1-1.html
* Example generated by -dataex-. To install: ssc install dataex
clear
input long id int year double(资产总计 研发投入金额) byte(year1 year2)
968 2007 3.813e+09         . . 11
968 2008 4.815e+09         . . 11
968 2009 5.218e+09         . . 11
968 2010 6.672e+09         . . 11
968 2011 7.620e+09         . . 11
968 2012 9.454e+09         . . 11
968 2013 1.171e+10         . . 11
968 2014 1.543e+10         . . 11
968 2015 1.250e+10         . . 11
968 2016 6.226e+09         . . 11
968 2017 7.353e+09         . . 11
969 2007 3.555e+09         . . 11
969 2008 4.103e+09         . . 11
969 2009 4.856e+09  28049691 7 11
969 2010 5.398e+09         . . 11
969 2011 6.922e+09         . . 11
969 2012 7.612e+09  58431500 7 11
969 2013 7.498e+09 1.377e+08 7 11
969 2014 7.733e+09 1.315e+08 7 11
969 2015 8.327e+09  72989164 7 11
969 2016 9.895e+09 1.462e+08 7 11
969 2017 1.002e+10 1.777e+08 7 11
end

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-1 17:25