楼主: 木牛流马0
1460 7

[数据管理求助] 数据缺失统计 [推广有奖]

  • 2关注
  • 0粉丝

讲师

20%

还不是VIP/贵宾

-

威望
0
论坛币
2680 个
通用积分
140.0773
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2616 点
帖子
128
精华
0
在线时间
716 小时
注册时间
2016-7-17
最后登录
2025-11-17

楼主
木牛流马0 学生认证  发表于 2020-12-31 18:04:37 |AI写论文
30论坛币
现有地级市2003-2019数据,但有地区部分年份数据有缺失,我想查找缺失。若缺失地区年份数据,则在year字段无该年份。我想应根据year字段,查出哪些地级市,具体缺失了那几年的数据。比如在数据中三门峡市的year字段有2006-2019,可查出三门峡市缺失2003、2004、2005。

----------------------- copy starting from the next line -----------------------
  1. * Example generated by -dataex-. To install: ssc install dataex
  2. clear
  3. input str33 city float year
  4. "三门峡市"       2006
  5. "三门峡市"       2007
  6. "三门峡市"       2008
  7. "三门峡市"       2009
  8. "三门峡市"       2010
  9. "三门峡市"       2011
  10. "三门峡市"       2012
  11. "三门峡市"       2013
  12. "三门峡市"       2014
  13. "三门峡市"       2015
  14. "三门峡市"       2016
  15. "三门峡市"       2017
  16. "三门峡市"       2018
  17. "三门峡市"       2019
  18. "上海市市辖区" 2004
  19. "上海市市辖区" 2005
  20. "上海市市辖区" 2006
  21. "上海市市辖区" 2007
  22. "上海市市辖区" 2008
  23. "上海市市辖区" 2009
  24. "上海市市辖区" 2010
  25. "上海市市辖区" 2011
  26. "上海市市辖区" 2012
  27. "上海市市辖区" 2013
  28. "上海市市辖区" 2014
  29. "上海市市辖区" 2015
  30. "上海市市辖区" 2016
  31. "上海市市辖区" 2017
  32. "上海市市辖区" 2018
  33. "上海市市辖区" 2019
  34. "上饶市"          2003
  35. "上饶市"          2004
  36. "上饶市"          2005
  37. "上饶市"          2006
  38. "上饶市"          2007
  39. "上饶市"          2008
  40. "上饶市"          2009
  41. "上饶市"          2010
  42. "上饶市"          2011
  43. "上饶市"          2012
  44. "上饶市"          2013
  45. "上饶市"          2014
  46. "上饶市"          2015
  47. "上饶市"          2016
  48. "上饶市"          2017
  49. "上饶市"          2018
  50. "上饶市"          2019
  51. "东营市"          2007
  52. "东营市"          2008
  53. "东营市"          2009
  54. "东营市"          2010
  55. "东营市"          2011
  56. "东营市"          2012
  57. "东营市"          2013
  58. "东营市"          2014
  59. "东营市"          2015
  60. "东营市"          2016
  61. "东营市"          2017
  62. "东营市"          2018
  63. "东营市"          2019
  64. "中卫市"          2007
  65. "中卫市"          2008
  66. "中卫市"          2009
  67. "中卫市"          2010
  68. "中卫市"          2011
  69. "中卫市"          2012
  70. "中卫市"          2013
  71. "中卫市"          2014
  72. "中卫市"          2015
  73. "中卫市"          2016
  74. "中卫市"          2017
  75. "中卫市"          2018
  76. "中卫市"          2019
  77. end
复制代码
------------------ copy up to and including the previous line ------------------

最佳答案

黃河泉 查看完整内容

请用_fillin=1 就是你要的。
关键词:数据缺失 including generated Starting generate
努力做一个不断向上的科研人

沙发
黃河泉 在职认证  发表于 2020-12-31 18:04:38
请用
  1. fillin city year
复制代码
_fillin=1 就是你要的。

藤椅
zdlspace 学生认证  发表于 2020-12-31 22:49:23
我不太清楚你这样做有何意义?如果地级市不多的话,与其找程序,还不如自己统计一下。我给的方案可能有点繁杂,你可以先生成一个2003-2019的只包含id year 的面板,代码如下:
  1. * Example generated by -dataex-. To install: ssc install dataex
  2. clear
  3. input double(id year)
  4. 1 2003
  5. 1 2004
  6. 1 2005
  7. 1 2006
  8. 1 2007
  9. 1 2008
  10. 1 2009
  11. 1 2010
  12. 1 2011
  13. 1 2012
  14. 1 2013
  15. 1 2014
  16. 1 2015
  17. 1 2016
  18. 1 2017
  19. 1 2018
  20. 1 2019
  21. 2 2003
  22. 2 2004
  23. 2 2005
  24. 2 2006
  25. 2 2007
  26. 2 2008
  27. 2 2009
  28. 2 2010
  29. 2 2011
  30. 2 2012
  31. 2 2013
  32. 2 2014
  33. 2 2015
  34. 2 2016
  35. 2 2017
  36. 2 2018
  37. 2 2019
  38. 3 2003
  39. 3 2004
  40. 3 2005
  41. 3 2006
  42. 3 2007
  43. 3 2008
  44. 3 2009
  45. 3 2010
  46. 3 2011
  47. 3 2012
  48. 3 2013
  49. 3 2014
  50. 3 2015
  51. 3 2016
  52. 3 2017
  53. 3 2018
  54. 3 2019
  55. 4 2003
  56. 4 2004
  57. 4 2005
  58. 4 2006
  59. 4 2007
  60. 4 2008
  61. 4 2009
  62. 4 2010
  63. 4 2011
  64. 4 2012
  65. 4 2013
  66. 4 2014
  67. 4 2015
  68. 4 2016
  69. 4 2017
  70. 4 2018
  71. 4 2019
  72. 5 2003
  73. 5 2004
  74. 5 2005
  75. 5 2006
  76. 5 2007
  77. 5 2008
  78. 5 2009
  79. 5 2010
  80. 5 2011
  81. 5 2012
  82. 5 2013
  83. 5 2014
  84. 5 2015
  85. 5 2016
  86. 5 2017
  87. 5 2018
  88. 5 2019
  89. end

  90. merge 1:1 id year using example.dta
  91. list if _merge==1
  92. +------------------------------------+
  93.      | id   year   city            _merge |
  94.      |------------------------------------|
  95.   1. |  1   2003          master only (1) |
  96.   2. |  1   2004          master only (1) |
  97.   3. |  1   2005          master only (1) |
  98. 18. |  2   2003          master only (1) |
  99. 52. |  4   2003          master only (1) |
  100.      |------------------------------------|
  101. 53. |  4   2004          master only (1) |
  102. 54. |  4   2005          master only (1) |
  103. 55. |  4   2006          master only (1) |
  104. 69. |  5   2003          master only (1) |
  105. 70. |  5   2004          master only (1) |
  106.      |------------------------------------|
  107. 71. |  5   2005          master only (1) |
  108. 72. |  5   2006          master only (1) |
  109.      +------------------------------------+
复制代码

板凳
木牛流马0 学生认证  发表于 2021-1-1 13:46:43
zdlspace 发表于 2020-12-31 22:49
我不太清楚你这样做有何意义?如果地级市不多的话,与其找程序,还不如自己统计一下。我给的方案可能有点繁 ...
感谢您的回复,我的数据是200多个地级市的5、6个变量,每一个都用excel统计的话还是比较麻烦的事。您现给的命令将市名转化成了数字,不太便于我查看缺失数据,不知是否有不简化的方式?

报纸
zdlspace 学生认证  发表于 2021-1-1 16:10:38
木牛流马0 发表于 2021-1-1 13:46
感谢您的回复,我的数据是200多个地级市的5、6个变量,每一个都用excel统计的话还是比较麻烦的事。您现给 ...
你这跟有多少变量没多大关系吧?只要建一个包含200个地级市,17年的Excel就可以啦,如果想看市名,可以keep if _merge==1

地板
木牛流马0 学生认证  发表于 2021-1-1 17:06:37
zdlspace 发表于 2021-1-1 16:10
你这跟有多少变量没多大关系吧?只要建一个包含200个地级市,17年的Excel就可以啦,如果想看市名,可以ke ...
因为我的每一个变量是一张表,而且每个变量缺失的地区和年份不一样,所以我想做这么一个统计。

7
木牛流马0 学生认证  发表于 2021-1-1 17:07:16
黃河泉 发表于 2020-12-31 18:04
请用_fillin=1 就是你要的。
是的,您的命令可行,感谢黄老师!

8
zdlspace 学生认证  发表于 2021-1-1 19:00:06
木牛流马0 发表于 2021-1-1 17:07
是的,您的命令可行,感谢黄老师!
棒棒哒,学习了

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-30 11:38