Stata 基础操作:数据管理(五)sort/gsort/fillin-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

Stata 基础操作:数据管理(五)sort/gsort/fillin

Stata 基础操作:数据管理(五)sort/gsort/fillin

发布:niuniuyiwan | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

//StataBy-groupProcessing.In-depthTopicofStataWorkshop2(DataManagement)//byChangY.Chungon2014-09-16//clist与list....,clean用法类似,但从stata12起不再更新sysuseautolistmakepricempggear_ratioforeign,nol ...
免费学术公开课,扫码加入


  1. // Stata By-group Processing. In-depth Topic of Stata Workshop 2 (Data Management)
  2. // by Chang Y. Chung on 2014-09-16

  3. //clist与list....,clean用法类似,但从stata12起不再更新
  4. sysuse auto
  5. list make price mpg gear_ratio foreign, nolabel clean
  6. clist make price mpg gear_ratio foreign, nolabel

  7. // 数据集(矩阵形式)
  8. // 新建一个简单的数据集
  9. clear
  10. input x y
  11. 1 2
  12. 1 3
  13. 1 4
  14. end

  15. // 修改变量值
  16. replace x = 2 * y
  17. list

  18. //还可通过循环语句对每个观测值加以修改
  19. gen x2 = .
  20. local N = _N
  21. forval obs = 1/`N' {
  22. replace x2 = 2 * y[`obs'] if `obs' == _n
  23. }
  24. list x x2

  25. // _N表示最后一个观测值的位置序号,即观测值总数
  26. // _n表示每个观测值的序号
  27. gen bigN = _N
  28. gen smallN = _n
  29. list *N

  30. // 所有数据先导入内存
  31. // 调用数据
  32. sysuse auto, clear
  33. // make第二个变量值
  34. di make[2]
  35. // make最后一个变量值
  36. di make[_N]

  37. // _n表示每个观测值的序号,例如:price[_n] 在多数情况下与price无异
  38. gen priceSq1 = price * price
  39. gen priceSq2 = price[_n] * price[_n]
  40. assert priceSq1 == priceSq2// 使用assert加以判断语句正确性,没有返回内容说明二者相等

  41. // lag and lead: 滞后与提前
  42. //保留前5个观测值
  43. keep if _n <= 5
  44. sort make
  45. list make price

  46. // lagPrice——新建变量,意为price的滞后一期
  47. gen lagPrice = price[_n-1]
  48. list make price lagPrice
  49. //由于price格式为%8.0gc,所以调整lagPrice格式
  50. format lagPrice %8.0gc
  51. list make price lagPrice
  52. // 滞后多期
  53. gen lag2Price = price[_n-2]
  54. format lag2Price %8.0gc
  55. list make price lag2Price
  56. // 先前一期
  57. gen leadPrice = price[_n+1]
  58. format leadPrice %8.0gc
  59. list make price leadPrice

  60. // 时间序列中:以tsset 后设定(L., L2., ...)(F.,F2.,...)(D.,D2.,....)(S4.,S8.,....)
  61. // 替换上述复杂手动方式: help tsset

  62. // 变量排序
  63. sysuse auto, clear
  64. // 现有序列:
  65. des
  66. // make mpg headroom weight ... price
  67. // 将前三个变量改为:mpg make and price
  68. order mpg make price, first // first选项(默认) 可以不附加
  69. des
  70. // last选项,排为最后三个
  71. order mpg make price, last // last将变量移动最后端
  72. des

  73. // 将某些变量排位于指定变量前:
  74. order mpg make price, before(trunk)
  75. des

  76. // 指定位置后插入 即trunk后
  77. order mpg make price, after(trunk)
  78. des

  79. // 变量值排序
  80. // 对于字符变量,在Stata中空字符串最小,会被排在最前
  81. replace make = trim("") in 3/5
  82. // 第3-5个变量值替换为空字符串,这与删除变量值中空格 ("")不同
  83. // 此处也是产生空字符串的技巧之一
  84. list make price in 1/10
  85. // sort:升序排列,stable选项:以当前选定区域排序,其他变量按照原来顺序排列
  86. sort make, stable
  87. // 空字符串如前述排在最前
  88. list make price in 1/10

  89. // gsort:降序排列
  90. gsort -make
  91. list make price in 1/10

  92. // 对于数值型变量,缺失值最大,会被排在最后
  93. //除了".",Stata中实际上有26种缺失值,即".a "".b " ...".z",他们之间及非缺失值的顺序:
  94. //非缺失值< . < .a < .b < ... < .z
  95. replace price = . in 5
  96. replace price = .d in 6
  97. sort price, stable
  98. list make price in -6/L

  99. //对选定多变量排序,其余变量维持不变,实际这两个变量应存在对应关系:如foreign与make
  100. sort foreign make, stable
  101. by foreign: list foreign make if _n <=5


  102. // 组合分析
  103. /*
  104. 通过对类别变量categorical variables的分层处理来校验连续性变量continuous variables的取值概况
  105. */
  106. // 查验foreign中的层别概况
  107. tab foreign, nolabel missing
  108. // 如果分类变量取值较多,添加by选项对类别逐一分析,但处理前需要排序:
  109. sysuse auto
  110. sort foreign, stable
  111. by foreign: summarize price // 2次描述性统计,形成foreign与price(分类*连续变量组合分析)

  112. //上述两步可合为一步:
  113. bysort foreign: summarize price
  114. // 或:
  115. by foreign, sort: summarize price

  116. // 如果附加(),那么实际上只是被排序,而没有形成连续型+类别型变量组合
  117. bysort foreign (make): summarize price //仅2次描述性统计

  118. //系统变量: _n 和 _N在连续型+类别型变量组合内会依据类别重置,注意Domestic和foreign的_N _n
  119. sort foreign make, stable
  120. by foreign (make): gen bigN = _N
  121. by foreign (make): gen smallN = _n
  122. list make foreign *N
复制代码by是很多命令的前缀。[by varlist:]表示对varlist(分类变量)中的每一类分别执行命令。

fillin——填充缺失值

  1. webuse fillin1

  2. list

  3. fillin sex race age_group

  4. list
复制代码




「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3834511-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版