楼主: tq1258
2388 6

[一般统计问题] stata数据合并问题 [推广有奖]

  • 3关注
  • 1粉丝

已卖:240份资源

硕士生

81%

还不是VIP/贵宾

-

威望
0
论坛币
18 个
通用积分
0.5091
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2964 点
帖子
117
精华
0
在线时间
180 小时
注册时间
2015-2-4
最后登录
2022-1-8

楼主
tq1258 学生认证  发表于 2017-9-14 13:31:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
stata在合并数据量较多的数据时每次合并后的观测值会有小幅度的变化这是为什么
  1. ********************************************************************************
  2. *(1)电话号码后七位和行政区划
  3. ********************************************************************************
  4. cd E:\paper\data\2000
  5. use F2000.dta, clear
  6. sort dhhm xzqh
  7. save F2000.dta, replace

  8. use C2000c.dta, clear
  9. sort dhhm xzqh
  10. save C2000c.dta, replace

  11. merge m:1 dhhm xzqh using F2000.dta
  12. keep if _merge == 3
  13. drop _merge
  14. save CF1.dta, replace  

  15. use CF1.dta, clear
  16. duplicates drop qymc, force      

  17. use CF1.dta, clear
  18. duplicates drop country, force         
  19. *****注释: 41304条记录  7317个企业  186个国家
  20. **********************************************


  21. ********************************************************************************
  22. *(2)按企业名称合并
  23. ********************************************************************************
  24. use F2000.dta, clear
  25. sort qymc
  26. save F2000.dta, replace

  27. use C2000c.dta, clear
  28. sort qymc
  29. save C2000c.dta, replace

  30. merge m:1 qymc using F2000.dta
  31. keep if _merge == 3
  32. drop _merge
  33. save CF2.dta, replace

  34. use CF2.dta, clear
  35. duplicates drop qymc, force        

  36. use CF2.dta, clear
  37. duplicates drop country, force         
  38. *****注释:87370条记录  14488个企业  195个国家
  39. **********************************************


  40. ********************************************************************************
  41. *(3)按电话号码后七位和法人姓名合并
  42. ********************************************************************************
  43. use F2000.dta, clear
  44. sort dhhm fr
  45. save F2000.dta, replace

  46. use C2000c.dta, clear
  47. sort dhhm fr
  48. save C2000c.dta, replace

  49. merge m:1 dhhm fr using F2000.dta
  50. keep if _merge == 3
  51. drop _merge
  52. save CF3.dta, replace

  53. use CF3.dta, clear
  54. duplicates drop qymc, force        

  55. use CF3.dta, clear
  56. duplicates drop country, force         
  57. *****注释: 4237条记录  703个企业  13个国家
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:STATA数据 Stata tata 数据合并 duplicates

沙发
少才 发表于 2017-9-14 15:11:10
keep if _merge == 3
主数据和拊数据样本并不完全一致
这条命令仅保留两者都有的匹配样本观测,所以会导致样本改变

藤椅
tq1258 学生认证  发表于 2017-9-14 15:16:53
少才 发表于 2017-9-14 15:11
keep if _merge == 3
主数据和拊数据样本并不完全一致
这条命令仅保留两者都有的匹配样本观测,所以会导致 ...
我的意思是我第一遍完整的做完所有合并后得到的观测值和再做一遍得到的观测值会有很小的变动,有事相差几十或几百个观测值

板凳
黃河泉 在职认证  发表于 2017-9-14 15:32:39
line 13 應該為?
  1. merge 1:1 dhhm xzqh using F2000.dta
复制代码

报纸
tq1258 学生认证  发表于 2017-9-14 16:05:21
黃河泉 发表于 2017-9-14 15:32
line 13 應該為?
这个是两个变量作为合并,并且主表的数据量较多不是应该用m:1么?

地板
黃河泉 在职认证  发表于 2017-9-14 16:10:26
tq1258 发表于 2017-9-14 16:05
这个是两个变量作为合并,并且主表的数据量较多不是应该用m:1么?
老实说,我看不到资料,很难判断!

7
tq1258 学生认证  发表于 2017-9-14 20:44:39
黃河泉 发表于 2017-9-14 16:10
老实说,我看不到资料,很难判断!
数据太大不好上传,如果是小样本数据不会发生这种情况

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-29 11:22