楼主: 日新少年
2056 9

[数据管理求助] 1000论坛币求助如何处理此类数据 [推广有奖]

区版主

已卖:26526份资源

大师

46%

还不是VIP/贵宾

-

TA的文库  其他...

日新文库:Matlab入门及进阶

日新文库:Stata入门及进阶

日新文库:R入门及进阶

威望
3
论坛币
646393 个
通用积分
22788.5150
学术水平
1190 点
热心指数
1369 点
信用等级
1056 点
经验
219982 点
帖子
11024
精华
11
在线时间
6843 小时
注册时间
2010-4-15
最后登录
2025-12-30

初级热心勋章 初级学术勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章

楼主
日新少年 学生认证  发表于 2019-3-30 16:39:35 |AI写论文
1000论坛币
BB.jpg


数据如上图,现有 Bpftn 变量对应全国总区县代码,以及Bcont代表现有数据中所包含的区县排序。我现在头疼的是,如何以一种比较简便的方式,使得Bcont变量对应区县自动获得到 Bpftn 变量对应区县的代码,,因为Bcont变量对应区县太多,一个个查找粘贴并不现实。。
Excel,Stata,MATLAB等软件都行,帮忙处理一下并且告诉我方法或者程序,数据我上传到帖子附件了,,谢谢大家了,,无奈。。。

BB.xlsx (93.77 KB)



最佳答案

关键词:1000论坛币 0论坛币 论坛币 MATLAB Stata

本帖被以下文库推荐

沙发
蓝色 发表于 2019-3-30 16:39:36
  1. clear
  2. import excel "d:\BB.xlsx", sheet("Sheet1") case(lower) firstrow clear
  3. des

  4. tempfile master_data using_data

  5. preserve
  6. keep daima bpftn
  7. drop if daima==.
  8. duplicates list bpftn   /*存在重复的,相同bpftn但代码是不同的,这是不对的*/
  9. save "`master_data'"

  10. restore

  11. keep bcont
  12. drop if bcont==""
  13. gen bpftn=bcont

  14. save "`using_data'"


  15. *由于bpftn里面有重复的,所以下面只能用m:1.但这样是有问题的,应该是1:1才是正确

  16. use "`master_data'",clear
  17. merge m:1 bpftn  using  "`using_data'"
复制代码


已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
东方祥 + 80 + 5 + 4 + 5 精彩帖子
crystal8832 + 50 + 3 + 3 + 3 精彩帖子

总评分: 经验 + 80  论坛币 + 50  学术水平 + 8  热心指数 + 7  信用等级 + 8   查看全部评分

藤椅
日新少年 学生认证  发表于 2019-3-30 16:42:24
这里还要补充一句,,目前我已经将 Bcont变量下面对 值处理的没有重复值,另外,Bcont变量的值与 Bpftn 变量中绝大部分都有,但是不排除没有的个别值,这个处理数据的时候也要注意。。

板凳
日新少年 学生认证  发表于 2019-3-30 17:59:51
已经搞定了,用Excel的VLOOKUP函数,求版主帮忙取消悬赏!谢谢啦

报纸
蓝色 发表于 2019-3-30 19:23:22
bpftn变量里面有许多重复的
Duplicates in terms of bpftn

  +------------------------------------------+
  | group:   obs:                      bpftn |
  |------------------------------------------|
  |      1   2051                       东区 |
  |      1   2061                       东区 |
  |      1   2090                       东区 |
  |      1   2565                       东区 |
  |      2    798                     东山区 |
  |------------------------------------------|
  |      2   2188                     东山区 |
  |      2   3444                     东山区 |
  |      3   2327                     东莞市 |
  |      3   2328                     东莞市 |
  |      4   2881       中国振华电子集团公司 |
  |------------------------------------------|
  |      4   2882       中国振华电子集团公司 |
  |      5   2879   中国江南航天工业集团公司 |
  |      5   2880   中国江南航天工业集团公司 |
  |      6   2877     中国贵州航空工业总公司 |
  |      6   2878     中国贵州航空工业总公司 |
  |------------------------------------------|
  |      7   2330                     中山市 |
  |      7   2331                     中山市


已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
日新少年 + 100 + 5 + 5 + 5 谢谢蓝色版主帮忙

总评分: 经验 + 100  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

地板
polyad 学生认证  发表于 2019-3-30 20:54:45
2.png 使用说明:
输出的结果文件:sort_by_column.xls 按ic参数第几列排序输出。
select_by_string_name.xls :基于ic参数第几列,并 in 参数选择的字符按序列输出结果。
python脚本在附件
输入文件要求:所有列不能有空格,若有需要用0或者-代替,需转化为utf-8编码。
1.png fetch_value_by_name.zip (1.31 KB, 需要: 1 个论坛币) 本附件包括:
  • fetch_value_by_name.py


已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
日新少年 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 100  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

7
日新少年 学生认证  发表于 2019-3-31 01:27:07
polyad 发表于 2019-3-30 20:54
使用说明:
输出的结果文件:sort_by_column.xls 按ic参数第几列排序输出。
select_by_string_name.xls  ...
谢谢啊,都是大神!!

8
sugarss 发表于 2019-3-31 06:03:19
过来学习一下

9
hildegardvon 发表于 2019-3-31 09:29:18
匹配下,就行了。

10
tanxinalice 发表于 2019-5-17 22:56:04
用vlookup函数,附在excel里面了,最好是再加上省份、城市,这样可以同时对应上特定省份城市下的区县,因为有的区县名称是重复的

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-31 08:43