楼主: 经济人生
1684 4

[其他] 数据处理的一个小问题,请斑竹和高手们帮忙! [推广有奖]

  • 28关注
  • 8粉丝

已卖:571份资源

博士生

18%

还不是VIP/贵宾

-

威望
0
论坛币
29409 个
通用积分
2.6392
学术水平
32 点
热心指数
31 点
信用等级
25 点
经验
4957 点
帖子
163
精华
0
在线时间
250 小时
注册时间
2004-12-31
最后登录
2025-12-17

楼主
经济人生 发表于 2009-8-25 16:14:48 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币


在处理一个住户调查数据的时候,由于行业、职业等信息并没有录入成代码,而大多是以原始答案形式存在的。而且原始答案比较随意,不统一。例如:属于住宿和餐饮业的就有”餐饮业“、”住宿餐饮“、”住宿和餐饮“、”住宿与餐饮“等近二十种答案,这给数据识别带来了较大麻烦。

不知道如何在stata里边能够实现字符串变量的模糊识别?



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据处理 小问题 Stata 字符串变量 tata 餐饮业 字符串 而且 如何 信息 数据分析专题 数据处理 数据分析软件 数据分析报告 面板数据分析 excel数据分析 数据分析方法 项目数据分析

回帖推荐

sungmoo 发表于4楼  查看完整内容

*设行业变量是字符型indu,以上面为例 g x=strpos(indu,"餐饮")+strpos(indu,"住宿")>0 *生成的x是0-1变量,1表示属于餐饮或住宿业,0表示其他。你可以再把1或0换成你想要的数字。其他依此类推。如果你统一给出各行业编码规则,也可以一并完成任务(不必挨个替换)。

本帖被以下文库推荐

沙发
sungmoo 发表于 2009-8-25 18:00:18
可不可以先提出你的识别(或标识)规则?

藤椅
经济人生 发表于 2009-8-26 00:57:17
2# sungmoo


谢谢斑竹的回复。

举例说明如下,

例如问卷中工人所在的行业,有很多人填写了“餐饮业”、“住宿餐饮”、“住宿和餐饮”、“住宿与餐饮”等等。

我的规则是只要该变量(字符串类别)出现了“餐饮”或者“住宿”字样,就可以把它们归成一类,再赋值就可以变成一般问卷中的数值,比如 “6 ” 来代表住宿和餐饮业,其他行业依次类推。

如果样本很少,其实我可以一个一个的归类就行了。但问题是有成千上万个样本,答案又千差万别,一个一个归类实在很累又花时间!





板凳
sungmoo 发表于 2009-8-26 01:21:24
*设行业变量是字符型indu,以上面为例

g x=strpos(indu,"餐饮")+strpos(indu,"住宿")>0

*生成的x是0-1变量,1表示属于餐饮或住宿业,0表示其他。你可以再把1或0换成你想要的数字。其他依此类推。如果你统一给出各行业编码规则,也可以一并完成任务(不必挨个替换)。
已有 1 人评分热心指数 收起 理由
dxystata + 1 好的意见建议

总评分: 热心指数 + 1   查看全部评分

报纸
经济人生 发表于 2009-8-26 21:32:24
谢谢,版主

看来string  function里边学问真不少啊!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-24 10:01