楼主: 林清越
644 3

[一般统计问题] 请问stata有没有模糊分组的命令 [推广有奖]

  • 4关注
  • 1粉丝

硕士生

46%

还不是VIP/贵宾

-

威望
0
论坛币
1922 个
通用积分
0.1010
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
305 点
帖子
14
精华
0
在线时间
328 小时
注册时间
2018-10-27
最后登录
2025-6-21

楼主
林清越 学生认证  发表于 2022-12-1 20:45:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如题,就是比如按年份分组,就是by year,把年份相同的归为一组。但如果我想按股东名字分组,但是同一个股东可能名字的字符不太一样,比如北京市A公司,和北京A公司,北京A有限公司,这中模糊的情况如何把他们归为一组呢?手动整理工作量是在太大了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata tata 有没有 year 有限公司

沙发
917968079 发表于 2022-12-2 08:59:44
可以试试先生成一个新的变量,可以是企业简称,比如剔除市、省、自治区、有限公司等可能输入不一致的词。然后用新生成的变量分组

藤椅
abelus 发表于 2022-12-6 08:40:22
如果组名还比较规范,可以通过正则表达式
定义一个字符编码的相似性度量函数,然后“聚类”下,再手工的处理下,text analysis的的领域了。Python、R等都有现成的函数了,可以试一试。

板凳
wtst 学生认证  发表于 2022-12-9 17:24:05
感觉可以拆解为:
1.正则表达式构建相同的变量组
2.根据构建出的变量组再进行聚类或其他处理

其中,STATA中的正则表达式可以用 regexm(s,re) 以及 regexr(s1,re,s2)

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-2 20:42