请问stata有没有模糊分组的命令 - Stata专版

4关注
1粉丝

硕士生

46%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 1922 个
通用积分: 0.1010
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 305 点
帖子: 14
精华: 0
在线时间: 328 小时
注册时间: 2018-10-27
最后登录: 2025-6-21

楼主

林清越

发表于 2022-12-1 20:45:34 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

如题，就是比如按年份分组，就是by year，把年份相同的归为一组。但如果我想按股东名字分组，但是同一个股东可能名字的字符不太一样，比如北京市A公司，和北京A公司，北京A有限公司，这中模糊的情况如何把他们归为一组呢？手动整理工作量是在太大了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Stata tata 有没有 year 有限公司

相关帖子

沙发

917968079 发表于 2022-12-2 08:59:44

可以试试先生成一个新的变量，可以是企业简称，比如剔除市、省、自治区、有限公司等可能输入不一致的词。然后用新生成的变量分组

藤椅

abelus 发表于 2022-12-6 08:40:22

如果组名还比较规范，可以通过正则表达式
定义一个字符编码的相似性度量函数，然后“聚类”下，再手工的处理下，text analysis的的领域了。Python、R等都有现成的函数了，可以试一试。

板凳

wtst

发表于 2022-12-9 17:24:05

感觉可以拆解为：
1.正则表达式构建相同的变量组
2.根据构建出的变量组再进行聚类或其他处理

其中，STATA中的正则表达式可以用 regexm(s,re) 以及 regexr(s1,re,s2)

[一般统计问题] 请问stata有没有模糊分组的命令 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[一般统计问题] 请问stata有没有模糊分组的命令 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群