楼主: 丘羽月之
2392 3

[其他] stata如何去除词语间的符号,如何区分同词根的单词? [推广有奖]

  • 0关注
  • 4粉丝

已卖:5份资源

硕士生

98%

还不是VIP/贵宾

-

威望
0
论坛币
33 个
通用积分
0
学术水平
3 点
热心指数
2 点
信用等级
1 点
经验
3041 点
帖子
137
精华
0
在线时间
127 小时
注册时间
2011-2-18
最后登录
2020-3-22

楼主
丘羽月之 发表于 2015-10-16 23:31:57 |AI写论文
5论坛币
我用一个简单的例子来描述我的问题:

例如,我有一个字符型变量var,它有如下四种取值:
var
Financial Constrain
Financial constrains
Financial constrained
financial-constraining
这四个值的意思其实是一样的,都是指financial constrain,但是变换了多种形式。
我希望通过处理之后能将这四个不同的值都变成financial constrain,即:
var
financial constrain
financial constrain
financial constrain
financial constrain


我知道应该如何将大写字母转换为小写,但是我应该如何才能将constrained和constrains都转换为constrain呢?
我的数据量很大,不可能一个个改,而且有很多其他的词语都是像这样以不同的形式出现,例如单数和复数,现在时和过去时,有没有办法能批量处理这些同词根的单词数据呢?

另外,有些词语之间有短横线(例如financial-constraining),还有的词语之间有点号或者下划线,那么这些要如何批量去除呢?将这些符号转换成空格就好,即将financial-constraining变成financial constrain


感谢各位的帮助。

最佳答案

夏目贵志 查看完整内容

一个一个的replace就是了。听你说的反正也不过十来个。比如把constrained换成constrain, replace x = subinstr(x,"constrained","constrain")
关键词:Stata tata Constrained constrain financial 单词 如何

沙发
夏目贵志 发表于 2015-10-16 23:31:58
一个一个的replace就是了。听你说的反正也不过十来个。比如把constrained换成constrain,
replace x = subinstr(x,"constrained","constrain")

藤椅
丘羽月之 发表于 2015-10-20 21:23:28
夏目贵志 发表于 2015-10-18 07:55
一个一个的replace就是了。听你说的反正也不过十来个。比如把constrained换成constrain,
replace x = sub ...
不不不,我的真实数据量很大,这里只是举一个简单的例子来说明我的问题

板凳
夏目贵志 发表于 2015-10-21 04:31:28
丘羽月之 发表于 2015-10-20 21:23
不不不,我的真实数据量很大,这里只是举一个简单的例子来说明我的问题
那就用help f_soundex里的方法吧。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-1 18:41