楼主: sunhanhan1996
5453 8

[数据管理求助] 统计stata中文本的字数 [推广有奖]

  • 8关注
  • 1粉丝

博士生

33%

还不是VIP/贵宾

-

威望
0
论坛币
379 个
通用积分
8.6450
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
4572 点
帖子
140
精华
0
在线时间
295 小时
注册时间
2019-10-13
最后登录
2024-5-16

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教各位老师,怎么统计stata中文本的字数(不包括标点符号)
* Example generated by -dataex-. To install: ssc install dataex
clear
input str6 股票代码 strL 提问内容
"000001" "新开业的武汉分行,资金有多少?规模有多大?"                                                
"000001" "股指期货是不是有利于银行股低估的修正"                                                   
"000001" "请问深发展出让持有000693的股份,为什么没有发公告?"                                 
"000001" "深发展A(000001)七年才分了一次红,是否不能申请增发融资?"                        
"000001" "您好!请问:平安收购深发展股权后,深发展的管理层会发生大的变动吗?谢谢"
"000001" "平安既要控股,就应早出方案;说要增发增持,已几个月了,是否缺钱?"         
"000001" "贵公司受放款额度所限是否会影响2-4季度的业绩?"                                       
"000001" "请直接回答投资者的提问,不要忽悠,是否对2-4季度的业绩产生影响?"            
"000001" "贵公司向平安增发股价还是18.26元吗?是否有变动?"                                    
"000001" "什么时间复牌?"                                                                                    
end

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata tata generated generate install

沙发
mjdeng 发表于 2022-7-3 09:05:19 |只看作者 |坛友微信交流群
replace 提问内容=trim( 提问内容 )
replace 提问内容 =subinstr( 提问内容 ," ","",.)
replace 提问内容 =subinstr( 提问内容 ,",","",.)
replace 提问内容 =subinstr( 提问内容 ,"?","",.)
replace 提问内容 =subinstr( 提问内容 ,",","",.)
replace 提问内容 =subinstr( 提问内容 ,"?","",.)
replace 提问内容 =subinstr( 提问内容 ,"!","",.)
replace 提问内容 =subinstr( 提问内容 ,":","",.)
g slength=strlen( 提问内容)                     
g sulength=ustrlen( 提问内容)

使用道具

藤椅
mjdeng 发表于 2022-7-3 09:17:11 |只看作者 |坛友微信交流群
  1. * Example generated by -dataex-. For more info, type help dataex
  2. clear
  3. input str6 股票代码 strL 提问内容 float(slength sulength)
  4. "000001" "新开业的武汉分行资金有多少规模有多大"                                        54 18
  5. "000001" "股指期货是不是有利于银行股低估的修正"                                        54 18
  6. "000001" "请问深发展出让持有000693的股份为什么没有发公告"                            66 26
  7. "000001" "深发展A(000001)七年才分了一次红是否不能申请增发融资"                  76 30
  8. "000001" "您好请问平安收购深发展股权后深发展的管理层会发生大的变动吗谢谢" 93 31
  9. "000001" "平安既要控股就应早出方案;说要增发增持已几个月了是否缺钱"          84 28
  10. "000001" "贵公司受放款额度所限是否会影响2-4季度的业绩"                               63 23
  11. "000001" "请直接回答投资者的提问不要忽悠是否对2-4季度的业绩产生影响"          84 30
  12. "000001" "贵公司向平安增发股价还是18.26元吗是否有变动"                                62 24
  13. "000001" "什么时间复牌"                                                                            18  6
  14. end
复制代码

使用道具

板凳
黃河泉 在职认证  发表于 2022-7-3 09:34:54 |只看作者 |坛友微信交流群
根据 William Lisowski 之建议:
  1. gen onlyHan = ustrregexra(提问内容,"[^\p{Han}]","")
  2. gen nc = ustrlen(onlyHan)
复制代码

使用道具

报纸
sunhanhan1996 学生认证  发表于 2022-7-3 21:21:59 |只看作者 |坛友微信交流群
黃河泉 发表于 2022-7-3 09:34
根据 William Lisowski 之建议:
黄老师好,那如果数字或者字母也算在统计范围的话,那应该怎么修改代码呢?

使用道具

地板
sunhanhan1996 学生认证  发表于 2022-7-3 21:36:05 |只看作者 |坛友微信交流群
mjdeng 发表于 2022-7-3 09:17
感谢老师,不过这个方法还是有点瑕疵,需要考虑到所有的标点符号

使用道具

7
黃河泉 在职认证  发表于 2022-7-4 12:34:07 |只看作者 |坛友微信交流群
sunhanhan1996 发表于 2022-7-3 21:21
黄老师好,那如果数字或者字母也算在统计范围的话,那应该怎么修改代码呢?
請舉個例子吧?

使用道具

8
黃河泉 在职认证  发表于 2022-7-4 20:12:48 |只看作者 |坛友微信交流群
sunhanhan1996 发表于 2022-7-3 21:21
黄老师好,那如果数字或者字母也算在统计范围的话,那应该怎么修改代码呢?
Fei Wang (王非) 教授建议:
  1. gen len2 = ustrlen(ustrregexra(提问内容, "\W", ""))
复制代码

使用道具

9
sunhanhan1996 学生认证  发表于 2022-7-5 10:15:06 |只看作者 |坛友微信交流群
黃河泉 发表于 2022-7-4 20:12
Fei Wang (王非) 教授建议:
感谢黄老师和王老师!!!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 13:46