楼主: Lawrencefw
4366 5

[数据管理求助] 如何对文本数据进行整理 [推广有奖]

  • 0关注
  • 0粉丝

已卖:28份资源

大专生

60%

还不是VIP/贵宾

-

威望
0
论坛币
1016 个
通用积分
1.6001
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
602 点
帖子
22
精华
0
在线时间
81 小时
注册时间
2018-11-15
最后登录
2022-12-18

楼主
Lawrencefw 发表于 2019-3-31 11:16:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
求助各位大神
      我需要对一项文本数据进行处理,它是有关专利申请者的数据,现在我要将申请者类型按企业和个人(主要是如何识别人名的问题)进行分类,那么我该如何处理呢???我尝试过用   
replace source="企业" if strmatch(source,"*公司*")|strmatch(source,"*厂*") 去处理,虽然可以成功将企业给整理出来,但由于全部数据中有些申请者是科研机构、服务中心等,因此没法将剩余的当作申请者类型为个人,所以我该如何直接将申请者为个人的整理出来呢
以下是部分数据
* Example generated by -dataex-. To install: ssc install dataex
clear
input str202 apper
"申请人: 马云"                                          
"申请人: 鞍钢实业微细铝粉有限公司"            
"申请人: 鞍山双利风机输送机制造有限公司"   
"申请人: 鞍钢实业微细铝粉有限公司"            
"申请人: 张世祺"                                       
"申请人: 鞍山除尘设备有限公司"                  
"申请人: 鞍山双利风机输送机制造有限公司"   
"申请人: 辽宁瀚正环保设备工程有限公司"      
"申请人: 辽宁兰天炉窑集团有限公司"            
"申请人: 辽宁瀚正环保设备工程有限公司"      
"申请人: 鞍钢集团矿业公司"                        
"申请人: 鞍钢集团矿业公司"                        
"申请人: 鞍钢实业微细铝粉有限公司"            
"申请人: 徐昌艳"                                       
"申请人: 谷春刚"                                       
"申请人: 辽宁瀚正环保设备工程有限公司"      
"申请人: 辽宁瀚正环保设备工程有限公司"      
"申请人: 陈喜春"                                       
"申请人: 陈喜春"                                       
"申请人: 鞍钢实业微细铝粉有限公司"            
"申请人: 谷春刚"                                       
"申请人: 安徽省安庆市皖清环保科技有限公司"
"申请人: 安庆市虹泰新材料有限责任公司"      
"申请人: 刘刚"                                          
"申请人: 陈传松"                                       
"申请人: 陈传松"                                       
"申请人: 枞阳县周泽红家庭农场"                  
"申请人: 安徽省安庆市皖清环保科技有限公司"
"申请人: 枞阳县宇瑞环保科技有限公司"         
"申请人: 安徽中科自动化股份有限公司"         
"申请人: 安徽中科自动化股份有限公司"         
"申请人: 安徽省绿巨人环境技术有限公司"      
"申请人: 安徽美琳建筑材料有限公司"            
"申请人: 安徽宝昱电子科技有限公司"            
"申请人: 安徽省安庆市皖清环保科技有限公司"
"申请人: 安庆市虹泰新材料有限责任公司"      
"申请人: 安庆市虹泰新材料有限责任公司"      
"申请人: 安庆市虹泰新材料有限责任公司"      
"申请人: 安庆市虹泰新材料有限责任公司"      
"申请人: 金先普"                                       
"申请人: 刘刚"                                          
"申请人: 胡显三"                                       
"申请人: 刘刚"                                          
"申请人: 安徽启东热能科技有限公司"            
"申请人: 安徽省胜峰机械有限公司"               
"申请人: 安庆市虹泰新材料有限责任公司"      
"申请人: 枞阳县田园面业有限责任公司"         
"申请人: 安徽省安庆市汉城电子通讯有限公司"
"申请人: 刘记"                                          
"申请人: 安徽省安庆市皖清环保科技有限公司"
end



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
Stakiny 发表于 2019-3-31 14:07:44
你的样本数据中,人名长度更短(如果是一个人,人名不会超过4个汉字),因此可以通过字符串长度进行筛选。

藤椅
Lawrencefw 发表于 2019-3-31 15:50:35 来自手机
Stakiny 发表于 2019-3-31 14:07
你的样本数据中,人名长度更短(如果是一个人,人名不会超过4个汉字),因此可以通过字符串长度进行筛选。
这只是部分数据,些申请者会有多个人

板凳
黃河泉 在职认证  发表于 2019-3-31 17:22:14
Lawrencefw 发表于 2019-3-31 15:50
这只是部分数据,些申请者会有多个人
看起来你的情况没有一定,我很怀疑有更好之方法 (楼上建议不错)?请列出一、两个多人申请之情况!

报纸
Lawrencefw 发表于 2019-3-31 18:40:35
黃河泉 发表于 2019-3-31 17:22
看起来你的情况没有一定,我很怀疑有更好之方法 (楼上建议不错)?请列出一、两个多人申请之情况!
* Example generated by -dataex-. To install: ssc install dataex
clear
input str344 apper
"申请人: 中建材(北京)环保工程发展有限公司"                                                        
"申请人: 北京极体科技有限公司"                                                                             
"申请人: 张广亮;张广宇;张玮;李海凤;马立凯;秦广付;梁建武;索少凤;申为民;肖振清"           
"申请人: 中能世华(北京)节能科技有限公司"                                                               
"申请人: 北京安节宝科技发展有限公司"                                                                    
"申请人: 中国核电工程有限公司"                                                                             
"申请人: 北京汽车研究总院有限公司"                                                                       
"申请人: 北京万向新元工程技术有限公司"                                                                 
"申请人: 神华集团有限责任公司;中国神华煤制油化工有限公司;陕西神木化学工业有限公司"
"申请人: 北京极体科技有限公司"                                                                             
"申请人: 北京启明兴华科技有限公司"                                                                       
end

黄老师,第三个申请者为多个

地板
songking 发表于 2019-6-13 17:31:43
Lawrencefw 发表于 2019-3-31 18:40
* Example generated by -dataex-. To install: ssc install dataex
clear
input str344 apper
可以先split呀

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-1 10:43