人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 请教大家，如何做到这种识别和匹配？

发帖

楼主: lizhewenbei

2969 6

请教大家，如何做到这种识别和匹配？ [推广有奖]

15关注
5粉丝

已卖：668份资源

副教授

38%

还不是VIP/贵宾

威望: 0 级
论坛币: 304 个
通用积分: 11.3270
学术水平: 4 点
热心指数: 13 点
信用等级: 5 点
经验: 9728 点
帖子: 614
精华: 0
在线时间: 502 小时
注册时间: 2008-2-6
最后登录: 2025-11-27

楼主

lizhewenbei

发表于 2016-4-28 20:15:12 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

请教大家，如何做到这种识别和匹配？
1、原始数据

2、字典

3、预期效果

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：原始数据如何

3.png (10.39 KB)

1.png (3.96 KB)

2.png (5.71 KB)

test.xls
下载链接: https://bbs.pinggu.org/a-2023998.html

26.5 KB

相关帖子

沙发

冯枫Fery

发表于 2016-4-29 09:08:31

　　SAS新手，表示没有什么思路可以直接编程实现，坐等大神解答；

　　从楼主提供的数据来看，都是非结构化的数据，想要直接进行匹配感觉有难度，一点解决思路是先对数据进行预处理，转换成结构化数据，比如

　　table1
　　name place
　　A公司　海淀　
　　B公司　和平
　　C公司　玄武
　　．．．

　table2
　　province city place
　　北京    　北京　东城
　　北京    　北京　西城
　　．．．
　　天津    　天津　和平
　　．．．

之后使用SAS merge语句等进行匹配合并就是了，如果数据量小的话，感觉可行，如果数据量大的话，就不好说了

，坐等大神

已有 1 人评分	学术水平	热心指数	信用等级	收起理由
lizhewenbei	+ 3	+ 3	+ 3	精彩帖子

总评分: 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

藤椅

lizhewenbei

发表于 2016-4-30 08:34:17

冯枫Fery 发表于 2016-4-29 09:08
　　SAS新手，表示没有什么思路可以直接编程实现，坐等大神解答；

　　从楼主提供的数据来看，都是非结构 ...

数据量比较大，可能只能采用自动提取关键词，然后再识别，才能做到。

板凳

yongyitian 发表于 2016-5-2 05:22:14

可以试试如下思路。
1. 将字典的表转成 long_table，即每一个县区为一行
2. 将这个 long_table 定义为数据步的 hash-table
3. 对hash table 做循环 (iterate), 用find()函数查找匹配的县区名
4. 用 output 输出找到的县区名

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
lizhewenbei	+ 3	+ 3	+ 3	+ 3	精彩帖子

总评分: 论坛币 + 3 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

报纸

lizhewenbei

发表于 2016-5-2 10:06:06

yongyitian 发表于 2016-5-2 05:22
可以试试如下思路。
1. 将字典的表转成 long_table，即每一个县区为一行
2. 将这个 long_table 定义为数 ...

非常感谢您的帮助。

地板

teqel 发表于 2016-5-2 10:46:09

yongyitian 发表于 2016-5-2 05:22
可以试试如下思路。
1. 将字典的表转成 long_table，即每一个县区为一行
2. 将这个 long_table 定义为数 ...

更倾向于join

最后一步需要仔细检查duplication，手动选择

7楼

yongyitian 发表于 2016-5-4 07:58:33

teqel 发表于 2016-5-2 10:46
更倾向于join

最后一步需要仔细检查duplication，手动选择

不同省市下的相同地名需要在后处理时清理.

data company;
input name $ place $30.;
datalines;
CompanyA HaiDianQuZhongGuanCun
CompanyB BeiFangHePingDongDaJie
CompanyC TianJinXuanWuQuJieFangLu
CompanyD JiangSuShengYeYanErZu
CompanyE FengXianBaiHuoDaLou
CompanyF TianTianYiXingZhuangDaSha
; run;
data dic;
input Provience $ DiShi $ XianQU & $200. ;
datalines;
BeiJing BeiJing DongCheng|XiCheng|ChongWen|HaiDian
TianJin TianJin HePing|HeDong|HeXi|NanKai|HeBei|NHongQiao|TangGu
JiangSu NanJing XuanWu|BaiXia|QingHuai|JianAn|GuLou|XiaGuan
JaingSu WuXi TaiAn|NanChang|BeiTang|BinHu|XiShang|JiangYin|YiXing
JiangSu XuZhou YunLong|JiuLi|JiaWang|FengXian|PeiXian|TongShan
JiangSu ChangZhou ZhongLou|TianNing|QiYeNian|XinBei|WuJin
JiangSu SuZhou JinLan|CangLang|PingJiang|HuQiu
; run;
data dic_long;
set dic;
length a1 $20;
i=0;
do until(a1 = " ");
i+1;
a1 = scan(XianQU, i, "|");
if not missing(a1) then output;
end;
drop XianQU i;
run;
data want;
if _n_ = 1 then do;
length provience $8 dishi $8 a1 $20;
declare hash h (dataset: "dic_long");
declare hiter h_iter ("h");
h.defineKey('a1', 'Provience', 'DiShi');
h.defineData('Provience', 'DiShi', 'a1');
h.defineDone();
call missing(Provience, DiShi, a1);
end;
set company;
rc = h_iter.first();
do while (rc=0);
if find(place, compress(a1) ) then output;
rc = h_iter.next();
end;
drop rc;
run;

复制代码

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

请教大家，如何做到这种识别和匹配？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

请教大家，如何做到这种识别和匹配？ [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群