楼主: playmore
7384 19

[程序分享] 把汉字转换为对应拼音的宏 [推广有奖]

学科带头人

2%

还不是VIP/贵宾

-

TA的文库  其他...

R相关

经济学相关

金融工程

威望
1
论坛币
16309 个
通用积分
7.1397
学术水平
372 点
热心指数
394 点
信用等级
341 点
经验
15297 点
帖子
1194
精华
1
在线时间
1331 小时
注册时间
2007-1-11
最后登录
2023-12-15

初级学术勋章 初级热心勋章 中级热心勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在工作中遇到了要把汉字转换为对应拼音的需求,因为整个工程是用SAS写的,所以也用SAS写了个宏来完成这个任务
代码如下,输入的是表格中的汉字字符串变量,输出的是转换得到的对应的拼音,用空格分隔(或不分隔)
用的方法是逐一取出单个汉字,并用哈希在汉字拼音对照表中找到对应的拼音

存在的问题是多音字没法解决,估计这要用到分词以及词语和拼音的对照表
另外不知道这方法用到较大的数据时速度怎么样,也不知道还有其他的方法没有
希望众多高高手提出改进建议,谢谢!


  1. %macro TransHanziToPinyinForTable(SourceTable,TargetTable,InputVar,OutputVar,Delimiter);
  2. /**********************************************************************/
  3. /* 此宏用于将指定变量中的汉字转换为对应的拼音。其中,SourceTable是原  */
  4. /* 始表格;TargetTable是结果表格;InputVar是需要转换的目标变量,仅能  */
  5. /* 设置一个,可包含除汉字外的英文字母、数字和其他字符;OutputVar是转  */
  6. /* 换得到的结果变量;Delimiter是用来分隔拼音的分隔符,若不需要分隔可  */
  7. /* 设为空。注意,Delimiter的设置如下,注意需要加引号:                */
  8. /*     逗号分隔    delimiter = ','                                   */
  9. /*   空隔分隔    delimiter = ' '                                   */
  10. /*      下划线分隔  delimiter = '_'                                   */
  11. /*                                                                    */
  12. /* 最终指定变量中的汉字转换为对应的拼音,并保存至结果表格中。         */
  13. /*                                                                    */
  14. /*                                      Created on 2014.2.27          */
  15. /*                                      Modified on 2014.2.27         */
  16. /**********************************************************************/
  17. /* 第一步:导入汉字拼音对照表 */
  18. proc import datafile="F:\GB2312汉字拼音对照表(6727字).txt"
  19. out=RHTPFT_HanziToPinyin
  20. dbms=dlm
  21. replace;
  22. guessingrows=2000;
  23. delimiter=' ';
  24. getnames=No;
  25. run;
  26. data RHTPFT_HanziToPinyin;
  27. set RHTPFT_HanziToPinyin;
  28. rename VAR1=RHTPFT_Hanzi;
  29. rename VAR2=RHTPFT_Pinyin;
  30. drop VAR3 VAR4 VAR5;
  31. run;
  32. /* 第二步:得到输入变量的长度,由此计算出输出变量的长度 */
  33. proc contents data=&SourceTable out=RHTPFT_VarList noprint;
  34. run;
  35. proc sql noprint;
  36. select LENGTH*5 into :RHTPFT_LengthOfInputVar
  37.   from RHTPFT_VarList
  38.    where UPCASE(NAME) EQ %UPCASE("&InputVar");
  39. quit;
  40. /* 第三步:将汉字文件名转为拼音 */
  41. data &TargetTable(drop=RHTPFT_Hanzi RHTPFT_Pinyin RHTPFT_i);
  42. length RHTPFT_Hanzi $2 RHTPFT_Pinyin $6;
  43. if _N_ EQ 1 then do;
  44.   declare hash h(dataset: 'RHTPFT_HanziToPinyin');
  45.   h.defineKey('RHTPFT_Hanzi');
  46.   h.defineData('RHTPFT_Pinyin');
  47.   h.defineDone();
  48. end;
  49. set &SourceTable;
  50. length &OutputVar $&RHTPFT_LengthOfInputVar..;
  51. do RHTPFT_i=1 to KLENGTH(&InputVar);
  52.   RHTPFT_Hanzi=KSUBSTR(&InputVar,RHTPFT_i,1);
  53.   %if &Delimiter EQ %STR() %then %do;
  54.    if h.find() EQ 0 then &OutputVar.=CATS(&OutputVar,RHTPFT_Pinyin);
  55.    else &OutputVar.=CATS(&OutputVar,RHTPFT_Hanzi);
  56.   %end;
  57.   %else %do;
  58.    if h.find() EQ 0 then &OutputVar.=CATX(&Delimiter,&OutputVar,RHTPFT_Pinyin);
  59.    else &OutputVar.=CATS(&OutputVar,RHTPFT_Hanzi);
  60.   %end;
  61. end;
  62. run;
  63. /* 删除不必要的表格 */
  64. proc datasets lib=work nolist;
  65.     delete RHTPFT_:;
  66. quit;
  67. %mend;

  68. %macro Demo();
  69. %let SourceTable=FundCodeList;
  70. %let TargetTable=FundCodeList1;
  71. %let InputVar=Fund_Name;
  72. %let OutputVar=Fund_Name_Pinyin;
  73. %let Delimiter=' ';
  74. %TransHanziToPinyinForTable(&SourceTable,&TargetTable,&InputVar,&OutputVar,&Delimiter);
  75. %mend;
复制代码

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:汉字转换 delimiter datasets Guessing Modified 汉字转换 汉字拼音 多音字 字符串 工程

GB2312汉字拼音对照表(6727字).txt

54.1 KB

已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
eijuhz + 40 精彩帖子
dxystata + 100 + 1 + 1 精彩帖子
eric_darcy + 1 + 1 + 1 精彩帖子
webgu + 100 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 240  论坛币 + 100  学术水平 + 7  热心指数 + 7  信用等级 + 6   查看全部评分

本帖被以下文库推荐

playmore邀请您访问ChinaTeX论坛!!!进入ChinaTeX论坛
沙发
牵你↗左手 发表于 2014-2-27 14:14:37 |只看作者 |坛友微信交流群
学习了

使用道具

藤椅
liu5355776 发表于 2014-2-28 07:59:21 |只看作者 |坛友微信交流群
well done

使用道具

板凳
kongqunyu 发表于 2014-3-14 20:45:34 |只看作者 |坛友微信交流群
实在是太好了,谢谢

使用道具

报纸
kmrcx 发表于 2014-3-14 21:44:32 |只看作者 |坛友微信交流群
这是个好东西,MARK了

使用道具

地板
kongqunyu 发表于 2014-3-17 10:40:36 |只看作者 |坛友微信交流群
这个怎么运行出来呢?

使用道具

7
老师她摸我 发表于 2014-5-4 14:38:32 |只看作者 |坛友微信交流群
试试这个:

  1. data _null_;
  2.         set RHTPFT_HanziToPinyin;
  3.         call symputx(RHTPFT_Hanzi,RHTPFT_Pinyin);
  4. run;

  5. proc sql noprint;
  6.         select distinct RHTPFT_Hanzi into :hcl separated by "|" from RHTPFT_HanziToPinyin;
  7. quit;

  8. options noquotelenmax;

  9. data want;
  10.     set have;
  11.     var=resolve(prxchange("s/(&hcl)/&\1./",-1,var));
  12. run;
复制代码
欢迎加入SAS群:144839730-蜗牛

使用道具

8
playmore 发表于 2014-5-6 09:08:54 |只看作者 |坛友微信交流群
老师她摸我 发表于 2014-5-4 14:38
试试这个:
嗯,这个方法很牛b
刚试了下,速度也还很快

只不过有程序洁癖的人不能用
刚%put _all_;一下
三分多钟都没有put完
playmore邀请您访问ChinaTeX论坛!!!进入ChinaTeX论坛

使用道具

9
playmore 发表于 2014-5-6 09:09:01 |只看作者 |坛友微信交流群
老师她摸我 发表于 2014-5-4 14:38
试试这个:
嗯,这个方法很牛b
刚试了下,速度也还很快

只不过有程序洁癖的人不能用
刚%put _all_;一下
三分多钟都没有put完
playmore邀请您访问ChinaTeX论坛!!!进入ChinaTeX论坛

使用道具

playmore 发表于 2014-5-6 09:09
嗯,这个方法很牛b
刚试了下,速度也还很快
嗯,是的
可能是SAS对中文的兼容性原因,不能直接用通配符来匹配,所以只能把所有的汉字都写进去了,这样也就不用区别分隔符了
欢迎加入SAS群:144839730-蜗牛

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 02:57