把汉字转换为对应拼音的宏-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

把汉字转换为对应拼音的宏

把汉字转换为对应拼音的宏

发布:playmore | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

在工作中遇到了要把汉字转换为对应拼音的需求,因为整个工程是用SAS写的,所以也用SAS写了个宏来完成这个任务代码如下,输入的是表格中的汉字字符串变量,输出的是转换得到的对应的拼音,用空格分隔(或不分隔)用的 ...
免费学术公开课,扫码加入


在工作中遇到了要把汉字转换为对应拼音的需求,因为整个工程是用SAS写的,所以也用SAS写了个宏来完成这个任务
代码如下,输入的是表格中的汉字字符串变量,输出的是转换得到的对应的拼音,用空格分隔(或不分隔)
用的方法是逐一取出单个汉字,并用哈希在汉字拼音对照表中找到对应的拼音
存在的问题是多音字没法解决,估计这要用到分词以及词语和拼音的对照表
另外不知道这方法用到较大的数据时速度怎么样,也不知道还有其他的方法没有
希望众多高高手提出改进建议,谢谢!
  1. %macro TransHanziToPinyinForTable(SourceTable,TargetTable,InputVar,OutputVar,Delimiter);
  2. /**********************************************************************/
  3. /* 此宏用于将指定变量中的汉字转换为对应的拼音。其中,SourceTable是原*/
  4. /* 始表格;TargetTable是结果表格;InputVar是需要转换的目标变量,仅能*/
  5. /* 设置一个,可包含除汉字外的英文字母、数字和其他字符;OutputVar是转*/
  6. /* 换得到的结果变量;Delimiter是用来分隔拼音的分隔符,若不需要分隔可*/
  7. /* 设为空。注意,Delimiter的设置如下,注意需要加引号: */
  8. /* 逗号分隔 delimiter = ',' */
  9. /* 空隔分隔 delimiter = ' ' */
  10. /* 下划线分隔delimiter = '_' */
  11. /* */
  12. /* 最终指定变量中的汉字转换为对应的拼音,并保存至结果表格中。 */
  13. /* */
  14. /* Created on 2014.2.27 */
  15. /* Modified on 2014.2.27 */
  16. /**********************************************************************/
  17. /* 第一步:导入汉字拼音对照表 */
  18. proc import datafile="F:\GB2312汉字拼音对照表(6727字).txt"
  19. out=RHTPFT_HanziToPinyin
  20. dbms=dlm
  21. replace;
  22. guessingrows=2000;
  23. delimiter=' ';
  24. getnames=No;
  25. run;
  26. data RHTPFT_HanziToPinyin;
  27. set RHTPFT_HanziToPinyin;
  28. rename VAR1=RHTPFT_Hanzi;
  29. rename VAR2=RHTPFT_Pinyin;
  30. drop VAR3 VAR4 VAR5;
  31. run;
  32. /* 第二步:得到输入变量的长度,由此计算出输出变量的长度 */
  33. proc contents data=&SourceTable out=RHTPFT_VarList noprint;
  34. run;
  35. proc sql noprint;
  36. select LENGTH*5 into :RHTPFT_LengthOfInputVar
  37. from RHTPFT_VarList
  38. where UPCASE(NAME) EQ %UPCASE("&InputVar");
  39. quit;
  40. /* 第三步:将汉字文件名转为拼音 */
  41. data &TargetTable(drop=RHTPFT_Hanzi RHTPFT_Pinyin RHTPFT_i);
  42. length RHTPFT_Hanzi $2 RHTPFT_Pinyin $6;
  43. if _N_ EQ 1 then do;
  44. declare hash h(dataset: 'RHTPFT_HanziToPinyin');
  45. h.defineKey('RHTPFT_Hanzi');
  46. h.defineData('RHTPFT_Pinyin');
  47. h.defineDone();
  48. end;
  49. set &SourceTable;
  50. length &OutputVar $&RHTPFT_LengthOfInputVar..;
  51. do RHTPFT_i=1 to KLENGTH(&InputVar);
  52. RHTPFT_Hanzi=KSUBSTR(&InputVar,RHTPFT_i,1);
  53. %if &Delimiter EQ %STR() %then %do;
  54. if h.find() EQ 0 then &OutputVar.=CATS(&OutputVar,RHTPFT_Pinyin);
  55. else &OutputVar.=CATS(&OutputVar,RHTPFT_Hanzi);
  56. %end;
  57. %else %do;
  58. if h.find() EQ 0 then &OutputVar.=CATX(&Delimiter,&OutputVar,RHTPFT_Pinyin);
  59. else &OutputVar.=CATS(&OutputVar,RHTPFT_Hanzi);
  60. %end;
  61. end;
  62. run;
  63. /* 删除不必要的表格 */
  64. proc datasets lib=work nolist;
  65. delete RHTPFT_:;
  66. quit;
  67. %mend;

  68. %macro Demo();
  69. %let SourceTable=FundCodeList;
  70. %let TargetTable=FundCodeList1;
  71. %let InputVar=Fund_Name;
  72. %let OutputVar=Fund_Name_Pinyin;
  73. %let Delimiter=' ';
  74. %TransHanziToPinyinForTable(&SourceTable,&TargetTable,&InputVar,&OutputVar,&Delimiter);
  75. %mend;
复制代码
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-2921875-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版