代码如下,输入的是表格中的汉字字符串变量,输出的是转换得到的对应的拼音,用空格分隔(或不分隔)
用的方法是逐一取出单个汉字,并用哈希在汉字拼音对照表中找到对应的拼音
存在的问题是多音字没法解决,估计这要用到分词以及词语和拼音的对照表
另外不知道这方法用到较大的数据时速度怎么样,也不知道还有其他的方法没有
希望众多高高手提出改进建议,谢谢!
- %macro TransHanziToPinyinForTable(SourceTable,TargetTable,InputVar,OutputVar,Delimiter);
- /**********************************************************************/
- /* 此宏用于将指定变量中的汉字转换为对应的拼音。其中,SourceTable是原 */
- /* 始表格;TargetTable是结果表格;InputVar是需要转换的目标变量,仅能 */
- /* 设置一个,可包含除汉字外的英文字母、数字和其他字符;OutputVar是转 */
- /* 换得到的结果变量;Delimiter是用来分隔拼音的分隔符,若不需要分隔可 */
- /* 设为空。注意,Delimiter的设置如下,注意需要加引号: */
- /* 逗号分隔 delimiter = ',' */
- /* 空隔分隔 delimiter = ' ' */
- /* 下划线分隔 delimiter = '_' */
- /* */
- /* 最终指定变量中的汉字转换为对应的拼音,并保存至结果表格中。 */
- /* */
- /* Created on 2014.2.27 */
- /* Modified on 2014.2.27 */
- /**********************************************************************/
- /* 第一步:导入汉字拼音对照表 */
- proc import datafile="F:\GB2312汉字拼音对照表(6727字).txt"
- out=RHTPFT_HanziToPinyin
- dbms=dlm
- replace;
- guessingrows=2000;
- delimiter=' ';
- getnames=No;
- run;
- data RHTPFT_HanziToPinyin;
- set RHTPFT_HanziToPinyin;
- rename VAR1=RHTPFT_Hanzi;
- rename VAR2=RHTPFT_Pinyin;
- drop VAR3 VAR4 VAR5;
- run;
- /* 第二步:得到输入变量的长度,由此计算出输出变量的长度 */
- proc contents data=&SourceTable out=RHTPFT_VarList noprint;
- run;
- proc sql noprint;
- select LENGTH*5 into :RHTPFT_LengthOfInputVar
- from RHTPFT_VarList
- where UPCASE(NAME) EQ %UPCASE("&InputVar");
- quit;
- /* 第三步:将汉字文件名转为拼音 */
- data &TargetTable(drop=RHTPFT_Hanzi RHTPFT_Pinyin RHTPFT_i);
- length RHTPFT_Hanzi $2 RHTPFT_Pinyin $6;
- if _N_ EQ 1 then do;
- declare hash h(dataset: 'RHTPFT_HanziToPinyin');
- h.defineKey('RHTPFT_Hanzi');
- h.defineData('RHTPFT_Pinyin');
- h.defineDone();
- end;
- set &SourceTable;
- length &OutputVar $&RHTPFT_LengthOfInputVar..;
- do RHTPFT_i=1 to KLENGTH(&InputVar);
- RHTPFT_Hanzi=KSUBSTR(&InputVar,RHTPFT_i,1);
- %if &Delimiter EQ %STR() %then %do;
- if h.find() EQ 0 then &OutputVar.=CATS(&OutputVar,RHTPFT_Pinyin);
- else &OutputVar.=CATS(&OutputVar,RHTPFT_Hanzi);
- %end;
- %else %do;
- if h.find() EQ 0 then &OutputVar.=CATX(&Delimiter,&OutputVar,RHTPFT_Pinyin);
- else &OutputVar.=CATS(&OutputVar,RHTPFT_Hanzi);
- %end;
- end;
- run;
- /* 删除不必要的表格 */
- proc datasets lib=work nolist;
- delete RHTPFT_:;
- quit;
- %mend;
- %macro Demo();
- %let SourceTable=FundCodeList;
- %let TargetTable=FundCodeList1;
- %let InputVar=Fund_Name;
- %let OutputVar=Fund_Name_Pinyin;
- %let Delimiter=' ';
- %TransHanziToPinyinForTable(&SourceTable,&TargetTable,&InputVar,&OutputVar,&Delimiter);
- %mend;