尝试用以下正则表达式方法处理:
g new_var = ustrregexs(0) if ustrregexm(var,"[0-9A-Za-z\u4e00-\u9fa5]+")
var为原始变量(第一列),new_var 为提取后的变量(第二列)
但是发现只能提取到第一部分,如果有间断就不成功,如下图
当然,数据中涉及的异常符号很多,不限于此,希望各位大佬给点建议!
楼主: jxapp_38306
|
2945
2
[数据管理求助] stata提取变量中的中英文、数字 |
讲师 44%
-
|
| ||
京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明 免责及隐私声明