楼主: 乐天天12300
1029 7

[问答] SAS 正则表达式为什么不支持[\u4e00-\u9fa5]匹配中文字符串 [推广有奖]

  • 0关注
  • 3粉丝

讲师

91%

还不是VIP/贵宾

-

威望
0
论坛币
4798 个
通用积分
359.7619
学术水平
60 点
热心指数
70 点
信用等级
42 点
经验
9952 点
帖子
242
精华
0
在线时间
985 小时
注册时间
2016-11-28
最后登录
2024-4-1

30论坛币
data test;
a="owjgo我";
re=prxparse("/[\u4e00-\u9fa5]/");
b=prxmatch(re,a);
put b;
run;


最佳答案

whymath 查看完整内容

今天翻书看到,想起你提的这个问题。 ——K. Matthew Windham, Introduction to Regular Expressions in SAS®, P99https://doc.lagout.org/programmation/Regular%20Expressions/Introduction%20to%20Regular%20Expressions%20in%20SAS%20%5bWindham%202014-11-18%5d.pdf
关键词:正则表达式 字符串 表达式 PrxMatch RXPARSE
沙发
whymath 发表于 2022-7-24 11:24:46 |只看作者 |坛友微信交流群
今天翻书看到,想起你提的这个问题。
The PRX functions use a modified version of Perl 5.6.1 to perform regular expression compilation and matching. Perl is compiled into a library for use with SAS.
The modified version of Perl [RegEx] does not support the following items:
...
· Unicode pattern matching
...
——K. Matthew Windham, Introduction to Regular Expressions in SAS®, P99https://doc.lagout.org/programmation/Regular%20Expressions/Introduction%20to%20Regular%20Expressions%20in%20SAS%20%5bWindham%202014-11-18%5d.pdf

SASUSER

使用道具

藤椅
whymath 发表于 2023-2-6 15:54:58 |只看作者 |坛友微信交流群
好奇怪,你看到的时间是这样的吗? 1.png
SASUSER

使用道具

whymath 发表于 2023-2-6 15:54
好奇怪,你看到的时间是这样的吗?
是的,估计网站有BUG

使用道具

报纸
jg.sas 发表于 2023-2-21 17:31:52 |只看作者 |坛友微信交流群
[\x80-\xff]或者[一-龥]
已有 1 人评分论坛币 收起 理由
乐天天12300 + 5 精彩帖子

总评分: 论坛币 + 5   查看全部评分

使用道具

地板
whymath 发表于 2023-2-22 22:33:16 |只看作者 |坛友微信交流群
jg.sas 发表于 2023-2-21 17:31
[\x80-\xff]或者[一-龥]
我用这里(https://bbs.pinggu.org/thread-11289025-1-1.html)的数据试了一下,并不总是对的。

使用道具

7
jg.sas 发表于 2023-2-28 15:29:18 |只看作者 |坛友微信交流群
whymath 发表于 2023-2-22 22:33
我用这里(https://bbs.pinggu.org/thread-11289025-1-1.html)的数据试了一下,并不总是对的。
GBK 也是双字节编码,为了向下兼容 GB2312, GBK 使用了 GB2312 没有用到的编码区域,总的编码范围是: 第一个字节 0x81–0xFE,第二个字节 0x40–0xFE
你说的对,应该是错误的,在UTF8系统里中文应该是下面的三个十六进制的组合
字符UTF-8编码GBK编码
0xe4, 0xb8, 0x800xd2, 0xbb
..........

0xe9, 0xbe, 0xa50xfd, 0x9b

使用道具

8
jg.sas 发表于 2023-3-6 16:44:31 |只看作者 |坛友微信交流群
jg.sas 发表于 2023-2-28 15:29
GBK 也是双字节编码,为了向下兼容 GB2312, GBK 使用了 GB2312 没有用到的编码区域,总的编码范围是: 第 ...
字符        UTF-8编码                        GBK编码
一        0xe4, 0xb8, 0x80        0xd2, 0xbb

..........

龥        0xe9, 0xbe, 0xa5        0xfd, 0x9b

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 20:27