楼主: smilealways193
849 3

[问答] 为什么正则表达式匹配器通过了用R跑显示无效 [推广有奖]

  • 0关注
  • 0粉丝

大专生

31%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1022 点
帖子
31
精华
0
在线时间
22 小时
注册时间
2012-2-23
最后登录
2017-7-30

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
url<-'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html'
web<-readLines(url,encoding='UTF-8')
name<-web[grep("<tr class='provincetr'>",web)+1]#抓取所在行
childname<- gregexpr("(?<=href=').+?(?='>)",name)

报错显示reason 'Invalid regexp',可是(?<=href=').+?(?='>)我用几个正则表达式软件都显示正确的,求好心人解答

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:正则表达式 表达式 url 模拟器 表达式

沙发
zhou1_20 发表于 2017-6-6 10:07:06 |只看作者 |坛友微信交流群
不懂你的正则表达式,不过好像你的正则表达式不对,用下面这个吧
  1. library(rvest)
  2. url<-'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html'
  3. web <- read_html(url,encoding='gb2312')
  4. href <- web%>%html_nodes('.provincetr>td>a')%>%html_attr('href')
  5. name <- web%>%html_nodes('.provincetr>td>a')%>%html_text()
复制代码

使用道具

藤椅
igs816 在职认证  发表于 2017-6-6 10:31:59 |只看作者 |坛友微信交流群
有转义字符单引号
\\d+.html
一样可以匹配啊

使用道具

板凳
smilealways193 发表于 2017-6-11 11:52:08 |只看作者 |坛友微信交流群
igs816 发表于 2017-6-6 10:31
有转义字符单引号
\\d+.html
一样可以匹配啊
确实用你写的表达式可以抓下来
而且逻辑上简便很多
感谢

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 07:56