楼主: machine20101
2474 2

[问答] R语言用rvest爬虫时,网址中有中文字导致无法爬取怎么办 [推广有奖]

  • 1关注
  • 0粉丝

硕士生

27%

还不是VIP/贵宾

-

威望
0
论坛币
306 个
通用积分
10.3330
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
21941 点
帖子
65
精华
0
在线时间
223 小时
注册时间
2014-11-26
最后登录
2022-9-12

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我要爬取的链接是:http://ts.21cn.com/home/search?keyword=%E6%9C%89%E5%93%81%E9%92%B1%E5%8C%85 360截图20171212101113884.jpg
但是从R中跳转到网页的时候网址就变成了:http://ts.21cn.com/home/search?keyword=%E9%8F%88%E5%A4%8A%E6%90%A7%E9%96%BD%E5%8D%9E%E5%AF%98
360截图20171212101217157.jpg


我的编码是:
library(rvest)
library(stringr)
url <- 'http://ts.21cn.com/home/search?keyword=%E6%9C%89%E5%93%81%E9%92%B1%E5%8C%85'
web <- read_html(url,encoding="UTF-8") #读取信息
course.link <- web %>% html_nodes('div.complaint-info a._blank') %>% html_attrs()#获取属性
link <- c(1:length(course.link))#定义长度
for(i in c(1:length(course.link))){link <- course.link[][1]}#获取link_中的每一行中第一个数据(网址)

title <- web %>% html_nodes('div.complaint-info a._blank') %>% html_text()

现在无法读取网页数据,不知道怎么处理这个网页问题?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Vest 怎么办 VES R语言 Est R语言学习 r语言入门

沙发
machine20101 发表于 2017-12-12 11:10:39 |只看作者 |坛友微信交流群
发现网址中的“有品钱包”几个字是用UTF-8编码的,而URL是通过ASCII编码的,不知道这两者怎么转换?

使用道具

藤椅
jiangbeilu 学生认证  发表于 2017-12-12 11:34:09 |只看作者 |坛友微信交流群
用URLencode函数把你的网站处理一下就Ok了
已有 1 人评分论坛币 收起 理由
machine20101 + 5 热心帮助其他会员

总评分: 论坛币 + 5   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-7-6 05:39