签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

经管百科

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R语言爬虫翻页爬取数据失败

楼主: deepwhite1103

2485 3

[问答] R语言爬虫翻页爬取数据失败 [推广有奖]

0关注
22粉丝

已卖：855份资源

讲师

9%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 3241 个
通用积分: 47.8517
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 4781 点
帖子: 148
精华: 0
在线时间: 585 小时
注册时间: 2018-4-13
最后登录: 2025-12-25

楼主

学生认证

发表于 2020-5-22 22:32:58 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

新手一枚，打算练习爬取动态网页，写的命令能够成功翻页，但是爬出来的结果却只有第一页的内容，非常懊恼，请大神们赐教~

#install.packages("D:/software/R/library/Rwebdriver-master",repos=NULL,type="source")
#在cmd中D:\D盘存软件\firefox
#java -jar selenium-server-standalone-3.141.59.jar
library(RCurl)# 抓取数据
library(XML)# 解析网页
library(stringr)# 字符串处理
library(dplyr)# 调用%>%管道
library(Rwebdriver)# 爬取动态网页
library(devtools)
start_session(root = 'http://localhost:4444/wd/hub/',browser ="firefox")# 默认端口是4444，我的浏览器是chorme，如果使用火狐改成firefox
list_url <- "https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90"
post.url(url = list_url)# 打开网页
pageSource <- page_source()#保存网页信息
list_web <- htmlParse(pageSource,encoding = "UTF-8")
namelist = list() ##创建存贮的变量
#循环下载10页数据
for (i in 1:10){
title <- list_web %>% getNodeSet("//h3")%>%sapply(xmlValue) #用的是xpath代码
area <- list_web%>% getNodeSet("//*[(@id = 's_position_list')]//em")%>%sapply(xmlValue)
namelist[[i]] = cbind(title,area)#结果的保存
button <- element_xpath_find(value = "//*[@id='order']/li/div[4]/div[2]")# 获取下一页按钮位置
element_click(ID=button) #点击下一页
print(paste("第",i,"页数据爬取完成",sep=""))
Sys.sleep(5)#睡眠5秒
}
result_data = noquote(do.call(rbind,namelist))
result_data = data.frame(岗位=result_data[,1],地址=result_data[,2])
result_data

复制代码

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：R语言 localhost Packages software Library

相关帖子

回复

沙发

在职认证

发表于 2020-5-23 09:50:41

你的代码是在循环之前读取网页，所以循环中处理的都是第一页的数据

回复

藤椅

在职认证

发表于 2020-5-23 09:53:41

循环中翻页后，还需要重新解析网页内容，正则的对象才是新页的数据

已有 1 人评分	论坛币	收起理由
cheetahfly	+ 10	热心帮助其他会员

总评分: 论坛币 + 10 查看全部评分

回复

板凳

学生认证

发表于 2020-5-24 10:22:40

llb_321 发表于 2020-5-23 09:53
循环中翻页后，还需要重新解析网页内容，正则的对象才是新页的数据

感谢回答，但是我有点不太理解，我的想法是1到10页的内容，打开就是第一页了，第一步找到标题、地区的内容爬取下来保存，第二步翻页，翻页成功后再重复第一第二步，我的循环怎么写才是对的呢？能否再具体一点解答，新手刚入门，这是自己写的命令，搜了很多资料没解决问题

回复

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明