楼主: 独脚蜥
3772 4

[问答] 如何用R语言爬取翻页url不变的网页 [推广有奖]

  • 0关注
  • 0粉丝

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
136 点
帖子
3
精华
0
在线时间
2 小时
注册时间
2018-4-10
最后登录
2019-6-26

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人刚开始学习R语言,怕网页遇到个问题。用以下代码爬取了首页表格,之后想用for循环翻页发现翻页后url不变,查了半天度娘没找到方法!求大神解惑!
url <- "http://datacenter.mep.gov.cn/websjzx/report!list.vm?xmlname=1512478367400&roleType=CFCD2084&permission=null"
data <- read_html(url,encoding = "UTF-8")%>%html_nodes("div.report_main")%>%html_nodes("table.report-table")%>%html_table(header = T,trim=T,fill=T)%>%as.data.frame()

原网页:http://datacenter.mep.gov.cn/web ... 084&permission=null
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
独脚蜥 发表于 2018-4-11 14:07:42 来自手机 |只看作者 |坛友微信交流群
独脚蜥 发表于 2018-4-10 22:45
本人刚开始学习R语言,怕网页遇到个问题。用以下代码爬取了首页表格,之后想用for循环翻页发现翻页后url不变 ...
没人呢么

使用道具

藤椅
xwan288 发表于 2018-4-11 23:15:02 |只看作者 |坛友微信交流群
独脚蜥 发表于 2018-4-11 14:07
没人呢么
楼主可以尝试用python爬一下看看

使用道具

板凳
jgchen1966 发表于 2018-4-12 13:11:11 |只看作者 |坛友微信交流群
此网站,还在试运行。。你给的网站的第一页面,源代码完整,第二页面就不行了。。审查元素的功能,也没有。。等其完善了,再试吧!!!
正常,若翻页面,网址不变,可通过“审查元素”(按鼠标右键,获得)功能中“Network" 可查找实际网址!!!

使用道具

报纸
独脚蜥 发表于 2018-4-12 20:18:14 来自手机 |只看作者 |坛友微信交流群
jgchen1966 发表于 2018-4-12 13:11
此网站,还在试运行。。你给的网站的第一页面,源代码完整,第二页面就不行了。。审查元素的功能,也没有。 ...
好的,谢谢指教!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-7 00:04