楼主: steven_mc
5171 3

[问答] R语言XML包无法爬取特定爬取网页表格数据的问题?急急急 [推广有奖]

  • 0关注
  • 0粉丝

已卖:178份资源

大专生

8%

还不是VIP/贵宾

-

威望
0
论坛币
257 个
通用积分
0.0600
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
306 点
帖子
36
精华
0
在线时间
42 小时
注册时间
2009-12-9
最后登录
2017-8-21

楼主
steven_mc 发表于 2015-4-18 20:43:25 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
总结R语言爬取网页表格数据的方法,同时,向高手求教碰到的一个热别棘手的问题,跪求啊。
问题描述:
1、想爬取某个网站上表格数据,发现通过以下方法可以在部分网站实现。而在以下网站上无法实现(是因为网站做了屏蔽吗?)。
求教怎么可以通过R爬取如下网站上的这个表格数据
目标网站url:  http://www.adbug.cn/Publisher/detail/p/a51423369a5d5a02e23e02dbe7ef3ac2#!advertiser

2、分享我现在对于网站有效的表格数据爬取方法

(1)下载包:install.packages("XML")
(2)运行以下代码:
library(XML);
doc <- "http://www.w3chtml.com/html/tag/table.html";
url.table<-htmlParse(doc,encoding="UTF-8");
xpath<-"//table";
url.node <- getNodeSet(url.table,xpath);
table<-url.node[[2]];
xt <- readHTMLTable(table,trim = TRUE, stringsAsFactors = FALSE);
xt;






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:XML包 表格数据 XML R语言 Packages library 网页 网站

一生足矣

沙发
zxn2011 发表于 2015-4-18 21:27:40
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我能够把每页的企业list 弄下来 但是数据不行 看看有没有高手

藤椅
steven_mc 发表于 2015-4-19 16:45:07 来自手机
zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我 ...
原网站有表格啊,需要把全部的链接复制到浏览器吧,帖子里自动识别链接部分少了几个字母。

板凳
steven_mc 发表于 2015-4-19 16:48:29 来自手机
zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我 ...
请问怎么用r把每页的企业list弄下来呢?这个我也需要。求教啊。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 21:04