楼主: steven_mc
4872 3

[问答] R语言XML包无法爬取特定爬取网页表格数据的问题?急急急 [推广有奖]

  • 0关注
  • 0粉丝

大专生

10%

还不是VIP/贵宾

-

威望
0
论坛币
256 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
309 点
帖子
37
精华
0
在线时间
42 小时
注册时间
2009-12-9
最后登录
2017-8-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
总结R语言爬取网页表格数据的方法,同时,向高手求教碰到的一个热别棘手的问题,跪求啊。
问题描述:
1、想爬取某个网站上表格数据,发现通过以下方法可以在部分网站实现。而在以下网站上无法实现(是因为网站做了屏蔽吗?)。
求教怎么可以通过R爬取如下网站上的这个表格数据
目标网站url:  http://www.adbug.cn/Publisher/detail/p/a51423369a5d5a02e23e02dbe7ef3ac2#!advertiser

2、分享我现在对于网站有效的表格数据爬取方法

(1)下载包:install.packages("XML")
(2)运行以下代码:
library(XML);
doc <- "http://www.w3chtml.com/html/tag/table.html";
url.table<-htmlParse(doc,encoding="UTF-8");
xpath<-"//table";
url.node <- getNodeSet(url.table,xpath);
table<-url.node[[2]];
xt <- readHTMLTable(table,trim = TRUE, stringsAsFactors = FALSE);
xt;






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:XML包 表格数据 XML R语言 Packages library 网页 网站

一生足矣
沙发
zxn2011 发表于 2015-4-18 21:27:40 |只看作者 |坛友微信交流群
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我能够把每页的企业list 弄下来 但是数据不行 看看有没有高手

使用道具

藤椅
steven_mc 发表于 2015-4-19 16:45:07 来自手机 |只看作者 |坛友微信交流群
zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我 ...
原网站有表格啊,需要把全部的链接复制到浏览器吧,帖子里自动识别链接部分少了几个字母。

使用道具

板凳
steven_mc 发表于 2015-4-19 16:48:29 来自手机 |只看作者 |坛友微信交流群
zxn2011 发表于 2015-4-18 21:27
你没有发现原网站的source code 里根本没有你所谓的表格么
它应该使用了ajax的技术 但是我也没完全解决 我 ...
请问怎么用r把每页的企业list弄下来呢?这个我也需要。求教啊。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-8 07:07