总结R语言爬取网页表格数据的方法,同时,向高手求教碰到的一个热别棘手的问题,跪求啊。
问题描述:
1、想爬取某个网站上表格数据,发现通过以下方法可以在部分网站实现。而在以下网站上无法实现(是因为网站做了屏蔽吗?)。
求教怎么可以通过R爬取到如下网站上的这个表格数据?
目标网站url: http://www.adbug.cn/Publisher/detail/p/a51423369a5d5a02e23e02dbe7ef3ac2#!advertiser
2、分享我现在对于网站有效的表格数据爬取方法
(1)下载包:install.packages("XML")
(2)运行以下代码:
library(XML);
doc <- "http://www.w3chtml.com/html/tag/table.html";
url.table<-htmlParse(doc,encoding="UTF-8");
xpath<-"//table";
url.node <- getNodeSet(url.table,xpath);
table<-url.node[[2]];
xt <- readHTMLTable(table,trim = TRUE, stringsAsFactors = FALSE);
xt;