rt,本人最近在学习用R写爬虫,学习用Rcurl+XML包时遇到问题。代码如下
···
library(RCurl)
library(XML)
myHttpheader <- c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
"Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language"="en-us",
"Connection"="keep-alive",
"Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7")
url<-"https://book.douban.com/top250?icn=index-book250-all"
webpage <- getURL(url,httpheader=myHttpheader,.encoding="gb2312")
pagetree <- htmlTreeParse(webpage,encoding="GB2312", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)
···
都是很常见的代码,我也是拷贝教程里的,但是当我运行htmlTreeParse时程序直接崩溃了,无论我怎么尝试都不行。我用了Rstudio和自带的IDE都会崩溃。。请问有没有人遇到和我一样的问题。
另外我的R版本是3.4
加载XML包时出现警告:Warning message:
程辑包‘XML’是用R版本3.4.1 来建造的
不知道是不是这个原因。。。