程序为:
library(RCurl)
library(XML)
url <- 'http://bbs.tianya.cn/post-free-5568048-1.shtml'
xpath <- '//div[@class=\"bbs-content clearfix\"]'
##注意,此处默认认为每次只有一个数据满足条件,所以程序中只用了[[1]]
html_value <- function(url,xpath){
webpage <- getURL(url)
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpage,encoding="utf-8", useInternalNodes=TRUE)
value <- getNodeSet(pagetree,xpath)
##i <- length(value) ##统计满足条件的值个数,一般情况为1
value <- xmlValue(value[[1]])
return(value)
}
结果为:
> html_value(url,xpath)
[1] "\n\t\t\t\t\t\t\t¡¡¡¡Îò·¢ÏÖ£¬óßÂÛμÄá|á¿êÇÎTÇîμÄ£¬èç1ûûóDÇ¿′óμÄóßÂÛÑ1á|£¬Dìóñóñê¼t1à¼ÆóÖ2»áËáËÖ®áË¡£¡¡¡¡Õa′Îê¼tÏ£íûóD1Ø2¿ÃŽè′Ë»ú»á£¬¶Ô¾ßìåDDòμ½øDDÕû¶ù£¬ÔeèÎμ½èË£¬ò»2éμ½μ×£¬2»ÄüèÃÎT1¼μÄêüo|ÕßÔaêüμıˉ¾çÖØÑY¡£¶øÎòÃÇμÄÕt¸®Dèòa×öμÄ£¬¾í2»½ö½öêǼල¶½′ùÄÇÃ′¼òμ¥¡£¡¡¡¡êμ¼êéÏ′ó¼ò×DϸÏëò»Ïë·¢ÏÖ£¬°Y½eÖ÷òåμÄê¢DDêÇÔì3éĿǰéç»á3ó¶ñÏÖÏó×ìéúμÄÎÂ′2£¬èËèËÏòÇ®¿′£¬2»1Ëàñòåá®3ü£¬ÖD»aÃñ×弸ǧÄêμÄμàμÂ1Ûé¥ê§′ù¾¡£¬àÏÅÆ×ê±¾Ö÷òå¶¼×Ôà¢2»è磬ÇòĿǰμÄ×′¿öè′μ½áËóÖóú·¢2»¿éêÕê°μÄμØ2½¡£¡¡¡¡Ë×»°Ë죬ÂòêàóÃÖØμ䣬Ëäè»ÏÖÔú2»Äü3ÆÎaÂòêà£¬μ«¶Ôóú′ËÖÖ2»ÕyÖ®·ç£¬ò2Dèòaíõáaé½μú¶t3öà′Ö÷3Ö1«μàáË¡£\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t"
怎么解决呢?


雷达卡





京公网安备 11010802022788号







