- require(RCurl)
- library(XML)
- x='明日世界'
- search <- getForm("http://movie.**.com/subject_search", search_text = x)
- searchweb<-htmlParse(search)
- #乱码了 searchweb
- searchweb
- # 解析搜索结果页面
- resnodes<-getNodeSet(searchweb,"//div[@id='wrapper']//table[1]//a")
- #查找id为wrapper的div里面table第一第的数
- resurl<-xmlGetAttr(resnodes[[1]],name="href")
- #找到电影url地址
- resweb<-getURL(resurl,.encoding="UTF-8") #上该电影主页
- #得到影片页面后第二次解析
- content<-htmlParse(resweb,encoding="UTF-8")
- resnodes<-getNodeSet(content,"//div[@id='interest_sectl']//p[@class='rating_self clearfix']//strong")
- namenodes<-getNodeSet(content,"//div[@id='content']//h1//span")
- #得到影片评分
- score<-xmlValue(resnodes[[1]])
- name<-xmlValue(namenodes[[1]])
- name;
- score;


雷达卡








京公网安备 11010802022788号







