楼主: satelliate1028
2796 2

[问答] 求助:应用RCurl出现的问题,如何解决 [推广有奖]

  • 0关注
  • 0粉丝

讲师

14%

还不是VIP/贵宾

-

威望
0
论坛币
12632 个
通用积分
9.0708
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1971 点
帖子
121
精华
0
在线时间
711 小时
注册时间
2007-6-23
最后登录
2024-6-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我用RCurl抓取拉手网的电影网页上信息,是借用论坛上一位仁兄的帖子,我增加了一个变量抓取,出现了一下问题:

错误于data.frame(goods_name, goods_text, price, org_price, snumber) :
  arguments imply differing number of rows: 5, 3
大家有解决方法吗?
具体程序如下:
library(bitops)
library(RCurl)
library(XML)

start_url = "http://shanghai.lashou.com/cate/dianying"
cust_header =c("User-Agent"="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0","Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language"="en-us","Connection"="keep-alive"

pagesource <- getURL(start_url,httpheader=cust_header,.encoding="utf-8"

parseTotalPage <- function(pagesource)
{
  doc <- htmlParse(pagesource)  
  as.numeric(sapply(getNodeSet(doc, '//div[@class="page"]/a[last()-1]/text()'), xmlValue))
}

parseContent <-  function(pagesource)
{
  doc <- htmlParse(pagesource)
  goods_name <- sapply(getNodeSet(doc, '//div[contains(@class,"goods"]//a[@class="goods-name"]//text()'), xmlValue)
  goods_text <- sapply(getNodeSet(doc, '//div[contains(@class,"goods"]//a[@class="goods-text"]//text()'), xmlValue)
  price <- sapply(getNodeSet(doc, '//div[contains(@class,"goods"]//span[@class="price"]/text()'), xmlValue)
  org_price <- sapply(getNodeSet(doc, '//div[contains(@class,"goods"]//span[@class="money"]/del/text()'), xmlValue)
  snumber <- sapply(getNodeSet(doc, '//div[contains(@class,"goods"]//span[@class="number"]/i/text()'), xmlValue)

  result <- data.frame(goods_name, goods_text, price, org_price, snumber)
}

total_page <- parseTotalPage(pagesource)

pageresults <- parseContent(pagesource)

page = 1total_page-1)
url_list = ""
url_list= paste0("http://shanghai.lashou.com/cate/dianying/page",page +1)

for (url in url_list)
{
  pagesource <- getURL(url,httpheader=cust_header,.encoding="utf-8"
  pageresult <- parseContent(pagesource)
  pageresults <- rbind(pageresults,pageresult)
}

write.table(pageresults,"d://lashoumove.txt"


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Rcurl Curl url Application connection Windows library Firefox 拉手网 number

怎么没人回复啊

使用道具

藤椅
DM小菜鸟 发表于 2015-2-26 17:49:44 |只看作者 |坛友微信交流群
如果一个因子包含在一个数据框中,它必须和其中的向量有相同的长度。列名也是可以改变的,例如,data.frame(A1=x, A2=n)。也可以使用row.names给行命名,但是,这个命名向量必须是字符型的而且长度等于这个数据框的行数。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-15 20:23