楼主: wyfhdl
5838 6

[问答] rvest抓取淘宝商品信息 [推广有奖]

  • 5关注
  • 15粉丝

副教授

26%

还不是VIP/贵宾

-

威望
0
论坛币
2520 个
通用积分
138.0377
学术水平
27 点
热心指数
33 点
信用等级
23 点
经验
60603 点
帖子
260
精华
0
在线时间
1248 小时
注册时间
2009-12-21
最后登录
2023-2-21

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. Url<-"http://illuma.tmall.com/search.htm?spm=a1z10.4-b.w5001-7280993071.13.LhLkZK&scene=taobao_shop"
  2. html_session(Url)
  3. Web<-html(Url,encoding="GBK")
  4. #Customer Review
  5. #这是评论数
  6. CR<-Web%>%
  7. html("h4 a span")%>%
  8. html_text()%>%
  9. iconv("utf-8","gbk")
复制代码



正常情况下,这样应该就可以获取了,但是在最后输出结果显示为
character(0)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Vest 淘宝商品 VES Est Character 淘宝商品 信息

犯我华者 虽远必诛
沙发
offandon 发表于 2015-5-31 00:19:33 |只看作者 |坛友微信交流群
等待答案。。。。。。。

使用道具

藤椅
wyfhdl 发表于 2015-5-31 15:18:36 |只看作者 |坛友微信交流群
offandon 发表于 2015-5-31 00:19
等待答案。。。。。。。
别等了,似乎是淘宝的保护性问题;
1. 在某些时间段执行代码是可以得到正确答案的,有时候不可以
2. 在可以得到正确结果的时候,即便使用%>%html(encoding="GBK"),最后采用iconv(...)也可以得到非乱码的中文

我在尝试用RCurl 采用getUrl来得到完整的html信息

使用道具

板凳
chenjiechao 发表于 2015-6-2 01:13:20 |只看作者 |坛友微信交流群
请教,最近想通通过r语言来抓取一个网站的数据,该怎么实现,网址是http://www.jisilu.cn/data/sfnew/#tlink_0,求指点一二

使用道具

报纸
feng026 发表于 2015-6-2 10:19:19 |只看作者 |坛友微信交流群
应该是淘宝使用ajax动态读取数据了;

正在尝试使用RCurl;

使用道具

地板
victorchan0633 发表于 2015-6-18 20:49:23 |只看作者 |坛友微信交流群
chenjiechao 发表于 2015-6-2 01:13
请教,最近想通通过r语言来抓取一个网站的数据,该怎么实现,网址是http://www.jisilu.cn/data/sfnew/#tlin ...
首先加载XML包,然后输入代码
>url<-"http://www.jisilu.cn/data/sfnew/#tlin "
>-url.html<-htmlParse(url,encoding="UTF-8")
就可以得到html信息,如果想抓取部分信息可以再用getNodeSet函数。
已有 1 人评分经验 论坛币 收起 理由
李会超 + 40 + 20 热心帮助其他会员

总评分: 经验 + 40  论坛币 + 20   查看全部评分

使用道具

7
fcfc2013 发表于 2016-4-1 22:05:20 |只看作者 |坛友微信交流群
  1. library(xml2)
  2. library(rvest)
  3. library(dplyr)


  4. Url <- "https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.9.jNt2XM&cat=50892008&brand=30652&q=%C3%C0%B5%C4&sort=s&style=l&from=sn_1_cat-qp&industryCatId=50892008&tmhkmain=0#J_Filter"
  5. html_session(Url)

  6. Web <- read_html(Url,encoding="GBK")
  7. 型号 <- Web%>%
  8.   html_nodes("h4.proInfo-title a")%>%
  9.   html_text()%>%
  10.   iconv("utf-8","gbk")

  11. 售价 <- Web%>%
  12.   html_nodes("em.proSell-price")%>%
  13.   html_text()%>%
  14.   iconv("utf-8","gbk")

  15. 月成交量 <- Web%>%
  16.   html_nodes("p.productStatus em")%>%
  17.   html_text()%>%
  18.   iconv("utf-8","gbk")

  19. 评价量 <- Web%>%
  20.   html_nodes("p.productStatus a")%>%
  21.   html_text()%>%
  22.   iconv("utf-8","gbk")

  23. 店名 <- Web%>%
  24.   html_nodes("a.productShop-name")%>%
  25.   html_text()%>%
  26.   iconv("utf-8","gbk")

  27. tianmao <- data.frame(型号,售价,月成交量,评价量,店名,stringsAsFactors = FALSE)
复制代码

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-1 08:34