楼主: 万人往LVR
8827 3

[问答] 爬虫 天猫无法连接 [推广有奖]

  • 1关注
  • 13粉丝

已卖:2份资源

副教授

82%

还不是VIP/贵宾

-

威望
0
论坛币
5127 个
通用积分
816.2492
学术水平
70 点
热心指数
112 点
信用等级
40 点
经验
9088 点
帖子
625
精华
0
在线时间
1182 小时
注册时间
2013-7-18
最后登录
2024-6-25

楼主
万人往LVR 在职认证  发表于 2015-7-14 17:46:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大部分网站都能直接爬取信息的,但天猫的总是显示错误,例如rvest包
> library(rvest)
> url <- "http://detail.tmall.com/item.htm?id=43502289962"
> html(url)
Error in curl::curl_fetch_memory(url, handle = handle) :
  SSL connect error


例如XML包

> library(XML)
> url <- "http://detail.tmall.com/item.htm?id=43502289962"
> htmlParse(url)
Error: failed to load external entity "http://detail.tmall.com/item.htm?id=43502289962"


例如RCurl
> library(RCurl)
> url <- "http://detail.tmall.com/item.htm?id=43502289962"
> getURL(url)
[1] "<!DOCTYPE HTML PUBLIC \"-//IETF//DTD HTML 2.0//EN\">\r\n<html>\r\n<head><title>302 Found</title></head>\r\n<body bgcolor=\"white\">\r\n<h1>302 Found</h1>\r\n<p>The requested resource resides temporarily under a different URI.</p>\r\n<hr/>Powered by Tengine</body>\r\n</html>\r\n"

倒是有结果,但是不是正经的网页源码,太短了

只有windows下有问题,mac和linux都没问题
不想用别的软件,求问用R有办法解决吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Different requested External resource Library 爬虫

沙发
太阳之子追梦者 发表于 2016-6-2 11:33:43
问题解决了吗

藤椅
jiangbeilu 学生认证  发表于 2016-6-2 22:52:43
这一页的商品信息好像已经不存在了啊

板凳
85691082 在职认证  企业认证  发表于 2018-1-21 19:34:14
楼主用的是阿里云主机吗?先在本地抓取测试看看

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 15:07