人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R语言如何网站图片批量下载

发帖

楼主: jmpamao

8122 9

[问答] R语言如何网站图片批量下载 [推广有奖]

7关注
16粉丝

已卖：6份资源

副教授

93%

还不是VIP/贵宾

TA的文库 其他...

R_JULIA_learning

威望: 0 级
论坛币: 1815 个
通用积分: 98.3943
学术水平: 134 点
热心指数: 183 点
信用等级: 88 点
经验: 23214 点
帖子: 584
精华: 0
在线时间: 1523 小时
注册时间: 2011-1-18
最后登录: 2024-12-13

楼主

jmpamao 发表于 2013-11-11 17:17:28 |AI写论文

200论坛币

请教大神们，关于如何用R 进行图片批量下载？
现在要下载 http://www.bathandbodyworks.com 里面产品的图片(要高清的，非小图）。

现在是手工提取的
比如http://www.bathandbodyworks.com/product/index.jsp?productId=23418996&cp=12586965.12587140.4191845
中Vanilla Bean Noel产品的图片（高清的图）

CHROME 中 -》审查元素 -》NETWORK-》images->pBBW1-16646867enh-z8.jpg其

url:http://www.bathandbodyworks.com/graphics/product_images/pBBW1-16646867enh-z8.jpg

其他的产品类似，其命名是类似 pBBW1-1664...enh-z8.jpg

大家看看如何批量下载撒~~~

最佳答案

统计R浪人查看完整内容

分享0 收藏2 回帖

关键词：批量下载 R语言 Graphics Product GRAPHIC 图片如何网站

回帖推荐

统计R浪人发表于6楼查看完整内容

沙发

统计R浪人 发表于 2013-11-11 17:17:29

rm(list=ls())
library(RCurl)
library(downloader)
url<-'http://www.bathandbodyworks.com/product/index.jsp?productId=23418996&cp=12586965.12587140.4191845'
# 获取网页原代码，以行的形式存放在web变量中
web <-readLines(url,encoding="UTF-8")
# 找到包含图片格式.jpg的行编号
name <- web[grep("\\jpg',+$",web)+1]
name<-name[grep("jpg",name)]
# 用正则表达式来提取网址
pattern <-'http://[-A-Za-z0-9_.%]+/[-A-Za-z0-9_.%]+/[-A-Za-z0-9_.%]+/[-A-Za-z0-9_.%]'
gregout <- gregexpr(pattern,name)
downurl<-0
filenames<-0
for(i in 1:ncol(t(name)))
{
downurl[i]<-substr(name[i],gregout[[i]],gregout[[i]]+attr(gregout[[i]],'match.length')+22)
downurl[i]<-sub(pattern = "'|',", replacement = "", downurl[i])
filenames[i]<- strsplit(downurl[i],"/")[[1]][6]
download(sprintf(downurl[i]),filenames[i],mode = "wb");
}

复制代码

已有 1 人评分	学术水平	热心指数	信用等级	收起理由
jmpamao	+ 1	+ 1	+ 1	精彩帖子厉害厉害要好好消化下

总评分: 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

藤椅

求证1加1 发表于 2013-11-11 18:13:01

如果你的url有规律的话，写个小程序应该就ok了吧

个人主页，欢迎订阅http://chenangliu.info/

板凳

jmpamao 发表于 2013-11-11 18:28:31

求证1加1 发表于 2013-11-11 18:13
如果你的url有规律的话，写个小程序应该就ok了吧

帮忙看看撒我晚上回去想

报纸

kaifengedu 发表于 2013-11-12 07:35:40

jmpamao 发表于 2013-11-11 18:28
帮忙看看撒我晚上回去想

没看出来具体的规律，帮顶。

地板

jmpamao 发表于 2013-11-12 09:48:15

kaifengedu 发表于 2013-11-12 07:35
没看出来具体的规律，帮顶。

是的，图片中间的数值有间断。

想 for 循环 in 16000000:16900000
问题：
1、如果中间有间断（没有图片）的话，程序就会提示而终止，怎么继续 try(.silent)?
2、图片保存的问题？
3、速度

另外有没有什么办法，查看http://www.bathandbodyworks.com/graphics/product_images/ 中的文件名，因为打开连接提示：
Forbidden

You don't have permission to access /pimg/UNKNOWN/ on this server.

7楼

jmpamao 发表于 2013-11-12 17:26:59

统计R浪人发表于 2013-11-12 16:46

另外，这个程序是一个子网站下的图片，其中包含一个pBBW1-16646867enh-z8.jpg文件（大图），这是我需要的。它也是http://www.bathandbodyworks.com/graphics/product_images/ 目录下的大图。现在是要把http://www.bathandbodyworks.com/graphics/product_images/ 目录下的大图全部提取出来，怎么做？

辛苦了，等这个主题结束后，给你金币。

8楼

统计R浪人 发表于 2013-11-12 18:12:15

jmpamao 发表于 2013-11-12 17:26
另外，这个程序是一个子网站下的图片，其中包含一个pBBW1-16646867enh-z8.jpg文件（大图），这是我需要的 ...

根据这些
http://www.bathandbodyworks.com/home
http://www.bathandbodyworks.com/ ... 2937666&cp=12586994
http://www.bathandbodyworks.com/ ... p=12586994.22937666
看看有没有规律，然后用字符串替换函数sub()
自动生成 url 就应该可以了

http://www.bathandbodyworks.com/home 这个是动态网页，你看看这个网页的源代码，看是怎么生成下级链接网址，按这个方法生成下载 url 也是个思路
RCurl里面有操作网页的函数你查查看

9楼

jmpamao 发表于 2013-11-12 20:27:08

统计R浪人发表于 2013-11-12 18:12
根据这些
http://www.bathandbodyworks.com/home
http://www.bathandbodyworks.com/ ... 2937666&cp=12 ...

恩够我喝上一壶了

10楼

ddxygq 发表于 2016-7-13 10:06:38

统计R浪人发表于 2013-11-11 17:17

为什么会有错误Error in gregout[] : subscript out of bounds

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] R语言如何网站图片批量下载 [推广有奖]

最佳答案

相关帖子

回帖推荐

浏览过的帖子

浏览过的版块

初级热心勋章

初级信用勋章

中级热心勋章

本版微信群

[问答] R语言 如何网站图片批量下载 [推广有奖]

最佳答案

相关帖子

回帖推荐

浏览过的帖子

浏览过的版块

初级热心勋章

初级信用勋章

中级热心勋章

本版微信群

[问答] R语言如何网站图片批量下载 [推广有奖]