python学习 二 02 爬一个图片网站,获得主链接网址,并保存
python学习 二 03 爬一个图片网站-获得所有分页网址
所有相关的网址,都下载到本地了,下面我们依次解析,获得图片链接,然后将图片链接保存起来。
由上图,可看到
是一组,保存着背景图片,那我们解析的时候,将这一组图片,单独的放在一个文件夹background中
是另一组,解析的时候,单独的放在一个文件夹中
第一步,我们遍历目录,获得所有的文件路径为此,我写了个函数
调用:
获得目录下的所有txt文件路径,保存在txtFileList中。
第二步 解析文件,获得IMG路径1、首先,针对不同分组,创建相应的子目录
是一组,保存着背景图片,那我们解析的时候,将这一组图片,单独的放在一个文件夹background中
我们将右侧的数字去掉,剩下的字符串作为这一组的类别
分析网页源码
图像链接保存在class=subcontents的div下,
<img 属性为 data-layer 下
为此我写了个函数
调用
获得文件中,所有图片的链接列表
这一过程的详细代码如下:
http://www.sina.com.cn/mid/search.shtml?q=%E5%A4%96%E9%93%BE%261%E7%BC%85%E7%94%B8%E7%9A%87%E5%AE%B61507l117116http://www.sina.com.cn/mid/search.shtml?q=%E6%90%9C%E7%8B%90%261%E7%BC%85%E7%94%B8%E7%9A%87%E5%AE%B61507l117116
http://www.sina.com.cn/mid/search.shtml?q=%E6%96%B0%E6%B5%AA%261%E7%BC%85%E7%94%B8%E7%9A%87%E5%AE%B61507l117116
http://www.sina.com.cn/mid/search.shtml?q=%E7%BD%91%E6%98%93%261%E7%BC%85%E7%94%B8%E7%9A%87%E5%AE%B61507l117116
http://www.sina.com.cn/mid/search.shtml?q=%E8%85%BE%E8%AE%AF%261%E7%BC%85%E7%94%B8%E7%9A%87%E5%AE%B61507l117116
http://www.sina.com.cn/mid/search.shtml?q=%E5%85%B3%E6%B3%A8%261%E7%BC%85%E7%94%B8%E7%9A%87%E5%AE%B61507l117116