楼主: 万人往LVR
3913 27

[统计软件与数据分析] 用python爬取一个网页源码 [推广有奖]

21
万人往LVR 在职认证  发表于 2015-8-18 13:29:53
shaode01 发表于 2015-8-17 17:08
你可以试试代码里的其他链接,都没有错误,只有你要爬的这个页面报错

The HTTP server returned a redir ...
谢谢你的回答,我只需要爬取这个页面

22
lxb66666 发表于 2015-8-20 10:46:06
这是几个python爬虫的源代码

python爬虫源码.rar
下载链接: https://bbs.pinggu.org/a-1859383.html

12.35 KB

需要: 1 个论坛币  [购买]

几个python爬虫源码

23
shaode01 学生认证  发表于 2015-8-24 19:14:45
lxb66666 发表于 2015-8-20 10:46
这是几个python爬虫的源代码
如果对问题有帮助再给你论坛币如何?

24
shaode01 学生认证  发表于 2015-8-24 20:45:21
加了cookie可以爬到了
QQ截图20150824204435.jpg

25
shaode01 学生认证  发表于 2015-8-24 21:32:02
  1. # -*- coding: utf-8 -*-
  2. import ssl
  3. import requests
  4. import urllib2
  5. import cookielib
  6. #声明一个CookieJar对象实例来保存cookie
  7. cookie = cookielib.CookieJar()
  8. #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
  9. handler=urllib2.HTTPCookieProcessor(cookie)
  10. #通过handler来构建opener
  11. opener = urllib2.build_opener(handler)
  12. #此处的open方法同urllib2的urlopen方法,也可以传入request
  13. response = opener.open('https://asos.tmall.com/search.htm?spm=a1z10.5-b.w4011-5044691060.102.QqiXRs')
  14. for item in cookie:
  15.     print 'Name = '+item.name
  16.     print 'Value = '+item.value

  17. baiduSpaceEntryUrl = "https://asos.tmall.com/search.htm?spm=a1z10.5-b.w4011-5044691060.102.QqiXRs";   
  18. user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
  19. req = urllib2.Request(baiduSpaceEntryUrl);
  20. resp = opener.open(req);
  21. respInfo = resp.read();
  22. print respInfo
复制代码

26
万人往LVR 在职认证  发表于 2015-8-25 10:12:05
shaode01 发表于 2015-8-24 21:32
谢谢,但是还是出错,
  1. Traceback (most recent call last):
  2.   File "D:/backup/asos/爬虫/天猫目录页爬虫", line 13, in <module>
  3.     response = opener.open('https://asos.tmall.com/search.htm?spm=a1z10.5-b.w4011-5044691060.102.QqiXRs')
  4.   File "C:\Python27\lib\urllib2.py", line 400, in open
  5.     response = self._open(req, data)
  6.   File "C:\Python27\lib\urllib2.py", line 418, in _open
  7.     '_open', req)
  8.   File "C:\Python27\lib\urllib2.py", line 378, in _call_chain
  9.     result = func(*args)
  10.   File "C:\Python27\lib\urllib2.py", line 1215, in https_open
  11.     return self.do_open(httplib.HTTPSConnection, req)
  12.   File "C:\Python27\lib\urllib2.py", line 1177, in do_open
  13.     raise URLError(err)
  14. URLError: <urlopen error [Errno 1] _ssl.c:504: error:140943FC:SSL routines:SSL3_READ_BYTES:sslv3 alert bad record mac>
复制代码
ios是可以运行成功的,甚至不用这么麻烦都能运行成功。不过我是windows。

27
shaode01 学生认证  发表于 2015-8-27 21:33:45
万人往LVR 发表于 2015-8-25 10:12
谢谢,但是还是出错,ios是可以运行成功的,甚至不用这么麻烦都能运行成功。不过我是windows。
我是在windows下运行的,确实出现过你贴的这个错误,时不时地出现,设了个循环40次出现了两三次,我也分析不出来什么原因,在csdn上有人回复说用python3没出现这种问题

28
shaode01 学生认证  发表于 2015-8-27 21:34:50
万人往LVR 发表于 2015-8-25 10:12
谢谢,但是还是出错,ios是可以运行成功的,甚至不用这么麻烦都能运行成功。不过我是windows。
论坛的手机应用消息通知有bug,一直不通知,你如果想联系我最好加下qq微信之类的

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-26 05:48