楼主: 万人往LVR
1352 3

[问答] 求爬取一个页面代码 [推广有奖]

  • 1关注
  • 13粉丝

副教授

82%

还不是VIP/贵宾

-

威望
0
论坛币
5127 个
通用积分
816.1888
学术水平
70 点
热心指数
112 点
信用等级
40 点
经验
9088 点
帖子
625
精华
0
在线时间
1182 小时
注册时间
2013-7-18
最后登录
2023-12-6

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
http://www.xicidaili.com/
这个网址爬不下来,求代码,只要open出来就好,不用解析
谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:HTTP Open Dai Pen COM

沙发
joe、92 发表于 2015-10-13 17:59:50 |只看作者 |坛友微信交流群
# -*- coding: utf-8 -*-
import urllib2
from urllib2 import  HTTPError  


url = "http://www.xicidaili.com/"
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
  'Accept':'text/html;q=0.9,*/*;q=0.8',
  'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
  'Accept-Encoding':'gzip',
  'Connection':'close',
  'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host
  }
  
req_timeout =5
req = urllib2.Request(url, None, req_header)

try:
    response = urllib2.urlopen(req,None,req_timeout)
    content = response.read()
except HTTPError, e:
    if e.getcode() == 500:
        content = e.read()
    else:
        raise
        
print content
已有 2 人评分经验 论坛币 收起 理由
残阳_等待 + 66 精彩帖子
admin_kefu + 25 热心帮助其他会员

总评分: 经验 + 66  论坛币 + 25   查看全部评分

使用道具

藤椅
joe、92 发表于 2015-10-13 18:00:53 |只看作者 |坛友微信交流群
joe、92 发表于 2015-10-13 17:59
# -*- coding: utf-8 -*-
import urllib2
from urllib2 import  HTTPError
伪装一下可以爬下内容来,但是爬下来的好像还是需要编码处理过,这个我不太懂。

使用道具

板凳
joe、92 发表于 2015-10-13 21:36:45 |只看作者 |坛友微信交流群
'Accept-Encoding':'gzip' 把header里面这一行删掉就好了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 14:42