人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 求爬取一个页面代码

发帖

楼主: 万人往LVR

1664 3

[问答] 求爬取一个页面代码 [推广有奖]

1关注
13粉丝

已卖：2份资源

副教授

82%

还不是VIP/贵宾

威望: 0 级
论坛币: 5127 个
通用积分: 816.2492
学术水平: 70 点
热心指数: 112 点
信用等级: 40 点
经验: 9088 点
帖子: 625
精华: 0
在线时间: 1182 小时
注册时间: 2013-7-18
最后登录: 2024-6-25

楼主

万人往LVR

发表于 2015-9-15 12:23:35 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

http://www.xicidaili.com/
这个网址爬不下来，求代码，只要open出来就好，不用解析
谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：HTTP Open Dai Pen COM

相关帖子

沙发

joe、92 发表于 2015-10-13 17:59:50

# -*- coding: utf-8 -*-
import urllib2
from urllib2 import  HTTPError

url = "http://www.xicidaili.com/"
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
  'Accept':'text/html;q=0.9,*/*;q=0.8',
  'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
  'Accept-Encoding':'gzip',
  'Connection':'close',
  'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host
  }

req_timeout =5
req = urllib2.Request(url, None, req_header)

try:
response = urllib2.urlopen(req,None,req_timeout)
content = response.read()
except HTTPError, e:
if e.getcode() == 500:
      content = e.read()
else:
      raise

print content

已有 2 人评分	经验	论坛币	收起理由
残阳_等待	+ 66		精彩帖子
admin_kefu		+ 25	热心帮助其他会员

总评分: 经验 + 66 论坛币 + 25 查看全部评分

藤椅

joe、92 发表于 2015-10-13 18:00:53

joe、92 发表于 2015-10-13 17:59
# -*- coding: utf-8 -*-
import urllib2
from urllib2 import HTTPError

伪装一下可以爬下内容来，但是爬下来的好像还是需要编码处理过，这个我不太懂。

板凳

joe、92 发表于 2015-10-13 21:36:45

'Accept-Encoding':'gzip' 把header里面这一行删掉就好了

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] 求爬取一个页面代码 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[问答] 求爬取一个页面代码 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群