楼主: ok230168
2141 1

Python爬虫抓取网页的通用代码框架(python3.7) [推广有奖]

  • 0关注
  • 0粉丝

本科生

69%

还不是VIP/贵宾

-

威望
0
论坛币
347 个
通用积分
18.2373
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
240 点
帖子
18
精华
0
在线时间
193 小时
注册时间
2014-7-1
最后登录
2024-9-2

楼主
ok230168 学生认证  发表于 2019-2-13 21:57:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用的是python3.7版本,刚开始学python爬虫,小白求指点

我是通过B站的北理工mooc教程学python爬虫的,老师po出了一段抓取网页的通用代码
b站mooc教程图片

然后我就照着老师的代码依样画葫芦,还加了注释

# -*- coding: utf-8 -*-
import requests #导入requests库#
#抓取网页的通用代码框架#

#检测是否异常#
def getHTMLText(url):
    try:
        r=requests.get(url)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常#
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

    if __name__=='__main__':
        url="http://www.baidu.com"
        print(getHTMLText(url))


但是不知道是不是因为python版本的不同,无法抓取网页内容。有用python3.7版本的同学,可以帮忙看下我的代码除了什么问题吗?谢谢了!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


回帖推荐

phipe 发表于2楼  查看完整内容

最后的那几行代码,不用缩进 def getHTMLText(url): try: r=requests.get(url) r.raise_for_status()#如果状态不是200,引发HTTPError异常# r.encoding=r.apparent_encoding return r.text except: return "产生异常" if __name__=='__main__': url="http://www.baidu.com" print(getHTMLText(url))

沙发
phipe 发表于 2019-2-14 20:34:56
最后的那几行代码,不用缩进

def getHTMLText(url):
    try:
        r=requests.get(url)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常#
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__=='__main__':
    url="http://www.baidu.com"
    print(getHTMLText(url))
已有 1 人评分经验 收起 理由
yunnandlg + 60 精彩帖子

总评分: 经验 + 60   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 03:41