签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

人大经济论坛 › 论坛 › 数据科学与人工智能 › 人工智能 › 机器学习 › python 正则表达式爬虫程序卡死问题

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心

楼主: 老城别恋

3631 3

python 正则表达式爬虫程序卡死问题 [推广有奖]

0关注
0粉丝

本科生

86%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 862 个
通用积分: 0.2418
学术水平: 0 点
热心指数: 2 点
信用等级: 0 点
经验: 795 点
帖子: 36
精华: 0
在线时间: 175 小时
注册时间: 2016-12-24
最后登录: 2022-11-26

楼主

老城别恋 发表于 2018-4-3 21:19:54 |只看作者 |坛友微信交流群|倒序 |AI写论文

22论坛币

用正则表达式爬取豆瓣读书网站链接书名作者年份，电脑一直卡着为啥？（附代码和截屏，Spyder和cmd都运行不出来），好几次了都是这样，难道正则表达式有问题还是电脑问题。
import requests
import re
content = requests.get('https://book.douban.com/').text
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, content)
for result in results:
url, name, author, date = result
author = re.sub('\s', '', author)
date = re.sub('\s', '', date)
print(url, name, author, date)

网站源代码

Spyder运行过程

1522761098(1).png

最佳答案

15738812523 查看完整内容

应该是正则太复杂卡死了程序，建议使用beautifulsoup4，xpath等解析库。如果非要用正则的话，一层一层剥离，不要只通过一个正则表达式搞定，比如先把某个div拨出来，然后里面的内容一层一层解析。（本人百度的）

分享0 收藏0 回帖

关键词：python正则表达式爬虫

回帖推荐

15738812523 发表于2楼查看完整内容

应该是正则太复杂卡死了程序，建议使用beautifulsoup4，xpath等解析库。如果非要用正则的话，一层一层剥离，不要只通过一个正则表达式搞定，比如先把某个div拨出来，然后里面的内容一层一层解析。（本人百度的）

回复

使用道具举报

沙发

15738812523 发表于 2018-4-3 21:19:55 |只看作者 |坛友微信交流群

应该是正则太复杂卡死了程序，建议使用beautifulsoup4，xpath等解析库。如果非要用正则的话，一层一层剥离，不要只通过一个正则表达式搞定，比如先把某个div拨出来，然后里面的内容一层一层解析。（本人百度的）

回复

使用道具举报

藤椅

老城别恋 发表于 2018-4-3 21:39:02 |只看作者 |坛友微信交流群

15738812523 发表于 2018-4-3 21:37
应该是正则太复杂卡死了程序，建议使用beautifulsoup4，xpath等解析库。如果非要用正则的话，一层一层剥离， ...

我的目的是想运行出来该怎么解决呀

回复

使用道具举报

板凳

学生认证

发表于 2018-5-2 18:18:46 |只看作者 |坛友微信交流群

我建议也用 BS
你可以用一个叫 regex101 的网站测试自己的表达式正不正确。

回复

使用道具举报

发帖

本版微信群

加JingGuanBbs
拉您进交流群

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明