楼主: yusb
253 0

[经管数据集] 豆瓣图书爬取Python爬虫网站程序源代码+数据+说明 [推广有奖]

已卖:21064份资源
好评率:99%
商家信誉:一般

巨擘

0%

还不是VIP/贵宾

-

威望
1
论坛币
40750 个
通用积分
2588.9809
学术水平
20 点
热心指数
31 点
信用等级
7 点
经验
5353 点
帖子
20180
精华
0
在线时间
11742 小时
注册时间
2020-12-8
最后登录
2026-1-6

楼主
yusb 在职认证  发表于 2023-12-2 16:09:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
豆瓣图书爬取Python爬虫网站程序源代码+数据+说明

爬下了豆瓣所有的图书信息(3088633本,2138386KB),并做了一个界面方面与数据库交互来搜罗好书。 注:这里的代码不是爬下所有书籍所用的代码,仅供参考


发现豆瓣的页面规则发生了变化,导致不能爬到评价人数,由此对代码进行了相应的更新,并爬了一些新的数据。

豆瓣图书爬取Python爬虫网站程序源代码+数据+说明.rar (11.35 MB, 需要: RMB 19 元)



33cbfcac40ddab9f6a3f61a19e0d7d9.png

###实现功能

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python爬虫 python 网站程序 源代码 EXCEL

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-6 16:26