楼主: yusb
558 0

[经管数据集] Python爬虫程序源代码-163、百度、百度云、哔哩哔哩、中国知网爬虫程序及其说明 [推广有奖]

已卖:21067份资源
好评率:99%
商家信誉:一般

巨擘

0%

还不是VIP/贵宾

-

威望
1
论坛币
40750 个
通用积分
2588.9809
学术水平
20 点
热心指数
31 点
信用等级
7 点
经验
5353 点
帖子
20180
精华
0
在线时间
11749 小时
注册时间
2020-12-8
最后登录
2026-1-6

楼主
yusb 在职认证  发表于 2023-11-25 16:17:18 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Python爬虫程序源代码-163、百度、百度云、哔哩哔哩、中国知网爬虫程序及其说明

Python爬虫程序源代码-163、百度、百度云、哔哩哔哩、中国知网爬虫程序及其说明.zip (1.14 MB, 需要: RMB 19 元) 本附件包括:
  • 163spider-master.zip
  • baidu-music-spider-master.zip
  • BaiduyunSpider-master.zip
  • bilibili-user-master.zip
  • CnkiSpider-master (1).zip



2e94dfd4efa07f1135f42199da05ef9.png


其中:CnkiSpider-master (1).zip中国知网爬虫程序说明:

##使用说明

1. 在src/CnkiSpider.py设置检索条件

2. 执行src/CnkiSpider.py抓取数据

3. 抓取数据存储在/data目录下,文件名格式为"data-keyword-年月日时分秒.txt.txt",如"data-新媒体-20131128224556.txt"

4. 每个数据文件的第一行为字段名称

5. 每次运行都根据当前时间生成新的数据文件

6. 如果抓取过程中断,可以在src/CnkiSpider.py中设置startPage为中断时的页码,并重新运行src/CnkiSpider.py从中断的页面继续抓取,最后将各个数据文件合并

7. 生成的文本文件直接修改后缀名为.csv然后用LibreOffice打开并在LibreOffice中设置字段分隔符为src/CnkiSpider.py中变量fieldsSep设置的字符串

8. Windows下打开Excel 2013,然后【打开】->【浏览】->选择文件(文件名后下拉框选择“文本文件”),出现文本导入向导,设置“文件原始格式”为Unicode(UTF-8),下一步,设置“分隔符号”

9. 由若要使用文本编辑器打开数据文件,建议使用Notepad++打开。Windows自带的记事本打开大文件会卡死。Notepad++可以自动识别编码格式,防止乱码。

10. 如果数据文件中从某部分开始大量出现关键词字段和分类号字段为空的情况,则将src/CnkiSpider.py中restEvery变量调小,restPeriod变量调大后重试。

## windows下和linux下使用需要修改的地方

CnkiSpider.py        print"----CONTENT:获取第" + str(article["order"]) + "篇文章"

ContentSpider.py     s =s.replace("【分类号】".decode("utf8"), "")



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python爬虫 python 中国知网 百度云 源代码

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 06:56