数据名称:《人民日报》文本数据
数据来源:人民日报官方网站 (http://paper.people.com.cn/rmrb/)
创刊时间:1946年5月15日
数据范围:1946年 - 至今(持续更新)
爬取时间:2025年1月(最新更新至2026年1月17日)
当前已爬取数据:
- 2025年:32,341条文章(完整年度)
- 2026年:截止到1月17日的文章(增量更新中)
数据格式:Excel (.xlsx)
存储位置:分年份保存数据/
注:本爬虫支持爬取1946年至今的所有人民日报文章数据
二、数据字段说明
每条记录包含以下字段:
1. 年份 - 文章发布年份(如:2025)
2. 日期 - 文章发布日期(格式:YYYY/MM/DD,如:2025/12/31)
3. 报纸版次 - 文章所在版次(如:第01版、第02版)
4. 标题 - 文章标题
5. 文本内容 - 文章正文内容(多段落用换行符分隔)
三、爬虫程序说明
【程序文件】
- 人民日报爬虫-2024年12月之后.py 主爬虫程序(支持新旧版网站)
- 合并数据文件.py 数据文件合并工具
【运行环境】
- Python 3.7+
- 依赖库:requests, beautifulsoup4, pandas, openpyxl
【安装依赖】
pip install requests beautifulsoup4 pandas openpyxl
四、爬虫功能特点
1. 【自动适配新旧版网站】
- 2024年12月1日之前:使用旧版网站格式
- 2024年12月1日及之后:使用新版网站格式
- 程序自动判断,无需手动切换
2. 【三种运行模式】
模式1:快速测试模式
- 爬取默认日期范围:2024-11-25 至 2024-12-05
- 适合测试程序是否正常运行
模式2:自定义日期范围模式
- 手动输入开始日期和结束日期
- 适合爬取特定时间段的数据
模式3:增量更新模式(推荐)
- 自动检测已有数据文件
- 从最新日期的下一天开始爬取
- 一直爬取到今天
- 适合定期更新数据
3. 【增量更新机制】
- 自动识别已爬取的日期,跳过重复爬取
- 每10天自动保存一次数据
- 按年份分别保存,便于管理
- 文件命名格式:
* 增量文件:人民日报{年份}年文本数据(截止到{月份}月{日期}日).xlsx
* 完整文件:人民日报{年份}年文本数据.xlsx
4. 【智能合并功能】
- 当某年数据完整到12月31日时,自动合并为完整年度文件
- 自动删除旧的增量文件,只保留最新的
- 节省存储空间,便于数据管理
五、使用方法
【方法1:增量更新(推荐)】
1. 打开命令行,进入程序所在目录
cd D:\BaiduNetdiskDownload
2. 运行爬虫程序
python 人民日报爬虫-2024年12月之后.py
3. 选择模式3(增量更新模式)
请输入选项 [1/2/3,默认1]: 3
4. 程序会自动:
- 扫描"分年份保存数据"文件夹
- 找到最新的数据日期
- 从下一天开始爬取到今天
- 显示爬取进度
- 每10天自动保存
5. 等待爬取完成
【方法2:自定义日期范围】
1. 运行程序
python 人民日报爬虫-2024年12月之后.py
2. 选择模式2
请输入选项 [1/2/3,默认1]: 2
3. 输入开始日期(支持1946年至今)
请输入开始日期 (格式: YYYY-MM-DD,例如: 2024-01-01): 1946-05-15
4. 输入结束日期
请输入结束日期 (格式: YYYY-MM-DD,例如: 2024-12-31): 2025-12-31
5. 确认并开始爬取
注:可以爬取1946年5月15日(创刊日)至今的任意时间段数据
【方法3:合并数据文件】
当有多个增量文件时,可以运行合并工具:
1. 运行合并程序
python 合并数据文件.py
2. 程序会自动:
- 扫描所有数据文件
- 对于完整年度(到12月31日):合并为完整文件,删除所有增量文件
- 对于未完成年度:只保留最新的增量文件,删除旧的
【数据】《人民日报》新闻文本数据1946-2026.1
(76 Bytes, 需要: RMB 39 元)
【数据】《人民日报》新闻文本数据1946-2026.1
(76 Bytes, 需要: RMB 58 元)


雷达卡



京公网安备 11010802022788号







