[经管数据集] 【数据】《人民日报》新闻文本数据1946-2026.1 [推广有奖]

0关注
0粉丝

已卖：19份资源

硕士生

61%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0.0028
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1620 点
帖子: 76
精华: 0
在线时间: 73 小时
注册时间: 2025-1-31
最后登录: 2026-2-25

楼主

学习学习实证 发表于 2026-1-18 11:05:51 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

一、数据概述
数据名称：《人民日报》文本数据
数据来源：人民日报官方网站 (http://paper.people.com.cn/rmrb/)
创刊时间：1946年5月15日
数据范围：1946年 - 至今（持续更新）
爬取时间：2025年1月（最新更新至2026年1月17日）

当前已爬取数据：
- 2025年：32,341条文章（完整年度）
- 2026年：截止到1月17日的文章（增量更新中）

数据格式：Excel (.xlsx)
存储位置：分年份保存数据/

注：本爬虫支持爬取1946年至今的所有人民日报文章数据

二、数据字段说明
每条记录包含以下字段：
1. 年份       - 文章发布年份（如：2025）
2. 日期       - 文章发布日期（格式：YYYY/MM/DD，如：2025/12/31）
3. 报纸版次 - 文章所在版次（如：第01版、第02版）
4. 标题       - 文章标题
5. 文本内容 - 文章正文内容（多段落用换行符分隔）

三、爬虫程序说明
【程序文件】
- 人民日报爬虫-2024年12月之后.py 主爬虫程序（支持新旧版网站）
- 合并数据文件.py                数据文件合并工具

【运行环境】
- Python 3.7+
- 依赖库：requests, beautifulsoup4, pandas, openpyxl

【安装依赖】
pip install requests beautifulsoup4 pandas openpyxl

四、爬虫功能特点
1. 【自动适配新旧版网站】
- 2024年12月1日之前：使用旧版网站格式
- 2024年12月1日及之后：使用新版网站格式
- 程序自动判断，无需手动切换

2. 【三种运行模式】
模式1：快速测试模式
- 爬取默认日期范围：2024-11-25 至 2024-12-05
- 适合测试程序是否正常运行

模式2：自定义日期范围模式
- 手动输入开始日期和结束日期
- 适合爬取特定时间段的数据

模式3：增量更新模式（推荐）
- 自动检测已有数据文件
- 从最新日期的下一天开始爬取
- 一直爬取到今天
- 适合定期更新数据

3. 【增量更新机制】
- 自动识别已爬取的日期，跳过重复爬取
- 每10天自动保存一次数据
- 按年份分别保存，便于管理
- 文件命名格式：
   * 增量文件：人民日报{年份}年文本数据（截止到{月份}月{日期}日）.xlsx
   * 完整文件：人民日报{年份}年文本数据.xlsx

4. 【智能合并功能】
- 当某年数据完整到12月31日时，自动合并为完整年度文件
- 自动删除旧的增量文件，只保留最新的
- 节省存储空间，便于数据管理

五、使用方法
【方法1：增量更新（推荐）】
1. 打开命令行，进入程序所在目录
cd D:\BaiduNetdiskDownload

2. 运行爬虫程序
python 人民日报爬虫-2024年12月之后.py

3. 选择模式3（增量更新模式）
请输入选项 [1/2/3，默认1]: 3

4. 程序会自动：
- 扫描"分年份保存数据"文件夹
- 找到最新的数据日期
- 从下一天开始爬取到今天
- 显示爬取进度
- 每10天自动保存

5. 等待爬取完成

【方法2：自定义日期范围】
1. 运行程序
python 人民日报爬虫-2024年12月之后.py

2. 选择模式2
请输入选项 [1/2/3，默认1]: 2

3. 输入开始日期（支持1946年至今）
请输入开始日期 (格式: YYYY-MM-DD，例如: 2024-01-01): 1946-05-15

4. 输入结束日期
请输入结束日期 (格式: YYYY-MM-DD，例如: 2024-12-31): 2025-12-31

5. 确认并开始爬取

注：可以爬取1946年5月15日（创刊日）至今的任意时间段数据

【方法3：合并数据文件】
当有多个增量文件时，可以运行合并工具：

1. 运行合并程序
python 合并数据文件.py

2. 程序会自动：
- 扫描所有数据文件
- 对于完整年度（到12月31日）：合并为完整文件，删除所有增量文件
- 对于未完成年度：只保留最新的增量文件，删除旧的