71 0

[经管数据集] 【数据】《人民日报》新闻文本数据1946-2026.1 [推广有奖]

  • 0关注
  • 0粉丝

已卖:13份资源

硕士生

29%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0028
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1480 点
帖子
62
精华
0
在线时间
68 小时
注册时间
2025-1-31
最后登录
2026-1-17

楼主
学习学习实证 发表于 昨天 11:05 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、数据概述
数据名称:《人民日报》文本数据
数据来源:人民日报官方网站 (http://paper.people.com.cn/rmrb/)
创刊时间:1946年5月15日
数据范围:1946年 - 至今(持续更新)
爬取时间:2025年1月(最新更新至2026年1月17日)

当前已爬取数据:
  - 2025年:32,341条文章(完整年度)
  - 2026年:截止到1月17日的文章(增量更新中)

数据格式:Excel (.xlsx)
存储位置:分年份保存数据/

注:本爬虫支持爬取1946年至今的所有人民日报文章数据

2.jpg

二、数据字段说明
每条记录包含以下字段:
1. 年份        - 文章发布年份(如:2025)
2. 日期        - 文章发布日期(格式:YYYY/MM/DD,如:2025/12/31)
3. 报纸版次    - 文章所在版次(如:第01版、第02版)
4. 标题        - 文章标题
5. 文本内容    - 文章正文内容(多段落用换行符分隔)

1.jpg


三、爬虫程序说明
【程序文件】
- 人民日报爬虫-2024年12月之后.py    主爬虫程序(支持新旧版网站)
- 合并数据文件.py                   数据文件合并工具

【运行环境】
- Python 3.7+
- 依赖库:requests, beautifulsoup4, pandas, openpyxl

【安装依赖】
pip install requests beautifulsoup4 pandas openpyxl


四、爬虫功能特点
1. 【自动适配新旧版网站】
   - 2024年12月1日之前:使用旧版网站格式
   - 2024年12月1日及之后:使用新版网站格式
   - 程序自动判断,无需手动切换

2. 【三种运行模式】
   模式1:快速测试模式
   - 爬取默认日期范围:2024-11-25 至 2024-12-05
   - 适合测试程序是否正常运行
   
   模式2:自定义日期范围模式
   - 手动输入开始日期和结束日期
   - 适合爬取特定时间段的数据
   
   模式3:增量更新模式(推荐)
   - 自动检测已有数据文件
   - 从最新日期的下一天开始爬取
   - 一直爬取到今天
   - 适合定期更新数据

3. 【增量更新机制】
   - 自动识别已爬取的日期,跳过重复爬取
   - 每10天自动保存一次数据
   - 按年份分别保存,便于管理
   - 文件命名格式:
     * 增量文件:人民日报{年份}年文本数据(截止到{月份}月{日期}日).xlsx
     * 完整文件:人民日报{年份}年文本数据.xlsx

4. 【智能合并功能】
   - 当某年数据完整到12月31日时,自动合并为完整年度文件
   - 自动删除旧的增量文件,只保留最新的
   - 节省存储空间,便于数据管理

五、使用方法
【方法1:增量更新(推荐)】
1. 打开命令行,进入程序所在目录
   cd D:\BaiduNetdiskDownload

2. 运行爬虫程序
   python 人民日报爬虫-2024年12月之后.py

3. 选择模式3(增量更新模式)
   请输入选项 [1/2/3,默认1]: 3

4. 程序会自动:
   - 扫描"分年份保存数据"文件夹
   - 找到最新的数据日期
   - 从下一天开始爬取到今天
   - 显示爬取进度
   - 每10天自动保存

5. 等待爬取完成

【方法2:自定义日期范围】
1. 运行程序
   python 人民日报爬虫-2024年12月之后.py

2. 选择模式2
   请输入选项 [1/2/3,默认1]: 2

3. 输入开始日期(支持1946年至今)
   请输入开始日期 (格式: YYYY-MM-DD,例如: 2024-01-01): 1946-05-15

4. 输入结束日期
   请输入结束日期 (格式: YYYY-MM-DD,例如: 2024-12-31): 2025-12-31

5. 确认并开始爬取

注:可以爬取1946年5月15日(创刊日)至今的任意时间段数据


【方法3:合并数据文件】
当有多个增量文件时,可以运行合并工具:

1. 运行合并程序
   python 合并数据文件.py

2. 程序会自动:
   - 扫描所有数据文件
   - 对于完整年度(到12月31日):合并为完整文件,删除所有增量文件
   - 对于未完成年度:只保留最新的增量文件,删除旧的


【数据】《人民日报》新闻文本数据1946-2026.1 (76 Bytes, 需要: RMB 39 元)

【数据】《人民日报》新闻文本数据1946-2026.1 (76 Bytes, 需要: RMB 58 元)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:人民日报 文本数据 beautiful download Request

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-19 09:32