数据名称:《人民日报》新闻文本数据库
数据年份:1946年 - 2024年12月31日
样本数量:2,040,264 条
数据来源:人民日报
二、数据简介
本数据库收录了《人民日报》1946年至2024年12月期间公开的新闻历史文本数据,
时间跨度近80年,涵盖新中国成立前后至今的重要历史时期。所有文本已整理为
结构化表格形式,便于检索和分析。
数据版本:
- 分年版:按年份拆分的独立数据文件三、字段说明
序号 字段名称 字段说明
1 年份 新闻发布的年份(1946-2024)
2 日期 新闻发布的具体日期
3 报纸 报纸名称(人民日报)
4 版次 新闻所在的报纸版面
5 标题 新闻标题
6 文本内容 新闻正文内容
四、数据特点
1. 时间跨度长:覆盖近80年的历史新闻,可用于长时段历史研究
2. 数据量大:超过200万条新闻记录,样本充足
3. 结构规范:统一的字段格式,便于数据处理和分析
4. 内容完整:包含标题和正文全文,信息丰富
五、研究应用
本数据库可广泛应用于以下研究领域:
1. 政治学研究
- 政策演变分析
- 政治话语研究
- 舆论导向分析
2. 经济学研究
- 经济政策文本分析
- 经济发展历程研究
- 产业政策变迁分析
3. 社会学研究
- 社会变迁研究
- 公共议题演变分析
- 社会价值观变化研究
4. 历史学研究
- 重大历史事件研究
- 历史文献分析
- 时代特征研究
5. 语言学与传播学研究
- 新闻语言演变分析
- 媒体话语研究
- 文本挖掘与自然语言处理
6. 文本分析方法应用
- 情感分析
- 主题建模
- 关键词提取
- 词频统计


雷达卡


京公网安备 11010802022788号







