传统的人工分析方式难以应对大规模新闻数据,因此需要借助自动化的文本挖掘与建模方法。本研究基于新闻语料(光明日报、人民日报2024~2025年每日新闻文本,以及新闻联播2006~2024年的新闻文本),采用主题建模(Topic Modeling) 的思路,通过 潜在狄利克雷分配(LDA, Latent Dirichlet Allocation) 模型对新闻文本进行无监督学习,识别其中潜在的主题分布与关键词特征。并且预设了八大方向(经济、科技、民生、环保、外交、教育、医疗、安全),对每篇新闻文本输出概率最大的五个主题和适配的方向词。希望能为后续研究(政策研究、社会热点监测、媒体报道风格分析等方向)提供数据支持。
数据来源:光明日报、人民日报、新闻联播
时间范围:2006-2025年
包含指标:
date
newspaper
topic1_id
topic1_name
probability1
topic2_id
topic2_name
probability2
topic3_id
topic3_name
probability3
topic4_id
topic4_name
probability4
topic5_id
topic5_name
probability5
max_topic_id
max_topic_name
max_topic_keywords
max_probability
final_direction
样例数据:
参考文献:[1]方匡南,戴明晓,郑挺国,等。国家治理政府注意力指数构建及其应用 —— 基于新闻文本的测度 [J]. 统计研究,2025,42 (03):131-145.
包含内容:
全部内容下载链接:
【面板数据】新闻文本主题数据集(2006-2025年)
(76 Bytes, 需要: RMB 15 元)


雷达卡



京公网安备 11010802022788号







