发帖

楼主: fu515002

198 0

[经管数据集] 【面板数据】新闻文本主题数据集（2006-2025年） [推广有奖]

0关注
2粉丝

已卖：909份资源

讲师

86%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 96 个
通用积分: 14.3769
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 8780 点
帖子: 240
精华: 0
在线时间: 367 小时
注册时间: 2023-5-7
最后登录: 2026-3-21

楼主

fu515002

发表于 2025-10-9 15:54:54 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据简介：随着互联网的普及与媒体数字化转型，新闻报道成为社会大众获取信息、了解时事的主要渠道。每天产生的大量新闻文本不仅记录了社会事件的发展轨迹，也反映了公众关注的焦点和舆论走向。如何从这些海量文本中提炼出有价值的结构化信息，已成为新闻传播学、社会科学以及自然语言处理等领域的重要研究问题。

传统的人工分析方式难以应对大规模新闻数据，因此需要借助自动化的文本挖掘与建模方法。本研究基于新闻语料（光明日报、人民日报2024~2025年每日新闻文本，以及新闻联播2006~2024年的新闻文本），采用主题建模（Topic Modeling）的思路，通过潜在狄利克雷分配（LDA, Latent Dirichlet Allocation）模型对新闻文本进行无监督学习，识别其中潜在的主题分布与关键词特征。并且预设了八大方向（经济、科技、民生、环保、外交、教育、医疗、安全），对每篇新闻文本输出概率最大的五个主题和适配的方向词。希望能为后续研究（政策研究、社会热点监测、媒体报道风格分析等方向）提供数据支持。

数据来源：光明日报、人民日报、新闻联播

时间范围：2006-2025年

包含指标：

date

newspaper

topic1_id

topic1_name

probability1

topic2_id

topic2_name

probability2

topic3_id

topic3_name

probability3

topic4_id

topic4_name

probability4

topic5_id

topic5_name

probability5

max_topic_id

max_topic_name

max_topic_keywords

max_probability

final_direction

样例数据：

参考文献：[1]方匡南，戴明晓，郑挺国，等。国家治理政府注意力指数构建及其应用 —— 基于新闻文本的测度 [J]. 统计研究，2025,42 (03):131-145.

包含内容：
图4.png

全部内容下载链接：

【面板数据】新闻文本主题数据集（2006-2025年） (76 Bytes, 需要: RMB 15 元)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：面板数据数据集 Probability ALLOCATION Dirichlet

相关内容：新闻文本主题数据面板

[经管数据集] 【面板数据】新闻文本主题数据集（2006-2025年） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[经管数据集] 【面板数据】新闻文本主题数据集（2006-2025年） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群