[经管数据集] 【数据】新闻文本主题关键词提取 2006-2025 [推广有奖]

0关注
0粉丝

已卖：116份资源

博士生

52%

还不是VIP/贵宾

威望: 0 级
论坛币: 200 个
通用积分: 0.1005
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 3120 点
帖子: 129
精华: 0
在线时间: 116 小时
注册时间: 2025-1-24
最后登录: 2026-4-12

楼主

开心经管 发表于 2025-10-9 15:06:00 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据简介

随着互联网的普及与媒体数字化转型，新闻报道成为社会大众获取信息、了解时事的主要渠道。每天产生的大量新闻文本不仅记录了社会事件的发展轨迹，也反映了公众关注的焦点和舆论走向。如何从这些海量文本中提炼出有价值的结构化信息，已成为新闻传播学、社会科学以及自然语言处理等领域的重要研究问题。

传统的人工分析方式难以应对大规模新闻数据，因此需要借助自动化的文本挖掘与建模方法。本研究基于新闻语料（光明日报、人民日报2024~2025年每日新闻文本，以及新闻联播2006~2024年的新闻文本），采用主题建模（Topic Modeling）的思路，通过潜在狄利克雷分配（LDA, Latent Dirichlet Allocation）模型对新闻文本进行无监督学习，识别其中潜在的主题分布与关键词特征。并且预设了八大方向（经济、科技、民生、环保、外交、教育、医疗、安全），对每篇新闻文本输出概率最大的五个主题和适配的方向词。希望能为后续研究（政策研究、社会热点监测、媒体报道风格分析等方向）提供数据支持。