楼主: 梨涡123
91 0

[经管数据集] 新闻文本主题关键词提取 2006-2025 [推广有奖]

  • 0关注
  • 5粉丝

已卖:555份资源

教授

88%

还不是VIP/贵宾

-

威望
0
论坛币
30 个
通用积分
16.8638
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
38892 点
帖子
693
精华
0
在线时间
677 小时
注册时间
2024-2-29
最后登录
2026-1-8

楼主
梨涡123 在职认证  发表于 2025-12-8 14:14:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

新闻文本主题关键词提取 2006-2025

数据来源       数据来源于新闻报道

时间跨度       2006~2025

区域跨度       光明日报、人民日报、新闻联播

数据格式       xlsx

数据简介

随着互联网的普及与媒体数字化转型,新闻报道成为社会大众获取信息、了解时事的主要渠道。每天产生的大量新闻文本不仅记录了社会事件的发展轨迹,也反映了公众关注的焦点和舆论走向。如何从这些海量文本中提炼出有价值的结构化信息,已成为新闻传播学、社会科学以及自然语言处理等领域的重要研究问题。

传统的人工分析方式难以应对大规模新闻数据,因此需要借助自动化的文本挖掘与建模方法。本研究基于新闻语料(光明日报、人民日报2024~2025年每日新闻文本,以及新闻联播2006~2024年的新闻文本),采用主题建模(Topic Modeling) 的思路,通过 潜在狄利克雷分配(LDA, LatentDirichlet Allocation) 模型对新闻文本进行无监督学习,识别其中潜在的主题分布与关键词特征。并且预设了八大方向(经济、科技、民生、环保、外交、教育、医疗、安全),对每篇新闻文本输出概率最大的五个主题和适配的方向词。希望能为后续研究(政策研究、社会热点监测、媒体报道风格分析等方向)提供数据支持。

数据指标

date newspaper     topic1_id topic1_name  probability1   topic2_id

topic2_name  probability2   topic3_id topic3_name  probability3   topic4_id

topic4_name  probability4   topic5_id topic5_name  probability5   max_topic_id

max_topic_name   max_topic_keywords    max_probability    final_direction      

参考文献

方匡南,戴明晓,郑挺国,等。国家治理政府注意力指数构建及其应用 —— 基于新闻文本的测度 [J]. 统计研究,2025,42 (03):131-145.

0de7df72-58c5-44ab-a7e5-c0b6c56b0e7f.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:关键词

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 04:31