82 0

[经管数据集] 【数据】CCTV新闻联播数据集2006年9月1日 - 2026年1月12日(python爬取) [推广有奖]

  • 0关注
  • 0粉丝

已卖:13份资源

硕士生

25%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0028
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1470 点
帖子
61
精华
0
在线时间
67 小时
注册时间
2025-1-31
最后登录
2026-1-14

楼主
学习学习实证 发表于 2026-1-13 16:40:22 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
【数据名称】新闻联播文字稿数据集
【数据来源】央视网新闻联播官方网站(https://tv.cctv.com/lm/xwlb/)
【时间跨度】2006年9月1日 - 2026年1月12日
【区域范围】中国
【数据格式】TXT文本文件
【数据规模】约7000+天的新闻联播文字稿


数据简介
CCTV新闻联播是中央电视台的旗舰新闻节目,每晚在黄金时段播出,深受广大观众关注,并被视为我国的主要新闻来源。每日文本数据指的是该节目每期的文字稿件内容,囊括了当日播报的各项新闻内容,从国内政治、经济、社会各领域到国际大事都有涉及。
本数据集收集了自2006年9月1日至2026年1月12日期间的新闻联播文字稿内容,涵盖近20年的新闻报道。这些数据为研究者提供了一个资料参考库,可以用于分析新闻报道趋势、政策方向以及与国际事件的互动态度等。


数据结构
数据按照"年份/月份"的层级目录结构组织,每天的新闻联播内容保存为一个独立的TXT文件。


文件夹结构:
新闻联播数据集TXT(2006.9.1-2025.12.05)/
├── 新闻联播爬虫.py              爬虫程序
├── 数据说明.txt                 本说明文件
└── 新闻联播数据集TXT(2006.9.1-2025.12.05)/
    ├── 2006/
    │   └── 2006-09/
    │       ├── 2006-09-01.txt
    │       ├── 2006-09-02.txt
    │       └── ...
    ├── 2007/
    ├── ...
    ├── 2025/
    │   └── 2025-12/
    │       └── ...
    └── 2026/
        └── 2026-01/
            ├── 2026-01-01.txt
            ├── 2026-01-02.txt
            └── 2026-01-12.txt


文件命名规则
- 按年份分文件夹:2006、2007、...、2025、2026
- 按月份分子文件夹:2006-09、2006-10、...、2026-01
- 每天一个txt文件:YYYY-MM-DD.txt(如:2026-01-12.txt)


1.jpg

2.jpg

3.jpg


文件内容格式
每个TXT文件包含当日新闻联播的所有新闻条目,每条新闻包含标题和正文内容。


示例格式:
标题:[视频]【"十五五"开好局起好步】办好民生实事 为千家万户添福祉
央视网消息(新闻联播):新的一年,各地立足"十五五"开好局、起好步,统筹推进民生保障和社会建设...


标题:[视频]国家首次明确政府投资基金布局和投向
央视网消息(新闻联播):国家发展改革委会同财政部、科技部、工业和信息化部今天(1月12日)发布...


(多条新闻之间用空行分隔)


数据特点
1. 时间跨度长:覆盖近20年的新闻报道,可用于长时间序列分析
2. 内容权威:来源于中央电视台官方媒体,内容准确可靠
3. 结构规范:按日期组织,便于检索和分析
4. 覆盖全面:涵盖国内政治、经济、社会各领域及国际大事

数据采集说明
数据通过Python爬虫程序自动采集,爬虫代码文件:新闻联播爬虫.py


采集流程:
1. 访问央视网新闻联播列表页,获取指定日期的新闻链接
2. 逐条访问新闻详情页,提取标题和正文内容
3. 按日期保存为TXT文件,组织到对应的年份/月份目录


爬虫使用说明
如需更新数据或补充爬取,可运行爬虫程序:


1. 安装依赖:
pip install requests beautifulsoup4


2. 运行爬虫:
python 新闻联播爬虫.py


3. 按提示输入日期范围:
- 开始日期(格式:YYYY-MM-DD)
- 结束日期(格式:YYYY-MM-DD)


4. 爬虫会自动:
- 按日期逐天爬取
- 创建年份/月份文件夹
- 保存每天的新闻内容为txt文件

数据统计
- 时间跨度:约20年(2006.9.1 - 2026.1.12)
- 数据天数:约7000+天
- 单日文件大小:约5-50KB(视当天新闻数量而定)
- 总数据量:约数百MB文本数据


4.jpg

新闻联播数据集TXT.zip (70.24 MB, 需要: RMB 48 元)

新闻联播数据集TXT文件.zip (70.68 MB, 需要: RMB 68 元)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CCTV新闻 python 新闻联播 cctv 数据集

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-15 02:37