【数据来源】央视网新闻联播官方网站(https://tv.cctv.com/lm/xwlb/)
【时间跨度】2006年9月1日 - 2026年1月12日
【区域范围】中国
【数据格式】TXT文本文件
【数据规模】约7000+天的新闻联播文字稿
数据简介
CCTV新闻联播是中央电视台的旗舰新闻节目,每晚在黄金时段播出,深受广大观众关注,并被视为我国的主要新闻来源。每日文本数据指的是该节目每期的文字稿件内容,囊括了当日播报的各项新闻内容,从国内政治、经济、社会各领域到国际大事都有涉及。
本数据集收集了自2006年9月1日至2026年1月12日期间的新闻联播文字稿内容,涵盖近20年的新闻报道。这些数据为研究者提供了一个资料参考库,可以用于分析新闻报道趋势、政策方向以及与国际事件的互动态度等。
数据结构
数据按照"年份/月份"的层级目录结构组织,每天的新闻联播内容保存为一个独立的TXT文件。
文件夹结构:
新闻联播数据集TXT(2006.9.1-2025.12.05)/
├── 新闻联播爬虫.py 爬虫程序
├── 数据说明.txt 本说明文件
└── 新闻联播数据集TXT(2006.9.1-2025.12.05)/
├── 2006/
│ └── 2006-09/
│ ├── 2006-09-01.txt
│ ├── 2006-09-02.txt
│ └── ...
├── 2007/
├── ...
├── 2025/
│ └── 2025-12/
│ └── ...
└── 2026/
└── 2026-01/
├── 2026-01-01.txt
├── 2026-01-02.txt
└── 2026-01-12.txt
文件命名规则
- 按年份分文件夹:2006、2007、...、2025、2026
- 按月份分子文件夹:2006-09、2006-10、...、2026-01
- 每天一个txt文件:YYYY-MM-DD.txt(如:2026-01-12.txt)
文件内容格式
每个TXT文件包含当日新闻联播的所有新闻条目,每条新闻包含标题和正文内容。
示例格式:
标题:[视频]【"十五五"开好局起好步】办好民生实事 为千家万户添福祉
央视网消息(新闻联播):新的一年,各地立足"十五五"开好局、起好步,统筹推进民生保障和社会建设...
标题:[视频]国家首次明确政府投资基金布局和投向
央视网消息(新闻联播):国家发展改革委会同财政部、科技部、工业和信息化部今天(1月12日)发布...
(多条新闻之间用空行分隔)
数据特点
1. 时间跨度长:覆盖近20年的新闻报道,可用于长时间序列分析
2. 内容权威:来源于中央电视台官方媒体,内容准确可靠
3. 结构规范:按日期组织,便于检索和分析
4. 覆盖全面:涵盖国内政治、经济、社会各领域及国际大事
数据采集说明
数据通过Python爬虫程序自动采集,爬虫代码文件:新闻联播爬虫.py
采集流程:
1. 访问央视网新闻联播列表页,获取指定日期的新闻链接
2. 逐条访问新闻详情页,提取标题和正文内容
3. 按日期保存为TXT文件,组织到对应的年份/月份目录
爬虫使用说明
如需更新数据或补充爬取,可运行爬虫程序:
1. 安装依赖:
pip install requests beautifulsoup4
2. 运行爬虫:
python 新闻联播爬虫.py
3. 按提示输入日期范围:
- 开始日期(格式:YYYY-MM-DD)
- 结束日期(格式:YYYY-MM-DD)
4. 爬虫会自动:
- 按日期逐天爬取
- 创建年份/月份文件夹
- 保存每天的新闻内容为txt文件
数据统计
- 时间跨度:约20年(2006.9.1 - 2026.1.12)
- 数据天数:约7000+天
- 单日文件大小:约5-50KB(视当天新闻数量而定)
- 总数据量:约数百MB文本数据
新闻联播数据集TXT.zip
(70.24 MB, 需要: RMB 48 元)
新闻联播数据集TXT文件.zip
(70.68 MB, 需要: RMB 68 元)


雷达卡



京公网安备 11010802022788号







