全国31省份各省新型数字基础设施指标数据(2002–2025年,基于政府工作报告文本分析)
一、研究背景与数据价值
新型数字基础设施(NDI)是以5G、人工智能、物联网、云计算、大数据等为核心的信息技术基础设施,已成为中国推动数字经济发展的关键支撑。各省级政府工作报告作为地方治理理念与政策取向的重要表达载体,其对NDI的关注程度、提及密度及相关表述,反映了地区数字化发展战略的部署进度与重视程度。通过文本挖掘技术量化相关表述,有助于衡量各地数字基础设施的发展取向、政策力度与演进路径。
二、数据来源说明
原始文本来源:
本数据基于全国31个省级行政单位(含直辖市、自治区)2002至2025年政府工作报告,原始文本主要采集自以下公开数据库和政府官网:
各省级人民政府官方网站(如广东省政府门户网、浙江政务服务网等)
中国政府网、地方人大常委会门户网站
政策文件聚合平台如“北大法宝”“人大公报网”等
文本处理方法:
借鉴钞小静等(2021)研究方法,使用Python与Jieba分词工具对报告全文进行分词,基于预设关键词词典(见下)统计每年NDI相关词汇总频与报告总词频,计算词频占比指标。并对同义词、术语变体、语义冗余等情况进行归一化处理。
关键词词典构建依据:
关键词体系参考国家发展改革委、工信部等政策文件中NDI相关术语,以及已有文献归纳总结,包括但不限于“5G”“物联网”“人工智能”“大数据”“云计算”“智能制造”“数字基础设施”等60+项核心表达。
三、数据基本信息
数据名称:各省新型数字基础设施指标数据
时间范围:2002–2025年
覆盖范围:全国31个省级行政单位(含直辖市)
数据类型:Excel年度面板数据
各省新型数字基础设施指标数据(2002–2025,基于政府工作报告文本分析).zip
(495.16 KB, 需要: RMB 29 元)
四、核心字段说明
字段名称 | 含义 |
省份 | 指对应行政区划,如广东省、四川省等 |
年份 | 报告年份 |
各类关键词频次 | 包括“5G”“云计算”“物联网”等在报告中出现的次数 |
新型数字基础设施总词频 | 所有相关关键词合计出现频次 |
年报总词频 | 政府工作报告全文的总词汇数 |
新型数字基础设施指标 | 计算方式 = 新型数字基础设施总词频 / 年报总词频,作为标准化指标 |
[td]
五、计算方法说明(统一表达)
参考钞小静等(2021)方法,主要包括以下流程:
文本采集:系统收集2002–2025年31省政府工作报告PDF/HTML版本;
关键词构建:整理与新型数字基础设施相关的高频词汇,形成词典;
文本处理:使用Jieba分词及正则表达式进行词频统计;
指标计算:将NDI相关词汇出现频次除以报告总词数,形成标准化指标;
时间序列构建:按省份与年份两级维度形成可比较的指标面板数据。
六、参考文献
[1] 钞小静, 廉园梅, 罗鎏锴. 新型数字基础设施对制造业高质量发展的影响[J]. 财贸研究, 2021, 32(10): 1-13.
[2] 工业和信息化部. 关于加快推进新型基础设施建设的指导意见[R]. 2020.
[3] 国家发展改革委. 推动“数字中国”建设的若干政策文件[Z]. 2021–2024.
七、部分数据展示
1、各省新型数字基础设施原始数据
2、各省新型数字基础设施指标结果


雷达卡




京公网安备 11010802022788号







